Şimdi Ara

2000 tane ayrı txt dosyasını okumak

Daha Fazla
Bu Konudaki Kullanıcılar: Daha Az
2 Misafir - 2 Masaüstü
5 sn
26
Cevap
0
Favori
636
Tıklama
Daha Fazla
İstatistik
  • Konu İstatistikleri Yükleniyor
1 oy
Öne Çıkar
Sayfa: 12
Sayfaya Git
Git
sonraki
Giriş
Mesaj
  • 2000 tane txt dosyam var burdaki metinleri belli kurallarla (search engine gibi) hash table indexlemem gerek nasıl yapabilirim?
    Tek tek mi 2000 dosyayı okucam yoksa kısa yolu var mu ?



  • Soru biraz eksik ve karışık. Elindeki 2000 dosyanın içeriğini endekslemek demek yerine "hash table indexlemek" deyince, Lucene ile 10.000+ dosya endekslemiş benim bile lafam karıştı :) eger binlerce dosya adı veya içeriği ni endekslemeyi soruyorsan, Lucene kullanmalısın; açık kaynak endeksleme sistemlerinin en iyisidir ancak kullanabilmek için basit de olsa uygulama yazmalısın, yani endeksleme mantığını sen belirlemelisin (hangi bilgiler endkslenecek ve hangi keyword'lerle nasıl bulunacak, gibi) ve dosyaları dolaşma yordamını da sen kurmalısın. Yok ben öyle uygulama yazamam diyorsan 'Nutch' veya 'Solr' gibi Lucene uygulama frameworklerini inceleyebilirsin. Not: Bahsettiğim bu 2 Framework'u kullanmadım.

    @tolga6_6 Delifisek.Tux deneyimli bir arkadaştır ve gerçekçi yorumlar yazar. 2000 metin dosyası endekslemek kolay iş değil, yeni başlayan biri için neresinden bakarsan bak en az 7 gün çalışmayı ve deneme yapmayı gerektirir. Delifisek.Tux o açıdan yorumladığı için biraz da espri kattığı için olayı yanlış anlamış olabilirsin.
  • Uppppp
  • Yok iki külhü bir elham okuyacaksın, bilgisayar imana gelip, hepsini hatim indirecek.

    Sende kod falan yazmayacaksın.
  • 2000 tane txt dosyasını tek bir klasöre koyup bu klasör içerisini döngüye sokabilirsin. Yani klasör bir liste/array değişkeni gibi davranacak esasen. Döngü içerisinde de okunan dosyaları bahsettiğin kurala tâbi tutarsın.



    < Bu mesaj bu kişi tarafından değiştirildi cplusgazoz -- 2 Kasım 2019; 20:16:39 >
  • Sizin modelden nerede ne kadar varsa hemen -50 derecede koşarak uzaklaşsın.

    Gül dökeceğiz yollarına, program yazacakmış.

    Eliniz altında her şey var, ona rağmen tek bildiğiniz yakınmak.
  • Soru biraz eksik ve karışık. Elindeki 2000 dosyanın içeriğini endekslemek demek yerine "hash table indexlemek" deyince, Lucene ile 10.000+ dosya endekslemiş benim bile lafam karıştı :) eger binlerce dosya adı veya içeriği ni endekslemeyi soruyorsan, Lucene kullanmalısın; açık kaynak endeksleme sistemlerinin en iyisidir ancak kullanabilmek için basit de olsa uygulama yazmalısın, yani endeksleme mantığını sen belirlemelisin (hangi bilgiler endkslenecek ve hangi keyword'lerle nasıl bulunacak, gibi) ve dosyaları dolaşma yordamını da sen kurmalısın. Yok ben öyle uygulama yazamam diyorsan 'Nutch' veya 'Solr' gibi Lucene uygulama frameworklerini inceleyebilirsin. Not: Bahsettiğim bu 2 Framework'u kullanmadım.

    @tolga6_6 Delifisek.Tux deneyimli bir arkadaştır ve gerçekçi yorumlar yazar. 2000 metin dosyası endekslemek kolay iş değil, yeni başlayan biri için neresinden bakarsan bak en az 7 gün çalışmayı ve deneme yapmayı gerektirir. Delifisek.Tux o açıdan yorumladığı için biraz da espri kattığı için olayı yanlış anlamış olabilirsin.

    < Bu ileti mini sürüm kullanılarak atıldı >




  • Şöyle aslında 2000 küsür txt okuyup stop words ve noktalama karakterlerini ignore edip inverted index imp etmem gerekiyor(hash table kullanarak)
    ilk txtleri yapamadım döngüyle tam nasıl yazmam gerek ? (5 ayrı klasötde 500 er tane txt var)
  • quote:

    Orijinalden alıntı: cplusgazoz

    2000 tane txt dosyasını tek bir klasöre koyup bu klasör içerisini döngüye sokabilirsin. Yani klasör bir liste/array değişkeni gibi davranacak esasen. Döngü içerisinde de okunan dosyaları bahsettiğin kurala tâbi tutarsın.
    5 ayrı klasörde duruyor 5 ayrı klasörde kaç tane search yaparken aradığımız dokumanda olduğunu bulmamız gerekte dediğin döngüyü yapamadım
  • reeisss R kullanıcısına yanıt
    Kendi endeksleme programını yazmak istiyorsan:
    https://duckduckgo.com/?q=Build+a+Search+Engine
    Apache Lucene ile yapmak istiyorsan 10dk tutorial:
    https://www.youtube.com/watch?v=KsvS4HumhjE

    < Bu ileti mini sürüm kullanılarak atıldı >
  • quote:

    Orijinalden alıntı: Tuğkan-0153

    Kendi endeksleme programını yazmak istiyorsan:
    https://duckduckgo.com/?q=Build+a+Search+Engine
    Apache Lucene ile yapmak istiyorsan 10dk tutorial:
    https://www.youtube.com/watch?v=KsvS4HumhjE
    Öyle bir şey istemiyorum sadece eclipse de txt okuyup ayıklayıp inverted index implementation istiyorum
    Bu konuda yardımcı olabilirsen cok sevinirim dm de devam edebiliriz..




  • reeisss R kullanıcısına yanıt
    Eclipse açıp başla o halde, seni tutan yok.

    < Bu ileti mini sürüm kullanılarak atıldı >
  • Yardım etmiceksen niye trollüyorsun.Yaptım olmadı onu diyorum
  • reeisss R kullanıcısına yanıt
    Apache Lucene ile 10.000+ dosya endeksleyen uygulama yapmış ben, neden trolleyeyim ki?

    < Bu ileti mini sürüm kullanılarak atıldı >
  • Arkadas galiba platformdaki farklılıktan bahsediyor syntax farkı falan



    < Bu mesaj bu kişi tarafından değiştirildi gecesesi.35 -- 4 Kasım 2019; 15:25:42 >
    < Bu ileti mobil sürüm kullanılarak atıldı >
  • Amacın aranan kelimeye gore en mantıklı olan txt dosyalarını listelemek gibi bir şey mi yani?



    < Bu mesaj bu kişi tarafından değiştirildi Zagor0167 -- 4 Kasım 2019; 17:17:16 >
    < Bu ileti DH mobil uygulamasından atıldı >
  • quote:

    Orijinalden alıntı: Zagor0167

    Amacın aranan kelimeye gore en mantıklı olan txt dosyalarını listelemek gibi bir şey mi yani?
    Şöyle, 2000 küsür dosyayı okuduktan sonra (fitre yaparak gereksiz kelime ve noktalama işaretlerini) hash tabla ayrı bir txt dosyasından kelimeleri bu 2500 txt metinleri hangi klasörde ve kaç tane onu bastırmak
    Suan 2500 dosyayı ayıklayarak nasıl okutucam yapamadım javada



    < Bu mesaj bu kişi tarafından değiştirildi reeisss -- 4 Kasım 2019; 17:10:51 >
  • quote:

    Orijinalden alıntı: Tuğkan-0153

    Apache Lucene ile 10.000+ dosya endeksleyen uygulama yapmış ben, neden trolleyeyim ki?
    Hatalar cıkıyor youtube gibi yapınca aynı kütüphaneyi ekledim ama vermiyor bazı metotları
  • 
Sayfa: 12
Sayfaya Git
Git
sonraki
- x
Bildirim
mesajınız kopyalandı (ctrl+v) yapıştırmak istediğiniz yere yapıştırabilirsiniz.