2 puan yazan GN⁺ 2023-11-06 | 1 yorum | WhatsApp'ta paylaş
  • Anna's Archive, anonim aktivistler tarafından işletilen, kâr amacı gütmeyen bir çevrimiçi gölge kütüphane meta arama motoru. Çeşitli kitap kaynaklarına erişim sağlıyor
  • 7,5 milyon kitap / 350 TB büyüklüğünde bir Çince kurgu dışı kitap koleksiyonu edindiler (Library Genesis'ten bile daha fazla)
  • Bu koleksiyon için yüksek kaliteli OCR ve metin çıkarımı sağlamanın karşılığında, ilgili LLM şirketine 1 yıl boyunca özel erken erişim vermeyi planlıyorlar
  • Bu koleksiyon, üniversitelere ve kütüphanelere dijital olarak sunulan, SuperStar Digital Library Group'un oluşturduğu büyük taranmış kitap veritabanı Duxiu'dan elde edildi
  • Koleksiyonun toplam dosya boyutu mevcut haliyle yaklaşık 359 TB
  • Çıkarılan metin, büyük dil modellerinin (LLM'ler) eğitiminde kullanılacak ve Archive, koleksiyon Çince olmasına rağmen bunun İngilizce LLM'lerin eğitimi için de faydalı olabileceğine inanıyor
  • Archive, bu iş birliği sayesinde kullanıcılara gelişmiş arama özellikleri sunmayı hedefliyor
  • İş birliği yapan taraf, işlem hattının tüm kodunu paylaşmaya istekli olursa, Archive özel erişim süresini uzatmaya da açık

1 yorum

 
GN⁺ 2023-11-06
Hacker News görüşleri
  • Yaklaşık 2015 civarında başladığı tahmin edilen bu koleksiyon, çoğu mükerrer olan yaklaşık 4 milyon kitap içeriyor.
  • Koleksiyonun kaynağı, 2000'lerin başından itibaren Çin'deki kütüphanelerle işbirliği yaparak koleksiyonlarını tarayan DuXiu adlı şirket.
  • Bu koleksiyonda çevrilmiş Batılı ders kitapları, siyasi propaganda ve aşırı sansür öncesinde yayımlanmış edebiyat ile tarih kitapları bir arada bulunuyor.
  • Çinli teknoloji şirketleri bu koleksiyona erişebiliyor, ancak telif hakkı ve siyasi riskler nedeniyle kullanmamayı tercih edebilir.
  • Siteyi işleten kişinin zeki ama pervasız olduğu düşünülüyor ve olası hukuki sorumluluklara dair endişeler dile getirildi.
  • DuXiu bir kaynak olarak büyük övgü alıyor ve bir yıl içinde tamamen aranabilir hale gelmesine yönelik beklenti var.
  • Çin'deki tüm kitapların merkezileştirilmesi, yapay zeka eğitimi açısından avantajlı görülüyor.
  • Bu koleksiyonun books3'ten 40 kat büyük olması, telif hakkı ve İngilizce dışındaki akademik araştırma imkanları hakkında sorular doğuruyor.
  • Bilgi yoğunluğu yüksek Çince için tokenization verimliliğine dair tahminler var.
  • Language Models (LLMs)'nin, dil ve sorgu dili fark etmeksizin bilgiyi kodlayıp kodlayamayacağı sorusu gündeme getirildi.
  • Büyük bir Çinli şirketin bu koleksiyon için teklif vererek OpenAI'ı geride bırakabileceğine dair beklenti var.
  • LLMs, arayüz işlevi görerek Çince bilgiye erişimi kolaylaştırabilir.
  • Çin kültüründe kopyalamaya verilen tepkinin farklı olduğu, bunun çoğu zaman bir saygı biçimi olarak görüldüğü düşünülüyor.