- Anna's Archive, anonim aktivistler tarafından işletilen, kâr amacı gütmeyen bir çevrimiçi gölge kütüphane meta arama motoru. Çeşitli kitap kaynaklarına erişim sağlıyor
- 7,5 milyon kitap / 350 TB büyüklüğünde bir Çince kurgu dışı kitap koleksiyonu edindiler (
Library Genesis'ten bile daha fazla)
- Bu koleksiyon için yüksek kaliteli OCR ve metin çıkarımı sağlamanın karşılığında, ilgili LLM şirketine 1 yıl boyunca özel erken erişim vermeyi planlıyorlar
- Bu koleksiyon, üniversitelere ve kütüphanelere dijital olarak sunulan, SuperStar Digital Library Group'un oluşturduğu büyük taranmış kitap veritabanı Duxiu'dan elde edildi
- Koleksiyonun toplam dosya boyutu mevcut haliyle yaklaşık 359 TB
- Çıkarılan metin, büyük dil modellerinin (LLM'ler) eğitiminde kullanılacak ve Archive, koleksiyon Çince olmasına rağmen bunun İngilizce LLM'lerin eğitimi için de faydalı olabileceğine inanıyor
- Archive, bu iş birliği sayesinde kullanıcılara gelişmiş arama özellikleri sunmayı hedefliyor
- İş birliği yapan taraf, işlem hattının tüm kodunu paylaşmaya istekli olursa, Archive özel erişim süresini uzatmaya da açık
1 yorum
Hacker News görüşleri