Google Books veya benzer tam kitap taramaları için 200 bin dolarlık ödül teklif edildi (2025)
(software.annas-archive.gl)- Anna’s Archive, Google Books’un tüm kitap taramalarını veya benzer ölçekte bir koleksiyonu temin edenlere 200 bin dolarlık ödül teklif etti
- Şu anda Google Books erişimi, arama sonuçlarının çevresindeki küçük snippet’ler etrafında şekillendiği için, tam taramaların elde edilmesi arşivleme açısından temel bir görev olarak görülüyor
- Ölçeklenebilir bir yöntem bulduysanız, tamamlanmış sürümü beklemeden prototip aşamasında iletişime geçilmesi isteniyor
- Google içinde erişim yetkisi olan kişiler de kapsamda; görseller olmadan yalnızca OCR metni elde edilse bile ödülün yarısı ödenebiliyor
- Hedef yalnızca Google Books’la sınırlı değil; yapay zeka şirketleri gibi kuruluşların topladığı, nadir kitaplar da içeren büyük koleksiyonlar için de geçerli
Ödül kapsamı ve katılım koşulları
- Anna’s Archive, Google Books veya benzer tam kitap taramalarının elde edilmesi için $200,000 ödül sunuyor
- Çalışmaya başlamadan önce Anna’s Archive’in ödül duyurusu dikkatle okunmalı
- Google Books çok sayıda taranmış kitap barındırıyor, ancak aramayla erişildiğinde sonuç çevresinde yalnızca küçük snippet’ler gösteriliyor
- Ölçeklenme potansiyeli olan bir yöntem bulunduysa, tamamlanmış hâlini beklemeden prototip ile erken aşamada iletişime geçilmesi isteniyor
- Anna’s Archive daha sonra ölçekleme çalışmalarına yardımcı olabileceğini belirtiyor
- Google’da çalışıp ilgili verilere erişebilen kişiler de ödül kapsamına dahil
- $200,000 büyük bir tutar olmayabilir, ancak veriyi dışarı çıkarabilirseniz “efsanevi arşivci” olarak anılacağınız yazılıyor
- Ödül, Google Books dışındaki benzer büyüklükteki koleksiyonlar için de geçerli
- Örnek olarak yapay zeka şirketlerinin topladığı koleksiyonlar veriliyor
- Özellikle önemli miktarda nadir kitap içeren koleksiyonlar buna dahil
Yorumlarda derlenen ölçek ve aktarım yöntemi
- Bir yorumda tüm arşivin telifli materyaller dahil yaklaşık 7PB olduğu yazıldı, ancak daha sonra bunun yaklaşık 1.5PB olduğu ve IUPUI sitesinin kopyasını da içeren bir sayı olduğu yönünde düzeltme yapıldı
- Kamu malı ve yazarlar tarafından açıkça yayımlanan materyallerin yaklaşık 300TB büyüklüğünde olduğu belirtiliyor
- Anna’s Archive, kamu malı ve yazarlar tarafından yayımlanmış materyaller için henüz veri kazıma yapılmadıysa ayrıca bir ödül eklemeye istekli olduğunu söyledi
- Tam görseller yerine yalnızca OCR metninin dışarı aktarılması durumunda da bu ödül kapsamında yarı ödeme yapılabileceği belirtildi
- Büyük hacimli veri elde edildiğinde aktarım yöntemi olarak SFTP veya benzeri bir yöntem anılıyor
- Başlığın 7 Haziran 2025’te
Google Books (or similar) all book scans — $200,000 bountyolarak değiştirildiği belirtiliyor
1 yorum
Hacker News yorumları
İngilizce kitap bulmanın zor olduğu bir ülkede yaşıyorum; yurt dışından çevrimiçi satın alma ise çok fazla bürokrasi ve kısıtlamayla dolu.
Anna's Archive ve Z-Library olmasaydı, bugünkü beni oluşturan kitapları okuyamazdım ve öğrenmeye duyduğum tutkuyu sürdürmem de zor olurdu.
Kitapların parasını ödeyemeden bilgi edindiğim yazarlara da minnettarım.
Bilgi bir boşlukta üretilmedi ve herkese aittir.
Eskiden Reddit'te bir yazar, kitabı yasa dışı paylaşım sitelerine düştükten sonra gerçek satışlarının çöktüğünü gösteren istatistikler paylaşmıştı.
Bu yüzden özellikle programlama kitaplarını mümkün olduğunca satın almaya çalışıyorum; PDF'leri de ön izleme gibi kullanıyorum. Hatta bu sayede eskisine göre çok daha fazla kitap aldım.
Elbette satın almanın bizzat imkânsız olduğu bir bölgede yaşıyorsanız durum farklı; ama bu tür siteler övülürken yalnızca olumlu taraflarına bakma eğilimi var.
Kobo'ya EPUB göndermek için kritik bir araç.
https://SourceLibrary.org üzerinde nadir kitapların yaklaşık 16.000 çevirisi var; çoğu da ilk çeviri.
Arşivlenen kitap sayısı 50.000 ve fon bulunursa çevrilecekler; token sayısı İngilizce Wikipedia'dan fazla, boyutu da yaklaşık 0,75 PB.
Ödül kapsamına girer mi bilmiyorum ama paylaşmak istedim; Rönesans metinlerinin çevirisine yardımcı olacak küçük ve büyük bağışçılar arıyoruz.
Tam olarak nelerin arşivlendiğini hemen anlamak zor, ancak akademide tarihçi arkadaşlarım arasında belirli alanlara ilgi duyabilecek kişiler var; bazı zor dillerin doğrulamasına da yardımcı olabilirler.
Bölgeye veya dile göre arama yapmanın mümkün olup olmadığını merak ediyorum.
Proje için tarihçilerle temas kurup kurmadığınızı da merak ediyorum. Doktora öğrencileri burada araştırma konusu bulabilir gibi görünüyor.
Zaman çizelgesine https://sourcelibrary.org/timeline baktığımda hata verdi.
Dün Anna's Archive gerçekten işe yaradı.
2000'lerin başlarından bir programlama kitabıyla gelen CD'nin ZIP dosyasını günlerce aradım; ikinci el ilanlarının hepsi CD'nin olmadığını söylüyordu, aramalarda da çıkmadı, LLM de bulamadı.
ChatGPT sürekli archive'da olduğunu söyledi ama aslında yoktu; belki diye AA'ya baktım ve hem 1. hem 2. baskı için ZIP dosyaları vardı. Gerçekten kurtarıcı gibiydi.
İnternet arşivleme için de ödül konması ne kadar sürer merak ediyorum.
Cloudflare CAPTCHA yüzünden internet benim için neredeyse kullanılamaz hâle geldi ve ileride daha da kötüleşecek gibi.
Bunun yerine archive.is gibi sitelerin kopyalarına bakmak ya da torrent ile indirmek daha iyi olacak. İkincisi gizlilik açısından da çok daha iyi; zaten reklam engelleyici de kullanıyorum.
Akıllı TV bile olabilir. Sebebi bulup kaldırırsanız IP itibarınız iyileşir ve daha az CAPTCHA görme ihtimaliniz olur.
Böyle küçük bir çıkar çatışması var.
Anna's Archive'ın arkasında kimin olduğunu merak ediyorum. Ekipte ve forumda İngilizce konuşan çok kişi görünüyor.
Her hâlükârda, satın almak sahip olmak anlamına gelmediği sürece bunun sorun olduğunu düşünmüyorum.
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
Ayrıca basılı kitap olarak alırsanız satın alma kesinlikle sahip olmak anlamına gelir; bu yüzden kitaplar söz konusu olduğunda o cümle biraz uygunsuz geliyor.
Yine de bu kadar az alternatif olması daha şaşırtıcı. Facebook ve benzerleri LibGen'e savaş açıp LibGen kapandıktan sonra bile şaşırtıcı derecede az alternatif vardı; Anna's Archive birkaç seçenekten biriydi.
LibGen'e tam olarak ne olduğunu hâlâ bilmiyorum, ama o saldırıdan sonra fiilen yarı yarıya ortadan kaybolmuş gibi görünüyor.
“Ödül işine girişmeden önce [this]'i dikkatle okuyun” ifadesinde [this] .li adresine bağlanıyor ve tehlikeli bir yere gidiyor.
Doğru adres https://annas-archive.gl/volunteering#bounties olmalı
Şu anda Google’da kovulma ihtimalinden endişelenen biri varsa, bu onun yedek planı olabilir
Erişim yetkisi olan çok küçük grubun içinde bile, içeriğin çok küçük bir yüzdesini indirmeye başlasa otomatik sistemlerin bunu yakalama ihtimali yüksek
Sundukları diğer ilginç ödüllü işler: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Library of Congress MARC veri setinin tamamını satın alma — ödül 3.000 dolar
İlgili kurumlar hakkında İngilizce Wikipedia sayfaları — yeni sayfa başına en fazla 100 dolar
Internet Archive Digital Lending — 1 milyon PDF başına 5.000 dolar
Tüm kütüphanenin metin sürümü — 20.000 dolar vb.
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Korsanlık ve telif hakkı bundan sonra ne olacak, merak ediyorum
Bugünkü gibi kiralama odaklı durum sürdürülebilir görünmüyor. Çevremdeki sıradan insanlar bile VPN ve NAS gibi şeyleri epey öğrenmiş durumda
Spotify, Netflix, Amazon vb. bir süre makul değer sundu ama artık hizmetlerin bozulması hızlandığına göre büyük çaplı bir geri dönüşün zamanı geldi
Gemini büyük olasılıkla zaten o kitaplarla eğitildiği için, teorik olarak bazı cümleleri aynen çıkarabilir
NYT’nin daha önce OpenAI’a karşı açtığı davada da buna benzer örnekler ortaya çıkmıştı
Ancak kayıpsız sıkıştırma değiller; bir sonraki token’ı tahmin etme görevini yerine getirmek için önemli kısımları bırakıp geri kalanını taklit etmenin bir yolunu bulmuş durumdalar