1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Anna’s Archive, Google Books’un tüm kitap taramalarını veya benzer ölçekte bir koleksiyonu temin edenlere 200 bin dolarlık ödül teklif etti
  • Şu anda Google Books erişimi, arama sonuçlarının çevresindeki küçük snippet’ler etrafında şekillendiği için, tam taramaların elde edilmesi arşivleme açısından temel bir görev olarak görülüyor
  • Ölçeklenebilir bir yöntem bulduysanız, tamamlanmış sürümü beklemeden prototip aşamasında iletişime geçilmesi isteniyor
  • Google içinde erişim yetkisi olan kişiler de kapsamda; görseller olmadan yalnızca OCR metni elde edilse bile ödülün yarısı ödenebiliyor
  • Hedef yalnızca Google Books’la sınırlı değil; yapay zeka şirketleri gibi kuruluşların topladığı, nadir kitaplar da içeren büyük koleksiyonlar için de geçerli

Ödül kapsamı ve katılım koşulları

  • Anna’s Archive, Google Books veya benzer tam kitap taramalarının elde edilmesi için $200,000 ödül sunuyor
  • Çalışmaya başlamadan önce Anna’s Archive’in ödül duyurusu dikkatle okunmalı
  • Google Books çok sayıda taranmış kitap barındırıyor, ancak aramayla erişildiğinde sonuç çevresinde yalnızca küçük snippet’ler gösteriliyor
  • Ölçeklenme potansiyeli olan bir yöntem bulunduysa, tamamlanmış hâlini beklemeden prototip ile erken aşamada iletişime geçilmesi isteniyor
    • Anna’s Archive daha sonra ölçekleme çalışmalarına yardımcı olabileceğini belirtiyor
  • Google’da çalışıp ilgili verilere erişebilen kişiler de ödül kapsamına dahil
    • $200,000 büyük bir tutar olmayabilir, ancak veriyi dışarı çıkarabilirseniz “efsanevi arşivci” olarak anılacağınız yazılıyor
  • Ödül, Google Books dışındaki benzer büyüklükteki koleksiyonlar için de geçerli
    • Örnek olarak yapay zeka şirketlerinin topladığı koleksiyonlar veriliyor
    • Özellikle önemli miktarda nadir kitap içeren koleksiyonlar buna dahil

Yorumlarda derlenen ölçek ve aktarım yöntemi

  • Bir yorumda tüm arşivin telifli materyaller dahil yaklaşık 7PB olduğu yazıldı, ancak daha sonra bunun yaklaşık 1.5PB olduğu ve IUPUI sitesinin kopyasını da içeren bir sayı olduğu yönünde düzeltme yapıldı
  • Kamu malı ve yazarlar tarafından açıkça yayımlanan materyallerin yaklaşık 300TB büyüklüğünde olduğu belirtiliyor
  • Anna’s Archive, kamu malı ve yazarlar tarafından yayımlanmış materyaller için henüz veri kazıma yapılmadıysa ayrıca bir ödül eklemeye istekli olduğunu söyledi
  • Tam görseller yerine yalnızca OCR metninin dışarı aktarılması durumunda da bu ödül kapsamında yarı ödeme yapılabileceği belirtildi
  • Büyük hacimli veri elde edildiğinde aktarım yöntemi olarak SFTP veya benzeri bir yöntem anılıyor
  • Başlığın 7 Haziran 2025’te Google Books (or similar) all book scans — $200,000 bounty olarak değiştirildiği belirtiliyor

1 yorum

 
GN⁺ 4 시간 전
Hacker News yorumları
  • İngilizce kitap bulmanın zor olduğu bir ülkede yaşıyorum; yurt dışından çevrimiçi satın alma ise çok fazla bürokrasi ve kısıtlamayla dolu.
    Anna's Archive ve Z-Library olmasaydı, bugünkü beni oluşturan kitapları okuyamazdım ve öğrenmeye duyduğum tutkuyu sürdürmem de zor olurdu.
    Kitapların parasını ödeyemeden bilgi edindiğim yazarlara da minnettarım.

    • Yarı şaka yarı ciddi, o hâlde tüm mevcut hayatım suç gelirleri sayesinde mi diyebilirsiniz; ama bilgi özgür olmalı.
      Bilgi bir boşlukta üretilmedi ve herkese aittir.
    • Bu bakış açısını anlıyorum, ancak yazarlar para kazanamasaydı o kitapların önemli bir kısmı muhtemelen en başta var olmayacaktı.
      Eskiden Reddit'te bir yazar, kitabı yasa dışı paylaşım sitelerine düştükten sonra gerçek satışlarının çöktüğünü gösteren istatistikler paylaşmıştı.
      Bu yüzden özellikle programlama kitaplarını mümkün olduğunca satın almaya çalışıyorum; PDF'leri de ön izleme gibi kullanıyorum. Hatta bu sayede eskisine göre çok daha fazla kitap aldım.
      Elbette satın almanın bizzat imkânsız olduğu bir bölgede yaşıyorsanız durum farklı; ama bu tür siteler övülürken yalnızca olumlu taraflarına bakma eğilimi var.
    • Kullanıcı adında konumun yazması iyi olmuş. Bugünlerde çevrimiçi ortamda insanların “bizim ülkede” deyip sonuna kadar hangi ülke olduğunu söylememesi en sinir olduğum şey.
    • https://send.djazz.se/
      Kobo'ya EPUB göndermek için kritik bir araç.
  • https://SourceLibrary.org üzerinde nadir kitapların yaklaşık 16.000 çevirisi var; çoğu da ilk çeviri.
    Arşivlenen kitap sayısı 50.000 ve fon bulunursa çevrilecekler; token sayısı İngilizce Wikipedia'dan fazla, boyutu da yaklaşık 0,75 PB.
    Ödül kapsamına girer mi bilmiyorum ama paylaşmak istedim; Rönesans metinlerinin çevirisine yardımcı olacak küçük ve büyük bağışçılar arıyoruz.

    • Çıktılar güzel, yanıtlar da yerinde ve etkileyici. Finansman için ücretli araştırma API'si gibi bir yöntem de mümkün görünüyor.
    • İlginç görünüyor.
      Tam olarak nelerin arşivlendiğini hemen anlamak zor, ancak akademide tarihçi arkadaşlarım arasında belirli alanlara ilgi duyabilecek kişiler var; bazı zor dillerin doğrulamasına da yardımcı olabilirler.
      Bölgeye veya dile göre arama yapmanın mümkün olup olmadığını merak ediyorum.
      Proje için tarihçilerle temas kurup kurmadığınızı da merak ediyorum. Doktora öğrencileri burada araştırma konusu bulabilir gibi görünüyor.
      Zaman çizelgesine https://sourcelibrary.org/timeline baktığımda hata verdi.
    • Buraya kadar gelmenin bütçesinin ne kadar tuttuğunu merak ediyorum. Token sayısı muazzam; muhtemelen Gemini Flash kullanıyor gibi görünüyor.
  • Dün Anna's Archive gerçekten işe yaradı.
    2000'lerin başlarından bir programlama kitabıyla gelen CD'nin ZIP dosyasını günlerce aradım; ikinci el ilanlarının hepsi CD'nin olmadığını söylüyordu, aramalarda da çıkmadı, LLM de bulamadı.
    ChatGPT sürekli archive'da olduğunu söyledi ama aslında yoktu; belki diye AA'ya baktım ve hem 1. hem 2. baskı için ZIP dosyaları vardı. Gerçekten kurtarıcı gibiydi.

  • İnternet arşivleme için de ödül konması ne kadar sürer merak ediyorum.
    Cloudflare CAPTCHA yüzünden internet benim için neredeyse kullanılamaz hâle geldi ve ileride daha da kötüleşecek gibi.
    Bunun yerine archive.is gibi sitelerin kopyalarına bakmak ya da torrent ile indirmek daha iyi olacak. İkincisi gizlilik açısından da çok daha iyi; zaten reklam engelleyici de kullanıyorum.

    • Aynı ağdaki birinin Bright Data proxy ile paraya çevrilen bir oyun çalıştırıyor olma ihtimali yüksek. Birkaç gün önce bununla ilgili bir başlık da vardı.
      Akıllı TV bile olabilir. Sebebi bulup kaldırırsanız IP itibarınız iyileşir ve daha az CAPTCHA görme ihtimaliniz olur.
    • https://x.com/CloudflareDev/status/2031488099725754821
      Böyle küçük bir çıkar çatışması var.
  • Anna's Archive'ın arkasında kimin olduğunu merak ediyorum. Ekipte ve forumda İngilizce konuşan çok kişi görünüyor.
    Her hâlükârda, satın almak sahip olmak anlamına gelmediği sürece bunun sorun olduğunu düşünmüyorum.

    • Görünüşe göre arkasında Anna var.
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • Oradaki kitapların önemli bir kısmı zaten DRM'siz biçimde satın alınabiliyordur. DRM'i pek umursamayan yazar sayısı sanıldığından fazla.
      Ayrıca basılı kitap olarak alırsanız satın alma kesinlikle sahip olmak anlamına gelir; bu yüzden kitaplar söz konusu olduğunda o cümle biraz uygunsuz geliyor.
    • Ana kaynağın Rusya olduğunu sanıyordum; yoksa bu LibGen de olabilir.
      Yine de bu kadar az alternatif olması daha şaşırtıcı. Facebook ve benzerleri LibGen'e savaş açıp LibGen kapandıktan sonra bile şaşırtıcı derecede az alternatif vardı; Anna's Archive birkaç seçenekten biriydi.
      LibGen'e tam olarak ne olduğunu hâlâ bilmiyorum, ama o saldırıdan sonra fiilen yarı yarıya ortadan kaybolmuş gibi görünüyor.
    • Gerçekten sorun olmadığını düşünüyorsanız, neden herkese açık bir forumda arkasında kimin olduğunu sorduğunuzu merak ediyorum.
  • “Ödül işine girişmeden önce [this]'i dikkatle okuyun” ifadesinde [this] .li adresine bağlanıyor ve tehlikeli bir yere gidiyor.
    Doğru adres https://annas-archive.gl/volunteering#bounties olmalı

  • Şu anda Google’da kovulma ihtimalinden endişelenen biri varsa, bu onun yedek planı olabilir

    • Verileri dışarı çıkarırken yakalanırsa, 200 bin dolardan çok daha büyük bir tutar için dava edilir
    • Sıradan bir çalışanın tüm arşive erişebilme ihtimali düşük
      Erişim yetkisi olan çok küçük grubun içinde bile, içeriğin çok küçük bir yüzdesini indirmeye başlasa otomatik sistemlerin bunu yakalama ihtimali yüksek
    • Daha büyük sorun, bunun maddi zarara yol açması. Muhtemelen başka bir ülkeye taşınmaya hazırlanması bile gerekebilir
  • Sundukları diğer ilginç ödüllü işler: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Library of Congress MARC veri setinin tamamını satın alma — ödül 3.000 dolar
    İlgili kurumlar hakkında İngilizce Wikipedia sayfaları — yeni sayfa başına en fazla 100 dolar
    Internet Archive Digital Lending — 1 milyon PDF başına 5.000 dolar
    Tüm kütüphanenin metin sürümü — 20.000 dolar vb.

  • Korsanlık ve telif hakkı bundan sonra ne olacak, merak ediyorum
    Bugünkü gibi kiralama odaklı durum sürdürülebilir görünmüyor. Çevremdeki sıradan insanlar bile VPN ve NAS gibi şeyleri epey öğrenmiş durumda

    • Asıl eserleri üreten yazarların ve sanatçıların ne kadar az kazandığını araştırınca, giyotinin çözüm olmasını diler hale geliyorsunuz
    • En başından beri sürdürülebilir bir yapı değil, büyük fikrî mülkiyet sahiplerinin düzenleyici kurumları ele geçirmesiydi
      Spotify, Netflix, Amazon vb. bir süre makul değer sundu ama artık hizmetlerin bozulması hızlandığına göre büyük çaplı bir geri dönüşün zamanı geldi
  • Gemini büyük olasılıkla zaten o kitaplarla eğitildiği için, teorik olarak bazı cümleleri aynen çıkarabilir
    NYT’nin daha önce OpenAI’a karşı açtığı davada da buna benzer örnekler ortaya çıkmıştı

    • Gemini, GPT, Fable fiilen internet içeriğinin çok iyi birer sıkıştırılmış kopyası
      Ancak kayıpsız sıkıştırma değiller; bir sonraki token’ı tahmin etme görevini yerine getirmek için önemli kısımları bırakıp geri kalanını taklit etmenin bir yolunu bulmuş durumdalar