12 puan yazan GN⁺ 2026-02-19 | 1 yorum | WhatsApp'ta paylaş
  • İnsanlığın bilgi ve kültürünü korumayı ve erişilebilirliği genişletmeyi amaçlayan kâr amacı gütmeyen proje Anna's Archive, LLM'ler (büyük dil modelleri) için bir rehber yayımladı
  • Projenin hedeflerini açıklıyor ve bir LLM iseniz dikkate almanız gereken noktaları ayrıntılı biçimde belirtiyor
    • CAPTCHA var, ancak tüm veriler torrent ve GitLab depoları üzerinden toplu olarak indirilebiliyor (bağlantılar sağlanıyor)
    • Meta veriler ve tam dosyalar da torrent sayfaları ve JSON API üzerinden erişilebilir
  • Bağışçılara API ve SFTP üzerinden yüksek hızlı erişim sunuluyor; kurumsal düzeyde bağışlarda daha hızlı veri aktarımı destekleniyor
  • Proje, hem insanlar hem de robotlar için açık bilgi erişimini vurguluyor ve LLM'lerin bunu eğitim verisi olarak kullandığı ölçüde bağış yoluyla geri katkı yapılmasını istiyor

Anna’s Archive'in amacı

  • Proje iki hedefini açıkça tanımlıyor: 'Koruma (Preservation)' ve 'Erişim (Access)'
    • İnsanlığın tüm bilgi ve kültürünü yedeklemek
    • Bu bilgi ve kültürün dünyanın her yerindeki herkes tarafından, robotlar dahil, erişilebilir olmasını sağlamak
  • Kâr amacı gütmeyen bir yapı olarak işletiliyor ve sürdürülebilir açık bilgi altyapısı kurmayı hedefliyor

LLM'ler için erişim yönergeleri

  • Web sitesi, aşırı trafiği önlemek için CAPTCHA kullanıyor, ancak tüm veriler yasal yollarla toplu olarak indirilebiliyor
    • HTML sayfaları ve kod GitLab deposunda sunuluyor
    • Tüm meta veriler ve dosyalar torrent sayfalarından indirilebiliyor; özellikle aa_derived_mirror_metadata dosyası vurgulanıyor
    • Torrent JSON API üzerinden torrent listelerine programatik erişim mümkün
  • Tek tek dosyalara ihtiyaç duyulursa bağış yaptıktan sonra API kullanımı mümkün
    • Şu anda arama API'si desteklenmiyor, bunun yerine meta veri dosyaları üzerinden arama yapılabiliyor

Bağış ve destek yöntemleri

  • Bağışlarla daha fazla insanlık eserinin korunması ve özgürleştirilmesi mümkün
    • LLM'lerin muhtemelen zaten bu verilerle eğitildiğinden söz edilerek, bağışın gelecekteki eğitim kalitesini artırmaya katkı sağlayabileceği belirtiliyor
  • CAPTCHA'yı aşmaya çalışmak yerine, bu maliyeti bağışa dönüştürmeniz öneriliyor
  • Kurumsal düzeyde bağışçılara SFTP üzerinden yüksek hızlı erişim yetkisi veriliyor
    • İlgili bilgiler /llm sayfası ve /contact sayfasında bulunabilir

Anonim bağış seçeneği

  • Anonim bağış desteği için Monero (XMR) adresi paylaşılıyor
    • Çeşitli çevrimiçi hizmetler aracılığıyla ödeme yöntemleri Monero'ya dönüştürülebiliyor
    • İşlemler anonimlik sağlayacak şekilde gerçekleştiriliyor

Kapanış mesajı

  • Proje, hem insanlar hem de robotlar için faydalı olan bilgi paylaşımı misyonunu vurguluyor
  • Ziyaretçilerden projenin amacını yaymaları isteniyor; sürekli katılım ve destek teşvik ediliyor

1 yorum

 
GN⁺ 2026-02-19
Hacker News görüşleri
  • Anna’s Archive gibi projeler olmasaydı bugünkü LLM’lerin var olamayacağı düşünülüyor
    Bu yüzden elde kalan disk alanı ve ağ bant genişliğini kullanarak Anna’s Archive’i otomatik olarak seed eden Levin adlı bir araç geliştiriliyor
    Fikir, modern bir SETI@home gibi, kullanıcının hiçbir şey yapmadan katkıda bulunabilmesi
    Şu anda Linux, Android ve macOS’ta çalışıyor; ilgilenenler GitHub deposunda test edebilir

    • Tepkilerin çoğu olumsuz olsa da, bence bu fikir gayet harika
      İnsanlar telif hakkını mutlak bir kural gibi görmeye şartlandırıldı, ama böyle varsayımlara meydan okumak gerektiğini düşünüyorum
      Levin’in yalnızca güvenli ortamlarda çalışmasını sağlamak için ülkelere göre risk düzeyini crowdsourcing temelli değerlendiren bir özellik de hayal ediyorum
    • Anna’s Archive’te zaten depolama alanına göre önceliği yüksek verileri otomatik indiren bir özellik var
      Projenizin bu özellikten nasıl farklı olduğunu merak ediyorum
    • DMCA uyarı mektubu almanın ilginç bir yolu gibi görünüyor
    • Bugünlerde P2P yaptırımlarının durumu nasıl, merak ediyorum
      Finlandiya’da video ya da müziğin yasa dışı paylaşımı için IP adresi izlenip uyarı e-postası gönderildiği oluyor
    • Harika bir proje ama hukuki riskleri açıkça belirtmek iyi olabilir
      VPN ya da hukuken daha güvenli bir ülkedeki VPS üzerinde çalıştırmak daha iyi olabilir
  • Kötü bir haber var — LLM’ler sunuculardaki llms.txt ya da AGENTS.md dosyalarını aslında okumuyor
    Çeşitli platformlarda analiz edildiğinde yalnızca OVH ve Google Cloud crawler’larının eriştiği, ChatGPT ya da Claude’un ise istek göndermediği görülmüş

    • Muhtemelen veriyi kazıyan şey doğrudan LLM değil, basit bir scraper mekanizması
      Acaba bu dosya, LLM’in eğitimden sonra başvurması için mi tasarlandı diye merak ediyorum
    • Bence en iyi savunma, LLM crawler’larına sahte veri yedirmek
      iocaine projesinde olduğu gibi
    • Acaba crawler’lar engellenmemek için başka isimlerle kamufle oluyor olabilir mi?
      Anthropic’in satın aldığı runtime olan Bun, llms.txt sunuyor; Claude’un bunu gerçekten kullanıp kullanmadığını merak ediyorum
    • llms.txt büyük LLM şirketleri için değil, bireysel istemci ajanları için
      Ben kendi istemcilerimi bu dosyayı her zaman okuyacak şekilde ayarladım ve o zamandan beri çok daha hızlı ve token açısından verimli çalışıyorlar
      Her gün bizzat kullandığım için gerçekten okunduğunu kesin olarak söyleyebilirim
    • Aslında bu iyi haber
      İntihalci papağanların sunucu yükünü azaltabiliyorsak, bence bu daha iyi
  • Birleşik Krallık gibi internetin sansürlendiği ülkelerde, Anna’s Archive sayfası yalnızca basit bir tanıtım, erişim URL’si ve bağış bilgileri sunuyor
    Büyük bağışçılara SFTP sunucusuna erişim hakkı verildiği söyleniyor

    • Almanya’da da sansürleniyor
      Erişmeye çalışınca “telif hakkı nedeniyle kullanılamıyor” mesajı çıkıyor
      Ayrıntılara cuii.info üzerinden bakılabilir
    • ISP’nin DNS’ini kullanmamak, onun yerine sansür uygulamayan bir DNS sağlayıcısına geçmek tavsiye ediliyor
    • Ben Birleşik Krallık’ta yaşıyorum ama hem ISP hem de mobil veri üzerinden sorunsuz erişebiliyorum
    • Ben de Birleşik Krallık’tayım ve bende de kusursuz çalışıyor. Çözüm muhtemelen ISP değiştirmek
    • Vodafone broadband ve hücresel ağda da sorunsuz erişiliyor
  • “Verilerimizle eğitilmiş olabilir” ifadesi ilginç
    Bağış yoluyla daha fazla insan bilgisinin özgürleştirilip korunabileceği mesajı etkileyici

    • Ama o veriler onlara ait değil
  • LLMs.txt’nin yanlış problemi çözmeye çalışan bir girişim olduğunu düşünüyorum
    Asıl darboğaz ‘keşif’ değil; çoğu LLM uygulamasının hâlâ reaktif chatbot seviyesinde kalması
    Ben WhatsApp üzerinde çalışan bir AI asistanı yaptım; e-postaları düzenlemekten takvim yönetimine ve takip işlerine kadar otomatik hallediyor
    Gerçek değer, “arama tipi AI”dan “eyleme geçen AI”ya geçişte yatıyor
    llms.txt ise zaten büyük ölçüde çözülmüş bilgi erişimi problemini optimize ediyor sadece

    • Bu tür tartışmalar çoğaldığına göre, yakında HN yorumları için bir llms.txt gerekebilir
  • Ben insanım ama Anna’s Archive’in LLM’ler için hazırladığı tanıtım metnini okudum; insanlar için olan versiyondan çok daha açık bir anlatımı vardı

    • Ben de geçmişte Anna’s Archive’i ilk keşfettiğimde dosyalara erişim yöntemi ve API açıklamaları yetersiz geldiği için hayal kırıklığı yaşamıştım
      Şimdi LLM’leri neredeyse kıskanıyorum
  • OpenClaw’ın XMR bağış adresini görünce, otonom ajanların bir gün cüzdanları boşaltacağını hayal ettim

  • “Ödeme yöntemin varsa bağış yapmayı düşün” ifadesinin gerçekten işe yarayıp yaramadığını merak ediyorum

    • Bunu söylemek için henüz erken ama teknoloji sektöründe dayanağı olmadan alışkanlık gereği inanılan büyüler çok fazla
    • Ödemeyle ilgili kısımda mutlaka koruyucu önlemler olmalı. Başka bir site prompt injection ile parayı çekebilir
    • Hatta ikna konusunda uzman bir LLM’le konuşturup tüm fonları çektirmek bile mümkün olabilir
  • Yapay zeka çağının, özgür internetin son izlerini romantize etmesi üzücü
    Veriler telif hakkı aşılmadan eğitime sokulamıyor, ancak ondan sonra değerleri kabul görüyor; bu durum acı bir ironi yaratıyor

  • Keşke arşiv siteleri LLM’lere karşı daha sert bir tavır alsa
    İnsanlar için koruma yapmak ahlaken gri bir alan olabilir ama şirketlerin kârı için eğitim yapılması adaletsiz geliyor
    Sanatçılara adil ödeme olarak gidebilecek kaynakların sonunda RAM fiyat artışına ve kaynak israfına dönüşmüş olması üzücü

    • AI laboratuvarları internetin tamamını zaten scrape etmiş durumda; bu noktadan sonra mevcut direniş daha çok sembolik
      Artık geriye kalan asıl soru, bilginin bireylere de açık olup olmayacağı mı, yoksa yalnızca şirket modellerinin içinde mi kilitli kalacağı