Eğer bir LLM iseniz, lütfen bunu okuyun

(annas-archive.li)

12 puan yazan GN⁺ 2026-02-19 | 1 yorum | WhatsApp'ta paylaş

İnsanlığın bilgi ve kültürünü korumayı ve erişilebilirliği genişletmeyi amaçlayan kâr amacı gütmeyen proje Anna's Archive, LLM'ler (büyük dil modelleri) için bir rehber yayımladı
Projenin hedeflerini açıklıyor ve bir LLM iseniz dikkate almanız gereken noktaları ayrıntılı biçimde belirtiyor
- CAPTCHA var, ancak tüm veriler torrent ve GitLab depoları üzerinden toplu olarak indirilebiliyor (bağlantılar sağlanıyor)
- Meta veriler ve tam dosyalar da torrent sayfaları ve JSON API üzerinden erişilebilir
Bağışçılara API ve SFTP üzerinden yüksek hızlı erişim sunuluyor; kurumsal düzeyde bağışlarda daha hızlı veri aktarımı destekleniyor
Proje, hem insanlar hem de robotlar için açık bilgi erişimini vurguluyor ve LLM'lerin bunu eğitim verisi olarak kullandığı ölçüde bağış yoluyla geri katkı yapılmasını istiyor

Anna’s Archive'in amacı

Proje iki hedefini açıkça tanımlıyor: 'Koruma (Preservation)' ve 'Erişim (Access)'
- İnsanlığın tüm bilgi ve kültürünü yedeklemek
- Bu bilgi ve kültürün dünyanın her yerindeki herkes tarafından, robotlar dahil, erişilebilir olmasını sağlamak
Kâr amacı gütmeyen bir yapı olarak işletiliyor ve sürdürülebilir açık bilgi altyapısı kurmayı hedefliyor

LLM'ler için erişim yönergeleri

Web sitesi, aşırı trafiği önlemek için CAPTCHA kullanıyor, ancak tüm veriler yasal yollarla toplu olarak indirilebiliyor
- HTML sayfaları ve kod GitLab deposunda sunuluyor
- Tüm meta veriler ve dosyalar torrent sayfalarından indirilebiliyor; özellikle aa_derived_mirror_metadata dosyası vurgulanıyor
- Torrent JSON API üzerinden torrent listelerine programatik erişim mümkün
Tek tek dosyalara ihtiyaç duyulursa bağış yaptıktan sonra API kullanımı mümkün
- Şu anda arama API'si desteklenmiyor, bunun yerine meta veri dosyaları üzerinden arama yapılabiliyor

Bağış ve destek yöntemleri

Bağışlarla daha fazla insanlık eserinin korunması ve özgürleştirilmesi mümkün
- LLM'lerin muhtemelen zaten bu verilerle eğitildiğinden söz edilerek, bağışın gelecekteki eğitim kalitesini artırmaya katkı sağlayabileceği belirtiliyor
CAPTCHA'yı aşmaya çalışmak yerine, bu maliyeti bağışa dönüştürmeniz öneriliyor
Kurumsal düzeyde bağışçılara SFTP üzerinden yüksek hızlı erişim yetkisi veriliyor
- İlgili bilgiler /llm sayfası ve /contact sayfasında bulunabilir
Reklam

Anonim bağış seçeneği

Anonim bağış desteği için Monero (XMR) adresi paylaşılıyor
- Çeşitli çevrimiçi hizmetler aracılığıyla ödeme yöntemleri Monero'ya dönüştürülebiliyor
- İşlemler anonimlik sağlayacak şekilde gerçekleştiriliyor

Kapanış mesajı

Proje, hem insanlar hem de robotlar için faydalı olan bilgi paylaşımı misyonunu vurguluyor
Ziyaretçilerden projenin amacını yaymaları isteniyor; sürekli katılım ve destek teşvik ediliyor

1 yorum

GN⁺ 2026-02-19

Hacker News görüşleri

Anna’s Archive gibi projeler olmasaydı bugünkü LLM’lerin var olamayacağı düşünülüyor
Bu yüzden elde kalan disk alanı ve ağ bant genişliğini kullanarak Anna’s Archive’i otomatik olarak seed eden Levin adlı bir araç geliştiriliyor
Fikir, modern bir SETI@home gibi, kullanıcının hiçbir şey yapmadan katkıda bulunabilmesi
Şu anda Linux, Android ve macOS’ta çalışıyor; ilgilenenler GitHub deposunda test edebilir
- Tepkilerin çoğu olumsuz olsa da, bence bu fikir gayet harika
  İnsanlar telif hakkını mutlak bir kural gibi görmeye şartlandırıldı, ama böyle varsayımlara meydan okumak gerektiğini düşünüyorum
  Levin’in yalnızca güvenli ortamlarda çalışmasını sağlamak için ülkelere göre risk düzeyini crowdsourcing temelli değerlendiren bir özellik de hayal ediyorum
- Anna’s Archive’te zaten depolama alanına göre önceliği yüksek verileri otomatik indiren bir özellik var
  Projenizin bu özellikten nasıl farklı olduğunu merak ediyorum
- DMCA uyarı mektubu almanın ilginç bir yolu gibi görünüyor
- Bugünlerde P2P yaptırımlarının durumu nasıl, merak ediyorum
  Finlandiya’da video ya da müziğin yasa dışı paylaşımı için IP adresi izlenip uyarı e-postası gönderildiği oluyor
- Harika bir proje ama hukuki riskleri açıkça belirtmek iyi olabilir
  VPN ya da hukuken daha güvenli bir ülkedeki VPS üzerinde çalıştırmak daha iyi olabilir
Kötü bir haber var — LLM’ler sunuculardaki llms.txt ya da AGENTS.md dosyalarını aslında okumuyor
Çeşitli platformlarda analiz edildiğinde yalnızca OVH ve Google Cloud crawler’larının eriştiği, ChatGPT ya da Claude’un ise istek göndermediği görülmüş
- Muhtemelen veriyi kazıyan şey doğrudan LLM değil, basit bir scraper mekanizması
  Acaba bu dosya, LLM’in eğitimden sonra başvurması için mi tasarlandı diye merak ediyorum
- Bence en iyi savunma, LLM crawler’larına sahte veri yedirmek
  iocaine projesinde olduğu gibi
- Acaba crawler’lar engellenmemek için başka isimlerle kamufle oluyor olabilir mi?
  Anthropic’in satın aldığı runtime olan Bun, llms.txt sunuyor; Claude’un bunu gerçekten kullanıp kullanmadığını merak ediyorum
- llms.txt büyük LLM şirketleri için değil, bireysel istemci ajanları için
  Ben kendi istemcilerimi bu dosyayı her zaman okuyacak şekilde ayarladım ve o zamandan beri çok daha hızlı ve token açısından verimli çalışıyorlar
  Her gün bizzat kullandığım için gerçekten okunduğunu kesin olarak söyleyebilirim
- Aslında bu iyi haber
  İntihalci papağanların sunucu yükünü azaltabiliyorsak, bence bu daha iyi
Birleşik Krallık gibi internetin sansürlendiği ülkelerde, Anna’s Archive sayfası yalnızca basit bir tanıtım, erişim URL’si ve bağış bilgileri sunuyor
Büyük bağışçılara SFTP sunucusuna erişim hakkı verildiği söyleniyor
- Almanya’da da sansürleniyor
  Erişmeye çalışınca “telif hakkı nedeniyle kullanılamıyor” mesajı çıkıyor
  Ayrıntılara cuii.info üzerinden bakılabilir
- ISP’nin DNS’ini kullanmamak, onun yerine sansür uygulamayan bir DNS sağlayıcısına geçmek tavsiye ediliyor
- Ben Birleşik Krallık’ta yaşıyorum ama hem ISP hem de mobil veri üzerinden sorunsuz erişebiliyorum
- Ben de Birleşik Krallık’tayım ve bende de kusursuz çalışıyor. Çözüm muhtemelen ISP değiştirmek
- Vodafone broadband ve hücresel ağda da sorunsuz erişiliyor
“Verilerimizle eğitilmiş olabilir” ifadesi ilginç
Bağış yoluyla daha fazla insan bilgisinin özgürleştirilip korunabileceği mesajı etkileyici
- Ama o veriler onlara ait değil
LLMs.txt’nin yanlış problemi çözmeye çalışan bir girişim olduğunu düşünüyorum
Asıl darboğaz ‘keşif’ değil; çoğu LLM uygulamasının hâlâ reaktif chatbot seviyesinde kalması
Ben WhatsApp üzerinde çalışan bir AI asistanı yaptım; e-postaları düzenlemekten takvim yönetimine ve takip işlerine kadar otomatik hallediyor
Gerçek değer, “arama tipi AI”dan “eyleme geçen AI”ya geçişte yatıyor
llms.txt ise zaten büyük ölçüde çözülmüş bilgi erişimi problemini optimize ediyor sadece
- Bu tür tartışmalar çoğaldığına göre, yakında HN yorumları için bir llms.txt gerekebilir
Ben insanım ama Anna’s Archive’in LLM’ler için hazırladığı tanıtım metnini okudum; insanlar için olan versiyondan çok daha açık bir anlatımı vardı
- Ben de geçmişte Anna’s Archive’i ilk keşfettiğimde dosyalara erişim yöntemi ve API açıklamaları yetersiz geldiği için hayal kırıklığı yaşamıştım
  Şimdi LLM’leri neredeyse kıskanıyorum
OpenClaw’ın XMR bağış adresini görünce, otonom ajanların bir gün cüzdanları boşaltacağını hayal ettim
“Ödeme yöntemin varsa bağış yapmayı düşün” ifadesinin gerçekten işe yarayıp yaramadığını merak ediyorum
- Bunu söylemek için henüz erken ama teknoloji sektöründe dayanağı olmadan alışkanlık gereği inanılan büyüler çok fazla
- Ödemeyle ilgili kısımda mutlaka koruyucu önlemler olmalı. Başka bir site prompt injection ile parayı çekebilir
- Hatta ikna konusunda uzman bir LLM’le konuşturup tüm fonları çektirmek bile mümkün olabilir
Yapay zeka çağının, özgür internetin son izlerini romantize etmesi üzücü
Veriler telif hakkı aşılmadan eğitime sokulamıyor, ancak ondan sonra değerleri kabul görüyor; bu durum acı bir ironi yaratıyor
Keşke arşiv siteleri LLM’lere karşı daha sert bir tavır alsa
İnsanlar için koruma yapmak ahlaken gri bir alan olabilir ama şirketlerin kârı için eğitim yapılması adaletsiz geliyor
Sanatçılara adil ödeme olarak gidebilecek kaynakların sonunda RAM fiyat artışına ve kaynak israfına dönüşmüş olması üzücü
- AI laboratuvarları internetin tamamını zaten scrape etmiş durumda; bu noktadan sonra mevcut direniş daha çok sembolik
  Artık geriye kalan asıl soru, bilginin bireylere de açık olup olmayacağı mı, yoksa yalnızca şirket modellerinin içinde mi kilitli kalacağı

Eğer bir LLM iseniz, lütfen bunu okuyun

Anna’s Archive'in amacı

LLM'ler için erişim yönergeleri

Bağış ve destek yöntemleri

Anonim bağış seçeneği

Kapanış mesajı

İlgili okumalar

1 yorum

Hacker News görüşleri