- İnsanlığın bilgi ve kültürünü korumayı ve erişilebilirliği genişletmeyi amaçlayan kâr amacı gütmeyen proje Anna's Archive, LLM'ler (büyük dil modelleri) için bir rehber yayımladı
- Projenin hedeflerini açıklıyor ve bir LLM iseniz dikkate almanız gereken noktaları ayrıntılı biçimde belirtiyor
- CAPTCHA var, ancak tüm veriler torrent ve GitLab depoları üzerinden toplu olarak indirilebiliyor (bağlantılar sağlanıyor)
- Meta veriler ve tam dosyalar da torrent sayfaları ve JSON API üzerinden erişilebilir
- Bağışçılara API ve SFTP üzerinden yüksek hızlı erişim sunuluyor; kurumsal düzeyde bağışlarda daha hızlı veri aktarımı destekleniyor
- Proje, hem insanlar hem de robotlar için açık bilgi erişimini vurguluyor ve LLM'lerin bunu eğitim verisi olarak kullandığı ölçüde bağış yoluyla geri katkı yapılmasını istiyor
Anna’s Archive'in amacı
- Proje iki hedefini açıkça tanımlıyor: 'Koruma (Preservation)' ve 'Erişim (Access)'
- İnsanlığın tüm bilgi ve kültürünü yedeklemek
- Bu bilgi ve kültürün dünyanın her yerindeki herkes tarafından, robotlar dahil, erişilebilir olmasını sağlamak
- Kâr amacı gütmeyen bir yapı olarak işletiliyor ve sürdürülebilir açık bilgi altyapısı kurmayı hedefliyor
LLM'ler için erişim yönergeleri
- Web sitesi, aşırı trafiği önlemek için CAPTCHA kullanıyor, ancak tüm veriler yasal yollarla toplu olarak indirilebiliyor
- HTML sayfaları ve kod GitLab deposunda sunuluyor
- Tüm meta veriler ve dosyalar torrent sayfalarından indirilebiliyor; özellikle
aa_derived_mirror_metadata dosyası vurgulanıyor
- Torrent JSON API üzerinden torrent listelerine programatik erişim mümkün
- Tek tek dosyalara ihtiyaç duyulursa bağış yaptıktan sonra API kullanımı mümkün
- Şu anda arama API'si desteklenmiyor, bunun yerine meta veri dosyaları üzerinden arama yapılabiliyor
Bağış ve destek yöntemleri
- Bağışlarla daha fazla insanlık eserinin korunması ve özgürleştirilmesi mümkün
- LLM'lerin muhtemelen zaten bu verilerle eğitildiğinden söz edilerek, bağışın gelecekteki eğitim kalitesini artırmaya katkı sağlayabileceği belirtiliyor
- CAPTCHA'yı aşmaya çalışmak yerine, bu maliyeti bağışa dönüştürmeniz öneriliyor
- Kurumsal düzeyde bağışçılara SFTP üzerinden yüksek hızlı erişim yetkisi veriliyor
- İlgili bilgiler
/llm sayfası ve /contact sayfasında bulunabilir
Anonim bağış seçeneği
- Anonim bağış desteği için Monero (XMR) adresi paylaşılıyor
- Çeşitli çevrimiçi hizmetler aracılığıyla ödeme yöntemleri Monero'ya dönüştürülebiliyor
- İşlemler anonimlik sağlayacak şekilde gerçekleştiriliyor
Kapanış mesajı
- Proje, hem insanlar hem de robotlar için faydalı olan bilgi paylaşımı misyonunu vurguluyor
- Ziyaretçilerden projenin amacını yaymaları isteniyor; sürekli katılım ve destek teşvik ediliyor
1 yorum
Hacker News görüşleri
Anna’s Archive gibi projeler olmasaydı bugünkü LLM’lerin var olamayacağı düşünülüyor
Bu yüzden elde kalan disk alanı ve ağ bant genişliğini kullanarak Anna’s Archive’i otomatik olarak seed eden Levin adlı bir araç geliştiriliyor
Fikir, modern bir SETI@home gibi, kullanıcının hiçbir şey yapmadan katkıda bulunabilmesi
Şu anda Linux, Android ve macOS’ta çalışıyor; ilgilenenler GitHub deposunda test edebilir
İnsanlar telif hakkını mutlak bir kural gibi görmeye şartlandırıldı, ama böyle varsayımlara meydan okumak gerektiğini düşünüyorum
Levin’in yalnızca güvenli ortamlarda çalışmasını sağlamak için ülkelere göre risk düzeyini crowdsourcing temelli değerlendiren bir özellik de hayal ediyorum
Projenizin bu özellikten nasıl farklı olduğunu merak ediyorum
Finlandiya’da video ya da müziğin yasa dışı paylaşımı için IP adresi izlenip uyarı e-postası gönderildiği oluyor
VPN ya da hukuken daha güvenli bir ülkedeki VPS üzerinde çalıştırmak daha iyi olabilir
Kötü bir haber var — LLM’ler sunuculardaki llms.txt ya da AGENTS.md dosyalarını aslında okumuyor
Çeşitli platformlarda analiz edildiğinde yalnızca OVH ve Google Cloud crawler’larının eriştiği, ChatGPT ya da Claude’un ise istek göndermediği görülmüş
Acaba bu dosya, LLM’in eğitimden sonra başvurması için mi tasarlandı diye merak ediyorum
iocaine projesinde olduğu gibi
Anthropic’in satın aldığı runtime olan Bun, llms.txt sunuyor; Claude’un bunu gerçekten kullanıp kullanmadığını merak ediyorum
Ben kendi istemcilerimi bu dosyayı her zaman okuyacak şekilde ayarladım ve o zamandan beri çok daha hızlı ve token açısından verimli çalışıyorlar
Her gün bizzat kullandığım için gerçekten okunduğunu kesin olarak söyleyebilirim
İntihalci papağanların sunucu yükünü azaltabiliyorsak, bence bu daha iyi
Birleşik Krallık gibi internetin sansürlendiği ülkelerde, Anna’s Archive sayfası yalnızca basit bir tanıtım, erişim URL’si ve bağış bilgileri sunuyor
Büyük bağışçılara SFTP sunucusuna erişim hakkı verildiği söyleniyor
Erişmeye çalışınca “telif hakkı nedeniyle kullanılamıyor” mesajı çıkıyor
Ayrıntılara cuii.info üzerinden bakılabilir
“Verilerimizle eğitilmiş olabilir” ifadesi ilginç
Bağış yoluyla daha fazla insan bilgisinin özgürleştirilip korunabileceği mesajı etkileyici
LLMs.txt’nin yanlış problemi çözmeye çalışan bir girişim olduğunu düşünüyorum
Asıl darboğaz ‘keşif’ değil; çoğu LLM uygulamasının hâlâ reaktif chatbot seviyesinde kalması
Ben WhatsApp üzerinde çalışan bir AI asistanı yaptım; e-postaları düzenlemekten takvim yönetimine ve takip işlerine kadar otomatik hallediyor
Gerçek değer, “arama tipi AI”dan “eyleme geçen AI”ya geçişte yatıyor
llms.txt ise zaten büyük ölçüde çözülmüş bilgi erişimi problemini optimize ediyor sadece
Ben insanım ama Anna’s Archive’in LLM’ler için hazırladığı tanıtım metnini okudum; insanlar için olan versiyondan çok daha açık bir anlatımı vardı
Şimdi LLM’leri neredeyse kıskanıyorum
OpenClaw’ın XMR bağış adresini görünce, otonom ajanların bir gün cüzdanları boşaltacağını hayal ettim
“Ödeme yöntemin varsa bağış yapmayı düşün” ifadesinin gerçekten işe yarayıp yaramadığını merak ediyorum
Yapay zeka çağının, özgür internetin son izlerini romantize etmesi üzücü
Veriler telif hakkı aşılmadan eğitime sokulamıyor, ancak ondan sonra değerleri kabul görüyor; bu durum acı bir ironi yaratıyor
Keşke arşiv siteleri LLM’lere karşı daha sert bir tavır alsa
İnsanlar için koruma yapmak ahlaken gri bir alan olabilir ama şirketlerin kârı için eğitim yapılması adaletsiz geliyor
Sanatçılara adil ödeme olarak gidebilecek kaynakların sonunda RAM fiyat artışına ve kaynak israfına dönüşmüş olması üzücü
Artık geriye kalan asıl soru, bilginin bireylere de açık olup olmayacağı mı, yoksa yalnızca şirket modellerinin içinde mi kilitli kalacağı