5 puan yazan GN⁺ 2025-03-17 | 2 yorum | WhatsApp'ta paylaş
  • Her yıl birçok eski web sayfası ortadan kayboluyor ve bu, sonsuza dek yitirilen tarih anlamına geliyor
  • Internet Archive, modern tarihin en değerli varlıklarından biri
  • Ancak çeşitli şirketler ve kurumlar, arşivin hayatta kalmasını ve korunmasını zorlaştırıyor
  • Internet Archive merkezinin eski bir kilise binasında bulunması sembolik; burayı kutsal bir mekân olarak görmeliyiz
  • Eski programcıların Z80 assembly ile çalıştığı zamanlar, ilk internet kuşağının tartışmaları ve 90'larda şekillenen alt kültürler giderek yok oluyor
  • Kişisel blogların kaybı → bireylerin yaşam ve bilinç kayıtlarının kaybı
  • Bilimsel makaleler, dijital sanat, video oyunları, iklim verileri ve erken dönem haber kaynakları da yavaş yavaş kayboluyor
  • Yayıncılar veya web siteleri ortadan kalktıkça bu bilgilerin çoğu kalıcı olarak yok oluyor
  • Tüm bilgiyi korumaya yönelik girişimlerin pratikte başarısız olma ihtimali yüksek
    • Çünkü ekonomik getirisi olmayan durumlarda devasa maliyetler ortaya çıkıyor
    • Bugünün dünyasında para kazandırmayan işlere kaynak ayırmak zor
    Reklam
  • LLM'lerin (büyük dil modelleri) bilgi sıkıştırma kapasitesi kusursuz olmasa da asgari düzeyde bir koruma işlevi görebilir
    • DeepSeek V3, internetin kayıplı sıkıştırılmış bir sürümü olarak zaten yayımlandı ve kullanılıyor
  • Tüm kayıpları geri çeviremeyiz, ama Internet Archive gibi kurumları desteklemeliyiz
  • Aynı anda önemli bir görev daha var: açık yayımlanmış LLM ağırlıklarının kaybolmamasını sağlamak ve onları korumak
  • Internet Archive içeriğinin LLM ön eğitim veri setlerine dâhil edilmesini güvence altına almalıyız

2 yorum

 
GN⁺ 2025-03-17
Hacker News görüşü
  • Başlığın "Big LLMs" olmasını beğendim. Artık büyük LLM’leri, küçük LLM’leri ve muhtemelen orta boy LLM’leri ayırt ediyoruz. Bunlara "Tall LLMs", "Grande LLMs", "Venti LLMs" demeyi önermek isterim

  • Internet Archive, modern tarihin en değerli parçalarından biri olarak görülmeli. Ancak birçok şirket ve kuruluş, arşivlerin hayatta kalmasını ve birikmesini giderek daha zor hale getiriyor. Arşivin merkezinin eskiden bir kilise olan bir yerde bulunmasını anlıyorum. Bunu kutsal bir mekân olarak düşünmenin en iyi yolu bu. Avrupa merkezli bir Internet Archive oluşturmak için aktif bir çaba var

  • Mozilla’nın llamafile projesi, LLM’leri tarihsel amaçlarla koruyabilmek için tasarlandı. Ağırlıkları ve gerekli tüm yazılımları, deterministik, bağımlılıksız tek dosyalı çalıştırılabilir dosyalar olarak sunuyorlar. llamafile’ları saklarsanız, 50 yıl sonra bile bugünle aynı çıktıyı alabilirsiniz. Bu özel anın gelecek nesiller için arşivlenmesini sağlamak adına Mozilla’yı desteklemenizi isterim

  • Harita nasıl arazinin kendisi değilse, özet de içeriğin ya da bir kütüphanedeki gerçek kitabın kendisi değildir. Bir gönderiyi, kitabı ya da forumu okumak istiyorsam tam olarak onu okumak isterim; gizemli matematiksel algoritmalarla üretilmiş bir taklidini değil

  • Film poster bağlantıları içeren film tablolarını text-davinci ile yaptığımız o eski güzel günleri özlüyorum. Genelde s3 bucket içindeki görsel URL’leri üretirdi. Bağlantılar her zaman çalışırdı

  • İnternetteki her şeyin sonsuza dek arşivlenmemesinin sorun olmadığını düşünüyorum. Eskiden insanlar kâğıda yazardı ve bunların çoğu arşivlenmezdi. Bir noktada basitçe yok olup giderdi. Büyükannem ve büyükbabamdan çok sayıda kutu dolusu not, kitap ve belge miras aldım. Bunların çoğunun benim için bir anlamı yoktu. Pek çoğunu atmak zorunda kaldım ve yalnızca çeşitli belgelerden birkaç bin sayfa sakladım. Diğerleri sonsuza dek kayboldu. Ve bu muhtemelen sorun değil. Arşivler çok önemli, ama bugün en zor kısım neyin arşivleneceğini seçmek. Her saniye internete o kadar çok içerik ekleniyor ki bunların ancak bir kısmını arşivleyebiliriz

  • Birden fazla farklı LLM kullanarak, internet eğitim verisinin popüler ortak alt kümesinin yaklaşık bir sürümünü yeniden oluşturmanın mümkün olup olmadığını merak ediyorum. Bununla ilgili matematik makalelerine yönlendirebilecek birini de merak ediyorum

  • Bu bana pek anlamlı gelmiyor. Kaynaksız söylentilerin tarihsel değeri sınırlıdır ve web’in çoğu, ağırlıklarla kullanılabilen modeller açısından Common Crawl tabanlı görünüyor; dolayısıyla koruma amacıyla zaten kullanılabilir

  • LLM’lerin insan bilgisini koruduğu anlatısını seviyorum. Şahsen tüm bilgi ve enformasyonun kolayca erişilebilir ve kullanılabilir olmasını isterim. Telif hakkı sahiplerinin her şeyi ücretli hale getirmeye ya da kayıt duvarlarının arkasına saklamaya yönelik tutarlı iş kararlarına rağmen çoğu insanın da aynı hissi paylaştığından eminim. Google’ın reklamlar üzerinden dünya bilgisini düzenleyip bundan büyümesinden hoşlanmayan çok kişi var, ancak uzun vadede bilgi çeşitli internet veri formatlarında düzenlenip korunuyor. Sonuçta Google, artık tarihsel bir unsur olan ve LLM ağırlıklarını mümkün kılan transformer’ı ilk tasarlayan şirketti

  • Bilimsel makaleler ve süreçler, yayıncılar başarısız olduğunda ve web siteleri kapandığında sonsuza dek kayboluyor. Büyük bilimsel yayıncıların (şu anda, bizim zamanımızda) başarısız olacağını sanmıyorum. Onlar zengin

 
regentag 2025-03-18

"Özet, içeriğin ya da kütüphanedeki gerçek kitabın kendisi değil. Bir gönderiyi, kitabı ya da forumu okumak istiyorsam, tam olarak onu okumak isterim. Gizemli bir matematiksel algoritmanın ürettiği taklidini değil"

Buna katılıyorum.