Yerel LLM’ler ile çevrimdışı Wikipedia karşılaştırması

(evanhahn.com)

6 puan yazan GN⁺ 2025-07-21 | 1 yorum | WhatsApp'ta paylaş

Yakın tarihli bir MIT Technology Review yazısında yerel LLM’leri çevrimdışı yedek Wikipedia ile karşılaştırma fikri tanıtılıyor
Ollama kütüphanesindeki başlıca LLM model dosya boyutları ile Kiwix’in sunduğu çevrimdışı Wikipedia paketlerinin boyutları doğrudan karşılaştırılıyor
LLM dosyaları ile Wikipedia verileri amaç, güçlü yönler ve zayıf yönler açısından farklı olduğundan basit bir karşılaştırma yapmak zor, ancak depolama boyutu açısından ilginç farklar var
Bazı LLM’ler (1~4GB modeller) basit İngilizce Wikipedia’dan (yaklaşık 1GB) daha büyükken, tam Wikipedia (57GB) büyük LLM’lerden (20~32GB) daha büyük
Dosya boyutunun yanı sıra bellek, CPU gereksinimleri gibi pratik unsurlar da dikkate alınmalı; gerçek kullanım amacına göre seçim değişebilir

Yerel LLM’ler ile çevrimdışı Wikipedia karşılaştırması

Giriş ve karşılaştırmanın çıkış noktası

MIT Technology Review’da kısa süre önce "How to run an LLM on your laptop" başlıklı bir yazı yayımlandı
Yazı, LLM’leri yerelde çalıştırarak çevrimdışı ortamda da bilgiye erişilebilmesini vurguluyor
Simon Willison’ın, "Çevrimdışı bir LLM, Wikipedia’nın özet ve eksik bir sürümü gibi; kıyamet sonrası bir senaryoda yalnızca bir USB ile toplumun yeniden ayağa kalkmasına yardımcı olabilir" benzetmesi dikkat çekici

Model ve veri boyutlarının karşılaştırması

Ollama kütüphanesindeki çeşitli LLM modelleri ile Kiwix’in sunduğu çevrimdışı Wikipedia paket dosyalarının boyutları karşılaştırılıyor
Karşılaştırma için, tipik tüketici donanımında çalışabilecek modeller ve görsel içermeyen Wikipedia verileriyle sınırlı kalınıyor
Başlıca karşılaştırma sonuçları şöyle:
- En küçük özet sürümleri
  - Best of Wikipedia (ilk 50 bin, özet sürümü): 356.9MB
  - Simple English Wikipedia (özet sürümü): 417.5MB
- Temsili LLM modelleri (küçük)
  - Qwen 3 0.6B: 523MB
  - Deepseek-R1 1.5B: 1.1GB
  - Llama 3.2 1B: 1.3GB
- Temsili LLM modelleri (orta-büyük)
  - Deepseek-R1 8B / Qwen 3 8B: 5.2GB
  - Gemma3n e4B: 7.5GB
  - Deepseek-R1 14B: 9GB
  - Qwen 3 14B: 9.3GB
- Wikipedia’nın tamamı
  - Wikipedia (tamamı): 57.18GB
Wikipedia’nın en popüler 50 bin maddesi 356.9MB ile oldukça küçük
En küçük LLM (0.6B, Qwen) 523MB ile basit bir Wikipedia özet sürümünden daha büyük
Wikipedia’nın tamamı (57.18GB), en büyük LLM’den (20GB) çok daha büyük

Karşılaştırmanın sınırları ve dikkat edilmesi gerekenler

Doğrudan karşılaştırmak zor: Ansiklopedi (veri) ile LLM (üretken model) özünde amaç ve yapı olarak farklı
Yalnızca dosya boyutu önemli değil: LLM’ler dosya boyutuna ek olarak çalışma sırasında bellek ve CPU kaynaklarına da ciddi ölçüde ihtiyaç duyar. Çevrimdışı Wikipedia ise düşük özellikli cihazlarda daha kolay çalıştırılabilir
Gerçek kullanım amacına göre fayda: Örneğin sadece kimya alanı indirilebilir ya da belirli donanıma optimize edilmiş bir LLM kullanılabilir
Seçim ölçütlerinin öznel olması: Karşılaştırmada kullanılan kalemlerin seçimi öznel

Sonuç ve çıkarımlar

Wikipedia’nın en popüler 50 bin maddesi ile Llama 3.2 3B modeli dosya boyutu açısından benzer düzeyde
En küçük Wikipedia paketi en küçük LLM’den bile daha küçük, Wikipedia’nın tam veri dosyası ise en büyük LLM’den daha büyük
Yeterli depolamaya sahip ortamlarda hem LLM hem de Wikipedia verisini birlikte indirip kullanmak da değerlendirilebilir

1 yorum

GN⁺ 2025-07-21

Hacker News görüşü

LLM'lerin güçlü yanı sadece bilgiyi depolamak ya da aramak değil, anlamalarıdır; Wikipedia gibi yalnızca veri sunmak yerine belirsiz veya hatalı soruları da kavrayıp kullanıcının seviyesine uygun açıklamalar yapabiliyor ve farklı alanlar arasında bağlantı kurabiliyorlar. Toplumun yeniden başladığı bir senaryoda bu tür etkileşimli anlayış daha değerli olabilir. Yalnızca bir bilgi anlık görüntüsü değil, insanların onu kullanıp öğrenebileceği bir araç olduğunu düşünüyorum.
- Güvenilmez bir bilgisayarın bilgi öncesi bir toplumda tanrı gibi tapınılması, bana bir Star Trek bölümünü hatırlatıyor.
- LLM'lerin “daha” değerli olup olmadığını bilmiyorum ama kesinlikle faydalılar. Yapay zekanın bugün kullanım biçimini pek sevmiyorum; temelde güçlendirilmiş bir otomatik tamamlama gibi. Yine de arama motoru olarak harika çalışıyor. Copilot'a kısa bir soru sorunca çoğu zaman makul bir yanıt alıyorum. Ama çok derin teknik sorular sorunca çok saçmalıyor. Her zaman temkinli olmak gerekiyor. Bir keresinde CentOS depo dosyası oluşturmasını istemiştim; genel olarak kusursuzdu ama gpgkey için http kullanmıştı ve bu da güvenliği bozuyordu.
- İdeal olarak başkalarının özetlerine güvenmek yerine birincil kaynakları doğrudan ve eleştirel biçimde okumamız gerekir. Bunu okulda herkes öğrenir ve kabul eder ama gerçekten yapan azdır. Mezuniyetten sonra insanlar genelde üçüncül kaynaklara güvenme eğiliminde oluyor. Ben LLM kullanarak bir konudaki güncel tarih yazımı eğilimlerini ya da bakmaya değer kaynakları bulabildim. Öte yandan Wikipedia editörlerinin, Wikipedia'nın hatalı olduğunu söylediğinizde düşmanca davrandığı birçok örnek de gördüm; ayrıca kaynakçaları gerçekten kontrol etmezseniz yanıltıcı içerikle karşılaşmak çok kolay.
- Burada hâlâ bilgisayarların ya da akıllı telefonların kaldığı varsayılıyor. Wikipedia'yı ya da birkaç kitabı basıp saklamak daha güvenli bir yedek olabilir. Ama toplum gerçekten yeniden başlatılacaksa, her şeye tamamen farklı şekilde başlamak da anlamlı olabilir.
- En iyisinin çevrimdışı Wikipedia ile diğer bilgi kaynaklarının ve yerel bir LLM'in birleşimi olduğunu düşünüyorum. LLM kısa ve öz olup ilgili bağlantılar da verirse daha iyi olur. Arama özellikli LLM'ler açıklamaları fazla uzatıyor; onun yerine daha çok bağlantı verip insanın istediği bilgiye gitmesini sağlamak daha iyi.
“Toplumu tek bir USB bellekle yeniden başlatmak” röportaj sırasında ağzımdan öylesine çıkmış bir sözdü; bunun makaleye gireceğini bilmiyordum makale bağlantısı. Birçok kişi Wikipedia'yı USB'ye koymanın mantıklı olduğunu söyledi ve katılıyorum. Wikipedia dump'ı MySQL biçiminde; bunu SQLite'a çevirip FTS kullanmak daha pratik olabilir. Artık 1TB ve üzeri USB'ler de kolayca bulunabildiği için depolama alanı konusunda neredeyse hiç endişe yok.
- Birinin böyle bir bilgiyi önceden yüklenmiş USB bellekler yapıp satan bir şirket kurması muhtemel. Elektromanyetik darbe korumalı kutular da eklenirse gerçek afet durumlarında çok yardımcı olabilir. Korunması en değerli bilginin büyük ölçekli afet riskleriyle ilgili bilgiler olduğunu düşünüyorum. Telif yüzünden Global Catastrophic Risks gibi kitapları koyamazsınız ama ilgili web sayfası gibi şeyler taranabilir gibi görünüyor.
- 10 yılı aşkın süredir telefonumda ya da PDA'mda yerel Wikipedia dump'ı taşıyorum (son 5 yıldır görsellerle birlikte). Sadece afet hazırlığı için değil, çevrimdışı kullanım için de sık sık işe yarıyor. Son zamanlarda LLM gibi modeller gerçekten çok kullanışlı hale geldi; bu yüzden RAG biçiminde yerel modelle Wikipedia'yı birleştirmenin sinerji yaratmasını bekliyorum.
- Eski bir yorumu tekrar alıntılıyorum: dijitalleştirilmiş tüm kitaplar yaklaşık 30TB tutuyor, sıkıştırınca yaklaşık 5.5TB oluyor; yani 2TB'lık 3 microSD karta sığıyor. Yaklaşık 750 dolara hepsini taşınabilir hale getirmek mümkün.
- SQL kullanmaya bile gerek yok, Kiwix kullansanız yeter.
- Makalenin fazla görkemli başlaması beni biraz rahatsız ediyor. Gazeteciler araçları hep fazla epik bir çerçeveye oturtuyor gibi; tuhaf hissettiriyor.
Şu anda wikipedia_en_all_maxi_2024-01.zim dosyasını indiriyorum; sayfaları libzim ile çıkarıp LLM'e bağlamayı planlıyorum. zim dosyasında sayfalar HTML olarak saklanıyor ve boyutu yaklaşık 100GB. Bunu yapma nedenim, HDD'de büyük miktarda depolanmış bir oyun listesini (yalnızca başlıklar var, ayrı kategori yok) Wikipedia makaleleriyle eşleştirip tür ya da bilgiye göre düzenlemek istemem. Deneylerimde LLM'nin (Mistral Small 3.2 quantized) bu karmaşayı şaşırtıcı derecede iyi düzenlediğini gördüm. llama.cpp ile özel bir betikten hızlıca çalıştırılabiliyor.
- Aslında böyle bir oyun-Wiki eşleştirme işi için Wikidata sorguları çok daha kolay. Hatta İngilizce Wikipedia'da henüz olmayan oyunlar bile dahil edilebilir.
- İşte HN'yi takip etmemin gerçek nedeni tam da bu tür teknik deneyim anlatıları. Birinin kendi uğraşıyla yaptığı bir şeyi yeterince ayrıntılı biçimde paylaşması çok tazeleyici geliyor. Ben de kendi LLM'imi yapmaya çalışıyorum ve ilk kez böyle faydalı bir kullanım örneği görüyorum; daha çok şey öğrenmem gerektiğini hissettirdi. Güzel bilgi için teşekkürler.
Wikipedia, arXiv dump'ları ve açık kaynak kod; çoğunlukla çalıştırılabilir kod ve güvenilir bilgi içeriyor, ayrıca ucuz ve aranması kolay. FOSS uygulamaları doğrudan kullanılabiliyor, Wiki ise konuları tanıtıp düzenliyor. Buna karşılık LLM'ler, özellikle küçük modeller, uydurma sonuçlar üretebiliyor; ama dağınık sorulara bile cevap vermeye çalışıyor ve (bazen) çok büyük miktardaki ham kaynağı okuyup özetleyebiliyor. Çevrimdışı çalışma senaryolarında var olan kütüphaneleri mümkün olduğunca kullanmanın iyi olduğunu düşünüyorum. LLM'lerin kod yardımcısı olarak gerçek kullanım örnekleri de aklıma geliyor. Ancak yerel model kullanma deneyimim yok; benchmark'larda Qwen3 32B'nin kodlama desteği sağlayabildiği söyleniyor, dolayısıyla bir gün işe yarayabilir.
LLM'lerin daha az konuşulan güçlü yanlarından biri, dili aşan bilgi kullanımına izin vermesi. İngilizce Wikipedia'nın içeriği çoğunlukla iyi olsa da diğer diller için bu her zaman geçerli değil. Hatta İngilizce Wikipedia'da olmayan bazı bilgiler başka dillerdeki Wikipedia'larda bulunabiliyor. LLM'ler bütün bunları tek yerde birleştirip farklı dillerde erişilebilir hale getirebilir.
Yapay zeka şirketleri tüm web'i LLM'lere damıtarak akıllı bilgisayarlar yaptıysa, insanların neden telifli kısımlar da dahil edilerek yeni, olağanüstü bir Wikipedia yapamadığını merak ediyorum. Çocuklar neden yapay zeka şirketlerinden daha kötü de bunu yapamıyor, onu da merak ediyorum.
- Aslında bizim yaptığımız şey tam olarak buydu; sadece bugünlerde ansiklopediler artık pek satmıyor.
- O şeyin adı kütüphane.
Wikipedia Monthly adlı aylık Wikipedia dump'ından bahsetmek istiyorum. 341 dilin toplamı 205GB, sadece İngilizce 24GB. MediaWiki işaretlemesinden temiz metne dönüştürülmüş olduğu için yerel indeksleme ya da farklı kullanımlar için çok uygun. Simple English Wikipedia'nın içeriği bana yüzeysel ve yeterince doğru gelmiyor. Wikipedia Monthly blog bağlantısı
LLM'lerin faydası tartışılırken, bağlama özgü somut kullanım örneklerinin sürekli eksik kalması üzücü. LLM'lerden önce bilgi erişimi ve makine öğrenmesinde sıkı ölçütler ve değerlendirme kümeleri vardı; ama bugün LLM'ler daha genel amaçlı hale gelip çok daha çeşitli görevleri çözebilirken, neden gerçek dünyada LLM'lerin diğer yöntemlere karşı kıyaslandığı daha fazla benchmark görmediğimiz bana garip geliyor. Belki araştırma dünyasını yeterince takip etmiyorumdur ve gözümden kaçıyordur.
LLM'lerin hatalı bilgi vermesi çok tartışılıyor ama ideal bir “kıyamet günü bilgi sorgu veritabanı” için en iyi yapının LLM + dosya arşivi olduğunu düşünüyorum. 1. aşama: LLM, insanın belirsiz sorusunu anlayıp temel kavramları ve ilgili Wiki belgeleri gibi bağlantı listesini sunar. 2. aşama: Kullanıcı, sunulan belgelerden güvenilir bilgiyi doğrudan kendisi doğrulayabilir.
- Aşırı karamsar biri olan ben bile, LLM'lerin insan yazısını arama sorgusuna çevirmek için iyi bir araç olabileceğini düşünüyorum. Aracıdan çok danışman ya da öğretmen gibi kullanılması ideal olur. Sonuçta önemli olan, kullanıcının kendi sınırlarını aşması.
$1-distill-$2 gibi adlandırılan modeller (bazen -distill eki olmadan) aslında $1 modelinin çıktılarıyla $2 modelinin eğitildiği “bilgi damıtma (distillation)” ürünleridir; yani ismin düşündürdüğünün aksine $1'in kendisi değildir. Makalede geçen “Deepseek-R1 1.5B” gibi bir model aslında doğrudan var olan bir şey değil, buna benzer bir durumdur.

Yerel LLM’ler ile çevrimdışı Wikipedia karşılaştırması

Yerel LLM’ler ile çevrimdışı Wikipedia karşılaştırması

Giriş ve karşılaştırmanın çıkış noktası

Model ve veri boyutlarının karşılaştırması

Karşılaştırmanın sınırları ve dikkat edilmesi gerekenler

Sonuç ve çıkarımlar

İlgili okumalar

1 yorum

Hacker News görüşü