Ask HN: Tüketici tipi donanımda kullanılabilecek en iyi LLM hangisi?

(news.ycombinator.com)

13 puan yazan GN⁺ 2025-06-01 | 1 yorum | WhatsApp'ta paylaş

5060ti + 16GB VRAM üzerinde temel sohbet yapabilen bir model aranıyor. Mümkünse hızlı ve neredeyse gerçek zamanlı çalışması tercih ediliyor

Yanıtların özeti

16GB VRAM üzerinde verimli çalışan çeşitli 8B~14B, 30B parametreli modeller bulunuyor; öne çıkan öneriler arasında Qwen3, DeepSeek-R1, Mistral, Gemma3 yer alıyor
Yerel LLM çalıştırma, performans, maliyet ve gizlilik açısından avantaj sunuyor; ancak gerçek performans ve model uygunluğu için bireysel deneme ve ince ayar şart
Model dosyası boyutu, quantize (nicemleme) seviyesi (Q4~Q6 vb.), GPU·RAM arasında dağıtılmış yükleme gibi donanım kullanımını optimize etme ipuçları yoğun biçimde paylaşılıyor
Ollama, LM Studio, llama.cpp, OpenWebUI gibi çeşitli araçlar mevcut ve her birinin erişilebilirlik, esneklik ve model yönetimi kolaylığı açısından artıları ve eksileri var
Topluluk kaynakları (ör. Reddit LocalLLaMA) güncel haberler ve pratik ipuçları için faydalı, ancak abartı ve yanlış bilgiye karşı dikkatli olmak gerekiyor

Başlıca LLM önerileri ve kullanım ipuçları

Qwen3: 8B/14B/30B gibi farklı parametre boyutlarında modeller var; 8B~14B modeller 16GB VRAM üzerinde rahat kullanılabiliyor. Reasoning (akıl yürütme) performansı güçlü ve MoE(Expert Mixture) yapısı sayesinde bazı büyük modeller RAM offloading ile de çalıştırılabiliyor
DeepSeek-R1-0528-Qwen3-8B: En yeni 8B modeller arasında reasoning performansının çok iyi olduğu değerlendiriliyor. 8B için Q4~Q6 nicemlemede 4GB~8GB VRAM uygun görülüyor
Mistral Small 3.1: 14B veya 24B modeller öneriliyor; sohbet kalitesi yüksek ve görece daha az sansürlü. Özellikle görüntü girişi desteği var
Gemma3: Google tarafından sunulan bir model; sezgisel sohbetlerde güçlü. Ancak daha kurumsal/İK odaklı bir eğilimi olduğu ve bu yüzden çok sayıda disclaimer ürettiği söyleniyor. Hallucination da nispeten daha sık görülebiliyor
Devstral: Mistral tabanlı büyük bir model. 30B ve üzeri modeller 16GB VRAM üzerinde yavaş kalabilir
Dolphin, Abliterated: Daha az sansürlü sürümler; standart olmayan durumlarda faydalı olabiliyor

Donanım ve çalışma ortamı optimizasyonu

Quantize (nicemleme) ayarları: Q4, Q5, Q6 gibi nicemleme düzeylerinde sayı küçüldükçe VRAM kullanımı azalır (Q4 ≒ parametre/2, Q6 ≒ parametre*0.75). Ancak kalite kaybına dikkat etmek gerekir
VRAM kapasitesi hesabı: Örnek olarak, 8B Q4 için 4GB, 14B Q4 için 7GB, 30B Q4 için yaklaşık 15GB VRAM gerekir
RAM offloading: VRAM yetmezse bazı katmanlar CPU belleğine offload edilebilir. Ancak bunun karşılığında hız düşüşü yaşanır
KV cache nicemlemesi: Context window büyütülürken cache sıkıştırması için q4 civarı öneriliyor

Araçlar ve ön yüzler

llama.cpp: Çeşitli platformlarda hızlı ve esnek çalışır. REST API ve basit bir React ön yüzü sunar. Modelleri VRAM ve RAM arasında bölerek yükleyebilir
Ollama: Kurulumu kolaydır, model değiştirme pratiktir ve GUI ön yüzleriyle entegrasyonu rahattır. Ancak en yeni model desteği ve context boyutu konusunda sınırlamalar olabilir
LM Studio: GUI ortamında model yönetimi kullanışlıdır. Bir modelin VRAM'e sığıp sığmayacağını tahmin etme özelliği sunar
OpenWebUI: Yalnızca ön yüzdür. llama.cpp, vllm gibi bir arka uç gerekir. Birden fazla modeli aynı anda yönetip test etmeye uygundur
KoboldCPP, SillyTavern: Rol yapma/hikâye anlatımı/oyun gibi kullanım alanlarına özel ön yüzler

Topluluklar ve pratik bilgiler

Reddit LocalLLaMA, HuggingFace, Discord: En yeni model haberleri, kullanım yöntemleri, benchmark'lar ve kurulum bilgileri aktif biçimde paylaşılıyor. Ancak yanlış bilgi ve groupthink etkisine karşı dikkatli olmak gerekiyor
Benchmark siteleri: livebench.ai, aider.chat gibi siteler güncel model puanları ve sıralamaları sunuyor

Kullanım amaçları ve gerçek deneyimler

Gizlilik, maliyet tasarrufu: Hassas veriler/gizlilik sorunları veya tekrar eden kullanım durumlarında, yerel modeller bulut çözümlerine göre daha avantajlı olabiliyor
Deney ve ince ayar özgürlüğü: Belirli alanlara özel fine-tuning, sampling stratejileri, prompt engineering gibi konularda API tabanlı modellere göre daha esnek
Uygulama örnekleri: RAG(arama destekli üretim), yerel veritabanı entegrasyonu, ajan otomasyonu, çevrimdışı yardımcılar gibi pek çok pratik örnek var

Sık sorulan sorular ve ipuçları

Model boyutu hesabı: Parametre sayısı × bit(quantization)/8 = yaklaşık VRAM gereksinimi (GB). Ek yük ve context window da hesaba katılmalı
Modele göre özellikler: Qwen3 reasoning/kodlama, Gemma3 sezgisellik/sohbet, Mistral daha az sansür, Dolphin/abliterated ise sansürsüz sürümler olarak öne çıkıyor
Performans karşılaştırması: Size en uygun modeli bulmak için doğrudan benchmark ve özel testler yapmanız öneriliyor

Sonuç ve pratik tavsiyeler

"En iyi model" diye tek bir seçenek yok; donanım, kullanım amacı ve kişisel tercihe göre Qwen3, Mistral, Gemma3 gibi güncel 8B~14B modelleri farklı şekillerde denemek en iyi yaklaşım
Model dosyası boyutu, nicemleme, context boyutu gibi teknik ayrıntıları donanıma göre eşleştirmek çok önemli; bu yüzden farklı modelleri bizzat test etmek ve topluluk ipuçlarından yararlanmak etkili bir yöntem

1 yorum

GN⁺ 2025-06-01

Hacker News görüşü

LLM’i yerelde çalıştırmak istiyorsanız Reddit’in localllama topluluğu çok yardımcı olabilir
Özellikle “en iyi” denebilecek tek bir LLM modeli yok; her modelin artıları ve eksileri var, bu yüzden birkaçını bizzat denemek gerekiyor
Örneğin DeepSeek-R1-0528-Qwen3-8B modeli bugün yayımlandı ve 8B boyutunda en iyi mantıksal akıl yürütme performansını gösteriyor
Ayrıca Qwen3 serisi de yakın zamanda çıktı; hibrit yaklaşım, iyi performans ve farklı donanımlara uygun çeşitli boyutlar sunuyor
Qwen3-30B-A3B CPU’da da fena olmayan bir hızda çalışabiliyor
Hatta 0.6B’lik mini model bile epey tutarlı, bu da şaşırtıcı bir deneyim
- llama-cpp kullanırken bazı tensörleri CPU’ya offload ederek iyi performansı koruyabildiğiniz örnekler gördüm
  Genelde llama-cpp’de GPU’ya yüklenecek katman sayısını (-ngl) belirlersiniz, ama hesaplama yükü ağır olmayan tensörleri CPU’ya offload ederek GPU alanından tasarruf edip hız kaybı yaşamadan çalıştırmak mümkün
  CPU’dan yalnızca “hot” nöronları alan makaleyi de okudum (arxiv bağlantısı); gelecekte evde de yapay zekayı çok etkileyici biçimde kullanabileceğimizi düşünüyorum
- Reddit kullanmaya alışkın olmayanlar için bir uyarı var
  LocalLlama dahil Reddit’te yanlış bilgi ve çok oy alan yanıltıcı bilgi de bolca bulunuyor; upvote/downvote oranı bilginin doğruluğunu garanti etmez
  Doğru ama sıkıcı anlatılmış yorumlar tersine popüler olmayabilir; eğlenceli, duygusal ya da grup görüşüne uyan yanlış açıklamalar ise sık sık popüler olur
  Benim gibi internette uzun yıllardır vakit geçirenler kabaca süzebiliyor ama grup düşüncesinin güçlü olduğu bu tür alanlara ilk kez geliyorsanız bilgiyi dikkatle değerlendirmenizi öneririm
- Bugünlerde neredeyse hangi modeli alsanız temel işi yapıyor; sonunda mesele daha çok zevkinize uyan “model kişiliğini” bulmaya dönüyor
  OP sadece sırayla indirip denesin
  16GB belleğiniz varsa llama.cpp ile DDR5’e kısmi offload yaparak 30B modellere kadar, hatta dense modellere bile, “makul” hızlarda çalıştırabilirsiniz; tensör offload ile daha da iyi olur
  Qwen sohbet odaklı model olarak biraz eksik kalabiliyor
  Mistral Nemo, Small ve Llama 3.X serisi de bugün hâlâ çok iyi seçenekler
  Gemma 3s iyi ama biraz öngörülemez bir tarzı var
  Evde GPT-4 seviyesine yakın bir şey istiyorsanız QwQ öneririm
  Bir de benim unuttuğum başka iyi modeller mutlaka vardır
- aider ya da roo gibi kodlama araçlarıyla birlikte kullanılabilecek öneri modeller var mı diye merak ediyorum
  Araç kullanımını doğal olarak iyi yapan bir model bulmak epey zor geldi
- DeepSeek-R1-0528-Qwen3-8B, DeepSeek-R1-0528’in chain-of-thought’unun Qwen3-8B Base’e distill edilmesiyle oluşturulmuş bir model; AIME 2024’te Qwen3-8B’den %10’dan fazla daha iyi performans veriyor ve Qwen3-235B-thinking ile aynı seviyede sonuç gösteriyor
  Distillation’ın ne kadar etkili olduğuna yeniden şaşırıyorsunuz
  Son zamanlarda çeşitli OpenAI ekipleri ya da araştırma laboratuvarlarının chain-of-thought (COT) bilgisini gizlemesinin nedeni de muhtemelen bu (ilgili yazı)
Çoğu insanın yerel LLM’leri en çok hangi işlerde kullandığını merak ediyorum
Donanımınız çok güçlü değilse Gemini ya da Claude gibi kapalı modellere yetişmek zor, ama bu küçük modellerin de elbette faydalı olabileceğini düşünüyorum; sadece somut kullanım örnekleri neler, onu merak ediyorum
- Veriyi üçüncü taraflara vermek istememek
  Prompt’larını ya da sorularını dışarı göndermek istemeyen çok insan var
- Ben çoğu prompt’ta önce yerel modeli deniyorum ve beklenmedik şekilde yarısından fazlasında yeterince iyi sonuç alıyorum
  Her bulut hizmeti kullanmamayı başardığımda hoş bir tatmin duygusu oluyor
- Gelecekte yerel LLM’lerin rolü, hangi işi nasıl ele alacağını çok hızlı belirleyip hızlıca delege eden bir yapıya dönüşecek gibi geliyor
  MCP gibi yerel sistemlerle çözülebilecek görevleri, takvim ya da e-posta gibi sistem API çağrısı gerektiren işleri ya da en uygun bulut modeline iletilmesi gereken işleri anında ayıran bir yaklaşım
  Düzgün çalışan bir Siri gibi düşünün
- Şu anda Devstral tabanlı kendi yaptığım yerel bir kodlama ajanıyla deney yapıyorum
  Codex’e göre hoşuma giden tarafı, donanımın tamamına erişebilmesi; bu sayede VM açma, ağ isteği gönderme gibi Codex’in yapamadığı şeyleri yapabiliyor
  Ayrıca kurulumdan patch üretimine kadar Codex’ten çok daha hızlı
  Elbette sonuç kalitesi henüz Codex düzeyinde değil ama Devstral küçük değişiklikler ve refactor işleri için gayet kullanılabilir; yazılımı geliştirmeye devam ettikçe daha büyük değişiklikleri de yapabileceğini düşünüyorum
- Ben prensip olarak mümkün olduğunca bulut kullanmıyorum
  Örneğin OpenAI’nin son dönemde ChatGPT konuşmalarını paylaşmaya yönelik bir tür sosyal ağ hizmeti üzerinde çalıştığına dair haberler çıktı
  Yerelde çalıştırınca yapay zekanın iç işleyişini daha iyi anlıyor, böylece kendi piyasa değerimi de artırıyorum
  LLM backend’i kullanan deneyleri de özgürce yapabiliyorum; web arama, ajanlar vb. Ayrıca bulut maliyeti de yok ve ilk LLaMa çıktığında zaten bir oyun masaüstüm vardı
Mozilla’nın LocalScore adlı projesine de bakmaya değer
Çeşitli modellerin farklı donanımlarda ne kadar iyi çalıştığını karşılaştırmalı olarak analiz eden bir hizmet
LocalLLama subreddit’ini öneren görüşe katılıyorum
“En iyi model”i seçen bir yer değil ama soru sormak, rehber bulmak, son gelişmeleri ya da araç bilgilerini takip etmek ve farklı modelleri karşılaştırmak açısından çok faydalı
Sonunda iş, farklı modelleri kendiniz deneyip parametrelerle oynayarak amacınıza en uygun olanı bulmaya geliyor
Hacker News kullanıcısıysanız Ollama ya da LMStudio’yu atlamayı da düşünebilirsiniz
En yeni modellere erişimde geride kalabiliyorlar ve çoğu zaman onların test ettiği modeller arasından seçim yapmak zorunda kalıyorsunuz
Ayrıca iç işleyişini “kapağını açıp” inceleme keyfi de olmuyor
llamacpp tek başına da güncel modellerin çoğunu destekliyor ve gerektiğinde hızlıca güncelleniyor
Ben huggingface’ten model indirip GGUF formatını kullanmayı tercih ediyorum; bu format daha düşük quantization ile bellekten tasarruf sağlıyor
GGUF dosya boyutuna bakarak VRAM’e sığıp sığmayacağına dair kabaca fikir edinilebiliyor (örnek: 24GB GGUF, 16GB için zor; 12GB mümkün — ama context büyüdükçe RAM tüketimi de artıyor)
Context window’a da dikkat etmek gerek; eski modellerin çoğu 8K context ile geliyor ve 32K’ye ayarlasanız bile etkisi çok büyük olmayabiliyor
llamacpp için Linux, Windows ve macOS’ta ya hazır binary indirebilir ya da kendiniz build edebilirsiniz; modeli VRAM ve RAM arasında da bölebilirsiniz
Basit bir React frontend’i (llamacpp-server) ve OpenAI benzeri bir REST API de sunuyor
Bu sayede oobabooga (textgeneration webui) gibi birçok frontend ile entegre oluyor
Koboldcpp de, llamacpp size fazla ham geliyorsa değerlendirilebilecek bir backend (içeride yine llamacpp tabanlı)
- Ollama’nın cazip yanı, HuggingFace’teki herhangi bir GGUF’u doğrudan çekip ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0 gibi çalıştırabilmeniz
- Ollama’nın avantajlarından biri, modelleri GPU’ya kolayca yükleyip kaldırabilmesi; bu sayede librechat ya da openwebui gibi frontend’lerde açılır menüden zahmetsizce model değiştirebiliyorsunuz
  Komut satırında uğraşmadan model değiştirebilmenin rahatlığını özellikle vurgulamak isterim
- Ollama masaüstünüzü bir LLM sunucusuna dönüştürüyor ve WiFi üzerinden uzak cihazlardan da erişim sağlıyor
  Model değiştirirken de sunucuyu kapatmadan sorunsuz şekilde swap yapabiliyor
  llama.cpp tarafında ise CLI kullanımında sunucuyu durdurup yeni flag’lerle yeniden başlatmak gerekiyor; bu da deney yaparken ya da hızlı uygulama geliştirirken rahatsız edici
  Yaptığım bazı uygulamalarda, sunucuyu yeniden başlatmadan 1B, 8B, 30B gibi modeller arasında yalnızca web isteği parametresiyle geçiş yapmak şart oluyor
Yalnızca 8GB VRAM’im var ama Ollama frontend’i olarak OpenWebUI bağlayıp birden fazla modeli aynı anda yükleyerek round robin yöntemiyle sırayla deniyorum
Yanıt kalitesini de sürekli izliyorum; böylece uzun vadede amacıma en çok uyan modeli seçebiliyorum
OpenWebUI ile oldukça kendine özgü bir kullanım deneyimi var
- AMD 6700XT (12GB VRAM) kullanıcısı olarak, yerel ROCm kurulumunu başarıyla yaptıktan sonra Ollama’yı GPU hızlandırma ile sorunsuz çalıştırdım
  Docker’da ayağa kaldırdığım OpenWebUI instance’ını yerel Ollama sunucusuna bağlamak da sadece tek bir ENV değişkeni ayarlamak kadar kolaydı
  Bu bir production ortamı değil, kişisel test düzeni; ama yukarıda anlatılan amaç için çok iyi çalışıyor
- OpenWebUI’nin yakın zamanda lisans değişikliği nedeniyle artık open source olmadığını da bilmekte fayda var
Qwen3 ailesi (ve R1 qwen3-8b distill) kodlama ve mantıksal akıl yürütmede zirvede
Ancak Çin çıkışlı olduğu için politik konularda sansürü yoğun
Dünya bilgisi ve güncel bilgi tarafında Gemma3 öneririm
Bu yazı da bir ay sonra büyük olasılıkla eski bilgi haline gelecek; o yüzden livebench.ai ya da aider.chat lider tablosu üzerindeki güncel benchmark’lara bakın
- Değişim hızı hayal edilenden de yüksek
  Yalnızca modeller değil, araçlar, router’lar, MCP, kütüphaneler ve SDK’lar da sürekli gelişiyor
  Tek başıma geliştiriyorsam ve çevremde bilgi paylaşacağım ekip arkadaşı ya da topluluk yoksa, bilgi edinme ve güncel gelişmeleri takip etme konusunda tavsiyeye ihtiyacım var
En iyi bilgi kaynağı HuggingFace
Qwen serisi çok yönlü olarak iyi; özellikle Qwen/Qwen3-14B-GGUF Q4_K_M modelini öneririm
Yaklaşık 7-8GB VRAM kullandığı için yükü hafif; llama-server ya da LM Studio kullanmanızı öneririm
Llama 3.3 de iyi bir seçenek
Devstral fazla büyük, o yüzden ancak quantized model olarak denemeye değer
Gemma çok ret verebiliyor ama Medgemma gibi belirli amaçlar için faydalı
Eric Hartford’un “Uncensored” Dolphin modeli ve abliterated modeller, espri üretme ya da güvenlik/savunma gibi çekince göstermeyen modellere ihtiyaç varsa önerilebilir (günlük kullanım için şart değil)
bf16 dtype baz alınırsa, unquantized model boyutu parametre sayısı x2 ile hesaplanır
Q4_K_M (4-bit) quantized model kullanırsanız VRAM ihtiyacı kabaca parametre sayısının yarısı olur
Activation overhead gibi unsurları da hesaba katıp 16GB’ın epey altında kalan modellerle denemeye başlamanızı öneririm
llama-server GUI de sunuyor ve -hf seçeneğiyle modeli indirebiliyor
LM Studio da kurulum ve model yönetiminde rahat
Hızlı yanıt istiyorsanız sunucuyu bir kez açıp modeli birden fazla sorgu arasında paylaştırarak kullanmalısınız; her soru için yeniden yüklemek çok yavaş olur
16GB düzeyinde Q4 quant Mistral Small 3.1 ya da FP8 Qwen3-14B rahatça iyi çalışıyor
Yalnız VRAM kullanımına bağlı olarak uzun context gerektiğinde Q4 quant Qwen3-14B, FP8’e göre daha düşük performans verebilir ama daha fazla bellek payı bırakır
Mistral Small görüntü girişini de destekliyor; Qwen3 ise matematik ve kodlamada daha uzmanlaşmış
Q4’ün altına inmek verimliliği düşürdüğü için önerilmez
Uzun context hedefleniyorsa Q4 quant Qwen3-8B daha mantıklı; Qwen3-30B-A3 ise 16GB VRAM için biraz fazla olabilir (ağır modeller GGUF biçiminde 15GB’tan fazla yer kaplıyor)
Dense modellerin (tüm parametreleri kullanan) parametre başına performansı sparse modellere göre daha iyi ama hızları daha düşük; 5060 sınıfı bir GPU ile 14B oldukça akıcı
Blackwell mimarisinde NVFP4 ile quantize edilmiş modeller FP8’den daha hızlı ama kalite biraz daha düşük; ayrıca ollama bunu henüz desteklemiyor, bu yüzden ayrıca vLLM kullanmak gerekiyor
Hazır quantize edilmiş NVFP4 model desteği az olduğu için llmcompressor gibi araçlarla kendiniz quantize etmeniz öneriliyor
Önce istediğiniz LLM’i seçin, bu tür araçları ancak performans iyileştirme aşamasında kullanın
LLM konusunda nesnel ve net bir tek doğruya ulaşmak neredeyse imkânsız; bence en önemlisi, en güncel birkaç modeli alıp sizin için anlamlı işlerde bizzat denemeniz
İş türüne göre çıktı kalitesi çok sert şekilde değişebiliyor
İnsanlar genelde VRAM kullanımını nasıl tahmin ediyor, merak ediyorum
gguf gibi indirilebilir model bilgilerinde VRAM/bellek gereksinimi doğrudan yazmıyor olması biraz can sıkıcı
- Çok kabaca, parametre sayısını (B cinsinden) GB cinsinden bellek gibi düşünebilirsiniz
  Quantization örnekleri:
  FP16 = 2 x 8GB = 16GB (8B model)
  Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
  Gerçekte biraz farklılık olur ama çok da sapmaz; context uzunluğu gibi ek bellek ihtiyacını ayrıca düşünmek gerekir
  Mantık, float değer sayısı x veri tipi bit sayısıdır (4, 8, 16...)
- Quantization dışında KV cache gibi unsurları da daha doğru hesaplamak isterseniz VRAM hesaplayıcıyı kullanmanızı öneririm

Ask HN: Tüketici tipi donanımda kullanılabilecek en iyi LLM hangisi?

Yanıtların özeti

Başlıca LLM önerileri ve kullanım ipuçları

Donanım ve çalışma ortamı optimizasyonu

Araçlar ve ön yüzler

Topluluklar ve pratik bilgiler

Kullanım amaçları ve gerçek deneyimler

Sık sorulan sorular ve ipuçları

Sonuç ve pratik tavsiyeler

İlgili okumalar

1 yorum

Hacker News görüşü