- 5060ti + 16GB VRAM üzerinde temel sohbet yapabilen bir model aranıyor. Mümkünse hızlı ve neredeyse gerçek zamanlı çalışması tercih ediliyor
Yanıtların özeti
- 16GB VRAM üzerinde verimli çalışan çeşitli 8B~14B, 30B parametreli modeller bulunuyor; öne çıkan öneriler arasında Qwen3, DeepSeek-R1, Mistral, Gemma3 yer alıyor
- Yerel LLM çalıştırma, performans, maliyet ve gizlilik açısından avantaj sunuyor; ancak gerçek performans ve model uygunluğu için bireysel deneme ve ince ayar şart
- Model dosyası boyutu, quantize (nicemleme) seviyesi (Q4~Q6 vb.), GPU·RAM arasında dağıtılmış yükleme gibi donanım kullanımını optimize etme ipuçları yoğun biçimde paylaşılıyor
- Ollama, LM Studio, llama.cpp, OpenWebUI gibi çeşitli araçlar mevcut ve her birinin erişilebilirlik, esneklik ve model yönetimi kolaylığı açısından artıları ve eksileri var
- Topluluk kaynakları (ör. Reddit LocalLLaMA) güncel haberler ve pratik ipuçları için faydalı, ancak abartı ve yanlış bilgiye karşı dikkatli olmak gerekiyor
Başlıca LLM önerileri ve kullanım ipuçları
- Qwen3: 8B/14B/30B gibi farklı parametre boyutlarında modeller var; 8B~14B modeller 16GB VRAM üzerinde rahat kullanılabiliyor. Reasoning (akıl yürütme) performansı güçlü ve MoE(Expert Mixture) yapısı sayesinde bazı büyük modeller RAM offloading ile de çalıştırılabiliyor
- DeepSeek-R1-0528-Qwen3-8B: En yeni 8B modeller arasında reasoning performansının çok iyi olduğu değerlendiriliyor. 8B için Q4~Q6 nicemlemede 4GB~8GB VRAM uygun görülüyor
- Mistral Small 3.1: 14B veya 24B modeller öneriliyor; sohbet kalitesi yüksek ve görece daha az sansürlü. Özellikle görüntü girişi desteği var
- Gemma3: Google tarafından sunulan bir model; sezgisel sohbetlerde güçlü. Ancak daha kurumsal/İK odaklı bir eğilimi olduğu ve bu yüzden çok sayıda disclaimer ürettiği söyleniyor. Hallucination da nispeten daha sık görülebiliyor
- Devstral: Mistral tabanlı büyük bir model. 30B ve üzeri modeller 16GB VRAM üzerinde yavaş kalabilir
- Dolphin, Abliterated: Daha az sansürlü sürümler; standart olmayan durumlarda faydalı olabiliyor
Donanım ve çalışma ortamı optimizasyonu
- Quantize (nicemleme) ayarları: Q4, Q5, Q6 gibi nicemleme düzeylerinde sayı küçüldükçe VRAM kullanımı azalır (Q4 ≒ parametre/2, Q6 ≒ parametre*0.75). Ancak kalite kaybına dikkat etmek gerekir
- VRAM kapasitesi hesabı: Örnek olarak, 8B Q4 için 4GB, 14B Q4 için 7GB, 30B Q4 için yaklaşık 15GB VRAM gerekir
- RAM offloading: VRAM yetmezse bazı katmanlar CPU belleğine offload edilebilir. Ancak bunun karşılığında hız düşüşü yaşanır
- KV cache nicemlemesi: Context window büyütülürken cache sıkıştırması için q4 civarı öneriliyor
Araçlar ve ön yüzler
- llama.cpp: Çeşitli platformlarda hızlı ve esnek çalışır. REST API ve basit bir React ön yüzü sunar. Modelleri VRAM ve RAM arasında bölerek yükleyebilir
- Ollama: Kurulumu kolaydır, model değiştirme pratiktir ve GUI ön yüzleriyle entegrasyonu rahattır. Ancak en yeni model desteği ve context boyutu konusunda sınırlamalar olabilir
- LM Studio: GUI ortamında model yönetimi kullanışlıdır. Bir modelin VRAM'e sığıp sığmayacağını tahmin etme özelliği sunar
- OpenWebUI: Yalnızca ön yüzdür. llama.cpp, vllm gibi bir arka uç gerekir. Birden fazla modeli aynı anda yönetip test etmeye uygundur
- KoboldCPP, SillyTavern: Rol yapma/hikâye anlatımı/oyun gibi kullanım alanlarına özel ön yüzler
Topluluklar ve pratik bilgiler
- Reddit LocalLLaMA, HuggingFace, Discord: En yeni model haberleri, kullanım yöntemleri, benchmark'lar ve kurulum bilgileri aktif biçimde paylaşılıyor. Ancak yanlış bilgi ve groupthink etkisine karşı dikkatli olmak gerekiyor
- Benchmark siteleri: livebench.ai, aider.chat gibi siteler güncel model puanları ve sıralamaları sunuyor
Kullanım amaçları ve gerçek deneyimler
- Gizlilik, maliyet tasarrufu: Hassas veriler/gizlilik sorunları veya tekrar eden kullanım durumlarında, yerel modeller bulut çözümlerine göre daha avantajlı olabiliyor
- Deney ve ince ayar özgürlüğü: Belirli alanlara özel fine-tuning, sampling stratejileri, prompt engineering gibi konularda API tabanlı modellere göre daha esnek
- Uygulama örnekleri: RAG(arama destekli üretim), yerel veritabanı entegrasyonu, ajan otomasyonu, çevrimdışı yardımcılar gibi pek çok pratik örnek var
Sık sorulan sorular ve ipuçları
- Model boyutu hesabı: Parametre sayısı × bit(quantization)/8 = yaklaşık VRAM gereksinimi (GB). Ek yük ve context window da hesaba katılmalı
- Modele göre özellikler: Qwen3 reasoning/kodlama, Gemma3 sezgisellik/sohbet, Mistral daha az sansür, Dolphin/abliterated ise sansürsüz sürümler olarak öne çıkıyor
- Performans karşılaştırması: Size en uygun modeli bulmak için doğrudan benchmark ve özel testler yapmanız öneriliyor
Sonuç ve pratik tavsiyeler
- "En iyi model" diye tek bir seçenek yok; donanım, kullanım amacı ve kişisel tercihe göre Qwen3, Mistral, Gemma3 gibi güncel 8B~14B modelleri farklı şekillerde denemek en iyi yaklaşım
- Model dosyası boyutu, nicemleme, context boyutu gibi teknik ayrıntıları donanıma göre eşleştirmek çok önemli; bu yüzden farklı modelleri bizzat test etmek ve topluluk ipuçlarından yararlanmak etkili bir yöntem
1 yorum
Hacker News görüşü
LLM’i yerelde çalıştırmak istiyorsanız Reddit’in localllama topluluğu çok yardımcı olabilir
Özellikle “en iyi” denebilecek tek bir LLM modeli yok; her modelin artıları ve eksileri var, bu yüzden birkaçını bizzat denemek gerekiyor
Örneğin DeepSeek-R1-0528-Qwen3-8B modeli bugün yayımlandı ve 8B boyutunda en iyi mantıksal akıl yürütme performansını gösteriyor
Ayrıca Qwen3 serisi de yakın zamanda çıktı; hibrit yaklaşım, iyi performans ve farklı donanımlara uygun çeşitli boyutlar sunuyor
Qwen3-30B-A3B CPU’da da fena olmayan bir hızda çalışabiliyor
Hatta 0.6B’lik mini model bile epey tutarlı, bu da şaşırtıcı bir deneyim
llama-cpp kullanırken bazı tensörleri CPU’ya offload ederek iyi performansı koruyabildiğiniz örnekler gördüm
Genelde llama-cpp’de GPU’ya yüklenecek katman sayısını (
-ngl) belirlersiniz, ama hesaplama yükü ağır olmayan tensörleri CPU’ya offload ederek GPU alanından tasarruf edip hız kaybı yaşamadan çalıştırmak mümkünCPU’dan yalnızca “hot” nöronları alan makaleyi de okudum (arxiv bağlantısı); gelecekte evde de yapay zekayı çok etkileyici biçimde kullanabileceğimizi düşünüyorum
Reddit kullanmaya alışkın olmayanlar için bir uyarı var
LocalLlama dahil Reddit’te yanlış bilgi ve çok oy alan yanıltıcı bilgi de bolca bulunuyor; upvote/downvote oranı bilginin doğruluğunu garanti etmez
Doğru ama sıkıcı anlatılmış yorumlar tersine popüler olmayabilir; eğlenceli, duygusal ya da grup görüşüne uyan yanlış açıklamalar ise sık sık popüler olur
Benim gibi internette uzun yıllardır vakit geçirenler kabaca süzebiliyor ama grup düşüncesinin güçlü olduğu bu tür alanlara ilk kez geliyorsanız bilgiyi dikkatle değerlendirmenizi öneririm
Bugünlerde neredeyse hangi modeli alsanız temel işi yapıyor; sonunda mesele daha çok zevkinize uyan “model kişiliğini” bulmaya dönüyor
OP sadece sırayla indirip denesin
16GB belleğiniz varsa llama.cpp ile DDR5’e kısmi offload yaparak 30B modellere kadar, hatta dense modellere bile, “makul” hızlarda çalıştırabilirsiniz; tensör offload ile daha da iyi olur
Qwen sohbet odaklı model olarak biraz eksik kalabiliyor
Mistral Nemo, Small ve Llama 3.X serisi de bugün hâlâ çok iyi seçenekler
Gemma 3s iyi ama biraz öngörülemez bir tarzı var
Evde GPT-4 seviyesine yakın bir şey istiyorsanız QwQ öneririm
Bir de benim unuttuğum başka iyi modeller mutlaka vardır
aider ya da roo gibi kodlama araçlarıyla birlikte kullanılabilecek öneri modeller var mı diye merak ediyorum
Araç kullanımını doğal olarak iyi yapan bir model bulmak epey zor geldi
DeepSeek-R1-0528-Qwen3-8B, DeepSeek-R1-0528’in chain-of-thought’unun Qwen3-8B Base’e distill edilmesiyle oluşturulmuş bir model; AIME 2024’te Qwen3-8B’den %10’dan fazla daha iyi performans veriyor ve Qwen3-235B-thinking ile aynı seviyede sonuç gösteriyor
Distillation’ın ne kadar etkili olduğuna yeniden şaşırıyorsunuz
Son zamanlarda çeşitli OpenAI ekipleri ya da araştırma laboratuvarlarının chain-of-thought (COT) bilgisini gizlemesinin nedeni de muhtemelen bu (ilgili yazı)
Çoğu insanın yerel LLM’leri en çok hangi işlerde kullandığını merak ediyorum
Donanımınız çok güçlü değilse Gemini ya da Claude gibi kapalı modellere yetişmek zor, ama bu küçük modellerin de elbette faydalı olabileceğini düşünüyorum; sadece somut kullanım örnekleri neler, onu merak ediyorum
Veriyi üçüncü taraflara vermek istememek
Prompt’larını ya da sorularını dışarı göndermek istemeyen çok insan var
Ben çoğu prompt’ta önce yerel modeli deniyorum ve beklenmedik şekilde yarısından fazlasında yeterince iyi sonuç alıyorum
Her bulut hizmeti kullanmamayı başardığımda hoş bir tatmin duygusu oluyor
Gelecekte yerel LLM’lerin rolü, hangi işi nasıl ele alacağını çok hızlı belirleyip hızlıca delege eden bir yapıya dönüşecek gibi geliyor
MCP gibi yerel sistemlerle çözülebilecek görevleri, takvim ya da e-posta gibi sistem API çağrısı gerektiren işleri ya da en uygun bulut modeline iletilmesi gereken işleri anında ayıran bir yaklaşım
Düzgün çalışan bir Siri gibi düşünün
Şu anda Devstral tabanlı kendi yaptığım yerel bir kodlama ajanıyla deney yapıyorum
Codex’e göre hoşuma giden tarafı, donanımın tamamına erişebilmesi; bu sayede VM açma, ağ isteği gönderme gibi Codex’in yapamadığı şeyleri yapabiliyor
Ayrıca kurulumdan patch üretimine kadar Codex’ten çok daha hızlı
Elbette sonuç kalitesi henüz Codex düzeyinde değil ama Devstral küçük değişiklikler ve refactor işleri için gayet kullanılabilir; yazılımı geliştirmeye devam ettikçe daha büyük değişiklikleri de yapabileceğini düşünüyorum
Ben prensip olarak mümkün olduğunca bulut kullanmıyorum
Örneğin OpenAI’nin son dönemde ChatGPT konuşmalarını paylaşmaya yönelik bir tür sosyal ağ hizmeti üzerinde çalıştığına dair haberler çıktı
Yerelde çalıştırınca yapay zekanın iç işleyişini daha iyi anlıyor, böylece kendi piyasa değerimi de artırıyorum
LLM backend’i kullanan deneyleri de özgürce yapabiliyorum; web arama, ajanlar vb. Ayrıca bulut maliyeti de yok ve ilk LLaMa çıktığında zaten bir oyun masaüstüm vardı
Mozilla’nın LocalScore adlı projesine de bakmaya değer
Çeşitli modellerin farklı donanımlarda ne kadar iyi çalıştığını karşılaştırmalı olarak analiz eden bir hizmet
LocalLLama subreddit’ini öneren görüşe katılıyorum
“En iyi model”i seçen bir yer değil ama soru sormak, rehber bulmak, son gelişmeleri ya da araç bilgilerini takip etmek ve farklı modelleri karşılaştırmak açısından çok faydalı
Sonunda iş, farklı modelleri kendiniz deneyip parametrelerle oynayarak amacınıza en uygun olanı bulmaya geliyor
Hacker News kullanıcısıysanız Ollama ya da LMStudio’yu atlamayı da düşünebilirsiniz
En yeni modellere erişimde geride kalabiliyorlar ve çoğu zaman onların test ettiği modeller arasından seçim yapmak zorunda kalıyorsunuz
Ayrıca iç işleyişini “kapağını açıp” inceleme keyfi de olmuyor
llamacpp tek başına da güncel modellerin çoğunu destekliyor ve gerektiğinde hızlıca güncelleniyor
Ben huggingface’ten model indirip GGUF formatını kullanmayı tercih ediyorum; bu format daha düşük quantization ile bellekten tasarruf sağlıyor
GGUF dosya boyutuna bakarak VRAM’e sığıp sığmayacağına dair kabaca fikir edinilebiliyor (örnek: 24GB GGUF, 16GB için zor; 12GB mümkün — ama context büyüdükçe RAM tüketimi de artıyor)
Context window’a da dikkat etmek gerek; eski modellerin çoğu 8K context ile geliyor ve 32K’ye ayarlasanız bile etkisi çok büyük olmayabiliyor
llamacpp için Linux, Windows ve macOS’ta ya hazır binary indirebilir ya da kendiniz build edebilirsiniz; modeli VRAM ve RAM arasında da bölebilirsiniz
Basit bir React frontend’i (
llamacpp-server) ve OpenAI benzeri bir REST API de sunuyorBu sayede oobabooga (
textgeneration webui) gibi birçok frontend ile entegre oluyorKoboldcpp de, llamacpp size fazla ham geliyorsa değerlendirilebilecek bir backend (içeride yine llamacpp tabanlı)
Ollama’nın cazip yanı, HuggingFace’teki herhangi bir GGUF’u doğrudan çekip
ollama run hf.co/unsloth/DeepSeek-R1-0528-GGUF:Q8_0gibi çalıştırabilmenizOllama’nın avantajlarından biri, modelleri GPU’ya kolayca yükleyip kaldırabilmesi; bu sayede librechat ya da openwebui gibi frontend’lerde açılır menüden zahmetsizce model değiştirebiliyorsunuz
Komut satırında uğraşmadan model değiştirebilmenin rahatlığını özellikle vurgulamak isterim
Ollama masaüstünüzü bir LLM sunucusuna dönüştürüyor ve WiFi üzerinden uzak cihazlardan da erişim sağlıyor
Model değiştirirken de sunucuyu kapatmadan sorunsuz şekilde swap yapabiliyor
llama.cpp tarafında ise CLI kullanımında sunucuyu durdurup yeni flag’lerle yeniden başlatmak gerekiyor; bu da deney yaparken ya da hızlı uygulama geliştirirken rahatsız edici
Yaptığım bazı uygulamalarda, sunucuyu yeniden başlatmadan 1B, 8B, 30B gibi modeller arasında yalnızca web isteği parametresiyle geçiş yapmak şart oluyor
Yalnızca 8GB VRAM’im var ama Ollama frontend’i olarak OpenWebUI bağlayıp birden fazla modeli aynı anda yükleyerek round robin yöntemiyle sırayla deniyorum
Yanıt kalitesini de sürekli izliyorum; böylece uzun vadede amacıma en çok uyan modeli seçebiliyorum
OpenWebUI ile oldukça kendine özgü bir kullanım deneyimi var
AMD 6700XT (12GB VRAM) kullanıcısı olarak, yerel ROCm kurulumunu başarıyla yaptıktan sonra Ollama’yı GPU hızlandırma ile sorunsuz çalıştırdım
Docker’da ayağa kaldırdığım OpenWebUI instance’ını yerel Ollama sunucusuna bağlamak da sadece tek bir ENV değişkeni ayarlamak kadar kolaydı
Bu bir production ortamı değil, kişisel test düzeni; ama yukarıda anlatılan amaç için çok iyi çalışıyor
OpenWebUI’nin yakın zamanda lisans değişikliği nedeniyle artık open source olmadığını da bilmekte fayda var
Qwen3 ailesi (ve R1 qwen3-8b distill) kodlama ve mantıksal akıl yürütmede zirvede
Ancak Çin çıkışlı olduğu için politik konularda sansürü yoğun
Dünya bilgisi ve güncel bilgi tarafında Gemma3 öneririm
Bu yazı da bir ay sonra büyük olasılıkla eski bilgi haline gelecek; o yüzden livebench.ai ya da aider.chat lider tablosu üzerindeki güncel benchmark’lara bakın
Yalnızca modeller değil, araçlar, router’lar, MCP, kütüphaneler ve SDK’lar da sürekli gelişiyor
Tek başıma geliştiriyorsam ve çevremde bilgi paylaşacağım ekip arkadaşı ya da topluluk yoksa, bilgi edinme ve güncel gelişmeleri takip etme konusunda tavsiyeye ihtiyacım var
En iyi bilgi kaynağı HuggingFace
Qwen serisi çok yönlü olarak iyi; özellikle Qwen/Qwen3-14B-GGUF Q4_K_M modelini öneririm
Yaklaşık 7-8GB VRAM kullandığı için yükü hafif; llama-server ya da LM Studio kullanmanızı öneririm
Llama 3.3 de iyi bir seçenek
Devstral fazla büyük, o yüzden ancak quantized model olarak denemeye değer
Gemma çok ret verebiliyor ama Medgemma gibi belirli amaçlar için faydalı
Eric Hartford’un “Uncensored” Dolphin modeli ve abliterated modeller, espri üretme ya da güvenlik/savunma gibi çekince göstermeyen modellere ihtiyaç varsa önerilebilir (günlük kullanım için şart değil)
bf16 dtype baz alınırsa, unquantized model boyutu parametre sayısı x2 ile hesaplanır
Q4_K_M (4-bit) quantized model kullanırsanız VRAM ihtiyacı kabaca parametre sayısının yarısı olur
Activation overhead gibi unsurları da hesaba katıp 16GB’ın epey altında kalan modellerle denemeye başlamanızı öneririm
llama-server GUI de sunuyor ve
-hfseçeneğiyle modeli indirebiliyorLM Studio da kurulum ve model yönetiminde rahat
Hızlı yanıt istiyorsanız sunucuyu bir kez açıp modeli birden fazla sorgu arasında paylaştırarak kullanmalısınız; her soru için yeniden yüklemek çok yavaş olur
16GB düzeyinde Q4 quant Mistral Small 3.1 ya da FP8 Qwen3-14B rahatça iyi çalışıyor
Yalnız VRAM kullanımına bağlı olarak uzun context gerektiğinde Q4 quant Qwen3-14B, FP8’e göre daha düşük performans verebilir ama daha fazla bellek payı bırakır
Mistral Small görüntü girişini de destekliyor; Qwen3 ise matematik ve kodlamada daha uzmanlaşmış
Q4’ün altına inmek verimliliği düşürdüğü için önerilmez
Uzun context hedefleniyorsa Q4 quant Qwen3-8B daha mantıklı; Qwen3-30B-A3 ise 16GB VRAM için biraz fazla olabilir (ağır modeller GGUF biçiminde 15GB’tan fazla yer kaplıyor)
Dense modellerin (tüm parametreleri kullanan) parametre başına performansı sparse modellere göre daha iyi ama hızları daha düşük; 5060 sınıfı bir GPU ile 14B oldukça akıcı
Blackwell mimarisinde NVFP4 ile quantize edilmiş modeller FP8’den daha hızlı ama kalite biraz daha düşük; ayrıca ollama bunu henüz desteklemiyor, bu yüzden ayrıca vLLM kullanmak gerekiyor
Hazır quantize edilmiş NVFP4 model desteği az olduğu için llmcompressor gibi araçlarla kendiniz quantize etmeniz öneriliyor
Önce istediğiniz LLM’i seçin, bu tür araçları ancak performans iyileştirme aşamasında kullanın
LLM konusunda nesnel ve net bir tek doğruya ulaşmak neredeyse imkânsız; bence en önemlisi, en güncel birkaç modeli alıp sizin için anlamlı işlerde bizzat denemeniz
İş türüne göre çıktı kalitesi çok sert şekilde değişebiliyor
İnsanlar genelde VRAM kullanımını nasıl tahmin ediyor, merak ediyorum
gguf gibi indirilebilir model bilgilerinde VRAM/bellek gereksinimi doğrudan yazmıyor olması biraz can sıkıcı
Çok kabaca, parametre sayısını (B cinsinden) GB cinsinden bellek gibi düşünebilirsiniz
Quantization örnekleri:
FP16 = 2 x 8GB = 16GB (8B model)
Q8 = 1 x 8GB, Q4 = 0.5 x 8GB = 4GB
Gerçekte biraz farklılık olur ama çok da sapmaz; context uzunluğu gibi ek bellek ihtiyacını ayrıca düşünmek gerekir
Mantık, float değer sayısı x veri tipi bit sayısıdır (4, 8, 16...)
Quantization dışında KV cache gibi unsurları da daha doğru hesaplamak isterseniz VRAM hesaplayıcıyı kullanmanızı öneririm