Yerel modelleri çalıştırmak artık iyi hale geldi

(vickiboykis.com)

20 puan yazan GN⁺ 2026-06-17 | 7 yorum | WhatsApp'ta paylaş

2022 model M2 Mac ortamında bile yerel LLM performansı, geliştirme soruları, kod işleri ve belge kontrolü için pratik biçimde kullanılabilecek kadar iyileşti
İlk yerel modeller yavaş, kullanımı zor ve programlama görevlerinde düşük doğruluğa sahipti; ancak GPT-OSS sonrasında API modelleriyle yeniden doğrulama ihtiyacı azaldı
Gemma 4 ailesinin en yeni sürümüyle yerelde çalışan ajan kodlama döngüsü, frontier modellere kıyasla yaklaşık %75 doğruluk ve hızla çalışıyor
Pi ve LM Studio kombinasyonu, yerel çıkarım uç noktası, model artifact'leri ve Docker yalıtım yapılandırması üzerinden ajan iş akışlarını çalıştırıyor
Yerel modellerde çıkarım gecikmesi, küçük bağlam penceresi ve donanım kısıtları sürüyor; ancak token işleme, sistem prompt'u, kuantizasyon ve harness'i doğrudan gözlemleyip değiştirebilirsiniz

Yerel modellerin şu anki konumu

İlk yerel modeller, programlama görevlerinin çoğunda yavaştı, kullanımı zordu ve yeterince doğru değildi
Yerel modellerin ciddi biçimde geride olduğu değerlendirmesi, bireysel kullanım ölçütünde GPT-OSS çıkana kadar genel olarak doğruydu
“Yeterince iyi model” için kişisel ölçüt, API modeliyle yeniden kontrol gerekip gerekmemesiydi; GPT-OSS bu yeniden kontrol sıklığını büyük ölçüde azaltan ilk model oldu
Yerel modeller yakın zamana kadar daha çok güncellik gerektirmeyen geliştirme soruları için hızlı ve kişiselleştirilmiş bir Google gibi kullanılıyordu
Gemma 4 ailesinin en yeni sürümünden sonra, yerelde ajan kodlama döngüsü frontier modellere kıyasla yaklaşık %75 doğruluk ve hızla çalışıyor {p:75}

Kullanılan modeller ve çalışma ortamı

2022 model M2 Mac, 64GB RAM ve 1TB depolama alanına sahip bir ortamda birden çok yerel model çalıştırıldı
- Kullanılan modeller arasında Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder yer alıyor
Çalıştırma yapılandırmasında raw llama.cpp ile Open WebUI, llama-cpp-python, Ollama, llamafiles ve LM Studio denendi
Varsayılan yerel model olarak LM Studio'nun gemma-4-26b-a4b implementasyonu kullanıldı

Gerçek yerel ajan görev örnekleri

Notebook durumundaki bir Python script'i, 5~6 modüllü bir depoya refactor edildi
Bu modüller, PEP 585 standardına uygun generic type hint kullanacak şekilde lint edildi
Blog yazısı düzeltme, unit test yazma ve öneri için two-tower model deposunun ilk kurulumunda da yerel yapılandırma kullanıldı
Boş durumdan ajanın oluşturduğu two-tower model deposu temel düzeydeydi, ancak geçen yıl mümkün olduğu düşünülen sınırın ötesine geçti
Tüm ajan iş akışları, yürütme erişim yetkisi sınırlandırılmış Docker container içinde çalıştırıldı

Kaynak kullanımı ve yeni küçük modeller

Yapılan işler çığır açıcı görevlerden çok kişiselleştirilmiş Google ya da belge sorgulamaya daha yakındı
Görevler sırasında GPU ve RAM kullanımı arttı ve K-V cache 64GB RAM'e kadar büyüdü
Basit işler bile olsa, bu tür yerel model görevleri 6 ay önce mümkün değildi
Gemma-4-12b-qat, çıktığı andan itibaren boyutuna göre etkileyici bir performans gösterdi
Model mimarisi, performans ve maliyet kısıtları altında ne tür mimari ödünlerin gerektiğini sorgulatıyor

Yerel ajan modelini çalıştırma yapılandırması

Yerel ajan akışını çalıştırmak için yerel model çıkarım motoru, ajan harness'i ve yerel model artifact'leri gerekiyor
Harness, yerel çıkarım uç noktasına bakacak şekilde ayarlanmalı; indirilen model artifact'leri de çıkarım motoru üzerinden sunulmalı
Mevcut yerel yapılandırmada ajan harness'i olarak Pi, çıkarım sunucusu olarak LM Studio kullanılıyor
Pi ve LM Studio ile Gemma 4 ajan kodlamasını kurma yazısı takip edildi, ancak bazı ayarlar değiştirildi
- Model olarak yazıdaki Gemma 26B A4B yerine daha yeni, daha küçük ve daha hızlı olan gemma-4-12b-qat kullanıldı; doğruluk kaybı büyük olmadı
- Güvenlik nedeniyle tüm Pi oturumları Docker container içinde çalıştırıldı ve yalnızca bash yetkisi verilerek Python kodu çalıştırma ile web gezintisi engellendi
- Araştırma işleri için ayrı bir image içinde curl izni verilmesi planlanıyor
- Docker içinde çalıştığı için, Pi'nin modelle iletişim kurabilmesi amacıyla models.json dosyası düzenlendi

Docker tabanlı yalıtım yöntemi

Pi yapılandırmasında baseUrl olarak http://host.docker.internal:1234/v1, API olarak da openai-completions ayarlandı
Docker Compose yapılandırması models.json, çalışma dizini, Pi ayarları ve oturum dizinini container'a mount ediyor
Çalıştırma script'i mevcut çalışma dizinini container içindeki workspace'e bağlıyor; gerekirse daha güvenli bir sandbox Compose dosyası da ekleniyor
Pi, üzerinde çalışılan depoda çalışıp Docker'ı başlattığı için fiziksel diskteki dosya ve dizinleri doğrudan silemiyor
Özel model json yapılandırması container içine aktarılabildiği için deney ortamında nispeten iyi çalıştı

Kalan sınırlamalar

Yerel modellerde çıkarım hâlâ yavaş olabilir, bağlam penceresi küçüktür ve kullanılabilir bağlam sahip olunan donanımla sınırlıdır
Ekosistem, LM Studio ve Hugging Face'in Use This Model butonu gibi araçlar sayesinde çok daha kolay hale geldi
İlk sürümler prompt template uyumsuzluğu yaşayabiliyor, ancak bu tür sorunlar genelde çok hızlı biçimde yamalanıyor
Bunun üretim yazılımı geliştirmede hemen kullanıma hazır olduğundan emin olmak hâlâ zor

Yerel modellerin avantajları ve deney imkânı

Yerel modellerde neredeyse her şeyi inceleyebilirsiniz ve token çıkarım sürecini gerçek zamanlı görebilirsiniz
Girdi ve çıktı token akışını doğrudan kontrol edebilirsiniz
Yerel bağlam penceresini değiştirip performansın nasıl iyileşip kötüleştiğini gözlemleyebilirsiniz
Token'ların GPU üzerinde nasıl işlendiğini derinlemesine inceleyebilir, sistem prompt'u ve kuantizasyon ayarlarını değiştirebilirsiniz
Modelleri birbirine karşı test edebilir ya da harness tarafındaki ayarları değiştirip gözlemleyebilirsiniz; bu da deney olanaklarını sürekli genişletir

7 yorum

syate 29 일 전

"İşin doğal parça büyüklüğü ve küçük modellerin daha somut talimatları tercih etmesi nedeniyle, kullanıcı kodu çok daha ayrıntılı anlamaya başlıyor.
Bu, yerel modellerin proje yapısını özetleyemediği ya da hata bulamadığı anlamına gelmiyor; yalnızca çok daha fazla elde müdahale edilen bir çalışma biçimini ödüllendirdiği anlamına geliyor."

Yorumlarda etkileyici bir bölüm var.
Katıldığım bir nokta.

emptybynature 2026-06-17

Yerel modeller için artık kullanılabilir demek istiyorsak, o zaman ChatGPT’ye süper zeki dememiz gerekir... Yerel modellerin daha gidecek çok yolu var. Benim ölçütüme göre yerel modele kullanılabilir diyebilmek için en azından RTX 5090’dan 4 tane takıp 100B ve üzeri bir modeli çalıştırmak gerekir; ancak o zaman "eh işte" denecek kadar kullanılabilir olur.

GN⁺ 2026-06-17

Lobste.rs görüşleri

Şu anki iş akışımda bu tür araçları özellikle kullanmak istemem, ama en büyük şikayetimin kaynağı merkezileşme ve bunun etkisinin çevre, gizlilik, güç dağılımı gibi alanlara da yayıldığını düşünüyorum
Bu yüzden yerelde barındırılabilen modellerin gerçekten iyi hale geliyor olması sevindirici
- Geleceğin büyük olasılıkla o yöne gideceğini düşünüyorum. Kimse tüm verisini bir hizmet sağlayıcıya göndermek istemez; fiyat artışları ya da modelin sunulup sunulmayacağı da tamamen sağlayıcının keyfine bağlı
  Anthropic’in Fable olayında gördüğümüz gibi, insanın kendi kendini dijital serf haline getirmesi gerçek bir risk
  Yerel modeller ve kodlama harness’leri gelişmeye devam ederse, sağlayıcıdan model kiralamak için daha az neden kalır; yerel modelin genel performansı daha düşük olsa bile bu değişmez. Örneğin birçok kişinin Claude yerine DeepSeek kullanmasının sebebi, yeterince işe yararken çok daha ucuz olması. Yerelde de bir noktadan sonra daha iyi bir modeli kiralayıp kiralayamadığınızdan çok, yerel modelin işi yapıp yapamadığı önem kazanır
  Aracı özelleştirme ve ince ayar yapma imkanı da büyük. Belirli bir dil için LoRA yapılmış pek örnek görmedim ama sınırlı alanlarda modeli çok daha etkili hale getirmek mümkün; o aşamada devasa genel amaçlı modellerden daha iyi bile olabilir
- Yerel modeller ilginç biçimde farklı ve bunun bazı yönleri avantaj olabilir. Çıkarım gücü kabaca üst seviye bir oyuncu GPU’su düzeyinde; üstelik bunu yalnızca token üretirken kullanıyor ve genelde yaklaşık 300W ile sınırlandırmak mümkün. Kodu okuyarak yazıyorsanız, iş gününün ancak %25’i kadarını token üretimine harcarsınız; bu da sürekli güç tüketimini yaklaşık 75W yapar
  Birkaç yerel ölçekli modeli yılda bir kez eğitmek için gereken enerji, sanayi uygarlığının arka plan gürültüsünde kaybolacak düzeyde olabilir. Veriler tamamen yerelde kalır ve tüccarları daha az teşvik etmiş olursunuz
  Yerel modeller daha aptalca olma eğiliminde ve bu da insanı işe daha yakın tutuyor. Fable’a “bu caddeyi evlerle doldur” derseniz bir sürü özensiz McMansion üretebilir; ama Qwen3.6 27B’ye “şu dört odayı boya” demek daha doğal geliyor. İşin doğal parça boyutu ve küçük modellerin somut talimatları tercih etmesi nedeniyle kullanıcı kodu çok daha ayrıntılı anlamak zorunda kalıyor
  Bu, yerel modellerin proje yapısını özetleyemediği ya da hata bulamadığı anlamına gelmiyor; sadece çok daha dokunarak yapılan bir çalışma tarzını ödüllendirdikleri anlamına geliyor. Fable, gerçekten mahvolduğumuza iyice inandıran bir model ve gerçekten tüm projeyi pat diye ortaya dökebiliyor. O “McMansion”lar dışarıdan iyi görünüyor ama çatı akıtıyor, temel sallanıyor ve işçilik ancak satılacak kadar yeterli. Tabii piyasada büyük başarı kazanma ihtimali yüksek ve Fable’ın en kötü günü bile birçok kurumsal SaaS ürününden daha iyi. Elbette uyumluluk ve güvenlik hariç
  Bu yüzden yerel modelleri ilginç araçlar olarak görüyorum ama yeni nesil frontier modellerin çıkaracağı keşmekeş beni hiç heyecanlandırmıyor
Akademide olanların yerel modelleri ne için kullandığını merak ediyorum. qwen3-coder:30b, LaTeX düzenleme ve OCR uygulanmış makalelerde sonuçları sorgulamak için fena değildi; ama başka kullanım alanları var mı merak ediyorum
- Akademideyim. Ajan tarzı kodlama kullanmıyorum ve yazı yazarken hiç LLM kullanmıyorum. Çoğu editör zaten yasaklamıyor mu diye de düşünüyorum
  Ne zaman denesem büyük hayal kırıklığına uğradım; yerel çıkarım hattı kurmanın zahmeti ve kırılganlığı da fazla. Dizüstü GPU’su çok küçük olduğu için paylaşımlı hesaplama kümesi kullanmam gerekiyor
  Ara sıra ollama/qwen3-coder ya da duck.ai kullanıyorum. Özellikle aşina olmadığım bir dilde veya kütüphanede bir şeyi nasıl yapacağımı aratmak için aklıma anahtar kelimeler gelmediğinde ya da regex/SQL gibi çok hakim olmadığım çok spesifik işlerde yardım almak için
- Çevirinin ilk taslağını çıkarmak için kullanıyorum. O çeviriyi düzeltirken, aslında fark edebilirdim ama etmediğim ders materyali hatalarını epey düzelttim. Tek dilli olmayan bir ortamda ders verirken özellikle alakalı
  Kişisel küçük script’lerin ya da mini araçların ilk taslağını tek seferde üretmek için de kullanıyorum. Mesela çeviri isteğinden TikZ’i hariç tutan bir harness gibi. Sonrasında hata ayıklama gerekiyor ama LLM’in aşağı yukarı doğru yaptığı sıkıcı kısımları kendim yazmaktansa debug etmek çok daha eğlenceli. Doğrulama stratejisi, elle yazılmış olandan bile daha önemli; ideal olarak da “kalan hataların araç çalıştırıldığında oldukça net biçimde ortaya çıktığı” bir yapıda olmalı
  Dürüst olmak gerekirse, Qwen3.6’nın standart ispat yazma alıştırmaları için örnek çözüm taslakları üretmede beklediğimden kötü olmamasına şaşırdım. İstenen üsluba göre düzenlerken biraz balta çorbası/taş çorbası gibi olabilir ama bazı formüller sonuna kadar kalabilir. Sonuçta her şey işin ne kadar sıkıcı olduğuna bağlı
- Temelde yazım/dilbilgisi denetiminden daha ileri giden bir redaksiyon için kullanıyorum. Ya da veri analizi için hızlı script yazmakta kullanıyorum ama nihai analiz için değil, pilot deneyler gibi keşif amaçlı kullanımda

kaboom45 2026-06-17

DDR3+i5 entegre grafik kullanan bir PC’de qwen3.6 27b’yi saniyede 1 token hızında çalıştırıyorum.
Eskiden böyle bekleseniz bile sadece berbat sonuçlar çıkardı, ama artık en azından kullanılabilir bir şeyler üretiyor.
6 ay önce 80~120B sınıfı boyut gerektiren performans, 30B sınıfında yeterli olacak kadar gelişti; bence 1 yıl kadar sonra opus4.8 ve gpt5.5 seviyesinde kod performansını da 30B’de görebiliriz.
O zaman günde böyle 50~70 bin token üreten yerel modeller de yardımcı seçenek olarak fazlasıyla tercih edilebilir bir opsiyon olur diye düşünüyorum

beoks 2026-06-17

Yerel modelleri düzgün kullanmak için buna uygun donanım desteği gerekiyor; ama donanım da çok pahalı olduğu için, güvenlik gibi özel bir neden yoksa şimdilik abonelik ya da API çağrılarının fiyat/performans açısından daha avantajlı olduğu görünüyor.

kaydash 2026-06-17

Ajanlar için bir şekilde idare ediyor ama kodlama ajanları için biraz...