Yerel modelleri çalıştırmak artık iyi hale geldi
(vickiboykis.com)- 2022 model M2 Mac ortamında bile yerel LLM performansı, geliştirme soruları, kod işleri ve belge kontrolü için pratik biçimde kullanılabilecek kadar iyileşti
- İlk yerel modeller yavaş, kullanımı zor ve programlama görevlerinde düşük doğruluğa sahipti; ancak GPT-OSS sonrasında API modelleriyle yeniden doğrulama ihtiyacı azaldı
- Gemma 4 ailesinin en yeni sürümüyle yerelde çalışan ajan kodlama döngüsü, frontier modellere kıyasla yaklaşık %75 doğruluk ve hızla çalışıyor
- Pi ve LM Studio kombinasyonu, yerel çıkarım uç noktası, model artifact'leri ve Docker yalıtım yapılandırması üzerinden ajan iş akışlarını çalıştırıyor
- Yerel modellerde çıkarım gecikmesi, küçük bağlam penceresi ve donanım kısıtları sürüyor; ancak token işleme, sistem prompt'u, kuantizasyon ve harness'i doğrudan gözlemleyip değiştirebilirsiniz
Yerel modellerin şu anki konumu
- İlk yerel modeller, programlama görevlerinin çoğunda yavaştı, kullanımı zordu ve yeterince doğru değildi
- Yerel modellerin ciddi biçimde geride olduğu değerlendirmesi, bireysel kullanım ölçütünde GPT-OSS çıkana kadar genel olarak doğruydu
- “Yeterince iyi model” için kişisel ölçüt, API modeliyle yeniden kontrol gerekip gerekmemesiydi; GPT-OSS bu yeniden kontrol sıklığını büyük ölçüde azaltan ilk model oldu
- Yerel modeller yakın zamana kadar daha çok güncellik gerektirmeyen geliştirme soruları için hızlı ve kişiselleştirilmiş bir Google gibi kullanılıyordu
- Gemma 4 ailesinin en yeni sürümünden sonra, yerelde ajan kodlama döngüsü frontier modellere kıyasla yaklaşık %75 doğruluk ve hızla çalışıyor {p:75}
Kullanılan modeller ve çalışma ortamı
- 2022 model M2 Mac, 64GB RAM ve 1TB depolama alanına sahip bir ortamda birden çok yerel model çalıştırıldı
- Kullanılan modeller arasında Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder yer alıyor
- Çalıştırma yapılandırmasında raw llama.cpp ile Open WebUI, llama-cpp-python, Ollama, llamafiles ve LM Studio denendi
- Varsayılan yerel model olarak LM Studio'nun
gemma-4-26b-a4bimplementasyonu kullanıldı
Gerçek yerel ajan görev örnekleri
- Notebook durumundaki bir Python script'i, 5~6 modüllü bir depoya refactor edildi
- Bu modüller, PEP 585 standardına uygun generic type hint kullanacak şekilde lint edildi
- Blog yazısı düzeltme, unit test yazma ve öneri için two-tower model deposunun ilk kurulumunda da yerel yapılandırma kullanıldı
- Boş durumdan ajanın oluşturduğu two-tower model deposu temel düzeydeydi, ancak geçen yıl mümkün olduğu düşünülen sınırın ötesine geçti
- Tüm ajan iş akışları, yürütme erişim yetkisi sınırlandırılmış Docker container içinde çalıştırıldı
Kaynak kullanımı ve yeni küçük modeller
- Yapılan işler çığır açıcı görevlerden çok kişiselleştirilmiş Google ya da belge sorgulamaya daha yakındı
- Görevler sırasında GPU ve RAM kullanımı arttı ve K-V cache 64GB RAM'e kadar büyüdü
- Basit işler bile olsa, bu tür yerel model görevleri 6 ay önce mümkün değildi
Gemma-4-12b-qat, çıktığı andan itibaren boyutuna göre etkileyici bir performans gösterdi- Model mimarisi, performans ve maliyet kısıtları altında ne tür mimari ödünlerin gerektiğini sorgulatıyor
Yerel ajan modelini çalıştırma yapılandırması
- Yerel ajan akışını çalıştırmak için yerel model çıkarım motoru, ajan harness'i ve yerel model artifact'leri gerekiyor
- Harness, yerel çıkarım uç noktasına bakacak şekilde ayarlanmalı; indirilen model artifact'leri de çıkarım motoru üzerinden sunulmalı
- Mevcut yerel yapılandırmada ajan harness'i olarak Pi, çıkarım sunucusu olarak LM Studio kullanılıyor
- Pi ve LM Studio ile Gemma 4 ajan kodlamasını kurma yazısı takip edildi, ancak bazı ayarlar değiştirildi
- Model olarak yazıdaki
Gemma 26B A4Byerine daha yeni, daha küçük ve daha hızlı olangemma-4-12b-qatkullanıldı; doğruluk kaybı büyük olmadı - Güvenlik nedeniyle tüm Pi oturumları Docker container içinde çalıştırıldı ve yalnızca bash yetkisi verilerek Python kodu çalıştırma ile web gezintisi engellendi
- Araştırma işleri için ayrı bir image içinde
curlizni verilmesi planlanıyor - Docker içinde çalıştığı için, Pi'nin modelle iletişim kurabilmesi amacıyla
models.jsondosyası düzenlendi
- Model olarak yazıdaki
Docker tabanlı yalıtım yöntemi
- Pi yapılandırmasında
baseUrlolarakhttp://host.docker.internal:1234/v1, API olarak daopenai-completionsayarlandı - Docker Compose yapılandırması
models.json, çalışma dizini, Pi ayarları ve oturum dizinini container'a mount ediyor - Çalıştırma script'i mevcut çalışma dizinini container içindeki workspace'e bağlıyor; gerekirse daha güvenli bir sandbox Compose dosyası da ekleniyor
- Pi, üzerinde çalışılan depoda çalışıp Docker'ı başlattığı için fiziksel diskteki dosya ve dizinleri doğrudan silemiyor
- Özel model
jsonyapılandırması container içine aktarılabildiği için deney ortamında nispeten iyi çalıştı
Kalan sınırlamalar
- Yerel modellerde çıkarım hâlâ yavaş olabilir, bağlam penceresi küçüktür ve kullanılabilir bağlam sahip olunan donanımla sınırlıdır
- Ekosistem, LM Studio ve Hugging Face'in Use This Model butonu gibi araçlar sayesinde çok daha kolay hale geldi
- İlk sürümler prompt template uyumsuzluğu yaşayabiliyor, ancak bu tür sorunlar genelde çok hızlı biçimde yamalanıyor
- Bunun üretim yazılımı geliştirmede hemen kullanıma hazır olduğundan emin olmak hâlâ zor
Yerel modellerin avantajları ve deney imkânı
- Yerel modellerde neredeyse her şeyi inceleyebilirsiniz ve token çıkarım sürecini gerçek zamanlı görebilirsiniz
- Girdi ve çıktı token akışını doğrudan kontrol edebilirsiniz
- Yerel bağlam penceresini değiştirip performansın nasıl iyileşip kötüleştiğini gözlemleyebilirsiniz
- Token'ların GPU üzerinde nasıl işlendiğini derinlemesine inceleyebilir, sistem prompt'u ve kuantizasyon ayarlarını değiştirebilirsiniz
- Modelleri birbirine karşı test edebilir ya da harness tarafındaki ayarları değiştirip gözlemleyebilirsiniz; bu da deney olanaklarını sürekli genişletir
1 yorum
Hacker News görüşleri
İyi mi emin değilim. Yerel modelleri çok kullanıyorum ama yerelde çalıştırma hâlâ epey sancılı
Qwen 27B, Gemma 31B gibi dense modeller oldukça akıllı ama yavaş; Gemma 26B, Qwen 35B, North Mini Code 30B gibi uzman karışımı (MoE) modeller ise hızlı ama hata yapmaya meyilli
Düzgün çalıştırmak için çok bellek gerekiyor ve quantization yapınca tool calling zayıflıyor. Çoğu kişi 4 bit quantization ile çalıştırıp neden iyi olmadığını merak ediyor ama bu, fiilen modeli lobotomi yapmak gibi. Unsloth quantization öneriyorum; MoE için 6 bit, dense modeller için 5 bit tavsiye ederim
Prefill'i hızlı yapmak için hesaplama performansı gerekiyor, decode'u hızlı yapmak için bant genişliği gerekiyor ve tamamını sığdırmak için de çok bellek gerekiyor. Üstelik dizüstü bilgisayarlar sıcak ve gürültülü makinelere dönüşüyor, bu da çalışmayı rahatsız ediyor
Peki iyi mi? Pek değil. Ama çalışıyor
Şunu da ekleyeyim: Açık modellerin gelecek olduğuna inanıyorum ve ekosisteme katkı yapmaya da devam ediyorum. İnsanların bu modelleri kurcalayıp
pikullanarak nasıl çalıştıklarını öğrenmesi güzel olurdu ama sırf modeli indirince hemen iyi olmasını beklememek gerek. Çoğu kişinin istediği “coding agent” yerine geçmesi için ciddi tuning ve ayar gerekiyorKodlamaya özel olmayan modeller, gerçek tool calling yapmayıp sadece “şöyle bir eylem yapacağım” demekte sık sık takılıyordu; o davranışı değiştirmek için ne ayarlamam gerektiğini sorduğumda da yardımcı olmuyordu. Qwen, ollama içinde çalıştığına inanmıyor, Alibaba bulutunda koştuğunu ve yerel sisteme erişim izni olmadığını iddia ediyordu
Kodlama modelleri bile benim yazma hızımın ancak biraz üzerinde düşünebiliyordu ve düşünme sürecini gösterebildikleri durumlar da sınırlıydı
Şimdiye kadar bulduğum en iyi “ücretsiz” deneyim OpenCode + Big Pickle oldu. Çok akıllı değil, bu yüzden ilk sonuç sık sık yanlış çıkıyor ama ücretsiz katmanı cömert; yaklaşık bir ay boyunca sık sık saatlerce kullansam da limite sadece iki kez takıldım. Gerçek yerel çalıştırma hedefleniyorsa uygun değil ama hedef “abonelik ya da token maliyeti olmadan en iyi deneyim” ise, şu ana kadar en az kötü seçenek bu
Birleşik bellekli Mac'lerde, AI Max AMD işlemcilerde ya da DGX Spark benzeri cihazlarda bunu çalıştırmaya uğraşmak, sıkıntıyı davet etmeye daha yakın. Prefill performansı mahvediyor
Uygun GPU verildiğinde durum çok daha iyi oluyor ama yine de Sonnet ya da DeepSeek 4 Flash seviyesinde değil; Opus / DeepSeek Pro veya Mythos/Fable/GPT-5.5 ise daha da uzak
Bütçe, güç ve soğutma yeterliyse oldukça iyi veri hatları çalıştırabilirsiniz ama kod için çoğu durumda API sağlayıcılarına para ödemek hâlâ daha mantıklı
Yine de merkezi hizmetlere fazla bağımlı olmamak için denemeye değer
Benim deneyimimde kural takibi ya da otomasyon tarzı işlerde Qwen modellerini, hatta 100B+ olanları bile aşıyor. Görsel yorumlama da çok iyi ve benchmark'larda Opus'tan yüksek çıkıyor
Qwen, talimatları görmezden gelmeye ve token üretim biçimi açıkça sınırlandırılmazsa sürekli yanlış format vermeye meyilli
Ancak DGX Spark'ta Gemma 31B Q4 + MTP yaklaşık 20 token/sn, Gemma 26B A4B ise yaklaşık 60 token/sn civarında, yani hâlâ epey yavaş. Üst seviye Nvidia kartlarda çok daha hızlı çalışır ve belleğe de sığar
Yerel modellere başlayanlara RAM'den çok bellek bant genişliğine odaklanmalarını öneririm. Artık 100B altı modeller bile otomasyon için yeterli ve çok faydalı
Kodlama/yaratıcı üretim tarafında yerel modelleri kullanmak için henüz güçlü bir neden olmadığına katılıyorum. Ama hisse listelerini taramak, haberlerde yüksek geçiren filtreleme yapmak, log yorumlamak ya da ekran görüntüsü yorumlamak gibi işler için yerel modeller şimdiden yeterli
256GB RAM'li bir M6 Mac Studio alıp birkaç kişinin uzlaşıyla seçtiği tek bir modele erişmesini sağlamak mantıklı olabilir. Dizüstüler bu kullanım için fazla sıcak ve hantal görünüyor
Birkaç haftadır Qwen3.6-27B’yi memnuniyetle kullanıyordum ama şu anda donanıma erişimim olmadığı için Claude Sonnet 4.6 kullanmak zorundayım ve bu büyük bir gerileme gibi hissettiriyor
Bunun nasıl mümkün olduğunu anlamıyorum. İstenmeyen güçlü fikirleri fazla, çok fazla konuşuyor ve genel olarak daha aptalca geliyor
Elbette çok daha büyük bir model olduğu için daha fazla bilgiyi kodlamış olacaktır, ama sohbet etmek istemiyorsa bunun pek yardımı olmuyor. Üstelik onunla konuşmak gerçekten paraya da mal oluyor
Neden bu kadar sevmediğimi merak ediyorum. Belki de kendini bir araçtan çok neredeyse eşit bir varlık gibi görmesindendir. Sanki kendi fikirlerinin bir ağırlığı varmış gibi davranıyor
Qwen de bazen aşırı hevesli bir stajyer gibi davranabiliyor, ama ona aptal olduğunu söylersen gururunu bir kenara bırakıyor. Benim deneyimimde Claude böyle değildi
Sonuç olarak başlığa tamamen katılıyorum
Son bir buçuk aydır M2 Ultra ya da RTX 5090 makinede neredeyse her gün kullandım. ggml-org [0] içindeki küçük ve sıradan işler için kullanıyorum; olağanüstü bir şey değil ama maintainera kesinlikle yardımcı olan bir araç
PR incelemelerine çok zaman harcamıyor olsaydım muhtemelen çok daha fazla kullanırdım. Şu anda çok hafif bir harness kullanıyorum; her şeyi çıkarılmış bir pi agent(
pi -nc --offline) ve kendi tarzıma uydurmak için kısa bir sistem prompt’u [1] kadarÜretim hızı RTX 5090’da yaklaşık 100~150 token/sn, Mac’te ise yaklaşık 40 token/sn. Çok daha hızlı olduğu için açıkça RTX makinede çalıştırmayı tercih ediyorum, ama yerel kurulum testleri ve daha geniş deneyim için Mac’te de sık sık çalıştırıyorum
[0] - https://github.com/search?q=%22Assisted-by%22+user%3Aggml-or...
[1] - https://github.com/ggml-org/llama.cpp/blob/master/.pi/gg/SYS...
Opus gibi “şu büyük özellik X’i ekle” türü işlerde daha zayıf olabilir, ama ben modelden zaten bunu istemiyorum. Ben düşüneyim, model yazsın istiyorum. Qwen 3.6 27B bunun için tamamen yeterli. Benim deneyimimde 35A3B ya da Gemma ailesi ciddi bir gerilemeydi
Ayrıca hız limiti, kota ya da yoğun saat kuyruğu derdi yok. Tüm düşünme sürecini her zaman görebiliyorsunuz, verinin nereye gönderildiği konusunda endişelenmeniz gerekmiyor ve performansın gizlice düşürülmesi gibi bir şey de olmuyor
2×3090 üzerinde llama.cpp ile Q6_K_XL + MTP ayarı kullanıyorum; prefill 500~1000 token/sn, çıktı 60 token/sn ve bağlam penceresi 220 bin token. 160 bin token’ı geçince biraz aptallaşmaya başlıyor ve KV quantization kullanmıyorum
Bu düşünme özelliğinin bir yan ürünü olabilir ama düşünce sürecini çok daha kısa özetlemesini isterdim. Tek cümlelik cevabın yeterli olduğu durumlarda bile son teknoloji modeller en az 5 paragraf yazıp 3~5 yeni yön önermeye çalışıyor
Bir seferde yalnızca tek adım, tek seçenek ve ileriye dönük yönleri proaktif biçimde önermemesini isteseniz bile bunu prompt ile düzgün biçimde kontrol etmek gerçekten zor
Ama az önce ben de şikâyet ettiğim şeyin aynısını yaptım
Programcılar araçlara para ödememeye alışkındır. Temel bir dizüstü bilgisayar (SSD, çok çekirdekli işlemci, 16 GB RAM) bile C/C++/Rust, hatta Python geliştirme için inanılmaz derecede güçlüdür
Ama birden bunun yetmediği, yeniden başkasının bilgisayarını kullandığınız ve her gün araç kiraladığınız bir duruma dönülüyor. Daha kötüsü, her gün farklı bir model kullanmak zorunda kalıyorsunuz ve bazı günler mafya benzeri güçler üreticiye baskı yaptığı için iyi bir aracı kiralama şansınız bile olmayabiliyor
Diğer mesleklerin çoğunda araçlara ciddi yatırım yapmak gerekir. İyi araçlar istiyorsanız 64 GB GPU belleği (ör. 2×5090) ve yaklaşık 96 GB RAM gerekir. Uzman bir mühendise 200 bin dolar ödüyorsanız, iki yılda bir araçlara 50 bin dolar harcamak da oldukça makul görünür
Bu, Anthropic gibi şirketlerin endişelenmesi gereken bir eğilim. Yerel model çalıştırmak kolaylaştıkça, onların uygulayabileceği fiyat tavanı giderek düşecektir
Aylık $$$$$ ödeyecek insanlar tamamen ortadan kalkmaz belki ama, birçok kişi aylık ücreti 12 ya da 24 ile çarpıp “Bu paradan daha ucuza yerel bir model kurup 1-2 yıl içinde maliyetini çıkarabilir miyim?” diye hesap yapacaktır
Müşterilerin önemli bir kısmı kiralamak yerine satın almayı seçerse, kiralama odaklı iş modeline sahip şirketler bir anda müşteri kıtlığı yaşayabilir
Bu artık neredeyse Amerikan tarzı iş modeline kazınmış durumda. Her şeyi dış kaynakla yürütüyorlar. Kimse sunucu odasını bizzat yönetmek istemiyor; 2-3 kat fazla ödeyecek olsa bile o baş ağrısını ve sorumluluğu da dışarıya devretmek istiyor
AI için de aynısı geçerli olacaktır. Bu primi Anthropic’e ödesen de AWS’e ödesen de fark etmez
Ben nispeten küçük bir şirketteyim ve yakın zamanda yerel altyapıyla ilgili bir arıza yaşadık. Son 5 yıldaki toplam kurum içi kesinti süremiz, yakın zamandaki tek bir büyük AWS kesintisinden çok daha az olmasına rağmen CEO artık kendi altyapımızı barındırmanın güvenilir olmadığı yönünde baskı yapıyor
Herkes angaryadan ve sorumluluktan kurtulmak istiyor
Sıradan ana akım kullanıcıların, zaten kurulmuş ve hemen kullanılabilen şeye para ödeme ihtimali daha yüksek görünüyor. Daha teknik ya da daha istekli olanlar bunu kendileri yapacaktır ama bu iki grubun oranının ne olacağını merak ediyorum
Mühendislik ekibinin bir dolaba koyup istediği modeli çalıştırabileceği, 4 GPU’lu makine gibi bir şey satma fikri zaten ortaya atıldı mı bilmiyorum
Herkese cazip gelmez ama, hyperscaler’ların insanların verilerini emip model eğitimi için kullandığına dair güven sorunu ortaya çıkmışken, şeffaf biçimde kontrol edilebilen ve gerekirse gidip fişini bizzat çekebileceğiniz bir makineye ve modele değer veren yerler de olacaktır
Sadece Sonnet 4.6 kullansam bile aylık 20 dolarlık planla neredeyse tüm gün çalışabiliyorum. Ayrıca Sonnet, M2 Mac üzerinde self-host edilebilen modellerden hâlâ çok daha güçlü
Herkes token kullanımına göre ücretlendirmeye geçerse fikrim değişebilir ama abonelik bazında bakınca bunun finansal olarak mantıklı olduğunu düşünmüyorum
Eğlenceli. Ama ekonomik olarak mantıklı değil
OpenAI spot piyasadaki tüm RAM’i toplarken RAM/VRAM fiyatları 6 kat arttı ve GPU’lar ile düzgün bilgisayarlar çoğunluk için erişilmesi zor hale geldi
Varlıklı bazı kişiler 512GB Mac Studio ya da 13.000 dolara bir RTX Pro 6000 alıp gayet iyi yerel modeller çalıştırabilir ama çoğunluk API kullanmak zorunda kalacaktır
Bir noktada Nvidia “6000’i zaten o kadar çok satmıyoruz, veri merkezi GPU’larında 4 kat kâr edebiliyorken bunu iptal edelim” diyebilir. O zaman bulunamayan bir ürüne dönüşür ve bireylerin en ileri seviyeden yaklaşık 1 yıl geride ama yine de iyi sayılabilecek modelleri yerelde çalıştırması imkânsız hale gelebilir
Bununla üretilmiş kodu da görmek isterim. Yerel model kullanmak istiyorum ve donanımım da var ama GPT 5.5 xhigh ya da Opus gibi en ileri seviye modellerin yerine denediğimde henüz onların yerini almaya hazır değiller
Kalite ve takılma noktaları yüzünden iş akışı fazla yavaşlıyor, hatta bazen tool calling sözdizimini bile bozuyorlar
Yine de daha küçük ve iyi tanımlanmış akışlar ya da “şu kısmı tam olarak böyle değiştir” türü düzenlemeler için yeterli görünüyor. Şu anki en ileri seviyenin yerini alacak kadar olgunlaşmasını bekliyorum; bence geçiş noktası o zaman gelecek
Yerel modellerden söz ediyorsak, DiffusionGemma’yı ve genel olarak diffusion modellerini yerel kullanım bağlamında küçümsememek gerekir. Genelde yereldeki sorun, LLM’lerin istekleri toplu halde birleştirip birden fazlasını aynı anda çalıştırmadıkça donanımı verimli kullanamaması; ama bunun için yaklaşımın kendisinin değişmesi gerekiyor. Buna karşılık diffusion modelleri tek bir prompt üzerinde çok daha hızlı ve aradaki fark da küçümsenecek gibi değil
Bugün tesadüfen diffusiongemma-26B-A4B-it desteğini Transformers’tan Candle’a port ettim ve birkaç optimizasyon daha ekleyince, çıkarım sırasında Candle’da yaklaşık 450 token/saniye (yaklaşık 19 iterasyon/saniye) hızına ulaştı. HF Transformers kütüphanesinde bu yaklaşık 180 token/saniye (yaklaşık 11 iterasyon/saniye) idi. Benzer boyuttaki bir LLM’yi vLLM ile çalıştırdığımda tek bir prompt için hiç 250 token/saniyeyi geçtiğini sanmıyorum; bu yüzden yerel modeller açısından ilginç bir gelişme
2600 dolara, kart başına 32GB RAM ve yaklaşık 285W güç tüketimine sahip iki adet AMD 9700 GPU alınabiliyor. Hem maliyet hem güç tüketimi açısından 5090’dan daha düşük
AITER patch uygulanmış bir VLLM build’i kullanılırsa Qwen3.6 27B FP8, Opencode ya da PI içindeki gerçek kodlama oturumlarında tam bağlam penceresiyle yaklaşık 45-50 TPS civarında çalıştırılabiliyor
30B sınıfı dense modellerin daha fazla çıkmaya devam etmesini gerçekten umuyorum ama sadece Qwen3.6 bile epey fazla agent işini halledebiliyor
Yalnız ROCm stack, içine girip kendin kurcalamaya ve patch uygulamaya istekli olmayan kişiler için uygun değil
İnsanların ajan kodlama için “iyi” ölçütünün neden bu kadar farklı olduğunu merak ediyorum.
Bir yandan, “Apple Music'te ‘Set a Timer’ çal” düzeyi bir zekâdan Turing testini geçebilecek seviyeye gelmiş olmamız gerçekten şaşırtıcı; ama pratik açıdan bakınca, küçük modeller için teknik demodan ötesine “iyi” demek hâlâ çok erken.
Bana göre 7B modeller Wikipedia'nın bulanık bir yankısından ibaret. 4 bit Gemma modeli, araç çağrısı için JSON'u istikrarlı biçimde üretmekte ya da bir yamayı uygulamak için tek satır kodu kopyalamakta bile fazlasıyla beceriksiz.
Qwen'in felaket döngüsüne girmemesi ya da bağlamı kaybetmemesi için o kadar çok ayrıntılı talimat ve bakım gerekiyor ki, benim vermem gereken yönergeler çoğu zaman sonunda ortaya çıkan koddan daha uzun oluyor.
Bilmediğim sihirli bir prompt mu var? Yoksa diğer insanlar çok daha sabırlı ya da beklentileri çok daha mı düşük?
Küçük script'lerde, glue code'da ve basit CRUD değişikliklerinde, Qwen3.6-27B gibi küçük modeller daha büyük ve daha dağınık kod tabanlarına kıyasla çok daha iyi çalışabiliyor.
27/35B sınıfı Qwen/Gemma'yı FP8 ile çalıştırırsanız gemini-2.5'ten iyi ama gemini-3.1'den kötü oluyor. DS4-flash FP8, iki DGX Spark üzerinde çalışabiliyor ve durum sürekli iyileşiyor. DiffusionGemma'nın yakın zamanda token üretim hızı 4 katına çıktı.
Kısacası, denediğiniz modeller fazla küçük ya da aşırı kuantize görünüyor.
Yerelde iki modeli çalıştırmayı seviyorum: qwen3.6 27B 8 bit (dense) ve qwen3.6 35B 4 bit (mixture of experts).
27B daha akıllı ve daha güvenilir ama daha yavaş. 35B daha hızlı ve hâlâ çok akıllı, ama 27B'nin bir tık altında ve biraz daha az kararlı. Bunun sebebi mixture of experts (MoE) mimarisi; yalnızca bazı parametreleri etkinleştirdiği için model çok daha hızlı oluyor.
27B'yi MacBook Pro M5 Max + 40 GPU çekirdeği + 128GB RAM üzerinde çalıştırıyorum. Bu canavarda 27B ve 35B'yi aynı anda belleğe yükleyip başka işler için de yer bırakabiliyorum. Ama bir dizüstü olduğu için yerel LLM'leri sürekli çalıştırmak mümkün değil. Fazla ısınıp gürültülü oluyor.
Daha ilginç olan, MacMini M4 64GB RAM üzerinde 35B modeli çalıştırmak. Hızlı ve birçok işi hallediyor. Örneğin e-postaları tarayıp çıkarıyor ve sınıflandırıyor; posta kutusunu sürekli izleyerek çalışıyor. Bunu kişisel Hermes asistanı olarak da kullanıyorum; “Bir sonraki Starship fırlatması ne zaman?”, “Bugün Dünya Kupası'nda kimler oynuyor? Biraz da trivia ver” gibi şeyler soruyorum.
Sıradaki planım, bodruma koyacağım bir RTX Pro 6000 Blackwell workstation. Qwen'i çok hızlı şekilde, birden fazla thread/prompt/ajan ile eşzamanlı çalıştırmak istiyorum. Bütçe izin verirse 2×RTX Pro 6000 kurulumuyla DeepSeek v4 flash çalıştırıp araştırmada kullanmak istiyorum.
Günlük kullanımda Qwen3.6:27b host ediyorum, ama asıl deepseekv4 flash host etmek istiyorum. Boyut/hız/fiyat oranında fazla “iyi” bir model.
Şirketlerin ne zaman tüm geliştiriciler için abonelik ücreti ödemek yerine, günlük işler için modelleri on-premise barındırmaya başlayacağını merak ediyorum. Yeterince iyi ve nispeten ucuz.
Sormadınız ama, aramızdan hiç kimsenin kod yazmak ya da neredeyse herhangi bir iş için en yeni, en üst düzey modeli kullanması gerektiğini düşünmüyorum.
Bunun yerine belirli görevler için açık modeller geliştirmeli ve kemikten parmaklarla, etten beyinle kod yazmayı, yazı yazmayı ve resim yapmayı öğrenmeliyiz.
Büyük şirketler ve araştırma tesisleri, çıktının doğru olup olmadığını doğrulayacak uzmanlarla birlikte bunu kod, matematik vb. üretmek için kullanabilir; ama o durumda bile maliyetine değmeyebilir. Örneğin OpenAI geçen yıl 36 milyar dolar net zarar etti, açık modeller zaten epey yaklaşmış durumda ve genel AI planının çekip çıkaracağı aldatmaca da tükeniyor.
Çok küçük modellerle de yapılabilecek çok iş var ve çılgın seviyede işlem gücü ile belleğe ihtiyaç duymayan birçok görev mevcut; ama bu alanları gerçekten araştıran çok az kişi var.