Yerel Qwen daha kötü bir Opus değil, farklı bir araç

(blog.alexellis.io)

2 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Yerel Qwen 3.6 27B, müşteri verileri ve dahili telemetri gibi buluta yüklenmesi zor işler için somut değer üretiyor, ancak buluttaki SOTA modellerin yerini tutmuyor
Yerel modellerin güçlü yanı, en yüksek performanslı modellerle puan yarışına girmekten çok sabit maliyet, gizlilik koruması ve satıcı riskini azaltma; fark özellikle yoğun kullanım ve SaaS içi özelliklerde ortaya çıkıyor
SWE-Bench Verified'da Qwen 3.6 27B 77,2 puan, Claude Opus 4.8 ise %88,6 alıyor; bu yüzden "yerel model SOTA'nın yalnızca %12 gerisinde" iddiası, benchmark ayarı yapılabilmesini ve Go gibi gerçek alan farklarını göz ardı ediyor
Yaklaşık 12.000 dolara alınan RTX 6000 Pro Blackwell 96GB donanımı, müşteri lisanslarının eksik bildirildiğini tespit ederek sağlanan gelir geri kazanımı sayesinde maliyetini tek başına çıkardı
En büyük sınırlama, uzun görevlerde tekrarlayan çıktı ve halüsinasyon üreten loop sorunu; bu nedenle yerel Qwen, uzun süreli gözetimsiz kodlamadan çok müşteri desteği, dar kapsamlı bakım, kod tabanını okuma ve açıklama için daha uygun

Yapay zeka kullanımının arka planı ve iş bağlamı

OpenFaaS ile başlayıp SlicerVM, Actuated, Inlets gibi düşük seviyeli altyapı ve Linux primitive'leri odaklı ürünleri küçük bir ekip işletiyor
- Konteynerler, Firecracker microVM, ağ protokolleri, tüneller, CLI ve Kubernetes temelli; çoğunlukla Go ile yazılmış, kısmen React UI içeriyor
VS Code sekme tamamlama döneminden beri yapay zeka araçları kullanılıyor; bugün kodun büyük kısmını Claude veya Codex yazıyor, elle kod yazma ise neredeyse yok
tmux içinde uzun süreli çalışma akışını yönetmek için Superterm.dev geliştirildi; oturum ve not yönetimi ile kodlama ajanlarının görsel geri bildirimi için kullanılıyor

Frontier zekâsında dönüm noktası

2025 Kasım ile 2026 Ocak arasında bir kırılma yaşandı; X üzerinde birçok geliştirici, Claude Opus'un kendi işlerinin tamamını yürütebildiğini söylemeye başladı
En üst seviye kodlama planlarının maliyeti kişi başı aylık yaklaşık 200 USD seviyesinde oturdu; aşırı gözetimsiz işlerden kaçınılırsa haftalık 5 saat sınırı içinde kullanılabiliyor

Yerel modeller neden ilgi çekici

2026, herkesin tek bir abonelikle bir fikri bir gecede kopyalayabildiği bir dönem; SlicerVM ve Superterm de klon örnekleri yaşadı
- Yazılım maliyetinin sıfıra yaklaştığı bir pazarda, kritik nokta "ücretsiz ve yeterince iyi" olabilir
Öncü modellerin 0,5~2T parametre aralığında olduğu tahmin ediliyor; bu, yerel donanımın en üst seviyesinden bile bambaşka bir ölçek
Benchmaxxing
- Benchmark'lar herkese açık olduğu için puanı yükseltecek şekilde ayarlanabiliyor; bu yüzden mutlak ölçüt olarak güvenmek zor
- SWE-Bench Verified Python sorunlarına dayanıyor; ancak kodun büyük bölümü tek iş parçacıklı ve senkron, buna karşılık Go dağıtık sistemlerinde channel, context ve struct'lar geniş bir çalışma alanına yayılıyor
- Sadece benchmark puanına bakıp “yerel model SOTA'dan %12 geride” demek zor; gerçek işte başarıyı dil ve sistem özellikleri ciddi biçimde etkiliyor
Maliyet
- “Yerel modelin konusu maliyet değil” sözü herkes için geçerli değil
- Kişisel kodlama planları aylık 200 dolara yüksek kullanım ve SOTA düzeyi zekâ sunuyor, ancak bu kodlama planlarının sübvansiyonlu bir yapıya sahip olduğu düşünülüyor
- GitHub Copilot, aylık 39 dolara 1.500 istek sunan modelden token bazlı ücretlendirmeye geçti ve bu büyük tepki çekti
- API token maliyetiyle ücretlendirme yapılırsa başa baş noktası hızla gelebilir
  - Uber, geliştirici başına araç başına aylık 1.500 dolar ile yapay zeka harcamasını sınırlandırıyor
  - Uber'de medyan maaşın 330.000 dolar olduğu düşünülürse, bir geliştirici iki aracı limite kadar kullanırsa bu maaşın yaklaşık %12'sine denk geliyor
- Büyük hacimli kullanım, loop'lar, ajan analizi ve SaaS içine gömülü özelliklerde open-weight ve yerel modeller ciddi değer sunuyor
Egemenlik ve gizlilik
- Müşteri verileri ve sözleşme koşulları nedeniyle bazı durumlarda veriyi bulut planlarına yüklemek zor olabiliyor
- ChatGPT Pro ve Claude Max için 30 günlük saklama süresi ayarlanabiliyor, ancak bunun bile müşteri sözleşmelerini geçersiz kılabileceği düşünülüyor
- Anthropic'in Fable 5 modelinin ABD dışındaki kullanıcılardan bir gecede kaldırılması, satıcı riski olarak görülüyor
- Yerel modeller, "frontier laboratuvarı X yaparsa ne olur?" sorusuna bir çözüm sunuyor

Bıçak dövme benzetmesi — yerel modelin özü

Çeliğin ısıl işleminde bir aşamayı fazla kaçırınca baştan başlamak gerekmesi gibi, yerel model de çok fazla ısındığında hedefi aşıp loop'a giriyor
- Tek çözüm, harness'i durdurup boşaltılmış bir context ile farklı bir sonuç ummak
Nasıl ki bıçak dövme süreci gözetimsiz bırakılmazsa, Qwen 3.6 27B'ye de uzun ufuklu görevler bırakılmıyor
Aradığım şey
- Hedef; gizlilik, sabit maliyet ve satıcı riskine karşı korunmaydı
- Yerel modeli Claude ve Codex ile aynı şekilde ele alınca hayal kırıklığı doğdu
- Claude, kısa talimatlarla ("do it and test it end to end") 5~15 dakika içinde PR hazırlama, otomatik kod inceleme ve yineleme içeren verimli loop'lar kurabiliyor

3090'dan çıkarılan dersler

2023'te tek bir 3090 ile başlandı; modeli yüklemek ve yeterli context sağlamak için ikinci karta ihtiyaç duyuldu
- Qwen 3.5'in ajan olarak gerçek bir işi yapabildiğinin ilk görüldüğü an buydu
“Makineyi her açıdan inceleyip adli analiz raporu yaz” talimatı verildiğinde, model tüm dosyaları tek tek okuyup context'i doldurdu ve dosya adı ile tool call halüsinasyonu üretti (~/faas-netes→~/faaned)
- Görev alanı daraltılıp “kısaca göz at” denince yaklaşık 40~50 tok/s hızında net bir rapor üretti
27B model, tek bir 3090'a tam hassasiyetle sığmadığı için ayarlanabilen değişkenler ağırlık kuantizasyonu, context uzunluğu ve KV cache sıkıştırması oldu
- KV cache'in key kısmında Q4_0 ile sorun çıktığı genel kabul görüyor; en agresif durumda bile keys için Q8_0, values için Q4_0 kullanıldı
vLLM + NVLink + tensor parallelism denemelerinde de üretim hızı llama.cpp'den saniyede 3 token daha yavaştı; ayrıca loop oluştu ve ağırlıkların yüklenmesi dakikalar sürdü
- vLLM büyük ölçekli eşzamanlı servis için uygun, ancak prosumer ortamında açılış süresi, sadelik ve tek kullanıcı gecikmesi daha önemli

Büyük harcama — RTX 6000 Pro alımı

Müşteri destek biletlerini hızlı çözmek için yaklaşık 12.000 USD'lik RTX 6000 Pro Blackwell (96GB VRAM) satın alındı
- Daha sonra fiyat yaklaşık 15.400 USD'ye yükseldiği için ikinci kart eklemek zorlaştı
- PCI lane, bant genişliği, kart aralığı ve PSU yükü gibi nedenlerle tüketici sınıfı bir makineye basitçe eklenemiyor
Hesaplı bir bahis olarak işe yaradı, ancak Claude aboneliğinin yerini tutmadı

Veri sızıntısı olmadan kolay müşteri desteği

Operatörlerin kolayca çalıştırabildiği "diag" adlı bir CLI aracı yapıldı; OpenFaaS Kubernetes kurulumunun tam bir snapshot'ını alıyor
- Gelen dump, Slicer'ın oluşturduğu ephemeral VM içindeki air-gapped yerel model tarafından analiz ediliyor
Gelir geri kazanımı
- Telemetri veritabanı yerel modele verildi ve bir müşterinin 12 aydan uzun süredir lisansını eksik bildirdiği, 4~5 kat eksik ödeme yaptığı tespit edildi; sadece bu tahsilat bile kartın maliyetini karşıladı
- Telemetri ve diag dump'ları, veri saklama politikasından bağımsız olarak hiçbir bulut planına yüklenmiyor
- ChatGPT Pro ve Claude Max'te 30 günlük saklama ayarı yapılabilse de, bunun bile müşteri sözleşmelerini geçersiz kılma riski var
- İlk modeller aritmetikte başarısız oldu (27.3K'yi 273.000 diye hesapladı), fonksiyon sayısı az diye sık çalıştırmayı göz ardı edip bunu ayrılma riski olarak yanlış yorumladı
- Sonuç olarak modeli yorum yapmaktan çok analiz etmeye odaklamak daha iyi

Mevcut kurulum

RTX 6000 rig üzerinde Qwopus'un en yeni nesli ile temel Qwen 3.6 27B birlikte çalıştırılıyor; yeni fine-tune ve point release'lere göre değişiyor
- Qwopus, Qwen üzerine Chain of Thought izleme ekleyerek akıl yürütme ve kodlama performansını artırmayı amaçlayan fine-tune bir model
- Yakın zamana kadar thinking tamamen kapatılmıştı; yeniden açılması loop artışıyla aynı döneme denk geldi
Tam context uzunluğunu korumak için iki bağımsız llama.cpp instance'ı ile servis veriliyor; --parallel 2 context'i yarıya indiriyor
Spekülatif decoding (MTP) ile yaklaşık %93 kabul oranı alındı; hız sabit 67 tok/s'den 130~200 tok/s aralığına çıktı ve hissedilir şekilde buluttan daha hızlı oldu
- Model kartındaki tuning yönergelerine uymak önemli; Qwopus, thinking kapalıyken ve temperature 0.85~1.0 gibi oldukça yüksek ayarlandığında en iyi sonucu veriyor

Tekrarlayan çıktı ve uzun görevlerin sınırları

Qwen'in en büyük sorunu, uzun kapsamlı görevlerde loop'a girmesi
faas-cli için yeni komut önerisi istendiğinde önce makul öneriler sundu, ancak sonra aynı komut listesini tekrar tekrar yazarak yaklaşık 30 dakika boyunca 600W güç harcadı
Tüm get ve list komutlarına --json eklenmesi istendiğinde de ilk bir iki adım inandırıcıydı ve testler yazdı, fakat sonrasında sorunlar büyüdü
--json çıktısında http:// uzak endpoint için insecure TLS uyarısını bastırmak amacıyla Python reverse proxy kullandırıldığında, ilk sürüm makuldü ama girintileme yanlıştı; düzeltme sırasında dosyayı bozdu ve sonra takılıp tekrar etmeye başladı
Ekipten Han da benzer loop'lar yaşadı; özellikle modelin ya da ajanın yetenek sınırına gelip yardım istemeden orada takılı kalması sık görüldü
Bu sorun yüzünden, müşteri desteği ve yenileme amaçlı telemetri ile diag analizi dışında yerel Qwen'e kolayca güvenmek zor

Erişimi ölçme ve dağıtım

Başlangıçta tek bir inlets tüneli kullanıldı; aynı llama.cpp instance'ına iki ajan bağlanınca önbelleğe alınmış prefix'ler birbirini geçersiz kılıyor ve tüm prompt yeniden işleniyor
Birden fazla kişi kullandığında iş prototip aşamasını aşıyor; kimin hangi instance'ı ne kadar ve hangi modelle kullandığı, elektrik maliyeti ve ayrılma durumunda ne yapılacağı gibi yönetim sorunları doğuyor
opencode.json dosyasını elle düzenleyip dağıtmak yerine, opencode için "Toilgate" adlı bir provider yazıldı; model seçicide temel modelden deneysel Qwopus varyantlarına kadar seçim yapılabiliyor
- Toilgate %100 vibe-coded ve açık kaynak hâline getirilmesi büyük bir yük
Duvardaki iki Shelly Plus Plug 2 ile güç tüketimi ölçüldü; RTX 6000 Pro çıkarım sırasında 600W ve sessiz, iki adet 3090 ise toplamda yaklaşık 750W ve çok gürültülü
Yanlış karşılaştırma
- Milyon token başına giriş/çıkış maliyetini GPT-5.5 API fiyatıyla kıyaslamak, mevcut yetenek düzeyi nedeniyle yanlış bir karşılaştırma
- “Yerel AI” sonunda kimlik, erişim kontrolü, ölçümleme, kota, model yönlendirme ve güç izleme gerektiren bir operasyon sorununa dönüşüyor

Gerçekte işe yarayan kullanım kalıpları

Yerel modeli ve harness'i uzmanlaşmış görevlere uyarlamak önemli
- müşteri desteği
- kapsamı iyi tanımlanmış bakım işleri
- uçtan uca testler
AGENTS.md içine ayrıntılı talimatlar eklenince yerel model yeni CLI'ları daha hızlı ve verimli ekleyebildi ve bunları kendisi test edebildi
- Bunun etkisi alexellis/arkade üzerinde görüldü
Yerel model, doğrudan kod yazmada sınırlı olsa da bir kod tabanını hızlı okuyup açıklamada güçlü
Agent Skills da yardımcı oldu; örneğin yerel bir ajan yeni bir mini PC üzerinde Slicer'ı sıfırdan kurdu
Aynı görevi hem yerel modelde hem bulut modelinde çalıştırma yaklaşımını genelleştirmek gerekiyor
- Aynı görevin karşılaştırıldığı örnekte olduğu gibi, bazen sonuçlar hayal kırıklığı yaratıyor bazen de şanslı hissettiriyor
Uzun kapsamlı gözetimsiz ajan işleri kaçınılması gereken bir alan; yaklaşık 15.000 dolarlık donanım bile bu sorunu çözmüyor

Güncel sonuç ve model seçimindeki sınırlar

Yerel Qwen, “Opus seviyesine yakın” olmaktan çok belirli görevler ve iş akışlarında değer üreten farklı bir araç
Qwen 3.5, kullanılabilir sonuç veren ilk model olarak görülüyor; 3.7 söylentileri var ama devrimden çok kademeli iyileşme bekleniyor
70B modellerin çoğu eski ve nesil olarak geride kabul ediliyor
Qwen 35-A3B, MacBook'ta hızlı göründüğü için popüler ama üretim sırasında etkin olan parametre sayısı yalnızca 3B; bu nedenle hız yerine kalite tercih ediliyor
GLM 5.2, Kimi 2.7, Minimax M3, Deepseek V4 Flash gibi daha büyük modeller bazı yerel donanımlarda mümkün olsa da, kuantize sürümlerini bile yüklemek için çoğu zaman 4~6 adet RTX 6000 Pro gerekiyor; bu da kapsam dışında
Bugün 27B dense modeller bütün gün Go kodu yazacak seviyede değil; sınırlı bilgi ve dikkat, kod incelemesinde hemen ortaya çıkıyor
Qwen'e kısa yazması söylendiğinde buna iyi uymuyor; otomatik kod incelemelerinde gereksiz ayrıntılara giriyor ya da eşzamanlılık sorunları ve race condition'ları halüsinasyonla uyduruyor, bu yüzden deneyler hızla sonlandırılıyor
Daha ucuz ve daha hızlı olan Grok Coder Fast 1, deprecated edilene kadar birkaç ay boyunca iyi çalıştı
İlgili örnekler code review bot ve OpenFaaS'in painless customer support and architecture review yazısında özetleniyor

1 yorum

GN⁺ 4 시간 전

Hacker News görüşleri

Bu modelleri uzun süre kullandığınızda meselenin sadece “X, Y’den daha akıllı” ya da “Y, Z’den daha ucuz” düzeyinde olmadığını fark ediyorsunuz. Bunlar farklı araçlar ve prompt verme biçimleri de farklı; bir enstrüman çalmaya epey benziyor.
Claude’da bazen uygulamaya renk katmak ya da yaratıcı sonuçlar çıkarmak için bilerek daha az açık ya da daha dolaylı ifade etmek gerekebiliyor. Ve kulağa tuhaf gelebilir ama Claude’a nazik davranırsanız karşılığını alıyorsunuz, sert davranırsanız zararını görüyorsunuz. Claude tonu daha güçlü biçimde taklit ettiği için olumsuz bir döngüye girmemek iyi oluyor.
GPT’de net olmak ve belirsizliği azaltmak gerekiyor. GPT, “X’i yapayım ama Y olmasın” gibi bir min-max yaklaşımıyla belirsizliği çözmeye çalışıyor; kapsamı açıkça belirtmezseniz tüm sınır durumlarını yakalamaya çalışıp aşırı tasarıma kaçma eğilimi gösteriyor.
Qwen’de önce yapıyı vermek, sonra içini doldurtmak gerekiyor. Qwen XML, JSON ve listeleri seviyor; önceki işlerden bol örnek gösterirseniz iyi sonuç veriyor. Bu hiç bilimsel bir şey değil, tamamen hissiyat; sonuçlar değişebilir.
- “Bilimsel değil, sadece hissiyat” kısmı tam da sorun. Keşke her modelin güçlü ve zayıf yönlerini yazan bir ürün kılavuzu olsa da “böyle bir iş için X modelini seç”, “Y modelini Z şekilde kullan” gibi bir karar ağacı sunsa.
  Ama dışarıdan bakınca hepsi birbirine benziyor; hangisinin nerede biraz daha iyi olduğunu anlamak için geniş kapsamlı, zaman alan ve muhtemelen pahalı testleri bizzat yapmak gerekiyor.
- Eskiden aynı girdiye aynı promptu tekrar çalıştırıp ya da anlamsal olarak aynı olduğunu düşündüğüm ama ifade veya yapısı farklı girdiler verip sonuçların ne kadar ayrıştığını çok test ettim. Bunu özellikle Sonnet ile Opus arasında ve çeşitli Qwen modelleri arasında çok yaptım.
  Herkese denemesini tavsiye ederim; zaten kullandığınız verinin dışında özel bir veri gerekmiyor ve sonuçlar oldukça sarsıcı. Düşündüğünüzden çok daha fazla rastlantısallık ve kararsızlık var; daha iyi prompt teknikleri ya da özellikle iyi veya kötü diye gördüğünüz sonuçlar aslında sadece tesadüf ya da model sürümü/boyutuna göre değişen davranışlar olabilir. Girdideki küçük farklar sonucu ciddi biçimde eğebilir. Şirkette bunların bir kısmına sihirli kelimeler diyoruz; belli teknik terimlerden, referanslardan ya da yöntemlerden sadece söz etmek bile sonucu büyük ölçüde iyileştirebiliyor.
  Burada bir teknik de var. Model, ajan döngüsünde hile veya kestirme kullanmasının zor olduğu bir öz değerlendirme yapısına giriyor ve öğrendiği yapı ya da alanla uyuşursa çok iyi çalışıyor. Ama en iyi noktayı bulmak zor. Bir ipucu vereyim: Opus 4.8’den bir PyTorch modelini ONNX’e ya da kuantize edilmiş bir modele dönüştürmesini veya başka donanımda çalıştırmasını isterseniz, gerçekten özel bir yeteneği açılmış gibi çok iyi iş çıkarıyor. Buna karşılık, genel dil veya formatlar için EBNF biçimselleştirmesini hile yapmadan doğru biçimde yazdırıp test ettirmeyi bir türlü başaramıyorum.
  En kötüsü, bu tür bilginin çok sık değişmesi; bu yüzden gerçekten modeli eğiten kişilerden biri değilseniz çok derine inmenin faydası neredeyse yok. Keşke çıktıların istikrarı eğitimde daha çok öne çıkarılsa da davranış daha öngörülebilir hale gelse. Aşırı öğrenmeye ya da keşif-kullanım döngüsünü bozmadan bunu yapmak zor olabilir ama toplu işleri daha istikrarlı şekilde yürütebilseydim LLM’lere çok daha fazla para harcardım.
- Bu, enstrüman çalmaktan ziyade slot makinesi çevirmeye ve gerisini hayal etmeye daha yakın görünüyor.
- Çoğuna katılıyorum ama bir noktada farklı düşünüyorum. Claude’a doğru anda sert çıkmak bazen inanılmaz etkili olabiliyor. Özellikle F-bomb, bazen Claude’un takılıp kaldığı yerden çıkmasına epey yardımcı oluyor gibi.
- GLM 5.2’den eski bir C#/XNA oyununu HTML5’e port etmesini istedim; kodu neredeyse birebir taşıdı, yalnızca JS’de olmayan operator overloading kısımlarını hariç tuttu ve çalışması için ek kod ekledi.
  Aynı isteği Claude Sonnet 4.6’ya yaptığımda ise sanki oyun baştan JS ile yazılmış gibi bir sonuç çıktı. Üstelik nedense bunu tek bir HTML dosyası olarak hazırladı, tüm asset’leri kaldırdı, grafikleri ve müziği dinamik olarak üretti, hatta daha iyi yeni bir arka plan bile yaptı.
  Ben sadece oyunun port edilmesini istemiştim, o yüzden şaşırdım. Yaptığı seçimleri oldukça beğendim ama bu davranışı nasıl açıp kapatacağımı bilmiyorum. Bazen yaratıcılık gerekiyor, bazen de gerçekten söylediğimi aynen yapmasını istiyorum.
Bu yazı ve aldığı övgüler bana çıplak kral durumunu hatırlatıyor. Daha şu cümleden itibaren bir şeyler oturmuyor:
“These products use very low level Linux primitives like containers, Kubernetes, Firecracker microVMs, and networked protocols.”
“Düşük seviye Linux primitive’leri” denebilecek şeyler arasında olsa olsa ağ protokolleri bir şekilde savunulabilir. Ayrıca metin bariz biçimde yapay zeka üretimi gibi görünüyor. İçeriğe güvenebilsek sorun değil ama güvenemiyorum.
- Bugünlerde düşük seviye, TypeScript yerine JavaScript demek.
- O cümlenin fazla sıkıştırılmış olduğu doğru. Yeniden ifade ettim ve anlamı aynı kaldı.
  Yazı yapay zeka üretimi değil; kodu yapay zekayla üretiyorum ama yazıyı kendim yazıyorum. Hangi kısmın anlaşılmadığını merak ediyorum. Bu yazı bizim kendi deneyimimizi ve yolculuğumuzu anlatıyor; belli iddialar için de memnuniyetle dayanak sunabilirim.
Yapay zekanın gücünün, sonunda sonsuza kadar para ödemek zorunda olduğunuz ve zamanla şirket hissedarlarının açgözlülüğünü doyurmak için daha da kötüleşen bir başka bulut hizmeti olmasından değil, yerelde güvenli ve özel biçimde uygulandığında ortaya çıktığına hâlâ inanıyorum
ChatGPT ya da Anthropic’in sağlık verilerimi kendi sistemlerine kilitlemesine asla izin vermem, ama yapay zekanın benim kaçıracağım veri kalıplarını bulma yeteneğine hâlâ güveniyorum. Bu yüzden Qwen ya da Gemma gibi şeylere verileri güvenli ve gizli biçimde açıp işletebilen yalnızca yerel bir ekosisteme acilen ihtiyaç var
Akıllı ev ve kişisel asistanlar için de aynı durum geçerli. A şirketinin B şirketinde tutulan verilere eriştiği, D ve E şirketlerinin bunları işlediği, ardından reklamverenlere ve veri broker’larına sattığı ama benim bunu kendi yerel donanımımdan çıkarma ya da görme imkânımın olmadığı kurumsal yaklaşım, bu tür özel kullanım alanları için sürdürülebilir değil. Verilerim benim koşullarımla sahip olunmalı, kontrol edilmeli ve açığa çıkarılmalı; önce benim hayatımı iyileştirmek için kullanılmalı, başkasının kâr-zarar tablosunu iyileştirmek için değil. Teknolojinin bana yeniden zaman kazandırmasını ve sonuçları iyileştirmesini istiyorum; Big Tech’ten fazlasıyla darbe yediğim için de Hizmet Olarak Yapay Zeka iş modelinde asalet ya da kamu yararı olduğu varsayımını kesin biçimde reddediyorum
Yetenek zaten var; yerel modellerin potansiyelini destekleyen ve açığa çıkaran yerel araçlar yapan insanların doğru yönde olduğunu düşünüyorum. Onların yaptıklarını görmek hoşuma gidiyor
- “Yerel” modellerin özü genelde açık ağırlıklar olmasıdır; bazen açık kaynak da olurlar. Bu yüzden yerelde kullanılabildikleri gibi bağımsız sağlayıcılar tarafından da barındırılabilirler
  Qwen, DeepSeek gibi modelleri kullanırsanız tek bir şirkete bağlı kalmaz, daha iyi gizlilik güvenceleri de sunabilecek bağımsız sağlayıcılar arasında geçiş yapabilirsiniz. Böylece internet bağlantısı olduğu sürece modeli doğrudan çalıştıramayan cihazlarda da kullanabilirsiniz
  Yapay zekanın gücü açık kaynak modellerde yatıyor. Sağlayıcı bağımlılığından kaçınmalı, hem yerel kullanımı hem de bağımsız sağlayıcı barındırmasını mümkün kılan modeller kullanmalıyız
Güzel bir yazı. Ancak iyileşme olasılığını küçümsüyor gibi görünüyor
Yazarlar da 1 yıl önceki yerel modellerle bugünkünü karşılaştırmanın anlamlı olmadığını kabul ediyor. Nitekim insanlar, geçen kasımdaki Opus 4.5’i, yani 8 ay öncesini, frontier barındırmalı modellerde bile ajan tabanlı kodlamanın yaygın biçimde mümkün hâle geldiği ilk an olarak görüyor
O hâlde şu anda yerel modellerin neyi iyi yapıp neyi yapamadığına dair kavramı neden özellikle sabitleyelim? Bugün ne varsa, muhtemelen 1 yıl sonra farklı olacak. Tüketici ve profesyonel donanımda uzun menzilli görevlerin de mümkün olacağını düşünmek saf bir iyimserlik olabilir, ama şimdiye kadar kazanan hep o saf iyimserler oldu
- Doğru. Opus 4.5 8 ay önce ajan tabanlı kodlama için yeterli hâle geldiyse, açık ağırlıklı modeller ne kadar geride? 8 aydan da mı fazla? Ne kadar fazla? Birkaç ay içinde Opus 4.5 seviyesine ulaşırlar mı, 1 yıl içinde mi, yoksa asla mı?
- Büyük ölçüde eksik olan şey harness karşılaştırması. Bunun etkisi çok büyük. forge kullanıyorum; yerel modellerin tüm sınırlamalarına rağmen başarılabilen şeyler etkileyiciydi
- Yazar belirli bir modeli ele aldığı için, o modelin ya da genel olarak yerel modellerin zamanla nasıl iyileşeceğini yok saymanın sorun olmadığını düşünüyorum
  Bu biraz araba satın almaya benziyor. O arabayı sürer ve özelliklerine alışırsınız; o arabanın ya da benzer arabaların gelecekte nasıl iyileşeceğini düşünmezsiniz. Bu benim aracım ve ondan mümkün olan en yüksek verimi almak istiyorum
  Elbette yerel modeli değiştirme maliyeti teknik olarak çok düşük, ama o modelden en yüksek performansı çıkarmak için ciddi zaman gerekiyor ve o emek yeni sürümde işe yaramayabilir
- Claude 4.5’in ajan tabanlı kodlamada bir dönüm noktası olduğu konusunda %100 katılıyorum. O model yüzünden fikrim tamamen değişti
İlginç bir yazı. Şahsen yazarın iki şeyi daha iyi yapmasını isterdim
Birincisi, llama.cpp yerine vLLM kullanmalıydı. NVIDIA donanımında çok kullanıcılı yük ve önbelleklemede vLLM farkı devasa. İki ya da daha fazla kullanıcının modeli kullandığı ya da önbelleğin kaybolmasından şikâyet edilen kısımlarda “tabii ki öyle olur” diye düşündüm
İkincisi, tek karta harcanan bütçe SPARK üzerinde çok daha iyi değerlendirilebilirdi. 2 x GX10 kümesi kullanılabiliyor; toplam maliyet bugün bile yazarın ödediğinin yarısından daha düşük ve vLLM ile Deepseek v4 Flash çalıştırılıyor. Qwen ile karşılaştırınca fark çok büyük. Döngüye girdiğini hiç görmedim ve şimdiye kadar denediklerim içinde Sonnet’e en çok benzeyen model. Antirez de aynı fikirde gibi; sanırım bu yüzden ds4 fork’unu yaptı
2 adet GX10 üzerinde nasıl kurulduğu burada: https://forums.developer.nvidia.com/t/deepseek-v4-flash-offi...
Performans ön doldurmada 2K token/sn, bu yüzden devasa bağlam pencerelerine büyük miktarda kaynak kodu koyarken çok kullanışlı; pi.dev harness ile kod yazarken üretim yaklaşık 50–60 token/sn. Yazarın ödediği parayla 4 adet GX10 alınabilirdi ve vLLM tensör paralelleştirmede neredeyse doğrusal ölçeklendiği için her iki sayı da iki katına çıkarılabilirdi
- 3090’da da vLLM denedim. Bizim gibi bir kişiden birkaç kullanıcıya kadar olan kullanım deseninde üretim yaklaşık 3 token/sn daha yavaştı, nicemleme esnekliği daha düşüktü ve başlangıç süresi de tek haneli saniyeler yerine gerçekten birkaç dakika sürüyordu
  İleride tekrar daha fazla kurcalayabilirim ama sonsuz vakit ayırıp ince ayar yapamam; şimdiye kadarki yolculuğumu ve değerlendirmemi paylaşıyorum
  Eşzamanlı toplu servis için vLLM doğru tercih, barrkel’in aşağıda söylediği de tam isabet. Ama bizim kullanım biçimimizde llama.cpp hâlâ daha iyi
  Spark/GX10 yolu gerçekten farklı bir bahis ve sayıları paylaştığın için teşekkürler. Daha birkaç ay öncesine kadar genel hava, GX10’un yalnızca ince ayar için olduğu ve performans rakamlarının ciddi biçimde düşük kaldığı yönündeydi
  Ayrıca o kartlar kesinlikle Claude Max aboneliğinin yerine geçsin diye alınmadı. Asıl satın alma amacımız olan işlerde zaten 140–200 token/sn alıyoruz ve önemli olan da bu
Yazı uzundu ama yazarın asıl ne söylemeye çalıştığını hâlâ anlamadım. Başlıktan çıkarılabilenin ötesinde bir şey yok
Yine de yazarın fiziksel şeyler de yapan, yazılım da geliştiren oldukça havalı biri olduğunu ve başka insanların ona para verdiğini öğrenmiş oldum. Bunun başlığın ima ettiği konuyla ilgili olup olmadığını bilmiyorum
- Artık her şey reklam. Yazı tamamen faydasız değildi ama sunduğu bilgi miktarı düşünüldüğünde iki paragraf yeterli olurdu
Bu yazı yerel modelleri iyi özetliyor. Bazen kodlama ve ajan tabanlı yerel işler için harika bir araçmış gibi abartılsa da, gerçekte oldukça sınırlılar; uzun ya da karmaşık işlerde zayıflar ve döngüye girme ya da görevi unutma eğilimleri vardır
Yazıda eksik kalan nokta, maliyetin de epey yüksek olması. Sadece donanım maliyeti değil, elektrik faturası da var. 3090 ya da 5090 makinesi çok güç tüketiyor ve bu makinelerde modeller oldukça yavaş çalıştığı için token başına enerji tüketimi daha da artıyor
Parladıkları noktalar ise denetlenebilirlik, gizlilik ve öngörülebilirlik. Örneğin fotoğraf ve video kütüphanelerini sınıflandırmak gibi tekrar eden işlerde iyiler ve elektrik fiyatına bağlı olarak maliyet açısından da avantaj sağlayabilirler
- Yerel modellerin kişisel bilgisayarın vazgeçilmez bir uzantısı olduğuna inanıyorum. İlk kişisel bilgisayarlar için de benzer eleştiriler yapılmış olmalı
- Hayalim, günlük işlerin yaklaşık %80'ini halledebilen bir yerel model. Örneğin “X Handler, Y storage'a nasıl bağlanıyor?” ya da “O özelliği commit et ama ödeme ile ilgili kısmı çıkar” gibi işler
  Araç çağrısının %99 güvenilir olması gerekir ve her şeyden önemlisi, “Bu görev benim kapasitemin dışında” deyip bunu bir yerde dev bir veri merkezinde çalışan çevrimiçi yüksek performanslı modele devredebilmelidir
  Böylece basit işler cihaz üzerinde halledilirken veri toplanır ve sorunun bağlamı anlaşılır; kolay işler bittikten sonra da akıllı model devreye girip problemi çözer
  Yerel modelin %100 yapabildiği bir /commit tekniğinin çevrimiçi modeli çağırması gerçekten saçma hissettiriyor. Ama bu çoğunlukla bir harness sorunu, yani büyük ölçüde çözülebilir
- Yerel modeller birçok kullanım için gerçekten harika ve çoğu insanın en ileri seviye modele ihtiyacı olmadığını düşünüyorum. Küçük bir 4070 12GB üzerinde Qwen modelini kişisel e-posta ajanımda çalıştırırken her şeyden önce gizlilik önemli
  Gayet iyi iş çıkarıyor ve kodlama işlerinde de büyük planları bir kerede önüne atmak yerine nasıl kullanılacağını biliyorsanız çok başarılı oluyor
- MTP değişikliği geldikten sonra 350W ile sınırlandırılmış bir 4090 üzerinde qwen3.6:27b ile 40~50 token/saniye alıyorum. Üst sınır baz alındığında yaklaşık 8.75J/token ediyor
  Bunun diğerleriyle kıyaslandığında nasıl olduğunu bilmiyorum ama 5090'ın aynı güç sınırında daha hızlı olacağı için biraz daha ucuz olmasını bekliyorum
- Bunlar bugünkü donanım için geçerli. Peki gelecekteki donanım nasıl olacak? Çıkarım optimizasyonlu donanım nasıl olacak? Belirli bir modeli çalıştırmaya optimize edilmiş donanım nasıl olacak?
vLLM'in llama.cpp'den daha yavaş diye kenara atılması ilginçti
Benim deneyimimde vLLM, llama.cpp'den epey daha hızlı ve özellikle eşzamanlı yükte batch işleme tarafında ezici üstünlük sağlıyor. Eksisi ise ayar esnekliğinin dramatik biçimde daha düşük olması. Kuantize ağırlıkları çalıştırmak için çok az seçenek var ve hesaplama grafiğini optimize ettiği için başlangıç süresi çok daha uzun sürüyor. Bu yüzden donanıma göre biraz büyük bir modeli tek kullanıcının denediği senaryolarda vLLM bunaltıcı gelebilir
- Şöyle de denebilir: vLLM, daha kötü bir Llama.cpp değil, farklı bir araç
- vLLM sürekli batch işleme ve production model serving için harika, ama prosumer kategorisinde çok daha az çok yönlü olan bambaşka bir şey
  “Kenara attı” ifadesi sert ama daha ayrıntılı söylersem, 2x 3090 kurulumunda yükleme 4 dakikadan uzun sürdü ve tek bir istekte 3 token/saniye daha yavaştı
  En kötü tarafı, kurup ince ayar için onca emek verdikten sonra hâlâ döngüye girmesiydi. Oradan buradan duyulan “sadece vLLM kullan” tavsiyesinin sihirli çözüm olmasını ummuştum
  Burada dikkat edilmesi gereken bir nokta da insanların Ollama'ya yaptıkları gibi llama.cpp'yi küçümsemeye başlamaması. llama.cpp son derece yetkin bir araç ve bizim bu kartları fiilen kullanmak istediğimiz amaç için daha uygun
  Büyük bir ekip Claude aboneliğinin yerine bir şey koyacaksa vLLM tek seçenek olabilir ama GLM 5.2 gibi bir şeyi ayağa kaldırmak için herhâlde 5 tane daha RTX 6000 kart eklemek gerekir
- Hatırladığım kadarıyla genel fikir birliği, tek kullanıcı için llama.cpp, çok kullanıcılı ya da kurumsal kullanım için vLLM yönündeydi. Benzerler ama kullanım amaçları farklı
- Birden çok kullanıcı modeli kullandığında cache prefix'in bozulduğundan şikâyet edip yine de llama.cpp kullanmaya devam edip vLLM'e geçmemeleri biraz şaşırtıcıydı
“Model fazla sıcak çalışıp hedefi aşıyor ve döngüye giriyor” denirken, devamında vLLM'in son deney olarak ayarlandığı ama NVLink ve tensor parallelism açık olsa bile llama.cpp'den üretimde 3 token/saniye daha yavaş olduğu söyleniyor
Benim bütün testlerimde vLLM kullanmak buna değdi. Döngü sorunu, ajanın saçmalaması, göreve odak kaybı ve uzun bağlamın fiilen işe yaramaz hâle gelmesi sorunlarına en büyük katkıyı sağlayan tek unsur buydu
vLLM'de FP8 model ve kuantize edilmemiş cache kullanıldığında genel deneyim diğer tüm yığınlara göre bir seviye yükseliyor. Ondan sonra ayarlarla oynamayı bırakıp modeli başka işlerde kullanmaya odaklanabiliyorsunuz
- Bu kısım gerçekten merakımı çekti. Katılmadığımdan değil, ajanın saçmalamasını önlemek istediğim için. vLLM'i sadece kendiniz için mi, ekip için mi, yoksa uygulama için mi kullandığınızı merak ediyorum
  Ayrıca vLLM'in bu şekilde yararlı olması için asgari bir donanım gereksinimi olduğunu düşünüp düşünmediğinizi de merak ediyorum. Hafta sonu projesi olarak eski veri merkezi parçalarıyla ev tipi bir çıkarım sunucusu kurmayı planlıyorum ve nihai yapılandırmayı kafamda sürekli yeniden şekillendiriyorum
- Neden Q8 yerine kuantize edilmemiş cache kullandığınızı merak ediyorum
Kendi AI donanımını satın alıp kurmak isteyenlere, önce çeşitli çıkarım sağlayıcılarından birine bağlanıp farklı modelleri bir süre bizzat kullanmalarını tavsiye ederim
Maliyeti neredeyse yok ama kendi donanımınızla neler elde edebileceğinize dair oldukça iyi bir ön izleme sağlıyor. Sadece dostça bir tavsiye

Yerel Qwen daha kötü bir Opus değil, farklı bir araç

Yapay zeka kullanımının arka planı ve iş bağlamı

Frontier zekâsında dönüm noktası

Yerel modeller neden ilgi çekici

Benchmaxxing

Maliyet

Egemenlik ve gizlilik

Bıçak dövme benzetmesi — yerel modelin özü

Aradığım şey

3090'dan çıkarılan dersler

Büyük harcama — RTX 6000 Pro alımı

Veri sızıntısı olmadan kolay müşteri desteği

Gelir geri kazanımı

Mevcut kurulum

Tekrarlayan çıktı ve uzun görevlerin sınırları

Erişimi ölçme ve dağıtım

Yanlış karşılaştırma

Gerçekte işe yarayan kullanım kalıpları

Güncel sonuç ve model seçimindeki sınırlar

İlgili okumalar

1 yorum

Hacker News görüşleri