4 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • 2022 model M2 Mac ortamında bile yerel LLM performansı, geliştirme soruları, kod işleri ve belge kontrolü için pratik biçimde kullanılabilecek kadar iyileşti
  • İlk yerel modeller yavaş, kullanımı zor ve programlama görevlerinde düşük doğruluğa sahipti; ancak GPT-OSS sonrasında API modelleriyle yeniden doğrulama ihtiyacı azaldı
  • Gemma 4 ailesinin en yeni sürümüyle yerelde çalışan ajan kodlama döngüsü, frontier modellere kıyasla yaklaşık %75 doğruluk ve hızla çalışıyor
  • Pi ve LM Studio kombinasyonu, yerel çıkarım uç noktası, model artifact'leri ve Docker yalıtım yapılandırması üzerinden ajan iş akışlarını çalıştırıyor
  • Yerel modellerde çıkarım gecikmesi, küçük bağlam penceresi ve donanım kısıtları sürüyor; ancak token işleme, sistem prompt'u, kuantizasyon ve harness'i doğrudan gözlemleyip değiştirebilirsiniz

Yerel modellerin şu anki konumu

  • İlk yerel modeller, programlama görevlerinin çoğunda yavaştı, kullanımı zordu ve yeterince doğru değildi
  • Yerel modellerin ciddi biçimde geride olduğu değerlendirmesi, bireysel kullanım ölçütünde GPT-OSS çıkana kadar genel olarak doğruydu
  • “Yeterince iyi model” için kişisel ölçüt, API modeliyle yeniden kontrol gerekip gerekmemesiydi; GPT-OSS bu yeniden kontrol sıklığını büyük ölçüde azaltan ilk model oldu
  • Yerel modeller yakın zamana kadar daha çok güncellik gerektirmeyen geliştirme soruları için hızlı ve kişiselleştirilmiş bir Google gibi kullanılıyordu
  • Gemma 4 ailesinin en yeni sürümünden sonra, yerelde ajan kodlama döngüsü frontier modellere kıyasla yaklaşık %75 doğruluk ve hızla çalışıyor {p:75}

Kullanılan modeller ve çalışma ortamı

Gerçek yerel ajan görev örnekleri

  • Notebook durumundaki bir Python script'i, 5~6 modüllü bir depoya refactor edildi
  • Bu modüller, PEP 585 standardına uygun generic type hint kullanacak şekilde lint edildi
  • Blog yazısı düzeltme, unit test yazma ve öneri için two-tower model deposunun ilk kurulumunda da yerel yapılandırma kullanıldı
  • Boş durumdan ajanın oluşturduğu two-tower model deposu temel düzeydeydi, ancak geçen yıl mümkün olduğu düşünülen sınırın ötesine geçti
  • Tüm ajan iş akışları, yürütme erişim yetkisi sınırlandırılmış Docker container içinde çalıştırıldı

Kaynak kullanımı ve yeni küçük modeller

  • Yapılan işler çığır açıcı görevlerden çok kişiselleştirilmiş Google ya da belge sorgulamaya daha yakındı
  • Görevler sırasında GPU ve RAM kullanımı arttı ve K-V cache 64GB RAM'e kadar büyüdü
  • Basit işler bile olsa, bu tür yerel model görevleri 6 ay önce mümkün değildi
  • Gemma-4-12b-qat, çıktığı andan itibaren boyutuna göre etkileyici bir performans gösterdi
  • Model mimarisi, performans ve maliyet kısıtları altında ne tür mimari ödünlerin gerektiğini sorgulatıyor

Yerel ajan modelini çalıştırma yapılandırması

  • Yerel ajan akışını çalıştırmak için yerel model çıkarım motoru, ajan harness'i ve yerel model artifact'leri gerekiyor
  • Harness, yerel çıkarım uç noktasına bakacak şekilde ayarlanmalı; indirilen model artifact'leri de çıkarım motoru üzerinden sunulmalı
  • Mevcut yerel yapılandırmada ajan harness'i olarak Pi, çıkarım sunucusu olarak LM Studio kullanılıyor
  • Pi ve LM Studio ile Gemma 4 ajan kodlamasını kurma yazısı takip edildi, ancak bazı ayarlar değiştirildi
    • Model olarak yazıdaki Gemma 26B A4B yerine daha yeni, daha küçük ve daha hızlı olan gemma-4-12b-qat kullanıldı; doğruluk kaybı büyük olmadı
    • Güvenlik nedeniyle tüm Pi oturumları Docker container içinde çalıştırıldı ve yalnızca bash yetkisi verilerek Python kodu çalıştırma ile web gezintisi engellendi
    • Araştırma işleri için ayrı bir image içinde curl izni verilmesi planlanıyor
    • Docker içinde çalıştığı için, Pi'nin modelle iletişim kurabilmesi amacıyla models.json dosyası düzenlendi

Docker tabanlı yalıtım yöntemi

  • Pi yapılandırmasında baseUrl olarak http://host.docker.internal:1234/v1, API olarak da openai-completions ayarlandı
  • Docker Compose yapılandırması models.json, çalışma dizini, Pi ayarları ve oturum dizinini container'a mount ediyor
  • Çalıştırma script'i mevcut çalışma dizinini container içindeki workspace'e bağlıyor; gerekirse daha güvenli bir sandbox Compose dosyası da ekleniyor
  • Pi, üzerinde çalışılan depoda çalışıp Docker'ı başlattığı için fiziksel diskteki dosya ve dizinleri doğrudan silemiyor
  • Özel model json yapılandırması container içine aktarılabildiği için deney ortamında nispeten iyi çalıştı

Kalan sınırlamalar

  • Yerel modellerde çıkarım hâlâ yavaş olabilir, bağlam penceresi küçüktür ve kullanılabilir bağlam sahip olunan donanımla sınırlıdır
  • Ekosistem, LM Studio ve Hugging Face'in Use This Model butonu gibi araçlar sayesinde çok daha kolay hale geldi
  • İlk sürümler prompt template uyumsuzluğu yaşayabiliyor, ancak bu tür sorunlar genelde çok hızlı biçimde yamalanıyor
  • Bunun üretim yazılımı geliştirmede hemen kullanıma hazır olduğundan emin olmak hâlâ zor

Yerel modellerin avantajları ve deney imkânı

  • Yerel modellerde neredeyse her şeyi inceleyebilirsiniz ve token çıkarım sürecini gerçek zamanlı görebilirsiniz
  • Girdi ve çıktı token akışını doğrudan kontrol edebilirsiniz
  • Yerel bağlam penceresini değiştirip performansın nasıl iyileşip kötüleştiğini gözlemleyebilirsiniz
  • Token'ların GPU üzerinde nasıl işlendiğini derinlemesine inceleyebilir, sistem prompt'u ve kuantizasyon ayarlarını değiştirebilirsiniz
  • Modelleri birbirine karşı test edebilir ya da harness tarafındaki ayarları değiştirip gözlemleyebilirsiniz; bu da deney olanaklarını sürekli genişletir

1 yorum

 
GN⁺ 4 시간 전
Hacker News görüşleri
  • İyi mi emin değilim. Yerel modelleri çok kullanıyorum ama yerelde çalıştırma hâlâ epey sancılı
    Qwen 27B, Gemma 31B gibi dense modeller oldukça akıllı ama yavaş; Gemma 26B, Qwen 35B, North Mini Code 30B gibi uzman karışımı (MoE) modeller ise hızlı ama hata yapmaya meyilli
    Düzgün çalıştırmak için çok bellek gerekiyor ve quantization yapınca tool calling zayıflıyor. Çoğu kişi 4 bit quantization ile çalıştırıp neden iyi olmadığını merak ediyor ama bu, fiilen modeli lobotomi yapmak gibi. Unsloth quantization öneriyorum; MoE için 6 bit, dense modeller için 5 bit tavsiye ederim
    Prefill'i hızlı yapmak için hesaplama performansı gerekiyor, decode'u hızlı yapmak için bant genişliği gerekiyor ve tamamını sığdırmak için de çok bellek gerekiyor. Üstelik dizüstü bilgisayarlar sıcak ve gürültülü makinelere dönüşüyor, bu da çalışmayı rahatsız ediyor
    Peki iyi mi? Pek değil. Ama çalışıyor
    Şunu da ekleyeyim: Açık modellerin gelecek olduğuna inanıyorum ve ekosisteme katkı yapmaya da devam ediyorum. İnsanların bu modelleri kurcalayıp pi kullanarak nasıl çalıştıklarını öğrenmesi güzel olurdu ama sırf modeli indirince hemen iyi olmasını beklememek gerek. Çoğu kişinin istediği “coding agent” yerine geçmesi için ciddi tuning ve ayar gerekiyor

    • Benim deneyimim de neredeyse aynı. Nispeten yeni ve güçlü bir masaüstünde (Radeon 6900 XT 16GB VRAM, Ryzen 9 7900X 12 çekirdek, 64GB sistem RAM'i) bir-iki ay önce ollama ile önerilen modelleri denedim
      Kodlamaya özel olmayan modeller, gerçek tool calling yapmayıp sadece “şöyle bir eylem yapacağım” demekte sık sık takılıyordu; o davranışı değiştirmek için ne ayarlamam gerektiğini sorduğumda da yardımcı olmuyordu. Qwen, ollama içinde çalıştığına inanmıyor, Alibaba bulutunda koştuğunu ve yerel sisteme erişim izni olmadığını iddia ediyordu
      Kodlama modelleri bile benim yazma hızımın ancak biraz üzerinde düşünebiliyordu ve düşünme sürecini gösterebildikleri durumlar da sınırlıydı
      Şimdiye kadar bulduğum en iyi “ücretsiz” deneyim OpenCode + Big Pickle oldu. Çok akıllı değil, bu yüzden ilk sonuç sık sık yanlış çıkıyor ama ücretsiz katmanı cömert; yaklaşık bir ay boyunca sık sık saatlerce kullansam da limite sadece iki kez takıldım. Gerçek yerel çalıştırma hedefleniyorsa uygun değil ama hedef “abonelik ya da token maliyeti olmadan en iyi deneyim” ise, şu ana kadar en az kötü seçenek bu
    • Yerel modelleri “iyi” çalıştırmak için hâlâ pahalı donanım yatırımı gerektiğini düşünüyorum. Uygun bir KV cache ile bu modelleri çalıştırmak için güncel Blackwell mimarisinde yaklaşık 96GB VRAM istemeye başlıyorsunuz
      Birleşik bellekli Mac'lerde, AI Max AMD işlemcilerde ya da DGX Spark benzeri cihazlarda bunu çalıştırmaya uğraşmak, sıkıntıyı davet etmeye daha yakın. Prefill performansı mahvediyor
      Uygun GPU verildiğinde durum çok daha iyi oluyor ama yine de Sonnet ya da DeepSeek 4 Flash seviyesinde değil; Opus / DeepSeek Pro veya Mythos/Fable/GPT-5.5 ise daha da uzak
      Bütçe, güç ve soğutma yeterliyse oldukça iyi veri hatları çalıştırabilirsiniz ama kod için çoğu durumda API sağlayıcılarına para ödemek hâlâ daha mantıklı
    • Bu modelleri ısı kısıtı yüksek dizüstü bilgisayarlarda çalıştırmamak gerekebilir ve büyük bulut platformları seviyesinde hızlı çıkarımla neredeyse en ileri kaliteyi beklememek gerekir
      Yine de merkezi hizmetlere fazla bağımlı olmamak için denemeye değer
    • Gemma 4, özellikle pipeline/otomasyon işleri için çok iyi
      Benim deneyimimde kural takibi ya da otomasyon tarzı işlerde Qwen modellerini, hatta 100B+ olanları bile aşıyor. Görsel yorumlama da çok iyi ve benchmark'larda Opus'tan yüksek çıkıyor
      Qwen, talimatları görmezden gelmeye ve token üretim biçimi açıkça sınırlandırılmazsa sürekli yanlış format vermeye meyilli
      Ancak DGX Spark'ta Gemma 31B Q4 + MTP yaklaşık 20 token/sn, Gemma 26B A4B ise yaklaşık 60 token/sn civarında, yani hâlâ epey yavaş. Üst seviye Nvidia kartlarda çok daha hızlı çalışır ve belleğe de sığar
      Yerel modellere başlayanlara RAM'den çok bellek bant genişliğine odaklanmalarını öneririm. Artık 100B altı modeller bile otomasyon için yeterli ve çok faydalı
      Kodlama/yaratıcı üretim tarafında yerel modelleri kullanmak için henüz güçlü bir neden olmadığına katılıyorum. Ama hisse listelerini taramak, haberlerde yüksek geçiren filtreleme yapmak, log yorumlamak ya da ekran görüntüsü yorumlamak gibi işler için yerel modeller şimdiden yeterli
    • Bir yerde modelleri çalıştıran bir makine bulundurup birkaç kişinin bunu paylaşmasının daha iyi olup olmayacağını merak ediyorum
      256GB RAM'li bir M6 Mac Studio alıp birkaç kişinin uzlaşıyla seçtiği tek bir modele erişmesini sağlamak mantıklı olabilir. Dizüstüler bu kullanım için fazla sıcak ve hantal görünüyor
  • Birkaç haftadır Qwen3.6-27B’yi memnuniyetle kullanıyordum ama şu anda donanıma erişimim olmadığı için Claude Sonnet 4.6 kullanmak zorundayım ve bu büyük bir gerileme gibi hissettiriyor
    Bunun nasıl mümkün olduğunu anlamıyorum. İstenmeyen güçlü fikirleri fazla, çok fazla konuşuyor ve genel olarak daha aptalca geliyor
    Elbette çok daha büyük bir model olduğu için daha fazla bilgiyi kodlamış olacaktır, ama sohbet etmek istemiyorsa bunun pek yardımı olmuyor. Üstelik onunla konuşmak gerçekten paraya da mal oluyor
    Neden bu kadar sevmediğimi merak ediyorum. Belki de kendini bir araçtan çok neredeyse eşit bir varlık gibi görmesindendir. Sanki kendi fikirlerinin bir ağırlığı varmış gibi davranıyor
    Qwen de bazen aşırı hevesli bir stajyer gibi davranabiliyor, ama ona aptal olduğunu söylersen gururunu bir kenara bırakıyor. Benim deneyimimde Claude böyle değildi
    Sonuç olarak başlığa tamamen katılıyorum

    • Bulut çıkarımı için hiç para harcamadım, o yüzden doğrudan karşılaştıramam; ama Qwen3.6-27B’nin kodlama işleri için çok yetenekli bir yerel model olduğunu kesinlikle söyleyebilirim
      Son bir buçuk aydır M2 Ultra ya da RTX 5090 makinede neredeyse her gün kullandım. ggml-org [0] içindeki küçük ve sıradan işler için kullanıyorum; olağanüstü bir şey değil ama maintainera kesinlikle yardımcı olan bir araç
      PR incelemelerine çok zaman harcamıyor olsaydım muhtemelen çok daha fazla kullanırdım. Şu anda çok hafif bir harness kullanıyorum; her şeyi çıkarılmış bir pi agent(pi -nc --offline) ve kendi tarzıma uydurmak için kısa bir sistem prompt’u [1] kadar
      Üretim hızı RTX 5090’da yaklaşık 100~150 token/sn, Mac’te ise yaklaşık 40 token/sn. Çok daha hızlı olduğu için açıkça RTX makinede çalıştırmayı tercih ediyorum, ama yerel kurulum testleri ve daha geniş deneyim için Mac’te de sık sık çalıştırıyorum
      [0] - https://github.com/search?q=%22Assisted-by%22+user%3Aggml-or...
      [1] - https://github.com/ggml-org/llama.cpp/blob/master/.pi/gg/SYS...
    • Qwen3.6-27B’yi her gün, işte de ana araç olarak kullanıyorum ve çıktığı günden beri neredeyse sürekli kullanıyorum. Çalıştırabiliyorsanız kullanmaya değer tek küçük yerel model olduğunu düşünüyorum
      Opus gibi “şu büyük özellik X’i ekle” türü işlerde daha zayıf olabilir, ama ben modelden zaten bunu istemiyorum. Ben düşüneyim, model yazsın istiyorum. Qwen 3.6 27B bunun için tamamen yeterli. Benim deneyimimde 35A3B ya da Gemma ailesi ciddi bir gerilemeydi
      Ayrıca hız limiti, kota ya da yoğun saat kuyruğu derdi yok. Tüm düşünme sürecini her zaman görebiliyorsunuz, verinin nereye gönderildiği konusunda endişelenmeniz gerekmiyor ve performansın gizlice düşürülmesi gibi bir şey de olmuyor
      2×3090 üzerinde llama.cpp ile Q6_K_XL + MTP ayarı kullanıyorum; prefill 500~1000 token/sn, çıktı 60 token/sn ve bağlam penceresi 220 bin token. 160 bin token’ı geçince biraz aptallaşmaya başlıyor ve KV quantization kullanmıyorum
    • “Çok fazla konuşuyor” kısmı gerçekten sinir bozucu. Lütfen biraz susup kısa cevap versin istiyorum
      Bu düşünme özelliğinin bir yan ürünü olabilir ama düşünce sürecini çok daha kısa özetlemesini isterdim. Tek cümlelik cevabın yeterli olduğu durumlarda bile son teknoloji modeller en az 5 paragraf yazıp 3~5 yeni yön önermeye çalışıyor
      Bir seferde yalnızca tek adım, tek seçenek ve ileriye dönük yönleri proaktif biçimde önermemesini isteseniz bile bunu prompt ile düzgün biçimde kontrol etmek gerçekten zor
      Ama az önce ben de şikâyet ettiğim şeyin aynısını yaptım
    • Sadece Sonnet deneyimime bakarak genelleme yapmam. Claude ailesinde Opus’a denk gelen amiral gemisi modeller çok daha iyi
    • Kodlama agent’larının da kişiliği olması komik. İşi oldukça iyi yaptığını bilseniz bile yine de kaçınmak isteyeceğiniz “o iş arkadaşı” tipi bir kişilikleri bile var
  • Programcılar araçlara para ödememeye alışkındır. Temel bir dizüstü bilgisayar (SSD, çok çekirdekli işlemci, 16 GB RAM) bile C/C++/Rust, hatta Python geliştirme için inanılmaz derecede güçlüdür
    Ama birden bunun yetmediği, yeniden başkasının bilgisayarını kullandığınız ve her gün araç kiraladığınız bir duruma dönülüyor. Daha kötüsü, her gün farklı bir model kullanmak zorunda kalıyorsunuz ve bazı günler mafya benzeri güçler üreticiye baskı yaptığı için iyi bir aracı kiralama şansınız bile olmayabiliyor
    Diğer mesleklerin çoğunda araçlara ciddi yatırım yapmak gerekir. İyi araçlar istiyorsanız 64 GB GPU belleği (ör. 2×5090) ve yaklaşık 96 GB RAM gerekir. Uzman bir mühendise 200 bin dolar ödüyorsanız, iki yılda bir araçlara 50 bin dolar harcamak da oldukça makul görünür

  • Bu, Anthropic gibi şirketlerin endişelenmesi gereken bir eğilim. Yerel model çalıştırmak kolaylaştıkça, onların uygulayabileceği fiyat tavanı giderek düşecektir
    Aylık $$$$$ ödeyecek insanlar tamamen ortadan kalkmaz belki ama, birçok kişi aylık ücreti 12 ya da 24 ile çarpıp “Bu paradan daha ucuza yerel bir model kurup 1-2 yıl içinde maliyetini çıkarabilir miyim?” diye hesap yapacaktır
    Müşterilerin önemli bir kısmı kiralamak yerine satın almayı seçerse, kiralama odaklı iş modeline sahip şirketler bir anda müşteri kıtlığı yaşayabilir

    • Son 20 yılda bulut bilişimde tam tersi yaşandı. AI modellerinde de böyle bir değişim olmayacaktır
      Bu artık neredeyse Amerikan tarzı iş modeline kazınmış durumda. Her şeyi dış kaynakla yürütüyorlar. Kimse sunucu odasını bizzat yönetmek istemiyor; 2-3 kat fazla ödeyecek olsa bile o baş ağrısını ve sorumluluğu da dışarıya devretmek istiyor
      AI için de aynısı geçerli olacaktır. Bu primi Anthropic’e ödesen de AWS’e ödesen de fark etmez
      Ben nispeten küçük bir şirketteyim ve yakın zamanda yerel altyapıyla ilgili bir arıza yaşadık. Son 5 yıldaki toplam kurum içi kesinti süremiz, yakın zamandaki tek bir büyük AWS kesintisinden çok daha az olmasına rağmen CEO artık kendi altyapımızı barındırmanın güvenilir olmadığı yönünde baskı yapıyor
      Herkes angaryadan ve sorumluluktan kurtulmak istiyor
    • Bunun, Netflix’e para ödemekle torrent indirip Plex çalıştırmak arasındaki fark gibi olabileceğini düşünmüştüm
      Sıradan ana akım kullanıcıların, zaten kurulmuş ve hemen kullanılabilen şeye para ödeme ihtimali daha yüksek görünüyor. Daha teknik ya da daha istekli olanlar bunu kendileri yapacaktır ama bu iki grubun oranının ne olacağını merak ediyorum
    • Kodlama ağırlıklı şirketlerin ne zaman kendi on-prem AI clusterlarını işletmeye başlayacağını merak ediyorum
      Mühendislik ekibinin bir dolaba koyup istediği modeli çalıştırabileceği, 4 GPU’lu makine gibi bir şey satma fikri zaten ortaya atıldı mı bilmiyorum
      Herkese cazip gelmez ama, hyperscaler’ların insanların verilerini emip model eğitimi için kullandığına dair güven sorunu ortaya çıkmışken, şeffaf biçimde kontrol edilebilen ve gerekirse gidip fişini bizzat çekebileceğiniz bir makineye ve modele değer veren yerler de olacaktır
    • Bu tür yerel modeller, en ileri seviye olmayan modellerin yaptığı işlerin bir kısmını yapabiliyor ama benim için bunun değeri çok yüksek değil
      Sadece Sonnet 4.6 kullansam bile aylık 20 dolarlık planla neredeyse tüm gün çalışabiliyorum. Ayrıca Sonnet, M2 Mac üzerinde self-host edilebilen modellerden hâlâ çok daha güçlü
      Herkes token kullanımına göre ücretlendirmeye geçerse fikrim değişebilir ama abonelik bazında bakınca bunun finansal olarak mantıklı olduğunu düşünmüyorum
      Eğlenceli. Ama ekonomik olarak mantıklı değil
    • Yerelde hiçbir şey çalıştırılamasın diye ciddi biçimde uğraşıyorlar
      OpenAI spot piyasadaki tüm RAM’i toplarken RAM/VRAM fiyatları 6 kat arttı ve GPU’lar ile düzgün bilgisayarlar çoğunluk için erişilmesi zor hale geldi
      Varlıklı bazı kişiler 512GB Mac Studio ya da 13.000 dolara bir RTX Pro 6000 alıp gayet iyi yerel modeller çalıştırabilir ama çoğunluk API kullanmak zorunda kalacaktır
      Bir noktada Nvidia “6000’i zaten o kadar çok satmıyoruz, veri merkezi GPU’larında 4 kat kâr edebiliyorken bunu iptal edelim” diyebilir. O zaman bulunamayan bir ürüne dönüşür ve bireylerin en ileri seviyeden yaklaşık 1 yıl geride ama yine de iyi sayılabilecek modelleri yerelde çalıştırması imkânsız hale gelebilir
  • Bununla üretilmiş kodu da görmek isterim. Yerel model kullanmak istiyorum ve donanımım da var ama GPT 5.5 xhigh ya da Opus gibi en ileri seviye modellerin yerine denediğimde henüz onların yerini almaya hazır değiller
    Kalite ve takılma noktaları yüzünden iş akışı fazla yavaşlıyor, hatta bazen tool calling sözdizimini bile bozuyorlar
    Yine de daha küçük ve iyi tanımlanmış akışlar ya da “şu kısmı tam olarak böyle değiştir” türü düzenlemeler için yeterli görünüyor. Şu anki en ileri seviyenin yerini alacak kadar olgunlaşmasını bekliyorum; bence geçiş noktası o zaman gelecek
    Yerel modellerden söz ediyorsak, DiffusionGemma’yı ve genel olarak diffusion modellerini yerel kullanım bağlamında küçümsememek gerekir. Genelde yereldeki sorun, LLM’lerin istekleri toplu halde birleştirip birden fazlasını aynı anda çalıştırmadıkça donanımı verimli kullanamaması; ama bunun için yaklaşımın kendisinin değişmesi gerekiyor. Buna karşılık diffusion modelleri tek bir prompt üzerinde çok daha hızlı ve aradaki fark da küçümsenecek gibi değil
    Bugün tesadüfen diffusiongemma-26B-A4B-it desteğini Transformers’tan Candle’a port ettim ve birkaç optimizasyon daha ekleyince, çıkarım sırasında Candle’da yaklaşık 450 token/saniye (yaklaşık 19 iterasyon/saniye) hızına ulaştı. HF Transformers kütüphanesinde bu yaklaşık 180 token/saniye (yaklaşık 11 iterasyon/saniye) idi. Benzer boyuttaki bir LLM’yi vLLM ile çalıştırdığımda tek bir prompt için hiç 250 token/saniyeyi geçtiğini sanmıyorum; bu yüzden yerel modeller açısından ilginç bir gelişme

    • Diffusion modelleri, orta-büyük ölçeğin üstünde düzgün eğitilmesi zor modeller ve aynı boyuttaki tipik birer token üreten modellerden kalite olarak daha zayıflar
  • 2600 dolara, kart başına 32GB RAM ve yaklaşık 285W güç tüketimine sahip iki adet AMD 9700 GPU alınabiliyor. Hem maliyet hem güç tüketimi açısından 5090’dan daha düşük
    AITER patch uygulanmış bir VLLM build’i kullanılırsa Qwen3.6 27B FP8, Opencode ya da PI içindeki gerçek kodlama oturumlarında tam bağlam penceresiyle yaklaşık 45-50 TPS civarında çalıştırılabiliyor
    30B sınıfı dense modellerin daha fazla çıkmaya devam etmesini gerçekten umuyorum ama sadece Qwen3.6 bile epey fazla agent işini halledebiliyor
    Yalnız ROCm stack, içine girip kendin kurcalamaya ve patch uygulamaya istekli olmayan kişiler için uygun değil

  • İnsanların ajan kodlama için “iyi” ölçütünün neden bu kadar farklı olduğunu merak ediyorum.
    Bir yandan, “Apple Music'te ‘Set a Timer’ çal” düzeyi bir zekâdan Turing testini geçebilecek seviyeye gelmiş olmamız gerçekten şaşırtıcı; ama pratik açıdan bakınca, küçük modeller için teknik demodan ötesine “iyi” demek hâlâ çok erken.
    Bana göre 7B modeller Wikipedia'nın bulanık bir yankısından ibaret. 4 bit Gemma modeli, araç çağrısı için JSON'u istikrarlı biçimde üretmekte ya da bir yamayı uygulamak için tek satır kodu kopyalamakta bile fazlasıyla beceriksiz.
    Qwen'in felaket döngüsüne girmemesi ya da bağlamı kaybetmemesi için o kadar çok ayrıntılı talimat ve bakım gerekiyor ki, benim vermem gereken yönergeler çoğu zaman sonunda ortaya çıkan koddan daha uzun oluyor.
    Bilmediğim sihirli bir prompt mu var? Yoksa diğer insanlar çok daha sabırlı ya da beklentileri çok daha mı düşük?

    • Benim de benzer bir sorum vardı. Beklentilerin farklı olmasının sebebinin iş yükünün farklı olması olduğunu düşünüyorum.
      Küçük script'lerde, glue code'da ve basit CRUD değişikliklerinde, Qwen3.6-27B gibi küçük modeller daha büyük ve daha dağınık kod tabanlarına kıyasla çok daha iyi çalışabiliyor.
    • Ölçütlerin düşük olduğu bir taraf var ve zamanla daha da düşüyor, ama anlattığınız kurulum bana göre yine de fazla düşük.
      27/35B sınıfı Qwen/Gemma'yı FP8 ile çalıştırırsanız gemini-2.5'ten iyi ama gemini-3.1'den kötü oluyor. DS4-flash FP8, iki DGX Spark üzerinde çalışabiliyor ve durum sürekli iyileşiyor. DiffusionGemma'nın yakın zamanda token üretim hızı 4 katına çıktı.
      Kısacası, denediğiniz modeller fazla küçük ya da aşırı kuantize görünüyor.
  • Yerelde iki modeli çalıştırmayı seviyorum: qwen3.6 27B 8 bit (dense) ve qwen3.6 35B 4 bit (mixture of experts).
    27B daha akıllı ve daha güvenilir ama daha yavaş. 35B daha hızlı ve hâlâ çok akıllı, ama 27B'nin bir tık altında ve biraz daha az kararlı. Bunun sebebi mixture of experts (MoE) mimarisi; yalnızca bazı parametreleri etkinleştirdiği için model çok daha hızlı oluyor.
    27B'yi MacBook Pro M5 Max + 40 GPU çekirdeği + 128GB RAM üzerinde çalıştırıyorum. Bu canavarda 27B ve 35B'yi aynı anda belleğe yükleyip başka işler için de yer bırakabiliyorum. Ama bir dizüstü olduğu için yerel LLM'leri sürekli çalıştırmak mümkün değil. Fazla ısınıp gürültülü oluyor.
    Daha ilginç olan, MacMini M4 64GB RAM üzerinde 35B modeli çalıştırmak. Hızlı ve birçok işi hallediyor. Örneğin e-postaları tarayıp çıkarıyor ve sınıflandırıyor; posta kutusunu sürekli izleyerek çalışıyor. Bunu kişisel Hermes asistanı olarak da kullanıyorum; “Bir sonraki Starship fırlatması ne zaman?”, “Bugün Dünya Kupası'nda kimler oynuyor? Biraz da trivia ver” gibi şeyler soruyorum.
    Sıradaki planım, bodruma koyacağım bir RTX Pro 6000 Blackwell workstation. Qwen'i çok hızlı şekilde, birden fazla thread/prompt/ajan ile eşzamanlı çalıştırmak istiyorum. Bütçe izin verirse 2×RTX Pro 6000 kurulumuyla DeepSeek v4 flash çalıştırıp araştırmada kullanmak istiyorum.

    • O “Hermes” için Brave Search API anahtarı gibi bir şey mi aldınız?
    • RTX 6000 Pro'yu gerçekten istiyorum ama 10 yıllık Claude Max fiyatına bunu nasıl gerekçelendirebilirsiniz?
  • Günlük kullanımda Qwen3.6:27b host ediyorum, ama asıl deepseekv4 flash host etmek istiyorum. Boyut/hız/fiyat oranında fazla “iyi” bir model.
    Şirketlerin ne zaman tüm geliştiriciler için abonelik ücreti ödemek yerine, günlük işler için modelleri on-premise barındırmaya başlayacağını merak ediyorum. Yeterince iyi ve nispeten ucuz.

  • Sormadınız ama, aramızdan hiç kimsenin kod yazmak ya da neredeyse herhangi bir iş için en yeni, en üst düzey modeli kullanması gerektiğini düşünmüyorum.
    Bunun yerine belirli görevler için açık modeller geliştirmeli ve kemikten parmaklarla, etten beyinle kod yazmayı, yazı yazmayı ve resim yapmayı öğrenmeliyiz.
    Büyük şirketler ve araştırma tesisleri, çıktının doğru olup olmadığını doğrulayacak uzmanlarla birlikte bunu kod, matematik vb. üretmek için kullanabilir; ama o durumda bile maliyetine değmeyebilir. Örneğin OpenAI geçen yıl 36 milyar dolar net zarar etti, açık modeller zaten epey yaklaşmış durumda ve genel AI planının çekip çıkaracağı aldatmaca da tükeniyor.
    Çok küçük modellerle de yapılabilecek çok iş var ve çılgın seviyede işlem gücü ile belleğe ihtiyaç duymayan birçok görev mevcut; ama bu alanları gerçekten araştıran çok az kişi var.