Qwen 3.6 27B, yerel geliştirme için en uygun nokta

(quesma.com)

5 puan yazan GN⁺ 6 시간 전 | 1 yorum | WhatsApp'ta paylaş

Qwen 3.6 27B, yerel modellere şüpheyle yaklaşan kullanıcılar için bile genel amaçlı işlerde anlamlı bir seçenek gibi görünüyor; 35B A3B'den daha yavaş olsa da daha güçlü bir dense model olarak öneriliyor
Yaratıcı üretim ve kodlama testlerinde kısıt koşullarına uyma güçlü yanı olarak öne çıktı; OpenCode'da pnpm tabanlı altıgen mayın tarlası oyunu tek bir istemle Node paketi biçiminde üretildi
llama.cpp ile Hugging Face'in 8-bit GGUF kuantizasyonu birleştirildiğinde yerelde çalıştırmak mümkün; MTP, GPU katman yükleme, flash attention ve 64k bağlam ayarıyla bir ajan kodlama ortamı da kurulabiliyor
Macbook Max M5 128GB testinde Qwen3.6-27B 8-bit, llama.cpp + MTP ile 32 tok/s hızına ulaştı ve yaklaşık 42GB RAM kullandı; daha hızlı olan 35B A3B'ye kıyasla kod kalitesi daha iyi olduğu için 27B tercih edildi
Artificial Analysis'e göre Qwen3.6-27B, 37 puan ile GPT-5 / Claude Sonnet 4.5 ile aynı mid 2025 seviyesinde yer alıyor; hassas veriler, çevrimdışı işler ve geri çağrılamayan kurum içi model işletimi için pratik bir seçenek sunuyor

Qwen 3.6 27B neden öneriliyor?

Qwen 3.6 iki varyantla sunuluyor
- Qwen 3.6 35B A3B: mixture-of-experts model
- Qwen 3.6 27B: dense model; daha yavaş ama daha güçlü bir seçenek
Qwen 3.6 27B için sıkça “boyutunun üzerinde performans veriyor” yorumu yapılıyor; buna örnek olarak Will it Mythos? gösteriliyor
Yerelde çalıştırırken bilgisayar ısınabilir, ancak sunduğu performans buna değiyor

Kısa testler ve gerçek iş sonuçları

Basit bir smoke test olarak Simon Willison'ın “penguins on a bicycle” istemi yerine kısıtlı yazma görevi kullanıldı
Zouk dansı ve kuantum fiziği hakkında 8 dizelik bir şiir istendiğinde, modelin kuantum terimleri ve uyak düzeniyle ilgili düşünce akışı doğal şekilde ilerledi
- İlgili konuşma transcript bağlantısında yer alıyor
OpenCode'da pnpm kullanarak altıgen mayın tarlası oluşturması istendiğinde, tek bir istemle düzgün bir Node paketi üretti
Qwen 3.6 35B A3B daha hızlıydı, ancak paket oluşturma talimatına uymayıp bunu tek bir index.html olarak gerçekleştirdi
Genel iş odaklı görevlerde de kısa istemlerle işe yarar çıktılar üretti; tepki süresi ve varsayılan davranışları da fena değil
- frontier modelleriyle karşılaştırıldığında olağanüstü sayılmaz, ancak yerel model olarak artık pratik düzeye ulaşmış durumda

llama.cpp ile yerelde çalıştırma

Yerel model çalıştırmak birkaç satırlık CLI ile mümkün ve önerilen araç llama.cpp
Hugging Face üzerinden daha küçük boyutlu kuantize model indirilip çalıştırılıyor
- Popüler kuantize model sağlayıcıları arasında unsloth ve bartowski var
- Temel model genellikle BF16 hassasiyetinde oluyor
- 8-bit kuantizasyon, kalite kaybını neredeyse hiç artırmadan alan kullanımını yarıya indiriyor
- Daha düşük bitli kuantizasyonlar modeli daha küçük ve potansiyel olarak daha hızlı hale getiriyor, ancak kalite maliyeti getiriyor
- 27B karşılaştırması için Reddit benchmark, 35B A3B karşılaştırması için Hugging Face discussion bağlantıları veriliyor
Sunucuyu çalıştırma örneği
```
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
```
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: Modeli Hugging Face'den alır; sonraki çalıştırmalarda yeniden kullanılır
- -m ~/models/Qwen3.6-27B-Q8_0.gguf: Model dosyası zaten varsa bunun yerine kullanılabilir
- draft-mtp: Hızı artırmak için daha hızlı bir modelle sonraki token'ları tahmin eden multi-token prediction kullanılır
- -ngl 999: Tüm katmanları GPU'ya yükler
- -fa on: flash attention'ı açar
- -c 65536: Bağlam boyutunu 64k token olarak ayarlar
- Qwen 3.6 27B'nin yerel bağlam sınırı 256k'dır
- --port 8080: Diğer ayarlarda kullanılacak portu sabitler
- http://127.0.0.1:8080 açılarak doğrudan sohbet edilebilir

OpenCode ayarı

Aynı sunucu vibe coding için de kullanılabilir
OpenCode'da ~/.config/opencode/opencode.jsonc dosyasına aşağıdaki ayar eklenir

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1";,
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

Terminalde sohbet için çalıştırma
- Terminalde yalnızca sohbet etmek isteniyorsa llama-server yerine llama-cli kullanılabilir
```
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                -ngl 999 -fa on -c 65536
```

Apple Silicon performans ölçümleri

Test sonuçları benching-local-llms-on-apple-silicon içinde derlenmiş ve Macbook Max M5 128GB üzerinde çalıştırılmış
Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
30 tok/s kötü bir hız değil; tipik frontier model API aralığının içinde kalıyor
mlx-lm Apple Silicon için tasarlanmış olsa da bu testte llama.cpp daha hızlıydı
Çalışma sırasında GPU kullanımı %95'e ulaştı; bu da mevcut kaynakların verimli kullanıldığını düşündürüyor
Qwen 3.6'nın iki varyantı da Apple Silicon'un 48GB paylaşımlı RAM sınırı içinde çalıştı
Tüketici sınıfı Nvidia RTX kartlarda daha agresif kuantizasyon gerekiyor, ancak çıkarım daha hızlı çalışıyor
- Hacker News'te gfosco, 5090 üzerinde Q6_K kuantizasyonu ve Q4_0 KV ile 123k bağlamda tutarlı biçimde 50 tok/s elde ettiğini ve LM Studio ile yaklaşık 28/32GB VRAM kullandığını belirtti
35B A3B üç kat daha hızlı olsa da, üretilen kod miktarı üçte bir düzeyinde kalsa bile kalite açısından daha iyi olan 27B'yi seçmek mantıklı olabilir

Mevcut son teknoloji modellerle karşılaştırma

Artificial Analysis puan karşılaştırmasında Qwen3.6-27B 37 puan alıyor
Karşılaştırma tablosundaki başlıca kalemler şöyle
- Gemma 4 31B: 29 puan, late 2024 seviyesi, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 puan, early 2025 seviyesi, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 puan, mid 2025 seviyesi, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 puan, late 2025 seviyesi, GPT-5.2 / Claude Opus 4.5
Ek benchmark sonuçları notes içinde yer alıyor ve genel eğilim benzer
Gemma 4 31B birçok kişi tarafından yerel kodlama için varsayılan seçenek gibi kullanıldığı için karşılaştırmaya dahil edilmiş
Hem benchmark'lar hem de çevrimiçi tepkiler, Qwen 3.6 27B'nin Gemma 4 31B'ye belirgin biçimde tercih edildiğini gösteriyor
Ancak kuantizasyon koşullarına dikkat etmek gerekiyor
- 8-bit kuantizasyonun sonuçlar üzerinde büyük bir etkisi olmayabilir
- DwarfStar4, DeepSeek V4 Flash üzerinde çok daha agresif 2–4 bit kuantizasyon kullandığı için tam modele göre belirgin biçimde daha kötü
- Bu koşullarda Qwen 3.6 27B, DwarfStar4 ile aynı düzeyde ya da biraz daha iyi bir izlenim bırakıyor
- Daha uzun bağlam gerektiren projelerde DS4 üstün gelebilir

Yerel model işletiminin bir sonraki aşaması

Kendi modelini çalıştırmak giderek daha gerçekçi bir seçenek haline geliyor
Özel frontier modellerin durumu bu eğilimi daha da hızlandırabilir
- Claude Fable 5 geri çekildi
- Diğer frontier modeller büyük ölçekli sübvansiyonlarla çalışıyor; ayda 100 dolar ödeyip binlerce dolarlık token tüketmeye dayalı bir yapı söz konusu
Yerel kurulumdaki modeller ihtiyaçlara göre fine-tune edilebilir ve dışarıdan geri çağrılamaz
Şirketler, özel ve hassas veriler için yerel modeller kullanabilir
Bireyler de çevrimdışı projelerde ya da ABD/Çin ile derin sırlarını veya tıbbi verilerini paylaşmak istemedikleri durumlarda yerel modellerden yararlanabilir
frontier-level open-weight GLM 5.2 duyurusu, yerel model akışını daha da hızlandırıyor
- Qwen 3.6 bir geçiş adımıydı ve GLM 5.2 de yerelde çalıştırılabiliyor
- GLM 5.2, Macbook ya da tek bir RTX 5090 üzerinde çalışmıyor, ancak şirket bütçesiyle karşılanabilecek düzeyde
Mevcut son teknoloji modellerden daha zeki olup yerel cihazlarda, belki akıllı telefonlarda bile çalışabilen modeller ortaya çıkabilir
Bugünün modelleri ham zeka ile olgusal bilgiyi aynı ağırlıklarda birleştiriyor; gelecekteki modeller ise bilgiyi tool calling üzerinden aktararak bu ikisini ayırabilir

1 yorum

GN⁺ 6 시간 전

Hacker News yorumları

MacBook Pro M5 128GB RAM ve qwen3.6 hoşuma gidiyor, ama yerel LLM ile ciddi ciddi kod yazmayı düşünüyorsanız bu MacBook’u almamak daha iyi
Nedeni basit: parmaklarınız yanıyor ve fan sesi yüzünden başınız patlayacak gibi oluyor
Gerçekten kullandığınız dizüstünde karmaşık işler çalıştırmak gerçekçi değil; clamshell modda mümkün olsa bile yapay zeka ile kodlama veya ajan işleri sırasında ona dokunmak zorlaşıyor
Qwen3.6 27B/35B’yi düzgün çalıştırmak istiyorsanız MacMini M4 64GB alıp bodruma ya da en azından birkaç metre uzağa koymak ve LAN ya da Tailscale ile bağlanmak daha iyi; fiyatı da MacBook Pro’nun neredeyse 1/3’ü
- Aynı nedenle sıradan bir 32GB dizüstü aldım
  Masaüstü GPU’da Qwen 27B veya Gemma 4 31B gibi nispeten küçük modelleri çalıştırmanın bile ne kadar gürültülü ve sıcak olduğunu biliyorum
  Strix Halo tek büyük fanı olduğu için gürültülü değil ama ısınıyor; dizüstünün küçük fanları o ısıyı dışarı atmaya çalışınca sonunda çığlık atmak zorunda kalıyor
  Her yerde model çalıştıran dizüstü fikri güzel, ama bunu bulut modellerine bırakmak daha doğru; çok veri gidip gelmediği için büyük bir sorun da değil
  Gizlilik gerektiren işler için evdeki büyük makinede self-hosted bir model çalıştırıp VPN ile bağlanmak yeterli
  Ancak Gemma 4 12B QAT 4-bit gibi 16GB cihazlarda veya tabletlerde de iyi çalışan modeller belirli işler için çok iyiydi; sınıflandırma, tanımlama ve etiketleme gibi amaçlarla self-hosted görsel model olarak test ettiklerim arasında en iyisiydi
  Düzyazısı da fena değil, araç kullanımı da epey iyi; ama 7GB içine dünya bilgisi çok sığmadığı için araştırmada arama gerekiyor ve çok basit kodun ötesindeki kodlama için kullanmak istemem
- DwarfStar 4’te --power bayrağını deneyebilirsiniz: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
- “Parmaklarınız yanıyor ve sesten başınız patlıyorsa” Mac mini’yi başka bir odaya koymak yeterli değil mi diye düşünüyorum
  Son yarım yıl kadar dizüstünde kodlama ajanını YOLO modda çalıştırdım; çoğu yerel değildi ama korkmadan kullanmanın yolu ajana özel ayrı bir Linux kullanıcısı, agent, vermekti
  Ajan /agent home dizinini silebilir ama benim home dizinime dokunamıyor, hatta okuyamıyor
  Her seferinde sudo ile o kullanıcıya geçmem gerektiği için bir alias oluşturdum; izin ve sahiplik sorunları çıkınca günde bir kez düzelten bir fonksiyonla hallettim
  Yine de zahmetli olduğu için özel bir makinem olsaydı muhtemelen doğrudan root verirdim; şaka olsun diye Claude’a 3 dolarlık bir VPS’in root yetkisini verdim ve gayet iyi çalışıyor
  Birkaç ay deneme yanılmadan sonra sonuçta “sadece Mac mini al” fikrini baştan yeniden icat etmiş oldum
- M4 Max üzerinde yerel LLM işlerini pi ile denerken, şimdiye kadar kullandığım tüm MacBook’lardan daha sıcak hissettirdi
  Birkaç inç uzaktan bile yayılan ısı hissediliyordu; kullandığım Intel MacBook’lardan bile daha sıcak geldiği için durdurdum
  Tedarik sorunları ve fiyat artışları nedeniyle dizüstünü 10 yıl elde tutmam gerekebileceğinden onu bozmak istemedim
- Ben tam olarak böyle kullanıyorum: Mini M4 Pro 64GB ve qwen3.6 kombinasyonu
  İşitmem çok iyi sayılmaz ama fan sesini duyardım diye düşünüyorum; hiç duymadım, hatta gerçekten fanı olup olmadığını aratmam gerekti
Yazı, 128GB MacBook Pro üzerinde Qwen 3.6 çalıştırma deneyimine dayanıyor
Not olarak, 128GB MBP şu anda $6699’dan başlıyor [0]
Gizlilik için bu primi ödemeye gönüllü olacak kişiler olabilir; ancak MacBook Neo’nun yaklaşık 10 katı maliyetle OpenRouter’dan ya da en ileri araştırma laboratuvarlarından oldukça fazla API kredisi satın alınabilir
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
- Hesabı inkâr etmek zor, ama ben olsam çizgiyi oradan çekmezdim
  Gemma 4 12B gibi makul bir yerel LLM çalıştırabilen bir makineye sahip olmak gerçekten değerli
  Tek bir MacBook ile ciddi ölçekte gözetimsiz ajan kodlaması ne kadar yapılır bilmiyorum; ama yerel modelleri, llama.cpp’yi, LM Studio’yu vb. bizzat kurcalamamış olsaydım bu alanı böyle anlayamazdım
  Bu alan çok büyük, yorucu ve jargonla dolu; 50 yaşını geçmiş biri olarak altında ezilmek kolaydı
  İkinci el bir makinede bizzat kurulum yapıp, API çağrılarını görüp, terimleri anladıkça nihayet elle tutulur hâle gelmeye başladı
  Neo, bu fırsatı daha hissedilebilir ve anlaşılabilir kılmak için fazla küçük
- Qwen 3.6 deneylerinin tamamı için 48GB Apple Silicon yeterliydi
  Daha agresif quantization kullanılırsa bunun daha da aşağı çekilebileceğini düşünüyorum
  Ekonomik açıdan modeli dizüstünde çalıştırmak çok anlamlı değil; yalnızca elektrik maliyetine bakılsa bile büyük ölçekte üretilen token fiyatlarıyla rekabet etmek zor olabilir
  Yine de bu, oyunu değiştirecek bir atılım
  Eskiden tüketici cihazlarında bu tür vibe coding zor ya da pahalı değil, düpedüz imkânsızdı
- Qwen 3.6 27B dense modeli DGX Spark üzerinde de benzer performansla çalıştırılabiliyor [1][2] ve fiyatı yaklaşık $4000
  Asus Ascent GX10 da çeşitli satıcılarda $3999
  Teoride iki adet 3090 ile 48GB VRAM elde etmek de mümkün, ancak MacBook Pro veya GB10’a kıyasla çok yer kaplıyor ve çok ısı üretiyor
  [1] https://x.com/MiaAI_lab/status/2070859135399182444
  [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
- Bahsedilen model 24GB ve üzeri VRAM ile kolayca çalıştırılabiliyor; 16GB VRAM’de de iyi çalışan benzer modeller var
  Burada 128GB zorunlu değil
- Token ya da krediler kullanıldığında tükenir, ama MacBook kalır
  Aynı MacBook’ta başka modeller de çalıştırılabilir
  İnsanların her ay SaaS’e harcadığı paraya bakınca, o parayla bazı durumlarda 5 ayda MacBook’un maliyetini çıkarmak mümkün
  Üstelik bu yalnızca bir “veri gizliliği” meselesi değil
  Claude kullanmak, her şeyi Anthropic’e göndermek anlamına geliyor; bu da epey çılgınca
Örneklerin “gerçek işi” yansıttığını söylemek zor
En azından benim gerçek iş olarak gördüğüm şey bu değil
Sıfırdan, zero-shot yeni projeyi tutturmak küçük modeller için de nispeten kolay
Çünkü biriktirilmesi gereken bağlam çok değil ve eğitim verisindeki benzer örneklere kolayca geri dönebiliyorlar
Tamamen yeni bir şey icat etmelerini istemediğiniz sürece bir şekilde yapma ihtimalleri yüksek
Asıl test, mevcut bir kod tabanında çalışıp çalışamadıkları
Sınırlı şekilde yaptığım denemelerde Qwen 3.5, Rust+React uygulamasında fena değildi; C# monolith’te ise daha kötüydü
Kullanılamayacak kadar değil ama 20 dakika içinde Claude’a geri dönecek kadar kötüydü; bulut modellere erişimimi kaybedip yalnızca Qwen kullanmak zorunda kalsam epey üzülürdüm
- “Sıfırdan, zero-shot yeni projeyi tutturmak küçük modeller için nispeten kolaydır” sözüyle doğrudan ilgili değil ama eskiden tek bir proof of concept ayağa kaldırmanın bir hafta sürdüğü ve böyle cümlelerin saf bilimkurgu gibi duyulduğu zamanlar vardı
- Küçük modelleri değerlendirirken standart örnek kodlardan uzaklaştıkça zayıflıklarının daha iyi ortaya çıktığı yeterince önemsenmiyor
  Qwen3.6, her yerde bulunan basit uygulamalarda küçük bir model için şaşırtıcı sonuçlar verdi
  React TODO uygulaması ya da shadcn gibi popüler araçlarla küçük bir boilerplate uygulama yapmasını istediğinizde oldukça makul sonuçlar çıkarıyor
  Ama yaygın işlerin dışına çıkıp benim daha niş işlerime girince saatlerce dönüp durdu ve sonunda insanı inleten, kullanılamaz sonuçlar verdi
  Basit refactoring ya da çok net talimat verilmiş küçük işlerde yazmayı devralmak için oldukça iyi
  Ancak uzun bağlam oturumlarına veya ana akım dışı konulara girince zayıflıkları çok belirginleşiyor
  Küçük donanıma sığdırmak için sık kullanılan quantization da sorunu ağırlaştırıyor
  İnternette 4-bit quantization’ın neredeyse kayıpsız olduğu ve q8_0/q8_0 key-value cache quantization’ın da pratikte kayıp yaratmadığı havası var; ancak gerçek projelerde bu quantization’lar uzun bağlam performansını ciddi ölçüde düşürdü
- İş geliştirmede pi ve eski codex cli’yi Qwen 3.6 27B 100k bağlam ile birlikte kullanıyordum; ne kadar iyi çalıştığına çok şaşırdım
  Kusursuz değil ama günlük geliştirme akışımı hızlandırmaya yetti; ağırlıklı olarak Go ve C# yazmak için kullanıyorum
- Gemma 4 12B sınıfı modellerle iyi yapılan bazı işler var
  Küçük kütüphanelerden oluşan büyük bir projeyi, her biri bağımsız kodlanıp test edilebilecek şekilde tasarlamak; eski kodlama projelerini toparlamak; README eklemek; koda yorum yazmak; yeni API kullanım örneği gösterip API kullanım yerlerini güncellemek gibi işler
  Bunların hepsi küçük ölçekli işler
  Büyük entegrasyon projelerinde DeepSeek v4 Pro ticari API’si çok ucuz ve iyi sonuç almaya yardımcı oluyor
- Benim deneyimime göre küçük modeller, temel proje kavramlarında bile yeni proje başlatmakta zorlanıyor
  Verilmesi gereken çok fazla karar var ve bunu iyi yapamıyorlar
  Akıllıca davranmalarını beklemiyorsanız mevcut kodu değiştirmek çok daha kolay
  “X özelliğini ekle” deyip kod tabanını keşfetmesine bırakmak yerine, ilgili dosyaları belirtip “hedef bu koda X özelliğini eklemek ve Y yönergelerini izlemek” demek daha iyi
  En zor karar kısmını insan hallederse model sadece talimatları izleyip çizgilerin içinde boyama yapar
Bu modeli çevrimdışı olarak 48GB bellekli MacBook Proda çalıştırınca işi yapıyor ama doğal olarak Claude veya Codex’ten daha yavaş
Binlerce dolarlık 128GB MBP alıp son teknolojiden nesnel olarak çok daha kötü bir modeli çalıştıranları görünce aklım şaşıyor
128GB M5 MAX’e verilen parayla burada yeni bir araba bile alınabilir
Neyi kaçırıyorum bilmiyorum; diğer ülkelerdeki geliştiriciler gerçekten bu kadar farklı bir dünyada mı yaşıyor diye düşünüyorum
Yaşadığım yerde mutlak fiyatların ABD’den de daha yüksek olduğunu biliyorum ve bu yüzden böyle daha da çok hissediyorum
Aklı başında biri başka bir ülkede böyle bir şey alsa, buraya gelir gelmez satıp para biriktirirdi gibi geliyor
- Dizüstü form faktörüne gitmeyi aptalca buluyorum
  Geçen sonbaharda ikinci el iki adet 3090 ile bir iş istasyonu topladım; her birine 850 Kanada doları verdim ama şu an en düşük fiyat yaklaşık 1200
  48GB VRAM oldukça makul ve Qwen 3.6 27B’yi metin derlemlerinden bilgi grafiği oluşturma ve akıl yürütme gerektiren çeşitli işler için kullanıyorum
  OpenRouter’da mümkün olanlarla karşılaştırdım; token maliyeti $0 iken yerel 27B Qwen’i yenmek zor
  Daha yavaş ve ofis birkaç derece daha ısınıyor ama kimse fişi çekemiyor, omuz üstünden izlemiyor ve sonuçlar son teknoloji modellerle benzer seviyede
  Benzer boyuttaki Qwen 3.7’yi merakla bekliyorum
  Şimdiye kadar gördüğüm kadarıyla önceki sürüme göre büyük bir sıçrama
- Bu fiyat aralığındaki insanların GPU’lu bir masaüstü yerine neden Mac dizüstü aldığını anlamıyorum
  Taşınabilir olduğunu gösteriş olsun diye mi sergilemek istiyorlar diye düşünüyorum
- Benim defterimde şimdiden değeri epey artan bir varlık ve önümüzdeki 7–10 yıl içinde aldığım fiyata satabilme ihtimalim yüksek
  Apple aylık taksidiyle $5k, bir yıl boyunca ayda $416 ve faiz de yok
  DS4 sınıfı modelleri ve diğer açık modelleri quantization olmadan, bazen birden fazlasını aynı anda çalıştırabiliyor
  Tayvan/Çin dünyası savaşı ya da küresel bağlantı, ticari modellerin güvenilirliği hakkında karanlık senaryolar gerçekleşirse değerini hayal edin
  Tarihin başka bir anında üretmesi çok zor bir ekipman; keşke daha fazla alsaydım
  Sinyalleri, fiyat trendlerini ve stokların tükenmesini gerçek zamanlı gördüm; imkânı olan başkaları da kesinlikle stok yapıyordur
- Doğru, birçok insan için 6 bin dolar çerez parası
- Evet
  Sizin taraftaki insanlar Amerikalılardan bir basamak daha düşük gelir elde ediyor
Yerel model çalıştıracak donanımın pahalı olduğundan çok söz ediliyor, ancak Apple cihazlarına ilginiz yoksa fiyat/performans açısından oldukça iyi görünen Intel Arc Pro B50/B60/B70 pek anılmıyor
Yakın zamanda B70 32GB RAM modelini, ABD dışında yaşadığım yer için satış vergisi ve gümrük dahil yaklaşık $1200’a aldım; başka bölgelerde daha ucuz olabilir
Bellek bant genişliği 608GB/s
M5 Max 32 çekirdekli GPU 460GB/s, 40 çekirdekli GPU 614GB/s; 3090 ise yaklaşık 900GB/s ile hâlâ hızlı, ama denk Nvidia kartlara göre çok daha ucuza 32GB VRAM elde ediyorsunuz
5090’ın yaklaşık 1/3 bant genişliğini 1/3 fiyata alıp aynı 32GB VRAM’e sahip olmak gibi; daha büyük kuantize modelleri ve bir miktar bağlamı düşük bütçeyle çalıştırmak istiyorsanız çekici bir uzlaşma
Hâlâ yerel modelleri keşfetme aşamasındayım, bu yüzden test için $5000~$10000 harcamak istemiyorum; daha ucuza deney yapabiliyorsam biraz daha yavaş performans sorun değil
Başta 70W TDP’li B50 16GB alıp kendi yığınımda Intel kartı denedim; Ubuntu ve Vulkan’da kolayca çalıştı
Zahmetli ve kullanılamaz olduğuna dair çok yazı gördüm, ama çoğu SYCL ile ilgili gibi; SYCL’in Vulkan’dan daha iyi performans verdiği de görünmüyor, bu yüzden kullanmak için özel bir neden görmüyorum
B50 vergi ve gümrük dahil $370’ti ve kelimenin tam anlamıyla Vulkan kütüphanesini apt install edince 26.04’ün varsayılan xe sürücüsü ve llama.cpp’nin Vulkan derlemesiyle çalıştı
SR-IOV PF/VF de qemu/kvm’de ekstra hile olmadan çalışıyor; satın aldığımdan beri fwupdmgr ürün yazılımını iki kez güncelledi, yani Intel bu ürünleri gerçekten desteklemeye niyetli görünüyor
Şu an tatlı noktanın iki adet 3090, PCIe 4 anakart ve 64~128GB DDR4 RAM kombinasyonu olduğunu düşünüyorum
Şu anda yaklaşık $3k’ya kurulabiliyor ve Qwen 27B/35B’yi int4’te inanılmaz hızlı çalıştırıyor
Bu arada 5090 üzerinde gemma4 31B çalıştırıyorum, oldukça harika
QAT, MTP ve 128k bağlam kullanıyor
Qwen 3.6 27B de iyiydi ama Gemma4 biraz hafife alınıyor gibi
- Benim deneyimim de benzer
  4090’da llm.cpp ve unsloth modeliyle gemma4 31B çalıştırıyorum
  Qwen 3.6’yı da birlikte kullanıyorum; Qwen daha hızlı olduğu için düşünme ve planlama için iyi, Gemma4 ise ilk denemede üretilen kod kalitesi açısından çok daha yüksek
  Rust, C++, C# için, birleştirmeyi kabul edebileceğim seviyeye gelmesi için daha az düzeltme gerekiyor
- Gemma4’ün turu düzgün bitirmesini sağlayamıyorum
  Her zaman aniden kesiliyor ya da hatalı araç çağrıları üretiyor; muhtemelen oMLX veya Opencode ayarlarını ben yanlış yaptım
- İyi
  4080 Super’da Qwen 3.5 9B Q6_M ile Gemma4 12B Q4_K_M arasında gidip gelerek kullanıyorum
  İkisinin hızı benzer ve birbirlerinin planlarını ya da değişikliklerini gözden geçirmelerini sağlayabiliyorum
  Küçük projelerde oldukça yetenekliler; biraz daha zor işler için daha iyi kuantizasyona çıkılabiliyor
Birleşik bellekli bilgisayar almaya gitmeden önce, örneğin DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo gibi cihazlarda yoğun modellerin genel olarak yavaş olduğunu bilmelisiniz
Ayrık GPU’lar yoğun modelleri çok daha iyi çalıştırır
Alacağınız cihazın benchmark’larına bakmak iyi olur; gerçekten böyle bir cihaz istiyorsanız Qwen 3.6 35B ya da başka seyrek MoE modelleri çalıştırmanız daha iyi
M3 Max 64GB RAM 16 inç MacBook Pro üzerinde opencode ile qwen 3.6 35b a3b çalıştırıyordum; yerel planlama ve kodlama amaçları için çok iyiydi
Açıkçası 64GB’ın bu kadar güçlü olduğunu görünce bazen keşke geleceğe dönük olsun diye 128GB alsaydım diyorum
Öte yandan qwen’den biraz daha büyük modeller yüzünden henüz bir duvara da toslamış değilim
- Windows dizüstünde de Qwen 3.6 35B A3b çalıştırıyorum; 64GB RAM ve 4GB GPU kombinasyonuyla en azından katlanılabilir
  Hızlı değil, saniyede birkaç token; okuma hızından yavaş, ama işi bırakıp sonra geri dönebiliyorsunuz
  Birkaç yıl önce eBay’den aldığım $600’lık bir dizüstü, $6000’lık bir makine değil
  Birleşik bellekli Mac’lerin ya da dev 24GB masaüstü GPU’ların 10~20 kat maliyetlerinin karşılığında saniyede onlarca~yüzlerce token verip vermediğini merak ediyorum
- Yanıt hızının ne kadar olduğunu merak ediyorum, saniye başına token olarak
  Deneyimime göre 20~35GB modeller ve anahtar-değer önbelleği tek başına bile temel 64GB’ın çoğunu yiyor; bu yüzden tarayıcı ve editör gibi başka şeyleri sürekli açık tutmak istiyorsanız 128GB’ın tamamı kesinlikle işe yarıyor

Qwen 3.6 27B, yerel geliştirme için en uygun nokta

Qwen 3.6 27B neden öneriliyor?

Kısa testler ve gerçek iş sonuçları

llama.cpp ile yerelde çalıştırma

Sunucuyu çalıştırma örneği

OpenCode ayarı

Terminalde sohbet için çalıştırma

Apple Silicon performans ölçümleri

Mevcut son teknoloji modellerle karşılaştırma

Yerel model işletiminin bir sonraki aşaması

İlgili okumalar

1 yorum

Hacker News yorumları