Qwen 3.6 27B, yerel geliştirme için en uygun nokta
(quesma.com)- Qwen 3.6 27B, yerel modellere şüpheyle yaklaşan kullanıcılar için bile genel amaçlı işlerde anlamlı bir seçenek gibi görünüyor; 35B A3B'den daha yavaş olsa da daha güçlü bir dense model olarak öneriliyor
- Yaratıcı üretim ve kodlama testlerinde kısıt koşullarına uyma güçlü yanı olarak öne çıktı; OpenCode'da
pnpmtabanlı altıgen mayın tarlası oyunu tek bir istemle Node paketi biçiminde üretildi llama.cppile Hugging Face'in 8-bit GGUF kuantizasyonu birleştirildiğinde yerelde çalıştırmak mümkün; MTP, GPU katman yükleme, flash attention ve 64k bağlam ayarıyla bir ajan kodlama ortamı da kurulabiliyor- Macbook Max M5 128GB testinde Qwen3.6-27B 8-bit,
llama.cpp + MTPile 32 tok/s hızına ulaştı ve yaklaşık 42GB RAM kullandı; daha hızlı olan 35B A3B'ye kıyasla kod kalitesi daha iyi olduğu için 27B tercih edildi - Artificial Analysis'e göre Qwen3.6-27B, 37 puan ile GPT-5 / Claude Sonnet 4.5 ile aynı mid 2025 seviyesinde yer alıyor; hassas veriler, çevrimdışı işler ve geri çağrılamayan kurum içi model işletimi için pratik bir seçenek sunuyor
Qwen 3.6 27B neden öneriliyor?
- Qwen 3.6 iki varyantla sunuluyor
- Qwen 3.6 35B A3B: mixture-of-experts model
- Qwen 3.6 27B: dense model; daha yavaş ama daha güçlü bir seçenek
- Qwen 3.6 27B için sıkça “boyutunun üzerinde performans veriyor” yorumu yapılıyor; buna örnek olarak Will it Mythos? gösteriliyor
- Yerelde çalıştırırken bilgisayar ısınabilir, ancak sunduğu performans buna değiyor
Kısa testler ve gerçek iş sonuçları
- Basit bir smoke test olarak Simon Willison'ın “penguins on a bicycle” istemi yerine kısıtlı yazma görevi kullanıldı
- Zouk dansı ve kuantum fiziği hakkında 8 dizelik bir şiir istendiğinde, modelin kuantum terimleri ve uyak düzeniyle ilgili düşünce akışı doğal şekilde ilerledi
- İlgili konuşma transcript bağlantısında yer alıyor
- OpenCode'da
pnpmkullanarak altıgen mayın tarlası oluşturması istendiğinde, tek bir istemle düzgün bir Node paketi üretti - Qwen 3.6 35B A3B daha hızlıydı, ancak paket oluşturma talimatına uymayıp bunu tek bir
index.htmlolarak gerçekleştirdi - Genel iş odaklı görevlerde de kısa istemlerle işe yarar çıktılar üretti; tepki süresi ve varsayılan davranışları da fena değil
- frontier modelleriyle karşılaştırıldığında olağanüstü sayılmaz, ancak yerel model olarak artık pratik düzeye ulaşmış durumda
llama.cpp ile yerelde çalıştırma
-
Yerel model çalıştırmak birkaç satırlık CLI ile mümkün ve önerilen araç llama.cpp
-
Hugging Face üzerinden daha küçük boyutlu kuantize model indirilip çalıştırılıyor
- Popüler kuantize model sağlayıcıları arasında unsloth ve bartowski var
- Temel model genellikle
BF16hassasiyetinde oluyor - 8-bit kuantizasyon, kalite kaybını neredeyse hiç artırmadan alan kullanımını yarıya indiriyor
- Daha düşük bitli kuantizasyonlar modeli daha küçük ve potansiyel olarak daha hızlı hale getiriyor, ancak kalite maliyeti getiriyor
- 27B karşılaştırması için Reddit benchmark, 35B A3B karşılaştırması için Hugging Face discussion bağlantıları veriliyor
-
Sunucuyu çalıştırma örneği
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: Modeli Hugging Face'den alır; sonraki çalıştırmalarda yeniden kullanılır-m ~/models/Qwen3.6-27B-Q8_0.gguf: Model dosyası zaten varsa bunun yerine kullanılabilirdraft-mtp: Hızı artırmak için daha hızlı bir modelle sonraki token'ları tahmin eden multi-token prediction kullanılır-ngl 999: Tüm katmanları GPU'ya yükler-fa on: flash attention'ı açar-c 65536: Bağlam boyutunu 64k token olarak ayarlar- Qwen 3.6 27B'nin yerel bağlam sınırı 256k'dır
--port 8080: Diğer ayarlarda kullanılacak portu sabitlerhttp://127.0.0.1:8080açılarak doğrudan sohbet edilebilir
-
OpenCode ayarı
- Aynı sunucu vibe coding için de kullanılabilir
- OpenCode'da
~/.config/opencode/opencode.jsoncdosyasına aşağıdaki ayar eklenir
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
Terminalde sohbet için çalıştırma
- Terminalde yalnızca sohbet etmek isteniyorsa
llama-serveryerinellama-clikullanılabilir
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - Terminalde yalnızca sohbet etmek isteniyorsa
Apple Silicon performans ölçümleri
- Test sonuçları benching-local-llms-on-apple-silicon içinde derlenmiş ve Macbook Max M5 128GB üzerinde çalıştırılmış
- Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
- Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
- 30 tok/s kötü bir hız değil; tipik frontier model API aralığının içinde kalıyor
- mlx-lm Apple Silicon için tasarlanmış olsa da bu testte llama.cpp daha hızlıydı
- Çalışma sırasında GPU kullanımı %95'e ulaştı; bu da mevcut kaynakların verimli kullanıldığını düşündürüyor
- Qwen 3.6'nın iki varyantı da Apple Silicon'un 48GB paylaşımlı RAM sınırı içinde çalıştı
- Tüketici sınıfı Nvidia RTX kartlarda daha agresif kuantizasyon gerekiyor, ancak çıkarım daha hızlı çalışıyor
- Hacker News'te gfosco, 5090 üzerinde Q6_K kuantizasyonu ve Q4_0 KV ile 123k bağlamda tutarlı biçimde 50 tok/s elde ettiğini ve LM Studio ile yaklaşık 28/32GB VRAM kullandığını belirtti
- 35B A3B üç kat daha hızlı olsa da, üretilen kod miktarı üçte bir düzeyinde kalsa bile kalite açısından daha iyi olan 27B'yi seçmek mantıklı olabilir
Mevcut son teknoloji modellerle karşılaştırma
- Artificial Analysis puan karşılaştırmasında Qwen3.6-27B 37 puan alıyor
- Karşılaştırma tablosundaki başlıca kalemler şöyle
- Gemma 4 31B: 29 puan, late 2024 seviyesi, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 puan, early 2025 seviyesi, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 puan, mid 2025 seviyesi, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 puan, late 2025 seviyesi, GPT-5.2 / Claude Opus 4.5
- Ek benchmark sonuçları notes içinde yer alıyor ve genel eğilim benzer
- Gemma 4 31B birçok kişi tarafından yerel kodlama için varsayılan seçenek gibi kullanıldığı için karşılaştırmaya dahil edilmiş
- Hem benchmark'lar hem de çevrimiçi tepkiler, Qwen 3.6 27B'nin Gemma 4 31B'ye belirgin biçimde tercih edildiğini gösteriyor
- Ancak kuantizasyon koşullarına dikkat etmek gerekiyor
- 8-bit kuantizasyonun sonuçlar üzerinde büyük bir etkisi olmayabilir
- DwarfStar4, DeepSeek V4 Flash üzerinde çok daha agresif 2–4 bit kuantizasyon kullandığı için tam modele göre belirgin biçimde daha kötü
- Bu koşullarda Qwen 3.6 27B, DwarfStar4 ile aynı düzeyde ya da biraz daha iyi bir izlenim bırakıyor
- Daha uzun bağlam gerektiren projelerde DS4 üstün gelebilir
Yerel model işletiminin bir sonraki aşaması
- Kendi modelini çalıştırmak giderek daha gerçekçi bir seçenek haline geliyor
- Özel frontier modellerin durumu bu eğilimi daha da hızlandırabilir
- Claude Fable 5 geri çekildi
- Diğer frontier modeller büyük ölçekli sübvansiyonlarla çalışıyor; ayda 100 dolar ödeyip binlerce dolarlık token tüketmeye dayalı bir yapı söz konusu
- Yerel kurulumdaki modeller ihtiyaçlara göre fine-tune edilebilir ve dışarıdan geri çağrılamaz
- Şirketler, özel ve hassas veriler için yerel modeller kullanabilir
- Bireyler de çevrimdışı projelerde ya da ABD/Çin ile derin sırlarını veya tıbbi verilerini paylaşmak istemedikleri durumlarda yerel modellerden yararlanabilir
- frontier-level open-weight GLM 5.2 duyurusu, yerel model akışını daha da hızlandırıyor
- Qwen 3.6 bir geçiş adımıydı ve GLM 5.2 de yerelde çalıştırılabiliyor
- GLM 5.2, Macbook ya da tek bir RTX 5090 üzerinde çalışmıyor, ancak şirket bütçesiyle karşılanabilecek düzeyde
- Mevcut son teknoloji modellerden daha zeki olup yerel cihazlarda, belki akıllı telefonlarda bile çalışabilen modeller ortaya çıkabilir
- Bugünün modelleri ham zeka ile olgusal bilgiyi aynı ağırlıklarda birleştiriyor; gelecekteki modeller ise bilgiyi tool calling üzerinden aktararak bu ikisini ayırabilir
1 yorum
Hacker News yorumları
MacBook Pro M5 128GB RAM ve qwen3.6 hoşuma gidiyor, ama yerel LLM ile ciddi ciddi kod yazmayı düşünüyorsanız bu MacBook’u almamak daha iyi
Nedeni basit: parmaklarınız yanıyor ve fan sesi yüzünden başınız patlayacak gibi oluyor
Gerçekten kullandığınız dizüstünde karmaşık işler çalıştırmak gerçekçi değil; clamshell modda mümkün olsa bile yapay zeka ile kodlama veya ajan işleri sırasında ona dokunmak zorlaşıyor
Qwen3.6 27B/35B’yi düzgün çalıştırmak istiyorsanız MacMini M4 64GB alıp bodruma ya da en azından birkaç metre uzağa koymak ve LAN ya da Tailscale ile bağlanmak daha iyi; fiyatı da MacBook Pro’nun neredeyse 1/3’ü
Masaüstü GPU’da Qwen 27B veya Gemma 4 31B gibi nispeten küçük modelleri çalıştırmanın bile ne kadar gürültülü ve sıcak olduğunu biliyorum
Strix Halo tek büyük fanı olduğu için gürültülü değil ama ısınıyor; dizüstünün küçük fanları o ısıyı dışarı atmaya çalışınca sonunda çığlık atmak zorunda kalıyor
Her yerde model çalıştıran dizüstü fikri güzel, ama bunu bulut modellerine bırakmak daha doğru; çok veri gidip gelmediği için büyük bir sorun da değil
Gizlilik gerektiren işler için evdeki büyük makinede self-hosted bir model çalıştırıp VPN ile bağlanmak yeterli
Ancak Gemma 4 12B QAT 4-bit gibi 16GB cihazlarda veya tabletlerde de iyi çalışan modeller belirli işler için çok iyiydi; sınıflandırma, tanımlama ve etiketleme gibi amaçlarla self-hosted görsel model olarak test ettiklerim arasında en iyisiydi
Düzyazısı da fena değil, araç kullanımı da epey iyi; ama 7GB içine dünya bilgisi çok sığmadığı için araştırmada arama gerekiyor ve çok basit kodun ötesindeki kodlama için kullanmak istemem
--powerbayrağını deneyebilirsiniz: https://github.com/antirez/ds4#reducing-heat-power-usage-and...Son yarım yıl kadar dizüstünde kodlama ajanını YOLO modda çalıştırdım; çoğu yerel değildi ama korkmadan kullanmanın yolu ajana özel ayrı bir Linux kullanıcısı,
agent, vermektiAjan
/agenthome dizinini silebilir ama benim home dizinime dokunamıyor, hatta okuyamıyorHer seferinde
sudoile o kullanıcıya geçmem gerektiği için bir alias oluşturdum; izin ve sahiplik sorunları çıkınca günde bir kez düzelten bir fonksiyonla hallettimYine de zahmetli olduğu için özel bir makinem olsaydı muhtemelen doğrudan root verirdim; şaka olsun diye Claude’a 3 dolarlık bir VPS’in root yetkisini verdim ve gayet iyi çalışıyor
Birkaç ay deneme yanılmadan sonra sonuçta “sadece Mac mini al” fikrini baştan yeniden icat etmiş oldum
Birkaç inç uzaktan bile yayılan ısı hissediliyordu; kullandığım Intel MacBook’lardan bile daha sıcak geldiği için durdurdum
Tedarik sorunları ve fiyat artışları nedeniyle dizüstünü 10 yıl elde tutmam gerekebileceğinden onu bozmak istemedim
İşitmem çok iyi sayılmaz ama fan sesini duyardım diye düşünüyorum; hiç duymadım, hatta gerçekten fanı olup olmadığını aratmam gerekti
Yazı, 128GB MacBook Pro üzerinde Qwen 3.6 çalıştırma deneyimine dayanıyor
Not olarak, 128GB MBP şu anda $6699’dan başlıyor [0]
Gizlilik için bu primi ödemeye gönüllü olacak kişiler olabilir; ancak MacBook Neo’nun yaklaşık 10 katı maliyetle OpenRouter’dan ya da en ileri araştırma laboratuvarlarından oldukça fazla API kredisi satın alınabilir
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
Gemma 4 12B gibi makul bir yerel LLM çalıştırabilen bir makineye sahip olmak gerçekten değerli
Tek bir MacBook ile ciddi ölçekte gözetimsiz ajan kodlaması ne kadar yapılır bilmiyorum; ama yerel modelleri, llama.cpp’yi, LM Studio’yu vb. bizzat kurcalamamış olsaydım bu alanı böyle anlayamazdım
Bu alan çok büyük, yorucu ve jargonla dolu; 50 yaşını geçmiş biri olarak altında ezilmek kolaydı
İkinci el bir makinede bizzat kurulum yapıp, API çağrılarını görüp, terimleri anladıkça nihayet elle tutulur hâle gelmeye başladı
Neo, bu fırsatı daha hissedilebilir ve anlaşılabilir kılmak için fazla küçük
Daha agresif quantization kullanılırsa bunun daha da aşağı çekilebileceğini düşünüyorum
Ekonomik açıdan modeli dizüstünde çalıştırmak çok anlamlı değil; yalnızca elektrik maliyetine bakılsa bile büyük ölçekte üretilen token fiyatlarıyla rekabet etmek zor olabilir
Yine de bu, oyunu değiştirecek bir atılım
Eskiden tüketici cihazlarında bu tür vibe coding zor ya da pahalı değil, düpedüz imkânsızdı
Asus Ascent GX10 da çeşitli satıcılarda $3999
Teoride iki adet 3090 ile 48GB VRAM elde etmek de mümkün, ancak MacBook Pro veya GB10’a kıyasla çok yer kaplıyor ve çok ısı üretiyor
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
Burada 128GB zorunlu değil
Aynı MacBook’ta başka modeller de çalıştırılabilir
İnsanların her ay SaaS’e harcadığı paraya bakınca, o parayla bazı durumlarda 5 ayda MacBook’un maliyetini çıkarmak mümkün
Üstelik bu yalnızca bir “veri gizliliği” meselesi değil
Claude kullanmak, her şeyi Anthropic’e göndermek anlamına geliyor; bu da epey çılgınca
Örneklerin “gerçek işi” yansıttığını söylemek zor
En azından benim gerçek iş olarak gördüğüm şey bu değil
Sıfırdan, zero-shot yeni projeyi tutturmak küçük modeller için de nispeten kolay
Çünkü biriktirilmesi gereken bağlam çok değil ve eğitim verisindeki benzer örneklere kolayca geri dönebiliyorlar
Tamamen yeni bir şey icat etmelerini istemediğiniz sürece bir şekilde yapma ihtimalleri yüksek
Asıl test, mevcut bir kod tabanında çalışıp çalışamadıkları
Sınırlı şekilde yaptığım denemelerde Qwen 3.5, Rust+React uygulamasında fena değildi; C# monolith’te ise daha kötüydü
Kullanılamayacak kadar değil ama 20 dakika içinde Claude’a geri dönecek kadar kötüydü; bulut modellere erişimimi kaybedip yalnızca Qwen kullanmak zorunda kalsam epey üzülürdüm
Qwen3.6, her yerde bulunan basit uygulamalarda küçük bir model için şaşırtıcı sonuçlar verdi
React TODO uygulaması ya da shadcn gibi popüler araçlarla küçük bir boilerplate uygulama yapmasını istediğinizde oldukça makul sonuçlar çıkarıyor
Ama yaygın işlerin dışına çıkıp benim daha niş işlerime girince saatlerce dönüp durdu ve sonunda insanı inleten, kullanılamaz sonuçlar verdi
Basit refactoring ya da çok net talimat verilmiş küçük işlerde yazmayı devralmak için oldukça iyi
Ancak uzun bağlam oturumlarına veya ana akım dışı konulara girince zayıflıkları çok belirginleşiyor
Küçük donanıma sığdırmak için sık kullanılan quantization da sorunu ağırlaştırıyor
İnternette 4-bit quantization’ın neredeyse kayıpsız olduğu ve
q8_0/q8_0key-value cache quantization’ın da pratikte kayıp yaratmadığı havası var; ancak gerçek projelerde bu quantization’lar uzun bağlam performansını ciddi ölçüde düşürdüKusursuz değil ama günlük geliştirme akışımı hızlandırmaya yetti; ağırlıklı olarak Go ve C# yazmak için kullanıyorum
Küçük kütüphanelerden oluşan büyük bir projeyi, her biri bağımsız kodlanıp test edilebilecek şekilde tasarlamak; eski kodlama projelerini toparlamak; README eklemek; koda yorum yazmak; yeni API kullanım örneği gösterip API kullanım yerlerini güncellemek gibi işler
Bunların hepsi küçük ölçekli işler
Büyük entegrasyon projelerinde DeepSeek v4 Pro ticari API’si çok ucuz ve iyi sonuç almaya yardımcı oluyor
Verilmesi gereken çok fazla karar var ve bunu iyi yapamıyorlar
Akıllıca davranmalarını beklemiyorsanız mevcut kodu değiştirmek çok daha kolay
“X özelliğini ekle” deyip kod tabanını keşfetmesine bırakmak yerine, ilgili dosyaları belirtip “hedef bu koda X özelliğini eklemek ve Y yönergelerini izlemek” demek daha iyi
En zor karar kısmını insan hallederse model sadece talimatları izleyip çizgilerin içinde boyama yapar
Bu modeli çevrimdışı olarak 48GB bellekli MacBook Proda çalıştırınca işi yapıyor ama doğal olarak Claude veya Codex’ten daha yavaş
Binlerce dolarlık 128GB MBP alıp son teknolojiden nesnel olarak çok daha kötü bir modeli çalıştıranları görünce aklım şaşıyor
128GB M5 MAX’e verilen parayla burada yeni bir araba bile alınabilir
Neyi kaçırıyorum bilmiyorum; diğer ülkelerdeki geliştiriciler gerçekten bu kadar farklı bir dünyada mı yaşıyor diye düşünüyorum
Yaşadığım yerde mutlak fiyatların ABD’den de daha yüksek olduğunu biliyorum ve bu yüzden böyle daha da çok hissediyorum
Aklı başında biri başka bir ülkede böyle bir şey alsa, buraya gelir gelmez satıp para biriktirirdi gibi geliyor
Geçen sonbaharda ikinci el iki adet 3090 ile bir iş istasyonu topladım; her birine 850 Kanada doları verdim ama şu an en düşük fiyat yaklaşık 1200
48GB VRAM oldukça makul ve Qwen 3.6 27B’yi metin derlemlerinden bilgi grafiği oluşturma ve akıl yürütme gerektiren çeşitli işler için kullanıyorum
OpenRouter’da mümkün olanlarla karşılaştırdım; token maliyeti $0 iken yerel 27B Qwen’i yenmek zor
Daha yavaş ve ofis birkaç derece daha ısınıyor ama kimse fişi çekemiyor, omuz üstünden izlemiyor ve sonuçlar son teknoloji modellerle benzer seviyede
Benzer boyuttaki Qwen 3.7’yi merakla bekliyorum
Şimdiye kadar gördüğüm kadarıyla önceki sürüme göre büyük bir sıçrama
Taşınabilir olduğunu gösteriş olsun diye mi sergilemek istiyorlar diye düşünüyorum
Apple aylık taksidiyle $5k, bir yıl boyunca ayda $416 ve faiz de yok
DS4 sınıfı modelleri ve diğer açık modelleri quantization olmadan, bazen birden fazlasını aynı anda çalıştırabiliyor
Tayvan/Çin dünyası savaşı ya da küresel bağlantı, ticari modellerin güvenilirliği hakkında karanlık senaryolar gerçekleşirse değerini hayal edin
Tarihin başka bir anında üretmesi çok zor bir ekipman; keşke daha fazla alsaydım
Sinyalleri, fiyat trendlerini ve stokların tükenmesini gerçek zamanlı gördüm; imkânı olan başkaları da kesinlikle stok yapıyordur
Sizin taraftaki insanlar Amerikalılardan bir basamak daha düşük gelir elde ediyor
Yerel model çalıştıracak donanımın pahalı olduğundan çok söz ediliyor, ancak Apple cihazlarına ilginiz yoksa fiyat/performans açısından oldukça iyi görünen Intel Arc Pro B50/B60/B70 pek anılmıyor
Yakın zamanda B70 32GB RAM modelini, ABD dışında yaşadığım yer için satış vergisi ve gümrük dahil yaklaşık $1200’a aldım; başka bölgelerde daha ucuz olabilir
Bellek bant genişliği 608GB/s
M5 Max 32 çekirdekli GPU 460GB/s, 40 çekirdekli GPU 614GB/s; 3090 ise yaklaşık 900GB/s ile hâlâ hızlı, ama denk Nvidia kartlara göre çok daha ucuza 32GB VRAM elde ediyorsunuz
5090’ın yaklaşık 1/3 bant genişliğini 1/3 fiyata alıp aynı 32GB VRAM’e sahip olmak gibi; daha büyük kuantize modelleri ve bir miktar bağlamı düşük bütçeyle çalıştırmak istiyorsanız çekici bir uzlaşma
Hâlâ yerel modelleri keşfetme aşamasındayım, bu yüzden test için $5000~$10000 harcamak istemiyorum; daha ucuza deney yapabiliyorsam biraz daha yavaş performans sorun değil
Başta 70W TDP’li B50 16GB alıp kendi yığınımda Intel kartı denedim; Ubuntu ve Vulkan’da kolayca çalıştı
Zahmetli ve kullanılamaz olduğuna dair çok yazı gördüm, ama çoğu SYCL ile ilgili gibi; SYCL’in Vulkan’dan daha iyi performans verdiği de görünmüyor, bu yüzden kullanmak için özel bir neden görmüyorum
B50 vergi ve gümrük dahil $370’ti ve kelimenin tam anlamıyla Vulkan kütüphanesini
apt installedince 26.04’ün varsayılan xe sürücüsü ve llama.cpp’nin Vulkan derlemesiyle çalıştıSR-IOV PF/VF de qemu/kvm’de ekstra hile olmadan çalışıyor; satın aldığımdan beri fwupdmgr ürün yazılımını iki kez güncelledi, yani Intel bu ürünleri gerçekten desteklemeye niyetli görünüyor
Şu an tatlı noktanın iki adet 3090, PCIe 4 anakart ve 64~128GB DDR4 RAM kombinasyonu olduğunu düşünüyorum
Şu anda yaklaşık $3k’ya kurulabiliyor ve Qwen 27B/35B’yi int4’te inanılmaz hızlı çalıştırıyor
Bu arada 5090 üzerinde gemma4 31B çalıştırıyorum, oldukça harika
QAT, MTP ve 128k bağlam kullanıyor
Qwen 3.6 27B de iyiydi ama Gemma4 biraz hafife alınıyor gibi
4090’da llm.cpp ve unsloth modeliyle gemma4 31B çalıştırıyorum
Qwen 3.6’yı da birlikte kullanıyorum; Qwen daha hızlı olduğu için düşünme ve planlama için iyi, Gemma4 ise ilk denemede üretilen kod kalitesi açısından çok daha yüksek
Rust, C++, C# için, birleştirmeyi kabul edebileceğim seviyeye gelmesi için daha az düzeltme gerekiyor
Her zaman aniden kesiliyor ya da hatalı araç çağrıları üretiyor; muhtemelen oMLX veya Opencode ayarlarını ben yanlış yaptım
4080 Super’da Qwen 3.5 9B Q6_M ile Gemma4 12B Q4_K_M arasında gidip gelerek kullanıyorum
İkisinin hızı benzer ve birbirlerinin planlarını ya da değişikliklerini gözden geçirmelerini sağlayabiliyorum
Küçük projelerde oldukça yetenekliler; biraz daha zor işler için daha iyi kuantizasyona çıkılabiliyor
Birleşik bellekli bilgisayar almaya gitmeden önce, örneğin DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo gibi cihazlarda yoğun modellerin genel olarak yavaş olduğunu bilmelisiniz
Ayrık GPU’lar yoğun modelleri çok daha iyi çalıştırır
Alacağınız cihazın benchmark’larına bakmak iyi olur; gerçekten böyle bir cihaz istiyorsanız Qwen 3.6 35B ya da başka seyrek MoE modelleri çalıştırmanız daha iyi
M3 Max 64GB RAM 16 inç MacBook Pro üzerinde opencode ile qwen 3.6 35b a3b çalıştırıyordum; yerel planlama ve kodlama amaçları için çok iyiydi
Açıkçası 64GB’ın bu kadar güçlü olduğunu görünce bazen keşke geleceğe dönük olsun diye 128GB alsaydım diyorum
Öte yandan qwen’den biraz daha büyük modeller yüzünden henüz bir duvara da toslamış değilim
Hızlı değil, saniyede birkaç token; okuma hızından yavaş, ama işi bırakıp sonra geri dönebiliyorsunuz
Birkaç yıl önce eBay’den aldığım $600’lık bir dizüstü, $6000’lık bir makine değil
Birleşik bellekli Mac’lerin ya da dev 24GB masaüstü GPU’ların 10~20 kat maliyetlerinin karşılığında saniyede onlarca~yüzlerce token verip vermediğini merak ediyorum
Deneyimime göre 20~35GB modeller ve anahtar-değer önbelleği tek başına bile temel 64GB’ın çoğunu yiyor; bu yüzden tarayıcı ve editör gibi başka şeyleri sürekli açık tutmak istiyorsanız 128GB’ın tamamı kesinlikle işe yarıyor