Qwen3.6-27B: 27 milyar dense modelde amiral gemisi düzeyinde kodlama performansı

(qwen.ai)

7 puan yazan GN⁺ 7 일 전 | 4 yorum | WhatsApp'ta paylaş

27 milyar parametreli dense çok modlu model olarak duyuruldu; tek bir birleşik checkpoint içinde thinking·non-thinking modlarını ve görüntü·video işlemeyi birlikte destekliyor
Agentic coding performansı, başlıca kodlama benchmark’larının genelinde önceki nesil açık kaynak amiral gemisi Qwen3.5-397B-A17B’yi aşıyor; toplam parametre sayısı en fazla 15 kat daha büyük modellere kadar üstün geliyor
SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2 elde etti; ayrıca GPQA Diamond 87.8, AIME26 94.1 gibi metin akıl yürütme ve STEM değerlendirme sonuçları da paylaşıldı
Dense mimarinin benimsenmesiyle MoE routing karmaşıklığı ortadan kalkıyor ve dağıtım sadeleşiyor; open weights, API, Qwen Studio üzerinden anında kullanım yolları ile OpenClaw·Qwen Code·Claude Code entegrasyon desteği sunuluyor
İyi eğitilmiş bir dense modelin, geliştiriciler için kritik görevlerde çok daha büyük önceki nesli geride bırakabileceğini gösteriyor; ayrıca Qwen3.6 ailesinde agentic coding’in genişlemesine de işaret ediyor

Genel bakış

Qwen3.6-27B, 27 milyar parametreli bir dense çok modlu model olarak duyuruldu ve çok modlu thinking modu ile non-thinking modunu birlikte destekliyor
Agentic coding performansında, önceki nesil açık kaynak amiral gemisi Qwen3.5-397B-A17B’yi başlıca kodlama benchmark’larının genelinde geride bırakıyor
MoE routing karmaşıklığı olmayan dense mimari sayesinde dağıtım daha basit; pratik ve geniş çapta dağıtılabilir bir ölçekte üst düzey kodlama performansı sunuyor
Qwen Studio üzerinden hemen kullanılabiliyor; topluluk için open weights ve API erişim yolu da birlikte sağlanıyor
Temel özellikleri arasında amiral gemisi düzeyinde agentic coding, güçlü metin akıl yürütme ve çok modlu akıl yürütme yetenekleri yer alıyor

Performans

Qwen3.6-27B için dense ve MoE referans modellere karşı kapsamlı değerlendirmeler sunuldu; agentic coding benchmark’larında büyük ilerleme kaydedildi
Toplam parametre sayısı 15 kata kadar daha büyük modelleri bile geçtiği özellikle belirtiliyor
Değerlendirme başlıkları dil, bilgi, STEM ve akıl yürütme, vision-language, belge anlama, video anlama ve visual agent alanlarından oluşuyor
Dil
- Yalnızca 27 milyar parametreyle, başlıca tüm kodlama benchmark’larında Qwen3.5-397B-A17B’yi aşıyor
  - SWE-bench Verified 77.2’ye karşı 76.2
  - SWE-bench Pro 53.5’e karşı 50.9
  - Terminal-Bench 2.0 59.3’e karşı 52.5
  - SkillsBench 48.2’ye karşı 30.0
- Benzer ölçekteki diğer dense modelleri de açık farkla geride bırakıyor
- Akıl yürütme görevlerinde GPQA Diamond 87.8 puan aldı; kendisinden birkaç kat daha büyük modellerle yarışabilecek bir seviye
- Ayrıntılı tabloda Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B ve Qwen3.6-27B karşılaştırmaları yer alıyor
- Coding Agent başlığındaki önemli değerler
  - SWE-bench Multilingual 71.3
  - QwenWebBench 1487
  - NL2Repo 36.2
  - Claw-Eval Avg 72.4
  - Claw-Eval Pass^3 60.6
  - QwenClawBench 53.4
- Knowledge başlığındaki önemli değerler
  - MMLU-Pro 86.2
  - MMLU-Redux 93.5
  - SuperGPQA 66.0
  - C-Eval 91.4
- STEM ve akıl yürütme başlığındaki önemli değerler
  - HLE 24.0
  - LiveCodeBench v6 83.9
  - HMMT Feb 25 93.8
  - HMMT Nov 25 90.7
  - HMMT Feb 26 84.3
  - IMOAnswerBench 80.8
  - AIME26 94.1
Dil değerlendirme ayarları
- SWE-Bench Series, dahili agent scaffold ile bash ve file-edit araçlarını kullandı; ölçümler temp 1.0, top_p 0.95 ve 200K context window temelinde yapıldı
  - Açık SWE-bench Pro setindeki sorunlu bazı görevlerin düzeltilmiş olduğu refined benchmark üzerinde tüm referans modeller değerlendirildi
- Terminal-Bench 2.0, Harbor veya Terminus-2 harness kullandı
  - 3 saat timeout, 32 CPU, 48 GB RAM
  - temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
  - 5 çalıştırmanın ortalaması
- SkillsBench, OpenCode ile 78 görevi değerlendirdi
  - API bağımlı görevlerin çıkarıldığı self-contained alt küme kullanıldı
  - 5 çalıştırmanın ortalaması
- NL2Repo için diğer modellerin değerlendirmesi Claude Code ile yapıldı
  - temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench, gerçek kullanıcı dağılımına dayalı bir Claw agent benchmark’ı
  - temp 0.6, 256K ctx
- QwenWebBench, dahili bir frontend kod üretim benchmark’ı
  - EN ve CN olmak üzere iki dilli yapı
  - Web Design, Web Apps, Games, SVG, Data Visualization, Animation ve 3D olmak üzere 7 kategori
  - Kod ile görsel uyumu değerlendirmek için auto-render ve çok modlu judge kullanılıyor
  - BT veya Elo rating system kullanılıyor
- AIME 26, AIME 2026 I ve II’nin tamamını kullanıyor
  - Puanların Qwen 3.5 notlarındakinden farklı olabileceği belirtiliyor
Vision-language
- Qwen3.6-27B, tek bir birleşik checkpoint içinde vision-language thinking ve non-thinking modlarını birlikte destekliyor
- Metinle birlikte görüntü ve video işleyebiliyor
- Çok modlu akıl yürütme, belge anlama ve görsel soru-cevap görevlerini destekliyor
- Karşılaştırma tablosu Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B ve Qwen3.6-27B temelinde sunuluyor
- STEM ve bulmacalar
  - MMMU 82.9
  - MMMU-Pro 75.8
  - MathVista mini 87.4
  - DynaMath 85.6
  - VlmsAreBlind 97.0
- Genel VQA
  - RealWorldQA 84.1
  - MMStar 81.4
  - MMBench EN-DEV-v1.1 92.3
  - SimpleVQA 56.1
- Belge anlama
  - CharXiv RQ 78.4
  - CC-OCR 81.2
  - OCRBench 89.4
- Mekânsal zekâ
  - ERQA 62.5
  - CountBench 97.8
  - RefCOCO avg 92.5
  - EmbSpatialBench 84.6
  - RefSpatialBench 70.0
- Video anlama
  - VideoMME(w sub.) 87.7
  - VideoMMMU 84.4
  - MLVU 86.6
  - MVBench 75.5
- Visual Agent
  - V* 94.7
  - AndroidWorld 70.3
- Not
  - Tablodaki boş alanlar (--), puanın henüz bulunmadığını veya uygulanabilir olmadığını ifade ediyor

Qwen3.6-27B kullanımı

Alibaba Cloud Model Studio desteğinin yakında sunulacağı belirtiliyor
Hugging Face ve ModelScope üzerinden open weights sağlanıyor; self-hosting mümkün
Alibaba Cloud Model Studio API üzerinden kullanım yolu ve Qwen Studio içinde anında deneme seçeneği sunuluyor
OpenClaw, Claude Code, Qwen Code gibi üçüncü taraf kodlama yardımcılarıyla entegrasyon desteği var
Geliştirme iş akışını sadeleştirme ve context-aware coding experience desteğinden söz ediliyor
API kullanımı
- Bu sürüm preserve_thinking özelliğini destekliyor
- Mesajın tüm önceki turlarında üretilen thinking içeriğini koruyan bir özellik ve agentic task için önerildiği belirtiliyor
Alibaba Cloud Model Studio
- OpenAI biçimiyle uyumlu chat completions ve responses API desteği sunuluyor
- Anthropic uyumlu API arayüzü de birlikte destekleniyor
- Resmî dokümantasyona göre ortam değişkeni örnekleri veriliyor
  - DASHSCOPE_API_KEY
  - DASHSCOPE_BASE_URL
  - DASHSCOPE_MODEL
- Base URL için örnek bölgeler de belirtiliyor
  - Beijing https://dashscope.aliyuncs.com/compatible-mode/v1
  - Singapore https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  - US Virginia https://dashscope-us.aliyuncs.com/compatible-mode/v1
- Örnek kodda varsayılan model adı olarak qwen3.6-27b kullanılıyor
- extra_body içine enable_thinking: True ekleniyor
  - preserve_thinking: True ise yorum satırı biçiminde gösteriliyor
- Streaming yanıtta reasoning_content ile answer content’in ayrı toplanmasına dair örnek de yer alıyor
- Ek bilgi için API doc bağlantısına bakılması öneriliyor
Coding & Agents
- Qwen3.6-27B, agentic coding yeteneklerine sahip ve OpenClaw, Claude Code, Qwen Code ile sorunsuz biçimde entegre olabiliyor
- OpenClaw
  - OpenClaw, self-hosted açık kaynak bir AI coding agent; önceki adı Moltbot veya Clawdbot idi
  - Model Studio ile bağlanarak terminalde tam agentic coding deneyimi sunuyor
  - Başlangıç betiğinde Node.js 22+, kurulum betiğini çalıştırma, DASHSCOPE_API_KEY ayarlama ve openclaw dashboard veya openclaw tui çalıştırma adımları yer alıyor
  - İlk kullanımda ~/.openclaw/openclaw.json dosyasının düzenlenmesi gerekiyor
    - Tüm dosyanın üzerine yazılmaması gerektiği özellikle belirtiliyor
    - Mevcut ayarları korumak için yalnızca gerekli alanların birleştirilmesi isteniyor
  - Örnek yapılandırmada modelstudio sağlayıcısı ve qwen3.6-27b model kaydı bulunuyor
    - api değeri openai-completions
    - reasoning değeri true
    - Girdi türleri text, image
    - contextWindow 131072
    - maxTokens 16384
    - Varsayılan birincil model modelstudio/qwen3.6-27b
- Qwen Code
  - Qwen Code, terminal için açık kaynak bir AI agent ve Qwen Series için derinlemesine optimize edilmiş bir araç
  - Başlangıç betiğinde Node.js 20+, @qwen-code/qwen-code@latest kurulumu ve qwen çalıştırma adımları yer alıyor
  - Oturum içinde /help, /auth komutlarının kullanım örnekleri veriliyor
  - İlk kullanımda giriş istemi gösteriliyor; /auth ile kimlik doğrulama yöntemi değiştirilebiliyor
- Claude Code
  - Qwen APIs, Anthropic API protocol desteği de sunuyor
  - Claude Code gibi araçlarla birlikte kullanılabileceği belirtiliyor
  - Yapılandırma örneğinde şu ortam değişkenleri yer alıyor
    - ANTHROPIC_MODEL="qwen3.6-27b"
    - ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
    - ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
    - ANTHROPIC_AUTH_TOKEN=<your_api_key>
  - Çalıştırma komutu claude

Kapanış

İyi eğitilmiş bir dense modelin, geliştiriciler için önemli görevlerde çok daha büyük önceki nesli geçebileceğini Qwen3.6-27B kanıtlıyor
27 milyar parametre ölçeğinde olmasına rağmen Qwen3.5-397B-A17B’yi başlıca agentic coding benchmark’larının tamamında aşıyor
Dağıtımı ve servise alınması basit bir yapıya sahip; Qwen3.6 açık kaynak ailesi, Qwen3.6-27B’nin eklenmesiyle daha geniş bir model yelpazesine kavuşuyor

4 yorum

kaydash 6 일 전

Ancak a3b olmalı ki en azından biraz yerelde çalıştırılabilsin haha

kirinonakar 7 일 전

Benchmark sonuçlarının iyi olduğu söyleniyor ama gerçek kullanımda hâlâ bir kodlama ajanı olarak kullanılabilecek seviyede değil gibi görünüyor.

b89kim 4 일 전

Kullandım; agentic coding açısından büyük bir sorun yok. Ancak dediğiniz gibi, gerçek kullanım + genel kodlama tarafında parametre sayısı daha büyük modellere kıyasla geride kalması kaçınılmaz. Ayar değerleri de 3.5'ten farklı ve preserve_thinking modu da eklenmiş, bilginize. 27B yaklaşık 4bit kuantizasyon seviyesinde olduğunda yerelde kullanmakta sorun yaşamadım.

GN⁺ 7 일 전

Hacker News görüşleri

Benim açımdan, 16.8GB’a quantize edilmiş yerel bir model için pelican sonucu gerçekten harikaydı. Bunu https://simonwillison.net/2026/Apr/22/qwen36-27b/ adresinde toparladım; M5 Pro 128GB RAM’de çalıştırdım ama gerçek bellek ihtiyacı yaklaşık 20GB civarındaydı, bu yüzden 32GB bir makinede de rahatça çalışacağını tahmin ediyorum. Okuma tarafında 20 token’ı 0.4 saniyede işledi ve 54.32 tokens/s verdi; üretimde ise 4,444 token’ı 2 dakika 53 saniyede üreterek 25.57 tokens/s gördü. Birkaç gün önce Opus 4.7 ile yaptığım pelican’dan bu sonucu daha çok beğendim. https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
- Bu sefer sonuç o kadar iyi ki, acaba eğitim verisine dahil miydi diye düşündürüyor. Başka testler de yapıp farkın nasıl olduğunu görmek isterim
- Bir gün model sağlayıcılarının Simon’ın etkili pelican riding a bicycle testine göre optimize etmeye başlaması gibi yarı şaka bir düşüncem var
- Qwen Flamingo’daki papyon da gerçekten çok yerindeydi
- Hatırladığım kadarıyla pelican testi için bu kadar net bir excellent ifadesi neredeyse hiç duymadım; ama bu kez gerçekten hak ediyor gibi görünüyor. Bir süredir akış MoE tarafına kaymıştı, şimdi dense modelin yeniden öne çıkması da ilginç. Kapalı modellerde de hızlı seri MoE, pro seri dense şeklinde mi gidiyor, merak ediyorum
- Artık LLM’lerin bisiklet gövdesinin aslında yarılmış bir baklava dilimi olduğunu fark etmiş olması gerek diye düşünüyorum → ◿◸. Bunu söyleyerek testi bozmuş olmamayı umuyorum
Gemma 4 geçen Easter civarında çıktıktan sonra self hosting modellerle Claude arasındaki farkın epey kapandığını hissediyorum. Elbette arada hâlâ büyük bir fark var, ama önceki yerel modeller o kadar rekabetsizdi ki şimdi tablo çok daha iyi. Qwen 3.6 da Gemma 4’ün bir kademe üstüne çıktıysa bu oldukça heyecan verici. Yine de yerel modeller hâlâ bazen tuhaf yönlere sapıyor ya da başarısız oluyor, bu yüzden Opus’u hep yakında tutuyorum. Buna rağmen yerel bir model gerçekten işimi iyi yaptığında, kodlamanın hâlâ özgür olması gerektiği hissine biraz daha yaklaşıyorum. Hem ücretsiz anlamında hem özgür anlamında. Benim kurulumum RTX 5090’lı ayrı bir Ubuntu makinesi ve şu anda Qwen 3.6 27B, 32GB VRAM’in 29GB’ını kullanıyor. Ollama’yı root olmayan bir podman instance’ında çalıştırıyorum; editöre de OpenCode’u ACP Service olarak bağladım, kesinlikle tavsiye ederim. ACP, Agent Client Protocol demek ve bana göre dünya bu yöne gitmeli. Ayrıca Qwen ekibinin Sam Altman’larla dolu bir dünyada dünyayı biraz daha iyi hale getirdiğini düşündüğüm için minnettarım
- M5 MBP’mde yerelde çalıştırdığım modeller arasında Gemma4, Claude’a en çok benzeyen modeldi
- Ben de free ve local idealine katılıyorum ama sonuçta önemli olanın sürdürülebilir rekabet olduğunu düşünüyorum. Aylık 200 dolarlık maliyeti çok daha aşağı çekme baskısı oluşması bile benim için yeterince sevindirici
- 27B modelin pratikte ne ölçüde programlama işleri kaldırabildiğini merak ediyorum. Claude bile bazen yetersiz kalırken 27B’nin ne kadar gerçek kullanım sunduğunu gözümde canlandırmak zor
- RTX 5090’da tokens/s değerinin ne olduğunu merak ediyorum
Her model duyurusunda, şu anda hangi consumer hardware üzerinde çalışabildiği, maliyetinin ne olduğu ve tok/s değerinin kaç olduğu da birlikte gösterilse keşke
- Bunların doğrudan yayımladığı 27B modeli 16-bit olarak native çalıştırmak için ciddi donanım gerekiyor. Mac ya da Strix Halo 128GB sistem, yüksek kapasiteli birden çok tüketici GPU’su veya RTX 6000 sınıfı workstation kartı lazım. O yüzden hangi tüketici donanımında çalıştığını özellikle öne çıkarmadıklarını düşünüyorum. Çünkü bu sonuçları veren orijinal sürüm, tipik tüketici sistemlerine pek sığmıyor. Çoğu kişi orijinal sürüm yerine daha düşük bit kullanan quantize versiyonları çalıştırıyor. Ama quantization’ın net trade-off’ları var; reklamı yapılan sonuçlarla tamamen aynı kaliteyi beklemek zor. Önceki Qwen3.5 27B, kalite kaybını ne kadar tolere ettiğinize bağlı olarak Q5 ya da Q4’e kadar gayet kullanılabilirdi ve birleşik bellekli sistemlerde ek 32GB RAM istediği için genelde 64GB Mac uygun oluyordu. NVIDIA 5090 32GB ya da iki adet 16GB veya 24GB GPU ile de mümkündü ama dağıtım yüzünden daha yavaştı. iPhone ya da daha küçük sistemlerde çalıştırıldığına dair iddialara temkinli yaklaşmak gerektiğini düşünüyorum. Aşırı quantization ve çeşitli hilelerle sadece çalıştırmak mümkün olsa bile, çıktı kalitesi çoğu zaman gerçek kullanım için yeterli olmuyor. Sosyal medyada gösteriş için küçük donanımda çalıştırdığını söyleyen depolar sık sık çıkıyor ama sonuçlar pratikte pek iyi olmuyor
- Ben M4 32GB RAM’de ~5 tokens/s aldım. unsloth/Qwen3.6-27B-GGUF:Q4_K_M modelini llama-server ile çalıştırdım; 35B-A3B modelinde ise yaklaşık 25 t/s gördüm. Karşılaştırma için A100’de sırasıyla yaklaşık 41 t/s ve 97 t/s alıyordum. 27B’yi henüz uzun test etmedim ama 35B-A3B, context 15k~20k token’ı geçince sık sık raydan çıkıyordu. Temel işleri güvenle yaptırabiliyorsunuz ama bunu frontier model seviyesinde saymak zor bence
- Yerel LLM çalıştırabilecek CPU/GPU kombinasyonları pratikte sonsuz olduğu için çoğu kişi bütçesine ve hedeflerine uygun sistemi seçip sonra model boyutuna ve quantization’a bakarak VRAM kullanımını kabaca tahmin ediyor. Daha ayrıntılı analiz gerekirse çevrimiçi VRAM hesaplayıcıları kullanılabiliyor; örneğin https://smcleod.net/vram-estimator/ var. huggingface hesabınız varsa sistem yapılandırmanızı girip her quant’ın yanında uyma olasılığını renklerle de görebiliyorsunuz. Ayrıca t/s değeri de context boyutu dahil pek çok değişkene bağlı olduğundan, en fazla bir tahmin sunulabiliyor. Şu anda yerel LLM tarafı kelimenin tam anlamıyla her noktada trade-off içeriyor; her iş için neyi optimize edeceğinizi seçmek zorundasınız
- Qwen3.5-27B, 4bit quant ile 24GB kartta sorunsuz çalışıyor. Ben iki adet Nvidia L4 ve birkaç vllm flag’iyle bunu 10 geliştiriciye 20~25 tok/s hızında servis ediyorum; sakin zamanlarda 40 tok/s civarına da çıkıyor. Geliştiriciler bu performanstan memnun ama throughput’u artırmak için daha fazla GPU istemişlerdi
- Bende RTX 4090D üzerinde yaklaşık 30 t/s çıkıyor ve 48GB VRAM’in 42GB’ını kullanıyor. Quantization UD-Q6_K_XL, ilgili tartışma da burada: https://huggingface.co/unsloth/Qwen3.6-27B-GGUF/discussions/7
Qwen ya da Minimax gibi yerler, OpenAI veya Anthropic’ten biraz geride ama benzer benchmark sonuçları veren açık kaynak modeller yayımlıyorken, OpenAI ile Anthropic’in şu andaki rekabet avantajının tam olarak ne olduğunu merak ediyorum. Üstelik bu açık modellerin token fiyatları da Anthropic Opus 4.6’nın bir kısmı seviyesinde. https://artificialanalysis.ai/models/#pricing
- Kodlamada son birkaç puanlık kalite farkının prim ödemeye değecek kadar önemli olduğunu düşünüyorum. Bu, toplu spam e-posta ya da HN yorumu üretmekle aynı şey değil. Ortalama mühendis ile P99 mühendis arasındaki ödül farkının büyük olmasının nedeni de bu bence. Ayrıca frontier şirketlerinin şu anda yüksek Ar-Ge maliyetlerine katlanırken rekabetçi kalması, onları daha iyi ürün ve daha fazla katma değer üretmeye zorladığı için uzun vadede faydalı. Özellikle Anthropic’in daha güvenilir tedarikçi konumunu hedeflediğini düşünüyorum. Ali bile ücretli frontier modelleri host ediyor ama Çinli bir şirket değilseniz üretim kodu geliştirme iş yüklerini Çinli bir hosting sağlayıcısına koyar mısınız emin değilim. OpenAI’de de rahatsız edici yanlar var ama yine de ticari sırları komple çalacaklarından daha az şüphe duyardım. Anthropic’e ise ondan biraz daha fazla güveniyorum. Bu yüzden bir prim oluşuyor. Çinli hosting şirketlerinin sahip oldukları rekabet avantajlarını sonuna kadar kullanıp bunu devletle ya da başka şirketlerle paylaşabileceğine dair tarihsel örnekler o kadar güçlü ki, insanlar bu riski fiyata yansıtıyor diye düşünüyorum
- Ben hem Opus hem Qwen kullanıyorum ve pratikte hissettiğim fark, benchmark grafiklerinin gösterdiğinden çok daha büyük. Host edilen modellerle kıyaslayacaksak şu anda GLM tarafına bakmak daha doğru olur bence. Büyük oyunculara en yakın olan o ve eskiden çok düşük fiyata satıyordu ama yakın zamanda fiyat artırmaya başladı
- Eğer bu sonuçlar vampire attacks yüzündense, kapalı modeller cevap çekilen yolları kirletmeyi öğrendiği anda performans bugünkü kadar iyi kalmayabilir diye düşünüyorum. Ayrıca günlük iş akışında kullanınca o kadar da denk gelmiyor. Yüzeysel akıl yürütmede iyi olabilir ama kodlama veya daha zor işlerde fark hâlâ büyük. En azından benim kullandığım açık modeller arasında kapalı modeller kadar iyi olanını henüz görmedim. İyi bir ayar varsa paylaşılmasını isterim
- Şu anda bir rekabet avantajı olduğunu düşünmüyorum. Ama bir ekosistem birleşmeye başladığında işte o zaman avantaj oluşabilir gibi geliyor
- Opus’un yüksek token fiyatı, aslında insanların o kadar daha iyi bir modele isteyerek para ödediğinin kanıtı gibi geliyor. Yeni OpenAI ve Anthropic modelleri açık kaynak alternatiflerden belirgin biçimde daha iyi; açık kaynak kullanılmaz halde değil ama frontier açıkça daha iyi ve bir süre daha öyle kalacak gibi. SWE zamanı dakikada 1 doları aşıyorsa, tek bir konuşmaya 10 dolar vermek bile 10 dakika kazandırıyorsa fazlasıyla değer. Özellikle kod işlerinde küçük kalite artışları bile ciddi zaman tasarrufuna dönüşebiliyor
Ben M4 MBP’de Qwen 3.6 35B ve Gemma 4 26B kullanıyorum; Opus seviyesinde olmasa da ihtiyacım olan işlerin %95’ini yapıyor ve bütün bunların tamamen yerelde çalışması zaten başlı başına inanılmaz
- Ne tür işler yaptığını ve Qwen ya da Gemma’yı hangi harness ya da yaklaşımla bağlayıp kullandığını merak ediyorum. Yani iş akışının ve yazılım yığınının nasıl göründüğünü öğrenmek isterim
- Şu an yeterince kullanılabilir olduğu için, Codex’in kendi işini azaltması gibi, daha fazla işi bu yerel modellere devretmeye başladım. Ayrıca benim M4’ümde dense 27B’ye kıyasla 122B sürümün throughput’u çok daha iyi, bu yüzden ona da çok umutluyum
- Bunu Ollama ile mi kullanıyorsun, yoksa başka bir şeyle mi, merak ettim
- %95 ifadesiyle tam olarak ne kastettiğini biraz daha duymak isterim. Merak ettiğim iki şey var. Birincisi, çıktı kalitesi açısından Opus 4.5 veya 4.6’nın doğruluğunun %95’i anlamına mı geliyor? İkincisi, araç çağırma ya da agentic işler, mesela seyahat planlama gibi konularda, Opus’a kıyasla %95’lik bir iş çıkarma anlamına mı geliyor?
Yerel LLM’lere hâlâ çok alışık değilim; dün Qwen3.6-35B-A3B modellerinden birkaçını kurup test etmek için biraz zaman harcadım. Sanırım mlx 4b ve 8b ile gguf Q4_K_M ve Q4_K_XL denedim. 64GB M4’ümde çalışmaları oldukça etkileyiciydi. Yine de bu yeni model, TFA’nın tablosuna bakınca biraz daha akıllı görünüyor ama daha fazla VRAM istiyor gibi; temel fark dense olması mı diye merak ediyorum. Ayrıca 27B, 35B’den küçük olduğuna göre, yakında VRAM ihtiyacını daha da düşüren quantize sürümler de çıkar mı diye umutlanıyorum
- Temel nokta yalnızca parametre sayısını karşılaştırmak değil. 35B-A3B bir Mixture of Experts modeli ve her seferinde etkinleşen parametre sayısı yaklaşık 3B civarında. Bu yüzden gerçek hesaplama ihtiyacı 35B’ye değil, bu 3B’ye daha yakın ölçekleniyor. Tabii tüm 35B katmanlarına yüksek bant genişliğiyle erişim ihtiyacı hâlâ var. Buna karşılık bu model dense olduğu için Mac’te çok daha yavaş olması muhtemel. Örneğin bende M4 Pro’da Q6 gguf ile yaklaşık 9 tok/s gördüm; 35-A3B’de ise Q4 ve mlx ile adil olmayan bir kıyas olsa da yaklaşık 70 tok/s alıyordum. Genel olarak bu tür dense modeller özel GPU’larda daha iyi çalışıyor ve tüm modeli VRAM’de tutmaya yetecek kapasite varsa karar vermek kolaylaşıyor. Bu model için yaklaşık 24GB VRAM ve üstü yeterli olur gibi; NVIDIA 3090, 4090 veya 5090 sınıfında da rahat çalışır diye tahmin ediyorum
llama server’da Q4_K_M ile çalıştırınca 24GB için yaklaşık 91k context elde ediliyor ve hesaba göre KV-Cache, her 1K context başına yaklaşık 70MB tutuyor. Q5’e geçilse muhtemelen 30K token civarında yer kalırdı; bu da bence oldukça etkileyici
Ben bisiklete binen bir pelican’ı SVG olarak ürettim, sonuç burada: https://codepen.io/chdskndyq11546/pen/yyaWGJx. Ayrıca araba sürerken hotdog yiyen bir ejderha da yaptım, sonuç burada: https://codepen.io/chdskndyq11546/pen/xbENmgK. Kusursuz değiller ama sadece bu sonuçlar bile modellerin ne kadar güçlendiğini iyi gösteriyor gibi geliyor
- Ejderha görselinde tek göz ya da garip kuyruk gibi sorunlar var ama pelican tarafı, gördüklerim arasında neredeyse en iyi diyeceğim kadar kusursuza yakındı
- Bu artık o kadar ünlü bir benchmark oldu ki, modellerin zaten bu teste göre eğitilmiş olup olmadığını merak ettiriyor
Şimdiye kadarki yerel çıkarım deneyimim çok etkileyici olmadı. M5 Pro 128GB RAM’de omlx ile yaklaşık 11 tokens/s aldım ve sonuçta birkaç yüz satırlık çalışmayan kod yazmak bir saat sürdü. Aynı işi Opus ve Sonnet, CC içinde birkaç dakikada başarıyla bitirdi. Dün Ollama’da çalıştırdığım 3.6 35b modeli fena görünmüyordu. Claude Code dışında başka harness’lar da denemeyi düşünüyorum ama şu anki hissim yerel modellerin çok yavaş olduğu yönünde
- Bu bir dense model, dolayısıyla Mac’te yavaş olması normal. Mac kullanıyorsanız Qwen3.6’nın Mixture of Experts sürümü olan Qwen3.6-35B-A3B’yi denemek iyi olabilir. Bende M4 Pro’da yaklaşık 70 tok/s verdi. Eğer bundan çok daha yavaşsa yanlışlıkla GGUF formatını kullanıyor olabilirsiniz. Mac’te Apple’a özel MLX formatı çoğu zaman daha hızlı oluyor
- Ben M2 Max MacBook’ta MLX 8-bit quant sürümünde üretim hızında 7 tokens/sec civarı gördüm
- OpenCode, Claude’a kıyasla yerel modelleri kullanma konusunda daha iyi gibiydi
M4 Pro’da 48GB RAM varken neler çalıştırılabilir merak ediyorum
- Bu durumda daha seyrek yapılı Qwen3.6 35B A3B muhtemelen en iyi seçim olur. Ayrıntılar için: https://qwen.ai/blog?id=qwen3.6-35b-a3b

Qwen3.6-27B: 27 milyar dense modelde amiral gemisi düzeyinde kodlama performansı

Genel bakış

Performans

Dil

Dil değerlendirme ayarları

Vision-language

STEM ve bulmacalar

Genel VQA

Belge anlama

Mekânsal zekâ

Video anlama

Visual Agent

Not

Qwen3.6-27B kullanımı

API kullanımı

Alibaba Cloud Model Studio

Coding & Agents

OpenClaw

Qwen Code

Claude Code

Kapanış

İlgili okumalar

4 yorum

Hacker News görüşleri