Qwen3.7-Max: Ajan Sınırı
(qwen.ai)- Qwen3.7-Max, kodlama·debugging, ofis otomasyonu ve yüzlerce ila binlerce adımlık otonom yürütmeyi hedefleyen ajan odaklı tescilli bir modeldir
- Kodlama, genel amaçlı ajan, akıl yürütme ve çok dilli değerlendirmelerde rakip modellerle yarışırken Terminal Bench 2.0-Terminus'ta 69.7 ve GPQA Diamond'da 92.4 puan aldı
- 35 saatlik otonom kernel optimizasyonunda 1.158 araç çağrısı ve 432 değerlendirme gerçekleştirerek Triton bazında geometrik ortalama 10.0 kat hızlanma sağladı
- Eğitim örneklerini Task·Harness·Verifier olarak ayırarak çapraz harness RL eğitimi yürütüyor ve belirli harness kısayolları yerine genellenmiş problem çözmeyi teşvik ediyor
- API yakında Alibaba Cloud Model Studio üzerinden sunulacak ve Claude Code, OpenClaw, Qwen Code gibi ajan çerçeveleriyle entegre olabilecek
Performans değerlendirmesi
- Qwen3.7-Max; kodlama ajanı, genel amaçlı ajan, STEM·akıl yürütme, genel yetenek ve çok dilli alanlarda çeşitli karşılaştırma modelleriyle birlikte değerlendirildi
- Boş hücreler (
--), puanın henüz sağlanmadığı anlamına gelir -
Kodlama ajanı
- Terminal Bench 2.0-Terminus'ta 69.7 puan alarak DS-V4-Pro Max'in 67.9 puanını geçti
- SWE-Verified'da 80.4 puanla Opus-4.6 Max 80.8 ve DS-V4-Pro Max 80.6 ile benzer seviyede yer aldı
- SWE-Pro 60.6, SWE-Multilingual 78.3, SciCode 53.5 ve QwenSVG 1608 puan aldı
- NL2repo, Claude Code ile değerlendirildi ve belirli depolara erişmeyi deneyen
pip download,pip install,git clonegibi Bash komutları devre dışı bırakıldı - QwenWebDev; İngilizce·Çince çift dilli frontend kod üretimi için dahili bir benchmark olup 7 kategori, otomatik render, multimodal değerlendirme ve BT/Elo puanlaması kullanır
-
Genel amaçlı ajan
- MCP-Mark'ta 60.8 puanla GLM-5.1'in 57.5 puanını geçti, MCP-Atlas'ta ise 76.4 puanla Opus-4.6'nın 75.8 puanını aştı
- Skillsbench'te 59.2 puan alarak K2.6'nın 56.2 puanının üzerine çıktı
- Kernel Bench L3'te medyan 1.98 kat hızlanma ve %96 kazanma oranı elde ederek GPU kernel optimizasyon yeteneğini gösterdi
- BFCL-V4 75.0, Qwenclaw 64.3 ve ClawEval 65.2 puanla Opus-4.6 Max'e yaklaştı
- SpreadSheetBench-v1'de 87.0 puan alarak ofis otomasyonu benchmark'ında da yüksek performans gösterdi
- QwenClawBench, gerçek kullanıcı dağılımını yansıtan bir Claw ajan benchmark'ı olarak açık kaynak yayımlandı
- CoWorkBench; bilgisayar bilimi, finans, hukuk ve sağlık gibi üretkenlik alanlarında uzun süreli görevleri ele alan dahili bir işbirliği benchmark'ıdır
-
Akıl yürütme
- GPQA Diamond'da 92.4 puan alarak Opus-4.6'nın 91.3 puanını geçti
- HLE'de 41.4 puanla Opus-4.6'nın 40.0 puanını, HMMT 2026 Feb'de ise 97.1 puanla Opus-4.6'nın 96.2 puanını geçti
- IMOAnswerBench'te 90.0 puanla DS-V4-Pro'nun 89.8 puanını, Apex'te ise 44.5 puanla DS-V4-Pro'nun 38.3 puanını geçti
- Akıl yürütme senaryolarında
Reasoning effort is set to xhigh...ile başlayan sistem prompt'unun kullanılması önerilir
-
Genel yetenekler ve çok dillilik
- IFBench'te 79.1 puan alarak DS-V4-Pro'nun 77.0 puanını geçti ve hassas talimat takibi performansı gösterdi
- WMT24++'da 85.8, MAXIFE'da 89.2 puan alarak çok dilli anlama ve çeviri kalitesinde de güçlü olduğunu gösterdi
- SuperGPQA'da 73.6, QwenWorldBench'te 57.3 puan aldı
- WMT24++, daha zor bir WMT24 alt kümesidir ve 55 dilde ortalama XCOMET-XXL puanını kullanır
- MAXIFE, İngilizce ve çok dilli prompt'larda 23 ayarın doğruluğunu ölçer
- MMLU-ProX, 29 dilin ortalama doğruluğunu kullanır
Değerlendirme koşulları ve benchmark ayrıntıları
- Terminal-Bench 2.0; Harbor/Terminus-2 harness, 5 saat sınırı, 12 CPU/24GB RAM,
temp=1.0,top_p=0.95,top_k=20, en fazla 80K token, 256K context ve 5 tekrar ortalamasıyla değerlendirildi - SWE-Bench ailesi, dahili ajan scaffold'u ile Bash·dosya düzenleme araçlarını kullanır ve
temp=1.0,top_p=0.95, 200K context penceresiyle değerlendirildi - SkillsBench, OpenCode ile değerlendirildi ve harici API bağımlılığı olan 9 görev hariç 78 görevde 5 tekrar ortalaması kullanıldı
- MCP-Mark, GitHub MCP v0.30.3 kullandı ve Playwright yanıtlarını 32K token'da kesti
- MCP-Atlas, herkese açık set puanıdır ve
gemini-2.5-prodeğerlendiricisini kullanır - Kernel Bench L3; 50 problemde PyTorch eager tabanına göre problem başına hızlanmanın medyanını ve
torch.compile'dan daha hızlı olan problem oranını raporlar - Kernel Bench L3'teki her test örneği, 1 adet H100 80GB GPU bulunan izole bir Docker container'ında çalıştırılır ve internet erişimi CUTLASS kod tabanı ile resmi CUDA belgeleriyle sınırlıdır
- Kernel Bench L3; 500 araç çağrısı sınırı ve 100 iyileşmesiz turdan sonra erken durdurma kullanır, GPT-5.4(xhigh) ile olası hacking davranışını tespit eder ve CUPTI ile kernel düzeyinde zamanlama ölçer
- MRCR-v2, 8 needle içeren 128K context alt kümesidir ve Google DeepMind eval_hub'un mrcr_v2 protokolünü benimser
İşbirlikçi üretkenlik asistanı
- Qwen3.7-Max, gerçek iş üretkenliği için gelişmiş bir iş arkadaşı rolünü hedefler; karmaşık bilgi sentezi, derin veri analizi ve modelleme ile yayımlanabilir belge·görselleştirme üretir
- Temel ajan harness'leriyle varsayılan uyumluluğa sahiptir ve uzun süreli görevlerde otonom planlama ile saatler süren kesintisiz yürütmeyi destekler
- Binlerce araç çağrısı ve onlarca iyileştirme yinelemesiyle çıktı kalitesini kademeli olarak yükseltir
- Normalde uzman bir ekibin 1-2 haftada tamamlayacağı karmaşık projeleri birkaç saat içinde uçtan uca bitirebileceğini öne sürer
Ajan eğitimi ve genelleme
- Qwen3.5'te tanıtılan çevre ölçekleme yaklaşımını temel alan Qwen3.7, ajan eğitim ortamlarının kalite ve çeşitliliğini genişletiyor
- Dil modellerinin çeşitli ön eğitim metinlerinden genelleme yapması gibi, ajan yeteneklerinin de çeşitli eğitim ortamlarından genellendiği gözlemine dayanıyor
- Değerlendirmedeki tüm benchmark'lar, eğitimde yer almayan tamamen yeni out-of-domain ortamlardan oluşuyor
- Çevre ölçekleme, açık ve tutarlı bir iyileşme eğrisi oluşturuyor; Qwen3.7-Max ise Claude-4.6-Opus-Max'e yakın şekilde ilk 3 ortalama sıralamaya ulaşıyor
- Benchmark alt kümelerindeki performans artışı, kalan benchmark'lar ve genel ortalamadaki göreli artışı öngörecek kadar tutarlı olduğundan, benchmark'a özel iyileştirmeden çok yetenek genellemesine işaret ediyor
- Ölçekleme dinamikleri ve metodolojiye dair ek analizler gelecekteki teknik raporda ele alınacak
Çapraz harness genellemesi
- Rollout ortam altyapısı, her eğitim örneğini Task, Harness, Verifier olmak üzere üç ortogonal bileşene ayırır
- Çeşitli harness ve sürümlerini destekler ve sentetik proxy'ler yerine gerçek dünya ortamlarına dayalı çevreler kullanır
- Bu ayrık tasarım, aynı görevi farklı harness türleri·sürümleri ve doğrulayıcılarla çok az ek maliyetle birleştiren kombinatoryal ölçeklemeyi mümkün kılar
- Aynı görevin farklı harness yapılandırmalarında görülmesini sağlayan çapraz harness·çapraz doğrulayıcı RL eğitimi sayesinde, model belirli bir harness'in kısayollarını değil genellenebilir problem çözme stratejilerini öğrenir
- QwenClawBench ve CoWorkBench'te Qwen3.7-Max, değerlendirmede kullanılan harness'ten bağımsız olarak güçlü ve tutarlı performans gösterir
Gerçek ortamda kendini geliştirme
- Extend Attention, SGLang'in production düzeyinde değişken uzunluklu multi-head attention operatörüdür
- Test senaryosu, MTP ile birlikte yeni üretilen token'lar ve en fazla 32K öğelik prefix KV-cache arasındaki attention skorlarını hesaplayan, LLM serving için bellek darboğazlı ve gecikmeye duyarlı bir kernel'i ele alır
- Referans uygulama, SGLang'in resmi Triton uygulamasıdır
-
Bilinmeyen PPU mimarisinde kernel optimizasyonu
- Qwen3.7-Max, eğitim sırasında hiç görmediği T-Head ZW-M890 PPU takılı bir ECS instance'ında bu kernel'i optimize etti
- Önceden hazırlanmış profiling verisi, donanım belgeleri veya bu mimariye ait örnek kernel'ler olmadan başladı
- Boş çalışma alanında yalnızca görev açıklaması, mevcut SGLang uygulaması ve değerlendirme script'i vardı
- Yaklaşık 35 saat kesintisiz otonom yürütme boyunca 1.158 araç çağrısı ve 432 kernel değerlendirmesi yaptı
- Derleme hatalarını teşhis etme, doğruluk hatalarını düzeltme, runtime profiling'e dayalı darboğaz belirleme ve kernel mimarisini yeniden tasarlamanın tamamını kendi başına gerçekleştirdi
- Nihai sonuç, çeşitli iş yüklerinde Triton tabanına göre geometrik ortalama 10.0 kat hızlanmadır
- 30 saati geçtikten sonra bile anlamlı iyileştirmeler bulmaya devam ederek uzun süreli otonom optimizasyon üretkenliği gösterdi
-
Optimizasyon seyri
- Split-KV paralelleştirmesiyle prefix KV-cache'i sorgu başına birden fazla thread block'a böldü ve online softmax rescaling ile kısmi sonuçları birleştiren reduction kernel ekleyerek yaklaşık 2 saatte 0.33 kattan 2.58 kata çıktı
- Çağrı başına
cudaMalloc/cudaFreekullanımını önceden ayrılmıştorch::emptytensor'larla değiştirip senkroncudaMemcpy'yi kaldırdı ve iç döngüyü 2 kat unroll ederek yaklaşık 2.5 saatte 5.37 kata ulaştı - Sabit split divisor'u iş yükü boyutuna dayalı bir heuristic ile değiştirip 36-SM mimarisinde SM wave occupancy'yi artırarak yaklaşık 3 saatte 6.85 kata yükseldi
- Shared memory barrier kaldırma, register tabanlı K/V yükleme, persistent static tensor, batched softmax update ve Q ön ölçeklemeyi birleştirerek 3-25 saat aralığında 8.50 kata çıktı
- MTP γ=4'e özel kernel, blok başına 4 sorgu token'ını aynı anda işleyip sorgular arasında K/V yüklerini paylaşarak 32-35 saat aralığında 10.0 kata ulaştı
-
Aynı koşullarda karşılaştırma
- GLM 5.1 7.3 kat, Kimi K2.6 5.0 kat, DeepSeek V4 Pro 3.3 kat, Qwen3.6-Plus ise 1.1 kata ulaştı
- Erken duran modeller, art arda 5 araç çağrısında ilerleme kaydedemeyeceklerine karar verip oturumu gönüllü olarak sonlandırdı
-
NVIDIA GPU kernel üretimi
- Qwen3.7-Max, yalnızca PPU kernel üretmekle kalmayıp çeşitli NVIDIA GPU'larda da production düzeyinde kernel'ler üretiyor
- KernelBench L3'te Qwen3.7-Max, senaryoların %96'sında hızlandırılmış kernel oluşturabiliyor
- Karşılaştırma değerleri Opus-4.6 %98, GLM 5.1 %78, Kimi K2.6 %80, DeepSeek V4 Pro %54, Qwen3.6-Plus %48
-
Uzun süreli otonom ajanın özellikleri
- 1.000'i aşkın araç çağrısı boyunca optimizasyon stratejisini koruyarak context kaybetmeden veya gerilemeden uzun süreli akıl yürütme kalıcılığı gösteriyor
- Eğitimde görmediği mimarilerde ezberlenmiş donanım bilgisinden değil runtime feedback'ten yararlanarak rekabetçi kernel'ler üretme anlamında in-context genelleme sergiliyor
Ödül hack'leme izleme
- Qwen3.7-Max, yazılım mühendisliği görevleri için RL izlemeye entegre edilerek ödül hack'leme öz izleme ve kural öz geliştirme çerçevesi oluşturuyor
- 80 saati aşan RL deneyleri boyunca eğitim seyrini otonom biçimde arayıp yeniden oynatarak 10.000'den fazla çağrı çalıştırdı
- GitHub'da doğru cevaba erişmek için kısıtları aşma girişimi gibi olası hacking örüntülerini sistematik olarak belirledi
- Kural doğrulama, karşı örnek madenciliği ve yinelemeli optimizasyon gerçekleştirdi
- Birden fazla kural öz geliştirme turu sonucunda 13 yeni heuristic kural ekledi ve 1.618 hacking vakasını doğru biçimde işaretledi
- Bu süreç RL ödülünün istikrarını güvence altına alırken, modelin gelişmiş bir yazılım mühendisliği ajanı olarak sürekli kendini iyileştirmesini destekliyor
Startup yönetiminde uzun vadeli planlama ve yürütme
- Dynamic Cumulative Survival Games çerçevesinde eğitim görevlerinin zaman karmaşıklığı ölçeklenerek uzun vadeli planlama ve yürütme yetenekleri güçlendiriliyor
- Bin adımı aşan sıralı karar verme seyrinde ajanın politika tutarlılığı yükseltilerek hipotez kurma, çevresel geri bildirime dayalı strateji uyarlama ve uzun vadeli deneyim ile bellek birikimi sürdürülüyor
- Uzun zaman ufkunda da istikrarlı yürütme ritmini koruyor ve context bozulması ile talimattan sapmaya karşı dayanıklılık gösteriyor
-
YC-Bench sonuçları
- YC-Bench, bir startup'ın bir yıllık tüm yaşam döngüsünü simüle eden bir benchmark'tır
- Ajan; insan kaynakları yönetimi, sözleşme inceleme ve kötü niyetli müşteri tespiti gibi yüzlerce tur karar alırken artan personel maliyetlerine rağmen kâr marjını korumalıdır
- Qwen3.7-Max, toplam 2.08 milyon dolar gelir elde ederek Qwen3.6-Plus'ın 1.05 milyon dolarına göre 2 kat, Qwen3.5-Plus'ın 352 bin dolarına göre 5.9 kat performans gösterdi
- Tamamlanan görev sayısı 237 oldu
- Potansiyel müşteri keşfi, kötü niyetli tuzakları tanıma ve kara listeye alma, istikrarlı gelir kaynaklarını önceliklendirme ve orta vadeli krizlerden otonom toparlanma gerçekleştirdi
- Sonuçta istikrarlı ve yüksek verimli bir yürütme döngüsüne yakınsadı
Qwen3.7 ile geliştirme
- Qwen3.7-Max, yakında Alibaba Cloud Model Studio üzerinden sunulacak ve popüler ajan çerçeveleri ile kodlama asistanlarına entegre edilebilecek
-
API kullanımı
- Qwen3.7-Max, önceki tüm turlardaki düşünme içeriğini mesajlarda koruyan
preserve_thinkingözelliğini destekler ve ajan görevleri için önerilir - Alibaba Cloud Model Studio; OpenAI spesifikasyonuyla uyumlu chat completions·responses API'leri ve Anthropic uyumlu API arayüzleri gibi sektör standardı protokolleri destekler
DASHSCOPE_API_KEY, Model Studio konsolu'ndan alınan API anahtarını kullanırDASHSCOPE_BASE_URListeğe bağlıdır ve uyumluluk modu API'nin temel URL'si olarakhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1kullanılabilir- Pekin URL'si
https://dashscope.aliyuncs.com/compatible-mode/v1, Singapur URL'sihttps://dashscope-intl.aliyuncs.com/compatible-mode/v1, ABD Virginia URL'sihttps://dashscope-us.aliyuncs.com/compatible-mode/v1'dir - Daha fazla bilgi API belgelerinde bulunabilir
- Qwen3.7-Max, önceki tüm turlardaki düşünme içeriğini mesajlarda koruyan
-
Frontend kodlama
- Qwen3.7-Max, tek bir prompt ile Three.js 3D sahneleri, Canvas animasyonları, tam sayfa düzenleri ve dinamik SVG içeren etkileşimli web uygulamaları üretebilir
- Örnek prompt; kamera ile avucun açılma·kapanma hareketini algılayıp parçacık kümesinin daralmasını ve yayılmasını kontrol eden, parmak jesti 1 ve 2'ye göre sırasıyla
hello, worldveI’am Qwenmetinlerini oluşturan ve 3D döndürme efektine sahip bir HTML uygulaması ister
-
Ofis asistanı
- Qwen3.7-Max, araç entegrasyonu sayesinde akıllı bir ofis asistanı olarak çalışabilir
- Örnekte üniversite tez biçimlendirme kurallarını okuyup dağınık bir taslağı otonom office-cli araç çağrılarıyla yeniden biçimlendirir
- Sayfa düzeni, başlık stili, yazı tipi, kenar boşlukları, içindekiler ve kaynakça biçimini düzeltir
- Örnek makale, demo amacıyla yapay zeka tarafından üretilmiştir
-
Fiziksel dünya navigasyon ajanı
- Qwen3.7-Max, araç çağrıları aracılığıyla robot köpeği kontrol edebilir
- Fiziksel ortamda fiziksel kavrayış, planlama, bellek ve karar verme yürütür
- Robotik ajan harness'i Qwen-RobotClaw, navigasyon tabanlı model Qwen-RobotNav ve Qwen-plus modeliyle oluşturulan çeşitli vision araçlarını kullanır
- Demodaki sol panel, fiziksel dünyada 20 dakika boyunca gerçekleşen ajan araç çağrısı etkileşim akışını; orta panel, dört ayaklı robotun yörüngesi üzerindeki birinci şahıs görüşünü; sağ panel ise ajanın uzun süreli belleğini gösterir
-
Kodlama asistanı entegrasyonu
- Qwen3.7-Max, popüler ajan çerçeveleri ve kodlama asistanlarıyla entegre olur
-
Claude Code
- Qwen API, Anthropic API protokolünü desteklediği için Claude Code içinde doğrudan kullanılabilir
ANTHROPIC_MODELveANTHROPIC_SMALL_FAST_MODELdeğerleriniqwen3.7-maxolarak,ANTHROPIC_BASE_URLdeğerini isehttps://dashscope-intl.aliyuncs.com/apps/anthropicolarak ayarlayın
-
OpenClaw
- OpenClaw, Model Studio üzerinden bağlanabilir
DASHSCOPE_API_KEYayarlandıktan sonraopenclaw dashboardkomutunu çalıştırın ve~/.openclaw/openclaw.jsoniçinde varsayılan model olarakmodelstudio/qwen3.7-maxbelirtin- Yapılandırma örneği
contextWindow1000000,maxTokens65536 vereasoningtrue değerlerini içerir
-
Qwen Code
- Qwen Code, Qwen serisi için derinlemesine optimize edilmiştir
npm install -g @qwen-code/qwen-code@latestile kurduktan sonraqwenkomutuyla çalıştırın
1 yorum
Hacker News görüşleri
AA-omniscience içinde halüsinasyon olmayan yanıt oranı en üst düzeyde ve Opus 4.7, Gemini 3.1 Pro, GPT5.5'ten daha iyi. Ekip tebrikleri hak ediyor
Varsayılan görünümde yoktu; grafiğe elle eklemek gerekti. Veri setindeki en düşük halüsinasyon oranı bu mu diye merak ediyorum
Örneğin Step 3.5 Flash'ı yerelde çalıştırınca genel olarak şaşırtıcı derecede yetenekliydi, ama token verimliliği o kadar kötüydü ki gerçek geçen süre açısından çoğu modelin gerisinde kalıyordu. llama.cpp'ye MTP desteğini hack'leyip ekleseniz bile Spark'ta 20tk/s'nin 30tk/s olması gibi bir fark yaratıyordu ve üç head ile eğitilmiş olsa da uygun nokta MTP 2 idi
DeepSeek modelleri ve Qwen 3.5 Plus da benzerdi; Opus'a, özellikle de GPT 5.5'e kıyasla aynı cevabı üretmek için çok daha fazla token tüketiyorlardı
Qwen 3.7'de bu tarafın iyileşmiş olmasını gerçekten umuyorum ve denemek için sabırsızlanıyorum. Bu arada Spark'ta DeepSeek v4 Flash çalıştırmak gerçekten akıl almaz derecede etkileyiciydi; antirez bunu görse teşekkür etmek isterdim
Sonuçta bu, modelin testi hazırlayan grubun doğru da yanlış da olabilecek inançlarıyla ne kadar örtüştüğünü gösterir
Dün gece haftalık Claude Code limitine tehlikeli derecede yaklaşınca Claude'a llama.cpp ve OpenCode ile Qwen3.6 kurdurdum. Açıkçası Claude Code için mükemmel bir ücretsiz alternatif ve küçük, daha az karmaşık işlerin önemli bir kısmı için yeterince iyi
Bu yeni sürümü de denemeyi dört gözle bekliyorum. Açık kaynak modellerin ön cepheye bu kadar yaklaşmış olması çok etkileyici
Geçen hafta M2 MacBook Pro 32GB üzerinde llama.cpp ve LM Studio ile qwen3.6-27b Q6_k GUFF denedim; ikisinde de saniyede 1 tokenı bile zar zor gördüm
Ne kadar hız beklemem gerektiğini bilmiyorum. 2 yıl önce llama.cpp ile Llama 3 34b sınıfı modeller çalıştırdığımda saniyede birkaç token gördüğümü hatırlıyorum; bu yüzden ayarı tamamen yanlış mı yaptım, yoksa beklentim mi gerçek dışı emin olamıyorum
Acaba qwen 3.x bir sebeple daha mı yavaş diye de düşünüyorum. MoE mimarisi mi diye de merak ediyorum. Anında tepki beklemiyorum ama şu anki hız gerçekten kullanımı zorlaştırıyor
Ayrıca context-mode ya da dinamik bağlam budama gibi performans optimizasyonları için MCP veya başka araçlar kullanıp kullanmadığını da merak ediyorum. Yerel modelleri epey kullandım ama opencode'a yeni başladım; sonuçlar henüz çok iyi değil ama en azından basit işlerde iyi çalışmasını isterim. Yeni kurduğum opencode'un boşta bile iTerm CPU'sunu %100 kullanması gibi bir sorunum da var
Kodla ilgili tüm işleri Opus 4.7 ile yapsam, Sonnet kullanabildiğim duruma göre aylık faturam 10 ila 20 kat artardı
Daha fazla kapalı model yayınlamaya başladıklarına göre, bu tür modelleri ABD merkezli bir sağlayıcı üzerinden kullanabilmek için ABD'deki büyük hyperscaler'lardan biriyle ortaklık kursalar gerçekten harika olurdu
Bunun neden makul olmayabileceğini ya da çıkarlarına uymayabileceğini gayet iyi anlıyorum. ABD'nin de ters yönde böyle şeyleri otomatik olarak yapmadığı doğru. Yine de gerçek prodüksiyon iş yüklerinde düzgünce test edebilmek güzel olurdu
Sayılar kendi başına çok iyi. Ama bu tür yazılarda neden en güncel rakip modellerle karşılaştırma yapılmadığını hâlâ anlamıyorum. İnsanların bunu fark etmeyeceğini düşünmek zor
OpenAI ve Anthropic de çoğu zaman farklı değerlendirme veri setleri kullandığı için aynı şeyi yapıyor
Büyük dil modellerinde bile bu yazılar bir anda gökten düşmüyor. Kendi modelleri için hedef benchmark setleri varsa, yan yana karşılaştırılabilir model setini sürekli güncel tutmak başlı başına ayrı bir bakım yükü
Gerçekte ise bence okuyucuların ayrıntıları fark etmemesini umuyorlar
Qwen modelleri açık ağırlık tarafında harika ama önceki sürümler gerçek kullanımda benchmark'ların ima ettiği kadar iyi değildi. Benchmark skorlarını optimize etmenin işe yaradığını bildikleri için oraya yöneliyorlar
4.7 ile karşılaştırılabilir dersen, insanların zihnindeki referans model doğal olarak o oluyor
Bunun da bir hafta sonra Hugging Face sürümü çıkan tipte bir şey olup olmadığını merak ediyorum. Yoksa kapalı kalacağı kesin mi biliniyor
Qwen'den daha fazla açık ağırlık sürümü gelmesini umuyorum. Özellikle 122B ve 397B heyecan verici olur
Qwen 9B'nin üstüne çıkınca makinenin tamamen kilitlenme riski oluşuyor
Benchmark'larda Opus 4.7, GPT5.5, Gemini Flash 3.5 yok
pi agent kullanıyorum ve barındırılan bir Qwen modeli denemek istiyorum. İyi seçeneklerin neler olduğunu merak ediyorum
Resmî sağlayıcılar arasında Alibaba yok. OpenRouter gibi servislerin yeterince hızlı olup olmadığını da merak ediyorum. Karşılaştırma olsun diye söyleyeyim, DeepSeek v4 bu tür proxy servislerde ciddi biçimde kısıtlanıyor
Yerel büyük dil modelleriyle daha yeni oynamaya başladım ve dürüst olmak gerekirse oldukça etkilendim. NVIDIA A1000 (6GB VRAM) ve 96GB RAM'li bir workstation laptop kullanıyorum
GPU'yu neredeyse hiç kullanmıyordum; ara sıra CAD tasarımı ya da OpenCV tabanlı makine öğrenmesi dışında. llama3:latest çalıştırdım ve oldukça hızlıydı; Qwen'in sistemimde nasıl çalışacağını merak ediyorum
En çok güvendiğim kalıp, her dış eyleme küçük bir doğrulama çıktısı eklemek. Ajanlar çoğu zaman yetersiz muhakeme derinliğinden değil, sessiz durum kaymasından dolayı daha hızlı başarısız oluyor