1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3.7-Max, kodlama·debugging, ofis otomasyonu ve yüzlerce ila binlerce adımlık otonom yürütmeyi hedefleyen ajan odaklı tescilli bir modeldir
  • Kodlama, genel amaçlı ajan, akıl yürütme ve çok dilli değerlendirmelerde rakip modellerle yarışırken Terminal Bench 2.0-Terminus'ta 69.7 ve GPQA Diamond'da 92.4 puan aldı
  • 35 saatlik otonom kernel optimizasyonunda 1.158 araç çağrısı ve 432 değerlendirme gerçekleştirerek Triton bazında geometrik ortalama 10.0 kat hızlanma sağladı
  • Eğitim örneklerini Task·Harness·Verifier olarak ayırarak çapraz harness RL eğitimi yürütüyor ve belirli harness kısayolları yerine genellenmiş problem çözmeyi teşvik ediyor
  • API yakında Alibaba Cloud Model Studio üzerinden sunulacak ve Claude Code, OpenClaw, Qwen Code gibi ajan çerçeveleriyle entegre olabilecek

Performans değerlendirmesi

  • Qwen3.7-Max; kodlama ajanı, genel amaçlı ajan, STEM·akıl yürütme, genel yetenek ve çok dilli alanlarda çeşitli karşılaştırma modelleriyle birlikte değerlendirildi
  • Boş hücreler (--), puanın henüz sağlanmadığı anlamına gelir
  • Kodlama ajanı

    • Terminal Bench 2.0-Terminus'ta 69.7 puan alarak DS-V4-Pro Max'in 67.9 puanını geçti
    • SWE-Verified'da 80.4 puanla Opus-4.6 Max 80.8 ve DS-V4-Pro Max 80.6 ile benzer seviyede yer aldı
    • SWE-Pro 60.6, SWE-Multilingual 78.3, SciCode 53.5 ve QwenSVG 1608 puan aldı
    • NL2repo, Claude Code ile değerlendirildi ve belirli depolara erişmeyi deneyen pip download, pip install, git clone gibi Bash komutları devre dışı bırakıldı
    • QwenWebDev; İngilizce·Çince çift dilli frontend kod üretimi için dahili bir benchmark olup 7 kategori, otomatik render, multimodal değerlendirme ve BT/Elo puanlaması kullanır
  • Genel amaçlı ajan

    • MCP-Mark'ta 60.8 puanla GLM-5.1'in 57.5 puanını geçti, MCP-Atlas'ta ise 76.4 puanla Opus-4.6'nın 75.8 puanını aştı
    • Skillsbench'te 59.2 puan alarak K2.6'nın 56.2 puanının üzerine çıktı
    • Kernel Bench L3'te medyan 1.98 kat hızlanma ve %96 kazanma oranı elde ederek GPU kernel optimizasyon yeteneğini gösterdi
    • BFCL-V4 75.0, Qwenclaw 64.3 ve ClawEval 65.2 puanla Opus-4.6 Max'e yaklaştı
    • SpreadSheetBench-v1'de 87.0 puan alarak ofis otomasyonu benchmark'ında da yüksek performans gösterdi
    • QwenClawBench, gerçek kullanıcı dağılımını yansıtan bir Claw ajan benchmark'ı olarak açık kaynak yayımlandı
    • CoWorkBench; bilgisayar bilimi, finans, hukuk ve sağlık gibi üretkenlik alanlarında uzun süreli görevleri ele alan dahili bir işbirliği benchmark'ıdır
  • Akıl yürütme

    • GPQA Diamond'da 92.4 puan alarak Opus-4.6'nın 91.3 puanını geçti
    • HLE'de 41.4 puanla Opus-4.6'nın 40.0 puanını, HMMT 2026 Feb'de ise 97.1 puanla Opus-4.6'nın 96.2 puanını geçti
    • IMOAnswerBench'te 90.0 puanla DS-V4-Pro'nun 89.8 puanını, Apex'te ise 44.5 puanla DS-V4-Pro'nun 38.3 puanını geçti
    • Akıl yürütme senaryolarında Reasoning effort is set to xhigh... ile başlayan sistem prompt'unun kullanılması önerilir
  • Genel yetenekler ve çok dillilik

    • IFBench'te 79.1 puan alarak DS-V4-Pro'nun 77.0 puanını geçti ve hassas talimat takibi performansı gösterdi
    • WMT24++'da 85.8, MAXIFE'da 89.2 puan alarak çok dilli anlama ve çeviri kalitesinde de güçlü olduğunu gösterdi
    • SuperGPQA'da 73.6, QwenWorldBench'te 57.3 puan aldı
    • WMT24++, daha zor bir WMT24 alt kümesidir ve 55 dilde ortalama XCOMET-XXL puanını kullanır
    • MAXIFE, İngilizce ve çok dilli prompt'larda 23 ayarın doğruluğunu ölçer
    • MMLU-ProX, 29 dilin ortalama doğruluğunu kullanır

Değerlendirme koşulları ve benchmark ayrıntıları

  • Terminal-Bench 2.0; Harbor/Terminus-2 harness, 5 saat sınırı, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, en fazla 80K token, 256K context ve 5 tekrar ortalamasıyla değerlendirildi
  • SWE-Bench ailesi, dahili ajan scaffold'u ile Bash·dosya düzenleme araçlarını kullanır ve temp=1.0, top_p=0.95, 200K context penceresiyle değerlendirildi
  • SkillsBench, OpenCode ile değerlendirildi ve harici API bağımlılığı olan 9 görev hariç 78 görevde 5 tekrar ortalaması kullanıldı
  • MCP-Mark, GitHub MCP v0.30.3 kullandı ve Playwright yanıtlarını 32K token'da kesti
  • MCP-Atlas, herkese açık set puanıdır ve gemini-2.5-pro değerlendiricisini kullanır
  • Kernel Bench L3; 50 problemde PyTorch eager tabanına göre problem başına hızlanmanın medyanını ve torch.compile'dan daha hızlı olan problem oranını raporlar
  • Kernel Bench L3'teki her test örneği, 1 adet H100 80GB GPU bulunan izole bir Docker container'ında çalıştırılır ve internet erişimi CUTLASS kod tabanı ile resmi CUDA belgeleriyle sınırlıdır
  • Kernel Bench L3; 500 araç çağrısı sınırı ve 100 iyileşmesiz turdan sonra erken durdurma kullanır, GPT-5.4(xhigh) ile olası hacking davranışını tespit eder ve CUPTI ile kernel düzeyinde zamanlama ölçer
  • MRCR-v2, 8 needle içeren 128K context alt kümesidir ve Google DeepMind eval_hub'un mrcr_v2 protokolünü benimser

İşbirlikçi üretkenlik asistanı

  • Qwen3.7-Max, gerçek iş üretkenliği için gelişmiş bir iş arkadaşı rolünü hedefler; karmaşık bilgi sentezi, derin veri analizi ve modelleme ile yayımlanabilir belge·görselleştirme üretir
  • Temel ajan harness'leriyle varsayılan uyumluluğa sahiptir ve uzun süreli görevlerde otonom planlama ile saatler süren kesintisiz yürütmeyi destekler
  • Binlerce araç çağrısı ve onlarca iyileştirme yinelemesiyle çıktı kalitesini kademeli olarak yükseltir
  • Normalde uzman bir ekibin 1-2 haftada tamamlayacağı karmaşık projeleri birkaç saat içinde uçtan uca bitirebileceğini öne sürer

Ajan eğitimi ve genelleme

  • Qwen3.5'te tanıtılan çevre ölçekleme yaklaşımını temel alan Qwen3.7, ajan eğitim ortamlarının kalite ve çeşitliliğini genişletiyor
  • Dil modellerinin çeşitli ön eğitim metinlerinden genelleme yapması gibi, ajan yeteneklerinin de çeşitli eğitim ortamlarından genellendiği gözlemine dayanıyor
  • Değerlendirmedeki tüm benchmark'lar, eğitimde yer almayan tamamen yeni out-of-domain ortamlardan oluşuyor
  • Çevre ölçekleme, açık ve tutarlı bir iyileşme eğrisi oluşturuyor; Qwen3.7-Max ise Claude-4.6-Opus-Max'e yakın şekilde ilk 3 ortalama sıralamaya ulaşıyor
  • Benchmark alt kümelerindeki performans artışı, kalan benchmark'lar ve genel ortalamadaki göreli artışı öngörecek kadar tutarlı olduğundan, benchmark'a özel iyileştirmeden çok yetenek genellemesine işaret ediyor
  • Ölçekleme dinamikleri ve metodolojiye dair ek analizler gelecekteki teknik raporda ele alınacak

Çapraz harness genellemesi

  • Rollout ortam altyapısı, her eğitim örneğini Task, Harness, Verifier olmak üzere üç ortogonal bileşene ayırır
  • Çeşitli harness ve sürümlerini destekler ve sentetik proxy'ler yerine gerçek dünya ortamlarına dayalı çevreler kullanır
  • Bu ayrık tasarım, aynı görevi farklı harness türleri·sürümleri ve doğrulayıcılarla çok az ek maliyetle birleştiren kombinatoryal ölçeklemeyi mümkün kılar
  • Aynı görevin farklı harness yapılandırmalarında görülmesini sağlayan çapraz harness·çapraz doğrulayıcı RL eğitimi sayesinde, model belirli bir harness'in kısayollarını değil genellenebilir problem çözme stratejilerini öğrenir
  • QwenClawBench ve CoWorkBench'te Qwen3.7-Max, değerlendirmede kullanılan harness'ten bağımsız olarak güçlü ve tutarlı performans gösterir

Gerçek ortamda kendini geliştirme

  • Extend Attention, SGLang'in production düzeyinde değişken uzunluklu multi-head attention operatörüdür
  • Test senaryosu, MTP ile birlikte yeni üretilen token'lar ve en fazla 32K öğelik prefix KV-cache arasındaki attention skorlarını hesaplayan, LLM serving için bellek darboğazlı ve gecikmeye duyarlı bir kernel'i ele alır
  • Referans uygulama, SGLang'in resmi Triton uygulamasıdır
  • Bilinmeyen PPU mimarisinde kernel optimizasyonu

    • Qwen3.7-Max, eğitim sırasında hiç görmediği T-Head ZW-M890 PPU takılı bir ECS instance'ında bu kernel'i optimize etti
    • Önceden hazırlanmış profiling verisi, donanım belgeleri veya bu mimariye ait örnek kernel'ler olmadan başladı
    • Boş çalışma alanında yalnızca görev açıklaması, mevcut SGLang uygulaması ve değerlendirme script'i vardı
    • Yaklaşık 35 saat kesintisiz otonom yürütme boyunca 1.158 araç çağrısı ve 432 kernel değerlendirmesi yaptı
    • Derleme hatalarını teşhis etme, doğruluk hatalarını düzeltme, runtime profiling'e dayalı darboğaz belirleme ve kernel mimarisini yeniden tasarlamanın tamamını kendi başına gerçekleştirdi
    • Nihai sonuç, çeşitli iş yüklerinde Triton tabanına göre geometrik ortalama 10.0 kat hızlanmadır
    • 30 saati geçtikten sonra bile anlamlı iyileştirmeler bulmaya devam ederek uzun süreli otonom optimizasyon üretkenliği gösterdi
  • Optimizasyon seyri

    • Split-KV paralelleştirmesiyle prefix KV-cache'i sorgu başına birden fazla thread block'a böldü ve online softmax rescaling ile kısmi sonuçları birleştiren reduction kernel ekleyerek yaklaşık 2 saatte 0.33 kattan 2.58 kata çıktı
    • Çağrı başına cudaMalloc/cudaFree kullanımını önceden ayrılmış torch::empty tensor'larla değiştirip senkron cudaMemcpy'yi kaldırdı ve iç döngüyü 2 kat unroll ederek yaklaşık 2.5 saatte 5.37 kata ulaştı
    • Sabit split divisor'u iş yükü boyutuna dayalı bir heuristic ile değiştirip 36-SM mimarisinde SM wave occupancy'yi artırarak yaklaşık 3 saatte 6.85 kata yükseldi
    • Shared memory barrier kaldırma, register tabanlı K/V yükleme, persistent static tensor, batched softmax update ve Q ön ölçeklemeyi birleştirerek 3-25 saat aralığında 8.50 kata çıktı
    • MTP γ=4'e özel kernel, blok başına 4 sorgu token'ını aynı anda işleyip sorgular arasında K/V yüklerini paylaşarak 32-35 saat aralığında 10.0 kata ulaştı
  • Aynı koşullarda karşılaştırma

    • GLM 5.1 7.3 kat, Kimi K2.6 5.0 kat, DeepSeek V4 Pro 3.3 kat, Qwen3.6-Plus ise 1.1 kata ulaştı
    • Erken duran modeller, art arda 5 araç çağrısında ilerleme kaydedemeyeceklerine karar verip oturumu gönüllü olarak sonlandırdı
  • NVIDIA GPU kernel üretimi

    • Qwen3.7-Max, yalnızca PPU kernel üretmekle kalmayıp çeşitli NVIDIA GPU'larda da production düzeyinde kernel'ler üretiyor
    • KernelBench L3'te Qwen3.7-Max, senaryoların %96'sında hızlandırılmış kernel oluşturabiliyor
    • Karşılaştırma değerleri Opus-4.6 %98, GLM 5.1 %78, Kimi K2.6 %80, DeepSeek V4 Pro %54, Qwen3.6-Plus %48
  • Uzun süreli otonom ajanın özellikleri

    • 1.000'i aşkın araç çağrısı boyunca optimizasyon stratejisini koruyarak context kaybetmeden veya gerilemeden uzun süreli akıl yürütme kalıcılığı gösteriyor
    • Eğitimde görmediği mimarilerde ezberlenmiş donanım bilgisinden değil runtime feedback'ten yararlanarak rekabetçi kernel'ler üretme anlamında in-context genelleme sergiliyor

Ödül hack'leme izleme

  • Qwen3.7-Max, yazılım mühendisliği görevleri için RL izlemeye entegre edilerek ödül hack'leme öz izleme ve kural öz geliştirme çerçevesi oluşturuyor
  • 80 saati aşan RL deneyleri boyunca eğitim seyrini otonom biçimde arayıp yeniden oynatarak 10.000'den fazla çağrı çalıştırdı
  • GitHub'da doğru cevaba erişmek için kısıtları aşma girişimi gibi olası hacking örüntülerini sistematik olarak belirledi
  • Kural doğrulama, karşı örnek madenciliği ve yinelemeli optimizasyon gerçekleştirdi
  • Birden fazla kural öz geliştirme turu sonucunda 13 yeni heuristic kural ekledi ve 1.618 hacking vakasını doğru biçimde işaretledi
  • Bu süreç RL ödülünün istikrarını güvence altına alırken, modelin gelişmiş bir yazılım mühendisliği ajanı olarak sürekli kendini iyileştirmesini destekliyor

Startup yönetiminde uzun vadeli planlama ve yürütme

  • Dynamic Cumulative Survival Games çerçevesinde eğitim görevlerinin zaman karmaşıklığı ölçeklenerek uzun vadeli planlama ve yürütme yetenekleri güçlendiriliyor
  • Bin adımı aşan sıralı karar verme seyrinde ajanın politika tutarlılığı yükseltilerek hipotez kurma, çevresel geri bildirime dayalı strateji uyarlama ve uzun vadeli deneyim ile bellek birikimi sürdürülüyor
  • Uzun zaman ufkunda da istikrarlı yürütme ritmini koruyor ve context bozulması ile talimattan sapmaya karşı dayanıklılık gösteriyor
  • YC-Bench sonuçları

    • YC-Bench, bir startup'ın bir yıllık tüm yaşam döngüsünü simüle eden bir benchmark'tır
    • Ajan; insan kaynakları yönetimi, sözleşme inceleme ve kötü niyetli müşteri tespiti gibi yüzlerce tur karar alırken artan personel maliyetlerine rağmen kâr marjını korumalıdır
    • Qwen3.7-Max, toplam 2.08 milyon dolar gelir elde ederek Qwen3.6-Plus'ın 1.05 milyon dolarına göre 2 kat, Qwen3.5-Plus'ın 352 bin dolarına göre 5.9 kat performans gösterdi
    • Tamamlanan görev sayısı 237 oldu
    • Potansiyel müşteri keşfi, kötü niyetli tuzakları tanıma ve kara listeye alma, istikrarlı gelir kaynaklarını önceliklendirme ve orta vadeli krizlerden otonom toparlanma gerçekleştirdi
    • Sonuçta istikrarlı ve yüksek verimli bir yürütme döngüsüne yakınsadı

Qwen3.7 ile geliştirme

  • Qwen3.7-Max, yakında Alibaba Cloud Model Studio üzerinden sunulacak ve popüler ajan çerçeveleri ile kodlama asistanlarına entegre edilebilecek
  • API kullanımı

  • Frontend kodlama

    • Qwen3.7-Max, tek bir prompt ile Three.js 3D sahneleri, Canvas animasyonları, tam sayfa düzenleri ve dinamik SVG içeren etkileşimli web uygulamaları üretebilir
    • Örnek prompt; kamera ile avucun açılma·kapanma hareketini algılayıp parçacık kümesinin daralmasını ve yayılmasını kontrol eden, parmak jesti 1 ve 2'ye göre sırasıyla hello, world ve I’am Qwen metinlerini oluşturan ve 3D döndürme efektine sahip bir HTML uygulaması ister
  • Ofis asistanı

    • Qwen3.7-Max, araç entegrasyonu sayesinde akıllı bir ofis asistanı olarak çalışabilir
    • Örnekte üniversite tez biçimlendirme kurallarını okuyup dağınık bir taslağı otonom office-cli araç çağrılarıyla yeniden biçimlendirir
    • Sayfa düzeni, başlık stili, yazı tipi, kenar boşlukları, içindekiler ve kaynakça biçimini düzeltir
    • Örnek makale, demo amacıyla yapay zeka tarafından üretilmiştir
  • Fiziksel dünya navigasyon ajanı

    • Qwen3.7-Max, araç çağrıları aracılığıyla robot köpeği kontrol edebilir
    • Fiziksel ortamda fiziksel kavrayış, planlama, bellek ve karar verme yürütür
    • Robotik ajan harness'i Qwen-RobotClaw, navigasyon tabanlı model Qwen-RobotNav ve Qwen-plus modeliyle oluşturulan çeşitli vision araçlarını kullanır
    • Demodaki sol panel, fiziksel dünyada 20 dakika boyunca gerçekleşen ajan araç çağrısı etkileşim akışını; orta panel, dört ayaklı robotun yörüngesi üzerindeki birinci şahıs görüşünü; sağ panel ise ajanın uzun süreli belleğini gösterir
  • Kodlama asistanı entegrasyonu

    • Qwen3.7-Max, popüler ajan çerçeveleri ve kodlama asistanlarıyla entegre olur
    • Claude Code

      • Qwen API, Anthropic API protokolünü desteklediği için Claude Code içinde doğrudan kullanılabilir
      • ANTHROPIC_MODEL ve ANTHROPIC_SMALL_FAST_MODEL değerlerini qwen3.7-max olarak, ANTHROPIC_BASE_URL değerini ise https://dashscope-intl.aliyuncs.com/apps/anthropic olarak ayarlayın
    • OpenClaw

      • OpenClaw, Model Studio üzerinden bağlanabilir
      • DASHSCOPE_API_KEY ayarlandıktan sonra openclaw dashboard komutunu çalıştırın ve ~/.openclaw/openclaw.json içinde varsayılan model olarak modelstudio/qwen3.7-max belirtin
      • Yapılandırma örneği contextWindow 1000000, maxTokens 65536 ve reasoning true değerlerini içerir
    • Qwen Code

      • Qwen Code, Qwen serisi için derinlemesine optimize edilmiştir
      • npm install -g @qwen-code/qwen-code@latest ile kurduktan sonra qwen komutuyla çalıştırın

1 yorum

 
GN⁺ 3 시간 전
Hacker News görüşleri
  • AA-omniscience içinde halüsinasyon olmayan yanıt oranı en üst düzeyde ve Opus 4.7, Gemini 3.1 Pro, GPT5.5'ten daha iyi. Ekip tebrikleri hak ediyor

    • Dayanak olarak bakılan bağlantı şu: https://artificialanalysis.ai/evaluations/omniscience?models...
      Varsayılan görünümde yoktu; grafiğe elle eklemek gerekti. Veri setindeki en düşük halüsinasyon oranı bu mu diye merak ediyorum
    • Bu tür üst düzey Çin modellerini çok kullanınca en büyük soru token verimliliği oluyor
      Örneğin Step 3.5 Flash'ı yerelde çalıştırınca genel olarak şaşırtıcı derecede yetenekliydi, ama token verimliliği o kadar kötüydü ki gerçek geçen süre açısından çoğu modelin gerisinde kalıyordu. llama.cpp'ye MTP desteğini hack'leyip ekleseniz bile Spark'ta 20tk/s'nin 30tk/s olması gibi bir fark yaratıyordu ve üç head ile eğitilmiş olsa da uygun nokta MTP 2 idi
      DeepSeek modelleri ve Qwen 3.5 Plus da benzerdi; Opus'a, özellikle de GPT 5.5'e kıyasla aynı cevabı üretmek için çok daha fazla token tüketiyorlardı
      Qwen 3.7'de bu tarafın iyileşmiş olmasını gerçekten umuyorum ve denemek için sabırsızlanıyorum. Bu arada Spark'ta DeepSeek v4 Flash çalıştırmak gerçekten akıl almaz derecede etkileyiciydi; antirez bunu görse teşekkür etmek isterdim
    • “Halüsinasyon olmayan yanıt oranı”nın kusursuz olması tek başına çok şey ifade etmeyebilir. Çünkü bu tür testlere insan yapımı halüsinasyonlar da girebilir
      Sonuçta bu, modelin testi hazırlayan grubun doğru da yanlış da olabilecek inançlarıyla ne kadar örtüştüğünü gösterir
    • Gerçekten harika ve ilerleme çok etkileyici. Eğitimde ne kadar kendi çiplerini kullandıklarını da merak ediyorum
    • Yeteneklerde durum geçişinin hangi seviyede gerçekleştiğini merak ediyorum. %5 mi, %1 mi
  • Dün gece haftalık Claude Code limitine tehlikeli derecede yaklaşınca Claude'a llama.cpp ve OpenCode ile Qwen3.6 kurdurdum. Açıkçası Claude Code için mükemmel bir ücretsiz alternatif ve küçük, daha az karmaşık işlerin önemli bir kısmı için yeterince iyi
    Bu yeni sürümü de denemeyi dört gözle bekliyorum. Açık kaynak modellerin ön cepheye bu kadar yaklaşmış olması çok etkileyici

    • Hangi makine ve model üzerinde çalıştırdığını merak ediyorum
      Geçen hafta M2 MacBook Pro 32GB üzerinde llama.cpp ve LM Studio ile qwen3.6-27b Q6_k GUFF denedim; ikisinde de saniyede 1 tokenı bile zar zor gördüm
      Ne kadar hız beklemem gerektiğini bilmiyorum. 2 yıl önce llama.cpp ile Llama 3 34b sınıfı modeller çalıştırdığımda saniyede birkaç token gördüğümü hatırlıyorum; bu yüzden ayarı tamamen yanlış mı yaptım, yoksa beklentim mi gerçek dışı emin olamıyorum
      Acaba qwen 3.x bir sebeple daha mı yavaş diye de düşünüyorum. MoE mimarisi mi diye de merak ediyorum. Anında tepki beklemiyorum ama şu anki hız gerçekten kullanımı zorlaştırıyor
    • Bu yeni sürüm yerelde çalıştırılacak bir şey değil. Bulut modeli ve ağırlıkları yayınlansa bile muhtemelen fazla büyük olur
    • Tam olarak hangi modeli kullandığını merak ediyorum. Hangi parametre ve kuantizasyonla, hangi donanım üzerinde olduğunu da bilmek isterim
      Ayrıca context-mode ya da dinamik bağlam budama gibi performans optimizasyonları için MCP veya başka araçlar kullanıp kullanmadığını da merak ediyorum. Yerel modelleri epey kullandım ama opencode'a yeni başladım; sonuçlar henüz çok iyi değil ama en azından basit işlerde iyi çalışmasını isterim. Yeni kurduğum opencode'un boşta bile iTerm CPU'sunu %100 kullanması gibi bir sorunum da var
    • Qwen Max genelde kapalı model olduğu için üzücü
    • Qwen 3.6'nın Sonnet 4.6 ile kıyaslandığında nasıl hissettirdiğini merak ediyorum. Çünkü pratikte en çok kullanılan taraf orası
      Kodla ilgili tüm işleri Opus 4.7 ile yapsam, Sonnet kullanabildiğim duruma göre aylık faturam 10 ila 20 kat artardı
  • Daha fazla kapalı model yayınlamaya başladıklarına göre, bu tür modelleri ABD merkezli bir sağlayıcı üzerinden kullanabilmek için ABD'deki büyük hyperscaler'lardan biriyle ortaklık kursalar gerçekten harika olurdu
    Bunun neden makul olmayabileceğini ya da çıkarlarına uymayabileceğini gayet iyi anlıyorum. ABD'nin de ters yönde böyle şeyleri otomatik olarak yapmadığı doğru. Yine de gerçek prodüksiyon iş yüklerinde düzgünce test edebilmek güzel olurdu

    • ABD hyperscaler'ları ters yönde de aynısını yapmadıkça mevcut durumun korunmasını isterim. Herkes paylaşmaktan memnunsa paylaşım iki yönlü olmalı; değilse ABD hyperscaler'ları şimdiye kadar yaptıkları gibi kendi kendilerine izole kalabilir
    • Qwen3.6-Plus Fireworks üzerinde kullanılabiliyor
    • Alibaba Cloud'un Meksika veri merkezi var
    • Fireworks, Qwen 3.6 Plus'ı barındırdığına göre Qwen 3.7 Plus'ı da getirebilir gibi görünüyor
    • ChatLLM QWEN'i destekliyor ama bunun ABD açısından güvenli sayılıp sayılmayacağını merak ediyorum
  • Sayılar kendi başına çok iyi. Ama bu tür yazılarda neden en güncel rakip modellerle karşılaştırma yapılmadığını hâlâ anlamıyorum. İnsanların bunu fark etmeyeceğini düşünmek zor

    • Rakiplerinden daha kötü görünen sayıları yayınlayan kimse yok
      OpenAI ve Anthropic de çoğu zaman farklı değerlendirme veri setleri kullandığı için aynı şeyi yapıyor
    • Eğer artış küçük sürüm düzeyindeyse bunu mazur görebilirim. Bu arada son zamanlarda büyük dil modellerinde nedenini bilmem ama x.5 fiilen büyük sürüm artışı gibi kullanılıyor
      Büyük dil modellerinde bile bu yazılar bir anda gökten düşmüyor. Kendi modelleri için hedef benchmark setleri varsa, yan yana karşılaştırılabilir model setini sürekli güncel tutmak başlı başına ayrı bir bakım yükü
    • Muhtemelen mantık şu: kendilerini en güncel en iyi seviyenin yaklaşık N ay gerisinde gösterme riskini almak istemiyorlar
      Gerçekte ise bence okuyucuların ayrıntıları fark etmemesini umuyorlar
      Qwen modelleri açık ağırlık tarafında harika ama önceki sürümler gerçek kullanımda benchmark'ların ima ettiği kadar iyi değildi. Benchmark skorlarını optimize etmenin işe yaradığını bildikleri için oraya yöneliyorlar
    • Bence bu biraz beklenti yönetiminin parçası. Belki belirli bir modelle distillation ya da evaluation harness kurmuşlardır
      4.7 ile karşılaştırılabilir dersen, insanların zihnindeki referans model doğal olarak o oluyor
    • Açık konuşmak gerekirse ilk Opus-4.6 sürümü, şu an 4.7 diye sunulandan çok daha iyiydi. O seviyede çalışıyorsa tamamen geçmeye hazırım
  • Bunun da bir hafta sonra Hugging Face sürümü çıkan tipte bir şey olup olmadığını merak ediyorum. Yoksa kapalı kalacağı kesin mi biliniyor

    • Yanlışsam düzeltin ama bildiğim kadarıyla Max modelleri genelde yayınlanmıyor
  • Qwen'den daha fazla açık ağırlık sürümü gelmesini umuyorum. Özellikle 122B ve 397B heyecan verici olur

    • Evet. 60~150B aralığı şu anda prosumer donanım için gerçekten çok iyi bir nokta; bu yüzden 120b-a14b gibi bir model güzel olurdu
    • Ben şahsen 9B gibi daha düşük boyutlu modelleri daha çok bekliyorum
    • qwen3.7 9b ve 72b'yi daha çok bekliyorum. Genelde boyutuna göre performansları çok iyi oluyor
    • Hâlâ qwem image-edit 2.0 açık ağırlık sürümünü bekliyorum
    • Can sıkıcı. Ben daha bunlarla yeni yeni uğraşmaya başladım; elimde 12GB 3060 ve 32GB RAM'li sıradan bir oyuncu masaüstü var
      Qwen 9B'nin üstüne çıkınca makinenin tamamen kilitlenme riski oluşuyor
  • Benchmark'larda Opus 4.7, GPT5.5, Gemini Flash 3.5 yok

  • pi agent kullanıyorum ve barındırılan bir Qwen modeli denemek istiyorum. İyi seçeneklerin neler olduğunu merak ediyorum
    Resmî sağlayıcılar arasında Alibaba yok. OpenRouter gibi servislerin yeterince hızlı olup olmadığını da merak ediyorum. Karşılaştırma olsun diye söyleyeyim, DeepSeek v4 bu tür proxy servislerde ciddi biçimde kısıtlanıyor

    • pi + openrouter ile qwen3.6-max-preview'u çok kullanıyorum. Şimdiye kadar ne kararlılık ne de performans sorunu yaşadım
  • Yerel büyük dil modelleriyle daha yeni oynamaya başladım ve dürüst olmak gerekirse oldukça etkilendim. NVIDIA A1000 (6GB VRAM) ve 96GB RAM'li bir workstation laptop kullanıyorum
    GPU'yu neredeyse hiç kullanmıyordum; ara sıra CAD tasarımı ya da OpenCV tabanlı makine öğrenmesi dışında. llama3:latest çalıştırdım ve oldukça hızlıydı; Qwen'in sistemimde nasıl çalışacağını merak ediyorum

  • En çok güvendiğim kalıp, her dış eyleme küçük bir doğrulama çıktısı eklemek. Ajanlar çoğu zaman yetersiz muhakeme derinliğinden değil, sessiz durum kaymasından dolayı daha hızlı başarısız oluyor

    • Bunu biraz daha ayrıntılı açıklayabilir misin