- Kod akışı (code-flow) çok aşamalı eğitimi ile statik kod yerine deponun değişimini ve geliştirme sürecini öğrenen, kodlamaya özel açık bir kod LLM'i
- Ön eğitim–orta eğitim–son eğitimden oluşan evrimsel eğitim hattı ile uzun vadeli akıl yürütme ve ajan görevlerindeki performans güçlendiriliyor
- 32K·128K bağlamlarda akıl yürütme verisi ve ajan yörüngeleri enjekte edilerek karmaşık çok dosyalı ve depo düzeyindeki problemleri çözme yeteneği sağlanıyor
- Yinelemeli yapı kullanan LoopCoder mimarisi ile model kapasitesine kıyasla dağıtım verimliliğini artıran pratik bir tasarım öneriliyor
- SWE-Bench, LiveCodeBench, Terminal-Bench gibi ölçütlerde ticari modellerle rekabet edebilen performans, açık ağırlıklı modelle elde ediliyor
Genel Bakış
- IQuest-Coder-V1, 7B·14B·40B·40B-Loop'tan oluşan, yalnızca koda odaklı büyük dil modeli ailesi
- Kod anlık görüntüleri yerine commit'leri ve depo evrim sürecini eğitim hedefi alan code-flow paradigmasını benimsiyor
- Ajan tabanlı yazılım mühendisliği, yarışmalı programlama ve araç kullanımının tamamında performans değerlendirmesi yapılıyor
Code-Flow eğitim hattı
- Ön eğitim aşamasında genel veri ile büyük ölçekli kod verisi birlikte eğitildikten sonra yüksek kaliteli kod annealing'i uygulanıyor
- Orta eğitim aşamasında 32K → 128K bağlam genişletmesi yapılıyor; akıl yürütme QA'si, ajan yörüngeleri ve depo düzeyinde kod verisi eğitiliyor
- Son eğitim aşamasında Thinking yolu (akıl yürütme odaklı RL) ve Instruct yolu (genel yardımcı optimizasyonu) olarak ayrılıyor
Temel araştırma bulguları
- Depo commit akışı verisinin, statik kod anlık görüntülerine göre görev planlama sinyali açısından daha üstün olduğu deneylerle doğrulanıyor
- Yüksek kaliteli kod annealing'inden sonra orta eğitimde akıl yürütme ve ajan verisi enjeksiyonu yapan yapının, dağılım değişimine karşı kararlılık sağladığı gösteriliyor
- Akıl yürütme odaklı RL uygulanan Thinking yolunda, uzun görevler sırasında kendi hatalarını toparlama yeteneği belirgin biçimde ortaya çıkıyor
LoopCoder mimarisi
- Aynı parametre bloğunu iki kez yineleyerek çalıştıran döngüsel transformer yapısı tanıtılıyor
- Küresel attention ile yerel attention, geçitleme yoluyla birleştirilerek uzun menzilli bağlamın rafine edilmesi ve nedenselliğin korunması aynı anda sağlanıyor
- Model kapasitesine kıyasla hesaplama verimliliği artırılarak dağıtım ortamı kısıtlarına uyum hedefleniyor
Veri bileşimi ve ön eğitim stratejisi
- Çok dilli kod karma eğitimi içinde diller arası sinerji etkisi, formül tabanlı bir ölçekleme yasasıyla biçimselleştiriliyor
- Depo yaşam döngüsünün %40~80 aralığındaki commit'lerden yararlanılarak (R_old, Patch, R_new) üçlü veri yapısı kuruluyor
- Dosya ve depo düzeyinde Fill-In-the-Middle tekniğiyle kod tamamlama yeteneği güçlendiriliyor
Değerlendirme sonuçları
- SWE-Bench Verified'da 76.2, ayrıca LiveCodeBench v6, Terminal-Bench, Mind2Web gibi birçok benchmark'ta üst düzey performans kaydediliyor
- Kod üretimi, akıl yürütme, düzenleme, verimlilik, Text-to-SQL ve ajan görevlerine kadar tüm alanlarda değerlendirme yapılıyor
- Bazı göstergelerde Claude Sonnet 4.5, GPT-5.1 gibi kapalı modellerle yakın veya rekabetçi sonuçlar doğrulanıyor
Güvenlik değerlendirmesi
- BeaverTails, HarmBench, TrustLLM gibi güvenlik benchmark'larında Thinking modelinin yüksek reddetme doğruluğu ve dengeli performans gösterdiği kaydediliyor
- Akıl yürütme odaklı RL'nin güvenlik açısından da olumlu etki gösterdiğine dair sonuçlar sunuluyor
Sonuç
- Kod evrim akışı ve ajan yörüngelerini merkeze alan eğitimin, özerk kod zekâsı oluşturmakta etkili olduğu deneysel olarak gösteriliyor
- LoopCoder yapısı üzerinden performans–verimlilik dengesi gözeten pratik kod LLM tasarımı yönü ortaya konuyor
- Tüm eğitim aşamaları ve checkpoint'ler yayımlanarak açık kod zekâsı araştırmalarını ve gerçek ajan sistemleri geliştirmeyi hızlandırma hedefleniyor
1 yorum
Hacker News görüşleri
Daha iyi bağlantı iquestlab.github.io
Ancak ne yazık ki değerlendirme sırasında ajanın hile yaptığı görülüyor
Puan 81.4%’ten 76.2%’ye düştü ama yine de Opus 4.5’ten (74.4%) daha yüksek
Özetle,
.git/klasörü temizlenmediği için model gelecekteki commit düzeltmelerine reward hacking yoluyla bakmışBu sorunu birlikte çözen kişilere hakkını vermek isterim
İlgili tartışmalar bu tweette ve Reddit başlığında da görülebilir
IQuestLab’in SWE-Bench Verified verisini yayımlamış olması, bunun kasıtlı manipülasyondan çok basit bir benchmark acemiliği hatası gibi göründüğünü düşündürüyor
Güncel kodu kullanıp güncellenmiş Docker image ile değerlendirmeyi çalıştırmak yeterli
İlgili tweet
Benim deneyimime göre GLM-4.7 (opencode sürümü) açık kaynak tarafında en çok yaklaşan model
Bazen Claude verisinin karıştığını düşündüren ifadeler görünüyor; bu yüzden bir miktar Claude verisi kullanılmış olabilir
Bu, Claude’un sınırlarına geldiğinde kaçınmak için sık kullandığı bir ifade
40B parametreli bir model Sonnet 4.5 ve GPT 5.1’i mi geçiyor? Bunun nasıl mümkün olduğunu merak ediyorum
Yine de Sonnet 4.5 artık eski bir model ve yakın dönemde çok sayıda yenilik oldu
Açık modellerin büyük modelleri hızla yakalaması ilginç
Bu modeli gerçekten çalıştıran ya da hosted API üzerinden test eden biri var mı, merak ediyorum
Bu asılsız bir iddia, peki neden hâlâ ana sayfada duruyor?