VibeThinker-3B: SFT+GRPO ile Opus 4.5’in çıkarım performansını aşan 3B model

(arxiv.org)

2 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş

VibeThinker-3B, yalnızca 3B parametreyle doğrulanabilir çıkarımın ne kadar sıkıştırılabileceğini deneyen küçük bir yoğun modeldir
Eğitim hattı, Spectrum-to-Signal sonradan eğitim yaklaşımı temelinde müfredat tabanlı denetimli ince ayar, çok alanlı pekiştirmeli öğrenme ve çevrimdışı öz damıtımı birleştirir
AIME26’da 94.3 puan, CLR uygulandığında 97.1 puan aldı; ayrıca LiveCodeBench v6 Pass@1’de 80.2 ve yakın tarihli yayımlanmamış LeetCode yarışmalarında %96.1 kabul oranı raporlandı
DeepSeek V3.2, GLM-5 ve Gemini 3 Pro gibi çok daha büyük amiral gemisi modellerle benzer ya da daha yüksek performans bandına girerken, IFEval’de 93.4 puanla katı komut kontrolünü koruyor
Parametric Compression-Coverage Hypothesis, doğrulanabilir çıkarımın küçük bir reasoning core içine sıkıştırılabileceğini, ancak açık uçlu bilgi ve genel amaçlı yetenekler için daha geniş parametre kapsamasının gerektiğini savunur

3B modelle doğrulanabilir çıkarımı zorlayan deney

VibeThinker-3B, 3B parametre ölçeğinde küçük bir yoğun modeldir
Amaç, katı bir küçük model rejimi içinde bile doğrulanabilir çıkarım performansının ne kadar yükseltilebileceğini görmekti
Sonradan eğitim, Spectrum-to-Signal paradigması üzerine kuruldu
- müfredat tabanlı denetimli ince ayar
- çok alanlı pekiştirmeli öğrenme
- çevrimdışı öz damıtım
Bu sonuç, önceki 1.5B çalışmasını genişleten bir çizgide yer alıyor

Değerlendirmelerde görülen performans aralığı

Matematik, kodlama ve komut takibi değerlendirmelerinde frontier düzeyinde performans gösteriyor
- AIME26: 94.3 puan
- AIME26 + CLR: 97.1 puan
- LiveCodeBench v6: Pass@1 80.2
- yakın tarihli yayımlanmamış LeetCode yarışmaları: %96.1 kabul oranı
- IFEval: 93.4 puan
CLR, Claim-Level Reliability Assessment anlamına gelir ve claim-level test-time scaling stratejisidir
Figure 1’deki karşılaştırma hedefleri arasında Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 ve Claude Opus 4.5 yer alıyor
Raporlanan sonuçlara göre VibeThinker-3B, DeepSeek V3.2, GLM-5 ve Gemini 3 Pro gibi çok daha büyük amiral gemisi modellerle aynı ya da daha yüksek performans bandına çıkabiliyor
Parametre ölçeği karşılaştırmasında VibeThinker-3B 3B olarak gösteriliyor
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
Parametric Compression-Coverage Hypothesis, compact modeli yalnızca dağıtım verimliliği için bir ikame değil, parametre yoğun yetenek alanında frontier düzeyine ulaşan tamamlayıcı bir yol olarak görüyor

1 yorum

GN⁺ 5 시간 전

Hacker News yorumları

Bunun akıl yürütmede iyi olacak şekilde eğitilmiş küçük bir model olduğunu ve meselenin bundan ibaret sayılıp sayılamayacağını merak ediyorum
Belirli konuları bilmiyor olabilir ama eline araç verildiğinde hevesle araştıran zeki bir insan gibi
Modelin tüm bilgiyi öğrenmesini sağlamak yerine, sadece öğrenmeyi öğrenmesi için eğitip Pi Zero gibi küçük bir cihaz ve internet bağlantısıyla kendi kendine halledebilmesini sağlayabilsek gerçekten harika olurdu
- Uzun zamandır bunun hayalini kuruyordum
  Parametrelere tüm bilgiyi kodlamak yerine, aynı boyutta olsa bile çoğunu akıl yürütmeye ayıran bir model nasıl olur diye düşünüyordum
  Sadece internette gezinme yeteneği verip dil tanımları, belgeler ve en iyi uygulamaları bulmasını sağlamak yeterli
  Kodlama ajanımın neden New York nüfusunu, cheesecake tarifini ya da devekuşunun ömrünü bilmesi gerektiğini anlamıyorum
  Düşünmesi ve akıl yürütmesi için gereken en az bilgiyi verip geri kalanını kendi başına öğrenmesine izin verilebilir
  Ama ne yazık ki bugünün büyük dil modelleri sonuçta token tahmini yaptığı için bu şekilde çalışmıyor
- Ben buna yakın bile düşünmüyorum
  Akıl yürütme, her türlü bilgiyle eğitilmenin sonucunda ortaya çıkan bir yan ürün ve bu biçimde de model bir şeyi “bilmekten” ziyade sadece token üretiyor
  Çok sayıda kelime ve bunlar arasındaki makul bağlantıları içeren büyük veri kümeleriyle eğitilmezse, kelimelerle cümleler arasında uygun bağlantılar kuramaz ve dolayısıyla akıl da yürütemez
  Çok küçük bir veri kümesiyle küçük bir modeli eğitmeye çalışırsanız saçma sapan çıktılar görürsünüz
  Asgari veriyle azami üretim elde etmek için veri kümesini optimize etmek ilginç olabilir ama bir şirket son teknoloji bir model yapmak istiyorsa, böyle bir çabadan çok birkaç GPU daha eklemek ekonomik olarak çok daha mantıklı
- Modele Boole mantığı, modal mantık ve matematiği epey iyi kullandırabilirsiniz ama bunu “şeyler hakkında düşünme” düzeyine taşımak arasında büyük bir boşluk var
  Örneğin bir topu bardağın içine koyup bardağı ters çevirerek masanın üzerine bırakmak, sonra bardağı kaldırıp kutuya koymak gibi çok temel bir soru bile, problemde açıkça belirtilmeyen bilgiye, özellikle de yerçekimi bilgisine ihtiyaç duyar
  Tüm terimleri katı biçimde tanımlamaya kalkarsanız hızla karmaşıklık bataklığına saplanırsınız
  Talimatları anlamak için şeyler hakkında temel bilgi gerekir; yalnızca nasıl akıl yürütüleceğini biliyorsanız neye ulaşmanız gerektiğine dair sezginiz olmaz
  Modelin eğitildiği devasa metin deposu ile herhangi bir konuyu sağlam biçimde ele alabilme yeteneği arasında epey belirgin bir kopukluk var
  Eğitim sırasının bu yolu yönlendirmek için kullanılıp kullanılamayacağını da merak ediyorum
  Mesela önce TinyStories ile temel okuryazarlık kazandırıp, sonra matematik ve felsefe metinleri, psikoloji ve sosyoloji metinleri, en sonunda da diyalog, öfkeli yazılar, kod ve romanları içeren büyük miktarda veriyi verirseniz; oyunculuk, yaratıcı yazarlık ve fantastik romanlarla başlayıp ardından aynı nihai büyük veri kümesini verdiğiniz bir modelden ciddi biçimde farklı olur mu diye düşünüyorum
  Mevcut yeteneklerin yeni eğitim verisini bağlama oturtma üzerinde ne kadar etkisi olduğunu da merak ediyorum
- Aslında tam tersi
  Problemleri çözerken uzun düşünce zincirleri (CoT) üretmesi için eğitilmiş ve bunu iyi yapıyor ama araç çağırma becerisi neredeyse yok, 1-2 mesajdan uzun etkileşimleri yönetme becerisi de neredeyse yok
  https://huggingface.co/WeiboAI/VibeThinker-3B sayfasının en üstündeki uyarıya bakmanız yeterli
- Bir süredir bu fikre kafayı takmış durumdaydım ve Opus akıl yürütmesinden damıtılmış Qwen türevleri de oldukça iyi çalışıyor
  Bir sonraki cephe bence modelleri daha az donanımda daha yetkin olacak şekilde optimize etmek
  Özellikle gerçek zamanlı öğrenme de mümkün hale gelirse daha da ilginç olur
Küçük ama güçlü modellerde yaşanan atılım, en yeni model sağlayıcılarının saf sermaye gücünü geride bırakıyor gibi görünüyor
Küçük olanları desteklemek istiyorum ama kesin konuşmak için hâlâ erken olabilir
Tersinden bakarsak, mevcut benchmark'ların gerçek geliştirici iş akışındaki başarıyı yakalamakta yeterince etkili olmaması da mümkün
- İnsanlar muhtemelen küçük modellerin yetenekleri karşısında şaşırmaya devam edecek
  Ama bu modele sohbet ettirmeye çalışırsanız muhtemelen başarısız olur ve tutarlılığı bozulur
  Buna karşılık matematik problemlerini akıl yürüterek çözme becerisi gerçekten çok iyi
- Birkaç gündür Framework masaüstümde qwen3.6:35b çalıştırmaya başladım ve oldukça etkileyici
  Gayet iyi çalışıyor ve bana ilk kullandığım Claude modellerini hatırlattı
  Denediğim kodlama ajanı için yerel modeller arasında gerçekten kullanılabilir şekilde çalışan ilk model olduğu için çok heyecanlıyım
- Bazen optimizasyonun daha yeni başladığı hissine kapılıyorum
Herhangi bir modelin faydalı olabilmesi için, dar görevlerde bile temel bir zeka düzeyine ihtiyacı vardır
5 yaşındaki birine araba kullanmayı öğretebilir misiniz? 10 yaşında? 12 yaşında?
Araba kullanmak için okuyabilmek, buzlu ya da yağmurlu koşulları değerlendirebilmek ve topun peşinden aniden yola fırlayan bir çocuğu öngörebilmek gerekir
İnsanlar bu tür temel bilgileri genellikle ergenliğin ortalarına doğru edinir
Küçük modellerin de, görünüşte dar bir alanda bile yeterince iyi olabilmeleri için belli ölçüde temel bilgiye ihtiyacı vardır
Frontier modellerin sahip olduğu her türlü nadir bilgiye ihtiyaç duymayabilirler, ama başlangıçta düşünülenden daha yüksek bir taban seviye gerekebilir
- “Araba kullanmak için okuyabilmek gerekir” demek hiç doğru değil
  Ehliyet sınavını geçmek için okumak gerekebilir, ama dünyada okuma yazma bilmeden de çok iyi araba kullanan birçok insan var
  Yaygın trafik işaretlerinin yalnızca şekil ve renkten tanınabilecek şekilde tasarlanmasının bir nedeni var
- Temel insan davranışlarını bu şekilde yalnızca metin tabanlı bir bilgisayar oyunu gibi indirgemek oldukça tuhaf görünüyor
  Araba kullanmak başlı başına büyük ölçüde aracı kontrol etmeye yönelik kas hafızasına dayanır; bu yüzden sık araç kullanan insanlar uzun yolda adeta otomatik pilottaymış gibi hareket ederken bambaşka şeyler düşünebilir
  Bu da bir bilgi türüdür, ama yalnızca tekrar yoluyla edinilir
  Elbette trafikte araç kullanmak için trafik kurallarına dair temel anlayış gibi çok daha fazlası gerekir, ancak sürüşün büyük kısmı kas hafızası, araç anlayışı ve biraz sonra ne olacağını öngörmektir
  İnsansı maymunların bunlarda iyi olmasının nedeni, milyonlarca yıl boyunca bedenlerini kullanıp sonuçlarını görerek evrimleşmiş olmalarıdır
  Bir orangutanın golf arabası sürdüğü bir GIF de vardı, ama ne kadar gerçek olduğundan emin değilim
  Modelleri geleceğin klon insanları gibi görmektense, belirli alanlarda belirli yeteneklere sahip araçlar olarak görmek daha faydalı olabilir
  Opus 4.8'den araba sürmesini istemek nasıl anlamsızsa, edge cihazlar için küçük bir görüntü modelinden roman yazmasını beklemek de aynı derecede anlamsızdır
  Bunlara belirli kullanım amaçları için yapılmış araçlar olarak bakmak gerekir
- Bu konu, resmi bir araştırma olarak ele alınsa ilginç olurdu
  Asıl engelin a) muhakeme, b) fiziksel refleksler ve güç düzeyi olduğunu düşünüyorum
  Çocukken de buz, kar ve yağmuru biliyordum
  Dört mevsim bisiklete bindim ve özellikle mevsim geçişlerinde karlı ya da ıslak zeminde bisikleti kontrol etme konusunda kendime daha az güvenirdim
  Bu deneyim, Kanada'nın kuzeyinde kışın araba kullanmayı öğrenmeme zemin hazırladı ve aynı dersleri sürüşe uyguladım
  Sonuçların olmadığı ortamlarda, çocukların gerçek simülatörleri ya da video oyunu sürüş simülasyonlarını şaşırtıcı derecede hassas kullandığını gördüm
  9-11 yaş arası çocukların simülasyon ve oyunlarda yetişkin sürücülerden çok daha özgüvenli olduğu durumlar da oldu
  Çocuklar simülasyonda sonuç olmadığını biliyor ve ayrıca motive edilmedikçe buna göre davranıyor
  Buna karşılık düzenli araç kullanan yetişkinlerde, oyun oynarken bile kas hafızası ve önyargılar karar vermeyi yönlendiriyor
  Çocukların, sürüşün ve sürüş hatalarının gerçek sınırlarını ve sonuçlarını kavrayamama durumunu aşması için ne kadar eğitim ve maruziyet gerektiğini; tersine, deneyimli bir sürücünün ama oyunda acemi birinin sonuçsuz bir simülasyona gerçek deneyimini uygulamayı bırakması için ne kadar şey gerektiğini merak ediyorum
- 10 yaş kesinlikle mümkün, 5 yaş da sınırda ama gerçek dışı değil
  Araba kullanmak için okuma becerisi gerekmez
  Ama başkalarıyla birlikte yolda araç kullanmak tamamen başka bir konudur
- Düzgün araç kullanmak için keşif-kullanım dengesini de kurmak gerekir
  Üç yaşındaki bir çocuk, hataların tehlikeli olduğu durumlarda muhtemelen fazla keşfe yönelecektir
  Bu yalnızca bilgi değil, prefrontal korteksle birlikte gelişen kontrol sistemlerini de gerektirir
  Büyük dil modelleri henüz bu tür bir kontrolü pek sağlayamıyor
Bu sonucun yalnızca Python'a özel olduğunu not etmek gerekir
Diğer dillerde bu kadar iyi olmayacaktır
Alan odaklı küçük dil modellerinin daha fazla ortaya çıkması sevindirici
Programlamaya özel bir uzman karışımı (MoE) modeli, birden çok dilde iyi çalışabilir
- Java programcısını taklit edip kodu sınıflar ve accessor'larla şişirmeden, çalışan Python yazıyorsa zaten Opus'tan daha iyidir
- Bu modelin gerçekte neye odaklandığı konusunda büyük bir kafa karışıklığı var
  Bu model; matematik, kendi içinde tamamlanan kodlama problemleri gibi kapalı dünyanın doğrulanabilir akıl yürütme görevleri için ucuz bir uzmandır
  “Kapalı dünya”, ihtiyaç duyulan bilginin zaten bağlamın içinde olduğu anlamına gelir
  Eksik bağlamı keşfeden bir araç kullanımı ajanı değildir
  “Doğrulanabilir” ise, cevabı üretmenin zor ama kontrol etmenin kolay olduğu problemler demektir
  Bu yüzden açık uçlu araştırma, tüm depoyu kapsayan ajan görevleri, olgusal soru-cevap ya da SVG üretimi için uygun değildir
  Sınırları net çizilmiş problemler için küçük bir akıl yürütme modülüne daha yakındır
Bu kadar küçük bir modelin ilginç yanı, tek bir Taalas çipi üzerine sığabilecek gibi görünmesidir
HC1 zaten Llama 3.1 8B modelini çalıştırıyor
Artık ASIC üzerinde, hem de inanılmaz hızlarda, az çok iyi muhakeme çalıştırabildiğimiz bir noktaya gelmiş durumdayız
- Çıktıyı düşünerek iyileştirmede gerçekten güçlü bir 8B modeli Taalas üzerinde saniyede 16K token hızında çalıştırabilmek müthiş olurdu
Kaynak kod güvenlik incelemelerinde GPT-5 nano'nun yerine bu modeli deniyorum ve bir ölçüde başarılı oluyor
RTX 3090 24GB VRAM üzerinde vLLM ile çalışıyor
Model kartında yazdığı gibi yapılandırılmış çıktı konusunda iyi değil, ama bunu test harness'imde aşıyorum
- Kısıt üretimiyle yapılandırılmış çıktı zorunlu kılınamaz mı?
- Bunu nasıl aştığını merak ediyorum
Klasik pelikan SVG’si üretmeyi denemişler ama sadece kareler ve siyah daireler göstermiş, tam bir fiyasko olmuş
- Bu muhtemelen beklenen bir sonuç gibi görünüyor
  Asıl nokta, “pelikanın kanatları vardır” gibi bilgiyi azaltırken çekirdek akıl yürütme yeteneğini korumuş olmaları gibi görünüyor
  “Bu bulgu, parametre sıkıştırma-kapsama hipotezini destekliyor. Bu hipoteze göre doğrulanabilir akıl yürütme küçük bir akıl yürütme çekirdeğine sıkıştırılabilir; ancak açık alan bilgisi ve genel amaçlı yetenekler, olgular, kavramlar ve uzun kuyruklu senaryolar genelinde geniş parametre kapsamı gerektirir.”
- Tekrar deneyin ama bisikletin ve pelikanın ne olduğunu, pelikanın bisikletin üstüne nasıl oturduğunu dikkatlice açıklayın
  Ardından kullanmasını istediğiniz SVG etiketlerini ve belge referansını verin
  Benim aldığım sonuç burada: https://9ol.es/tmp/pelican.png
  Prompt burada: https://9ol.es/tmp/prompt_pelican.txt
  Kullanılan model prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
- Bu bir sanat üretim modeli değil, akıl yürütme modeli değil mi?
Değerlendirmelere ve benchmark’lara hâlâ güvenilemiyor
Test veri kümesinin gerçekten görülmemiş örneklerden oluştuğu nasıl kanıtlanabilir?
Bence bu modellerin iddia edildiği kadar iyi olduğunu kanıtlamanın tek yolu, gerçekten benimsenip benimsenmeyeceklerini bekleyip görmek
- Bunu kanıtlamak için sonuçta kara kutu problemini çözmeye, yani şeffaflık hedefine yaklaşmaya ihtiyaç var
  Eğer bir tür akıl yürütücü uygulanacaksa, buna uygun en iyi mimariyi tasarlayıp uygulamak ve sonra test etmek gerekir
Böyle yetenekli küçük dil modelleri çıktığını görmek gerçekten keyifli
Ama Hugging Face’te şöyle yazıyor:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Bu yüzden pi.dev gibi bir kodlama harness’ine doğrudan bağlayıp kullanılamaz
Opus 4.5’ten daha iyi mi akıl yürütüyor?
Prompt: “A B’ye giderse ve B de ardından C’ye giderse, A C’ye bir şey gönderebilir mi?”
Yanıt şöyleydi:
“Bunu en uygun şekilde yorumlamak gerekir. Bu cümle, örneğin bir topu paslamak gibi bir şeyi gönderme kavramıyla ilgili bir ilişki bulmacası olabilir.
Senaryo: A, B’ye bir şey verir ve B de bunu C’ye aktarır.
Soru: A da aynı şeyi C’ye verebilir mi?
Cevap: Ancak A ikinci bir kopya edinebilirse mümkündür; örneğin nesne kopyalanmışsa. Aksi takdirde, onu B’ye verdikten sonra A artık ona sahip değildir, dolayısıyla bir kopya olmadan onu ‘gönderemez’.”
Bunun dışında daha da az anlamlı bir sürü gereksiz açıklama ve “senaryo” eklenmişti
- Aynı sorguyu ben de çalıştırdım; çıktı aşırı uzun ama cümlenin muğlaklığını akıl yürüterek çözmeye çalışıyor gibi görünüyor
  Yine de doğru cevabı veriyor
  Üstelik cevaba ulaşmak için kullandığı kayan nokta işlemi miktarını Opus’la karşılaştırırsak, bunun hâlâ net bir kazanç olduğunu düşünüyorum
  Benim sezgime göre Opus ölçeğindeki modellerin içinde bu tür muğlak durumları ele almak için kestirmeler kodlanmış durumda ve bu model sanki sınır durumları anlık olarak akıl yürüten bir program öğrenmiş gibi
  Bu, daha çok kristalize zekâ ile akıcı zekâ arasındaki farka benziyor
  Frontier modeller olasılıkları hatırlıyor, VibeThinker ise sanki anlık hesaplıyor
- Kalite kontrol açıklamasında şunlar yer alıyor:
  “Çok aşamalı kalite kontrol.”
  “Büyük dil modeli tabanlı sorgu kalite filtreleme. Yüksek performanslı büyük dil modellerini kullanarak sorgu kalitesini değerlendiriyoruz ve açıklaması eksik, koşulları mantıksız, mantığı hatalı ya da hedef bilgi noktasını etkili biçimde değerlendiremeyen örnekleri eliyoruz.”
- İnsan olarak ben de bu prompt’un nasıl yorumlanması gerektiğini bilmiyorum
- A B’ye gider ve B de sonra C’ye giderse, C A’yı tanıyor olur mu?

VibeThinker-3B: SFT+GRPO ile Opus 4.5’in çıkarım performansını aşan 3B model

3B modelle doğrulanabilir çıkarımı zorlayan deney

Değerlendirmelerde görülen performans aralığı

İlgili okumalar

1 yorum

Hacker News yorumları