- VibeThinker-3B, yalnızca 3B parametreyle doğrulanabilir çıkarımın ne kadar sıkıştırılabileceğini deneyen küçük bir yoğun modeldir
- Eğitim hattı, Spectrum-to-Signal sonradan eğitim yaklaşımı temelinde müfredat tabanlı denetimli ince ayar, çok alanlı pekiştirmeli öğrenme ve çevrimdışı öz damıtımı birleştirir
- AIME26’da 94.3 puan, CLR uygulandığında 97.1 puan aldı; ayrıca LiveCodeBench v6 Pass@1’de 80.2 ve yakın tarihli yayımlanmamış LeetCode yarışmalarında %96.1 kabul oranı raporlandı
- DeepSeek V3.2, GLM-5 ve Gemini 3 Pro gibi çok daha büyük amiral gemisi modellerle benzer ya da daha yüksek performans bandına girerken, IFEval’de 93.4 puanla katı komut kontrolünü koruyor
- Parametric Compression-Coverage Hypothesis, doğrulanabilir çıkarımın küçük bir reasoning core içine sıkıştırılabileceğini, ancak açık uçlu bilgi ve genel amaçlı yetenekler için daha geniş parametre kapsamasının gerektiğini savunur
3B modelle doğrulanabilir çıkarımı zorlayan deney
- VibeThinker-3B, 3B parametre ölçeğinde küçük bir yoğun modeldir
- Amaç, katı bir küçük model rejimi içinde bile doğrulanabilir çıkarım performansının ne kadar yükseltilebileceğini görmekti
- Sonradan eğitim, Spectrum-to-Signal paradigması üzerine kuruldu
- müfredat tabanlı denetimli ince ayar
- çok alanlı pekiştirmeli öğrenme
- çevrimdışı öz damıtım
- Bu sonuç, önceki 1.5B çalışmasını genişleten bir çizgide yer alıyor
Değerlendirmelerde görülen performans aralığı
- Matematik, kodlama ve komut takibi değerlendirmelerinde frontier düzeyinde performans gösteriyor
- AIME26: 94.3 puan
- AIME26 + CLR: 97.1 puan
- LiveCodeBench v6: Pass@1 80.2
- yakın tarihli yayımlanmamış LeetCode yarışmaları: %96.1 kabul oranı
- IFEval: 93.4 puan
- CLR, Claim-Level Reliability Assessment anlamına gelir ve claim-level test-time scaling stratejisidir
- Figure 1’deki karşılaştırma hedefleri arasında Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 ve Claude Opus 4.5 yer alıyor
- Raporlanan sonuçlara göre VibeThinker-3B, DeepSeek V3.2, GLM-5 ve Gemini 3 Pro gibi çok daha büyük amiral gemisi modellerle aynı ya da daha yüksek performans bandına çıkabiliyor
- Parametre ölçeği karşılaştırmasında VibeThinker-3B 3B olarak gösteriliyor
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- Parametric Compression-Coverage Hypothesis, compact modeli yalnızca dağıtım verimliliği için bir ikame değil, parametre yoğun yetenek alanında frontier düzeyine ulaşan tamamlayıcı bir yol olarak görüyor
1 yorum
Hacker News yorumları
Bunun akıl yürütmede iyi olacak şekilde eğitilmiş küçük bir model olduğunu ve meselenin bundan ibaret sayılıp sayılamayacağını merak ediyorum
Belirli konuları bilmiyor olabilir ama eline araç verildiğinde hevesle araştıran zeki bir insan gibi
Modelin tüm bilgiyi öğrenmesini sağlamak yerine, sadece öğrenmeyi öğrenmesi için eğitip Pi Zero gibi küçük bir cihaz ve internet bağlantısıyla kendi kendine halledebilmesini sağlayabilsek gerçekten harika olurdu
Parametrelere tüm bilgiyi kodlamak yerine, aynı boyutta olsa bile çoğunu akıl yürütmeye ayıran bir model nasıl olur diye düşünüyordum
Sadece internette gezinme yeteneği verip dil tanımları, belgeler ve en iyi uygulamaları bulmasını sağlamak yeterli
Kodlama ajanımın neden New York nüfusunu, cheesecake tarifini ya da devekuşunun ömrünü bilmesi gerektiğini anlamıyorum
Düşünmesi ve akıl yürütmesi için gereken en az bilgiyi verip geri kalanını kendi başına öğrenmesine izin verilebilir
Ama ne yazık ki bugünün büyük dil modelleri sonuçta token tahmini yaptığı için bu şekilde çalışmıyor
Akıl yürütme, her türlü bilgiyle eğitilmenin sonucunda ortaya çıkan bir yan ürün ve bu biçimde de model bir şeyi “bilmekten” ziyade sadece token üretiyor
Çok sayıda kelime ve bunlar arasındaki makul bağlantıları içeren büyük veri kümeleriyle eğitilmezse, kelimelerle cümleler arasında uygun bağlantılar kuramaz ve dolayısıyla akıl da yürütemez
Çok küçük bir veri kümesiyle küçük bir modeli eğitmeye çalışırsanız saçma sapan çıktılar görürsünüz
Asgari veriyle azami üretim elde etmek için veri kümesini optimize etmek ilginç olabilir ama bir şirket son teknoloji bir model yapmak istiyorsa, böyle bir çabadan çok birkaç GPU daha eklemek ekonomik olarak çok daha mantıklı
Örneğin bir topu bardağın içine koyup bardağı ters çevirerek masanın üzerine bırakmak, sonra bardağı kaldırıp kutuya koymak gibi çok temel bir soru bile, problemde açıkça belirtilmeyen bilgiye, özellikle de yerçekimi bilgisine ihtiyaç duyar
Tüm terimleri katı biçimde tanımlamaya kalkarsanız hızla karmaşıklık bataklığına saplanırsınız
Talimatları anlamak için şeyler hakkında temel bilgi gerekir; yalnızca nasıl akıl yürütüleceğini biliyorsanız neye ulaşmanız gerektiğine dair sezginiz olmaz
Modelin eğitildiği devasa metin deposu ile herhangi bir konuyu sağlam biçimde ele alabilme yeteneği arasında epey belirgin bir kopukluk var
Eğitim sırasının bu yolu yönlendirmek için kullanılıp kullanılamayacağını da merak ediyorum
Mesela önce TinyStories ile temel okuryazarlık kazandırıp, sonra matematik ve felsefe metinleri, psikoloji ve sosyoloji metinleri, en sonunda da diyalog, öfkeli yazılar, kod ve romanları içeren büyük miktarda veriyi verirseniz; oyunculuk, yaratıcı yazarlık ve fantastik romanlarla başlayıp ardından aynı nihai büyük veri kümesini verdiğiniz bir modelden ciddi biçimde farklı olur mu diye düşünüyorum
Mevcut yeteneklerin yeni eğitim verisini bağlama oturtma üzerinde ne kadar etkisi olduğunu da merak ediyorum
Problemleri çözerken uzun düşünce zincirleri (CoT) üretmesi için eğitilmiş ve bunu iyi yapıyor ama araç çağırma becerisi neredeyse yok, 1-2 mesajdan uzun etkileşimleri yönetme becerisi de neredeyse yok
https://huggingface.co/WeiboAI/VibeThinker-3B sayfasının en üstündeki uyarıya bakmanız yeterli
Bir sonraki cephe bence modelleri daha az donanımda daha yetkin olacak şekilde optimize etmek
Özellikle gerçek zamanlı öğrenme de mümkün hale gelirse daha da ilginç olur
Küçük ama güçlü modellerde yaşanan atılım, en yeni model sağlayıcılarının saf sermaye gücünü geride bırakıyor gibi görünüyor
Küçük olanları desteklemek istiyorum ama kesin konuşmak için hâlâ erken olabilir
Tersinden bakarsak, mevcut benchmark'ların gerçek geliştirici iş akışındaki başarıyı yakalamakta yeterince etkili olmaması da mümkün
Ama bu modele sohbet ettirmeye çalışırsanız muhtemelen başarısız olur ve tutarlılığı bozulur
Buna karşılık matematik problemlerini akıl yürüterek çözme becerisi gerçekten çok iyi
Gayet iyi çalışıyor ve bana ilk kullandığım Claude modellerini hatırlattı
Denediğim kodlama ajanı için yerel modeller arasında gerçekten kullanılabilir şekilde çalışan ilk model olduğu için çok heyecanlıyım
Herhangi bir modelin faydalı olabilmesi için, dar görevlerde bile temel bir zeka düzeyine ihtiyacı vardır
5 yaşındaki birine araba kullanmayı öğretebilir misiniz? 10 yaşında? 12 yaşında?
Araba kullanmak için okuyabilmek, buzlu ya da yağmurlu koşulları değerlendirebilmek ve topun peşinden aniden yola fırlayan bir çocuğu öngörebilmek gerekir
İnsanlar bu tür temel bilgileri genellikle ergenliğin ortalarına doğru edinir
Küçük modellerin de, görünüşte dar bir alanda bile yeterince iyi olabilmeleri için belli ölçüde temel bilgiye ihtiyacı vardır
Frontier modellerin sahip olduğu her türlü nadir bilgiye ihtiyaç duymayabilirler, ama başlangıçta düşünülenden daha yüksek bir taban seviye gerekebilir
Ehliyet sınavını geçmek için okumak gerekebilir, ama dünyada okuma yazma bilmeden de çok iyi araba kullanan birçok insan var
Yaygın trafik işaretlerinin yalnızca şekil ve renkten tanınabilecek şekilde tasarlanmasının bir nedeni var
Araba kullanmak başlı başına büyük ölçüde aracı kontrol etmeye yönelik kas hafızasına dayanır; bu yüzden sık araç kullanan insanlar uzun yolda adeta otomatik pilottaymış gibi hareket ederken bambaşka şeyler düşünebilir
Bu da bir bilgi türüdür, ama yalnızca tekrar yoluyla edinilir
Elbette trafikte araç kullanmak için trafik kurallarına dair temel anlayış gibi çok daha fazlası gerekir, ancak sürüşün büyük kısmı kas hafızası, araç anlayışı ve biraz sonra ne olacağını öngörmektir
İnsansı maymunların bunlarda iyi olmasının nedeni, milyonlarca yıl boyunca bedenlerini kullanıp sonuçlarını görerek evrimleşmiş olmalarıdır
Bir orangutanın golf arabası sürdüğü bir GIF de vardı, ama ne kadar gerçek olduğundan emin değilim
Modelleri geleceğin klon insanları gibi görmektense, belirli alanlarda belirli yeteneklere sahip araçlar olarak görmek daha faydalı olabilir
Opus 4.8'den araba sürmesini istemek nasıl anlamsızsa, edge cihazlar için küçük bir görüntü modelinden roman yazmasını beklemek de aynı derecede anlamsızdır
Bunlara belirli kullanım amaçları için yapılmış araçlar olarak bakmak gerekir
Asıl engelin a) muhakeme, b) fiziksel refleksler ve güç düzeyi olduğunu düşünüyorum
Çocukken de buz, kar ve yağmuru biliyordum
Dört mevsim bisiklete bindim ve özellikle mevsim geçişlerinde karlı ya da ıslak zeminde bisikleti kontrol etme konusunda kendime daha az güvenirdim
Bu deneyim, Kanada'nın kuzeyinde kışın araba kullanmayı öğrenmeme zemin hazırladı ve aynı dersleri sürüşe uyguladım
Sonuçların olmadığı ortamlarda, çocukların gerçek simülatörleri ya da video oyunu sürüş simülasyonlarını şaşırtıcı derecede hassas kullandığını gördüm
9-11 yaş arası çocukların simülasyon ve oyunlarda yetişkin sürücülerden çok daha özgüvenli olduğu durumlar da oldu
Çocuklar simülasyonda sonuç olmadığını biliyor ve ayrıca motive edilmedikçe buna göre davranıyor
Buna karşılık düzenli araç kullanan yetişkinlerde, oyun oynarken bile kas hafızası ve önyargılar karar vermeyi yönlendiriyor
Çocukların, sürüşün ve sürüş hatalarının gerçek sınırlarını ve sonuçlarını kavrayamama durumunu aşması için ne kadar eğitim ve maruziyet gerektiğini; tersine, deneyimli bir sürücünün ama oyunda acemi birinin sonuçsuz bir simülasyona gerçek deneyimini uygulamayı bırakması için ne kadar şey gerektiğini merak ediyorum
Araba kullanmak için okuma becerisi gerekmez
Ama başkalarıyla birlikte yolda araç kullanmak tamamen başka bir konudur
Üç yaşındaki bir çocuk, hataların tehlikeli olduğu durumlarda muhtemelen fazla keşfe yönelecektir
Bu yalnızca bilgi değil, prefrontal korteksle birlikte gelişen kontrol sistemlerini de gerektirir
Büyük dil modelleri henüz bu tür bir kontrolü pek sağlayamıyor
Bu sonucun yalnızca Python'a özel olduğunu not etmek gerekir
Diğer dillerde bu kadar iyi olmayacaktır
Alan odaklı küçük dil modellerinin daha fazla ortaya çıkması sevindirici
Programlamaya özel bir uzman karışımı (MoE) modeli, birden çok dilde iyi çalışabilir
Bu model; matematik, kendi içinde tamamlanan kodlama problemleri gibi kapalı dünyanın doğrulanabilir akıl yürütme görevleri için ucuz bir uzmandır
“Kapalı dünya”, ihtiyaç duyulan bilginin zaten bağlamın içinde olduğu anlamına gelir
Eksik bağlamı keşfeden bir araç kullanımı ajanı değildir
“Doğrulanabilir” ise, cevabı üretmenin zor ama kontrol etmenin kolay olduğu problemler demektir
Bu yüzden açık uçlu araştırma, tüm depoyu kapsayan ajan görevleri, olgusal soru-cevap ya da SVG üretimi için uygun değildir
Sınırları net çizilmiş problemler için küçük bir akıl yürütme modülüne daha yakındır
Bu kadar küçük bir modelin ilginç yanı, tek bir Taalas çipi üzerine sığabilecek gibi görünmesidir
HC1 zaten Llama 3.1 8B modelini çalıştırıyor
Artık ASIC üzerinde, hem de inanılmaz hızlarda, az çok iyi muhakeme çalıştırabildiğimiz bir noktaya gelmiş durumdayız
Kaynak kod güvenlik incelemelerinde GPT-5 nano'nun yerine bu modeli deniyorum ve bir ölçüde başarılı oluyor
RTX 3090 24GB VRAM üzerinde vLLM ile çalışıyor
Model kartında yazdığı gibi yapılandırılmış çıktı konusunda iyi değil, ama bunu test harness'imde aşıyorum
Klasik pelikan SVG’si üretmeyi denemişler ama sadece kareler ve siyah daireler göstermiş, tam bir fiyasko olmuş
Asıl nokta, “pelikanın kanatları vardır” gibi bilgiyi azaltırken çekirdek akıl yürütme yeteneğini korumuş olmaları gibi görünüyor
“Bu bulgu, parametre sıkıştırma-kapsama hipotezini destekliyor. Bu hipoteze göre doğrulanabilir akıl yürütme küçük bir akıl yürütme çekirdeğine sıkıştırılabilir; ancak açık alan bilgisi ve genel amaçlı yetenekler, olgular, kavramlar ve uzun kuyruklu senaryolar genelinde geniş parametre kapsamı gerektirir.”
Ardından kullanmasını istediğiniz SVG etiketlerini ve belge referansını verin
Benim aldığım sonuç burada: https://9ol.es/tmp/pelican.png
Prompt burada: https://9ol.es/tmp/prompt_pelican.txt
Kullanılan model prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
Değerlendirmelere ve benchmark’lara hâlâ güvenilemiyor
Test veri kümesinin gerçekten görülmemiş örneklerden oluştuğu nasıl kanıtlanabilir?
Bence bu modellerin iddia edildiği kadar iyi olduğunu kanıtlamanın tek yolu, gerçekten benimsenip benimsenmeyeceklerini bekleyip görmek
Eğer bir tür akıl yürütücü uygulanacaksa, buna uygun en iyi mimariyi tasarlayıp uygulamak ve sonra test etmek gerekir
Böyle yetenekli küçük dil modelleri çıktığını görmek gerçekten keyifli
Ama Hugging Face’te şöyle yazıyor:
“This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
Bu yüzden pi.dev gibi bir kodlama harness’ine doğrudan bağlayıp kullanılamaz
Opus 4.5’ten daha iyi mi akıl yürütüyor?
Prompt: “A B’ye giderse ve B de ardından C’ye giderse, A C’ye bir şey gönderebilir mi?”
Yanıt şöyleydi:
“Bunu en uygun şekilde yorumlamak gerekir. Bu cümle, örneğin bir topu paslamak gibi bir şeyi gönderme kavramıyla ilgili bir ilişki bulmacası olabilir.
Senaryo: A, B’ye bir şey verir ve B de bunu C’ye aktarır.
Soru: A da aynı şeyi C’ye verebilir mi?
Cevap: Ancak A ikinci bir kopya edinebilirse mümkündür; örneğin nesne kopyalanmışsa. Aksi takdirde, onu B’ye verdikten sonra A artık ona sahip değildir, dolayısıyla bir kopya olmadan onu ‘gönderemez’.”
Bunun dışında daha da az anlamlı bir sürü gereksiz açıklama ve “senaryo” eklenmişti
Yine de doğru cevabı veriyor
Üstelik cevaba ulaşmak için kullandığı kayan nokta işlemi miktarını Opus’la karşılaştırırsak, bunun hâlâ net bir kazanç olduğunu düşünüyorum
Benim sezgime göre Opus ölçeğindeki modellerin içinde bu tür muğlak durumları ele almak için kestirmeler kodlanmış durumda ve bu model sanki sınır durumları anlık olarak akıl yürüten bir program öğrenmiş gibi
Bu, daha çok kristalize zekâ ile akıcı zekâ arasındaki farka benziyor
Frontier modeller olasılıkları hatırlıyor, VibeThinker ise sanki anlık hesaplıyor
“Çok aşamalı kalite kontrol.”
“Büyük dil modeli tabanlı sorgu kalite filtreleme. Yüksek performanslı büyük dil modellerini kullanarak sorgu kalitesini değerlendiriyoruz ve açıklaması eksik, koşulları mantıksız, mantığı hatalı ya da hedef bilgi noktasını etkili biçimde değerlendiremeyen örnekleri eliyoruz.”