2 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • VibeThinker-3B, yalnızca 3B parametreyle doğrulanabilir çıkarımın ne kadar sıkıştırılabileceğini deneyen küçük bir yoğun modeldir
  • Eğitim hattı, Spectrum-to-Signal sonradan eğitim yaklaşımı temelinde müfredat tabanlı denetimli ince ayar, çok alanlı pekiştirmeli öğrenme ve çevrimdışı öz damıtımı birleştirir
  • AIME26’da 94.3 puan, CLR uygulandığında 97.1 puan aldı; ayrıca LiveCodeBench v6 Pass@1’de 80.2 ve yakın tarihli yayımlanmamış LeetCode yarışmalarında %96.1 kabul oranı raporlandı
  • DeepSeek V3.2, GLM-5 ve Gemini 3 Pro gibi çok daha büyük amiral gemisi modellerle benzer ya da daha yüksek performans bandına girerken, IFEval’de 93.4 puanla katı komut kontrolünü koruyor
  • Parametric Compression-Coverage Hypothesis, doğrulanabilir çıkarımın küçük bir reasoning core içine sıkıştırılabileceğini, ancak açık uçlu bilgi ve genel amaçlı yetenekler için daha geniş parametre kapsamasının gerektiğini savunur

3B modelle doğrulanabilir çıkarımı zorlayan deney

  • VibeThinker-3B, 3B parametre ölçeğinde küçük bir yoğun modeldir
  • Amaç, katı bir küçük model rejimi içinde bile doğrulanabilir çıkarım performansının ne kadar yükseltilebileceğini görmekti
  • Sonradan eğitim, Spectrum-to-Signal paradigması üzerine kuruldu
    • müfredat tabanlı denetimli ince ayar
    • çok alanlı pekiştirmeli öğrenme
    • çevrimdışı öz damıtım
  • Bu sonuç, önceki 1.5B çalışmasını genişleten bir çizgide yer alıyor

Değerlendirmelerde görülen performans aralığı

  • Matematik, kodlama ve komut takibi değerlendirmelerinde frontier düzeyinde performans gösteriyor
    • AIME26: 94.3 puan
    • AIME26 + CLR: 97.1 puan
    • LiveCodeBench v6: Pass@1 80.2
    • yakın tarihli yayımlanmamış LeetCode yarışmaları: %96.1 kabul oranı
    • IFEval: 93.4 puan
  • CLR, Claim-Level Reliability Assessment anlamına gelir ve claim-level test-time scaling stratejisidir
  • Figure 1’deki karşılaştırma hedefleri arasında Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 ve Claude Opus 4.5 yer alıyor
  • Raporlanan sonuçlara göre VibeThinker-3B, DeepSeek V3.2, GLM-5 ve Gemini 3 Pro gibi çok daha büyük amiral gemisi modellerle aynı ya da daha yüksek performans bandına çıkabiliyor
  • Parametre ölçeği karşılaştırmasında VibeThinker-3B 3B olarak gösteriliyor
    • Qwen3.5-4B: 4B
    • GPT-OSS-20B: 20B
    • MiniMax M2.7: 229B
    • DeepSeek V3.2: 671B
    • GLM-5: 744B
    • Kimi K2.5: 1T
  • Parametric Compression-Coverage Hypothesis, compact modeli yalnızca dağıtım verimliliği için bir ikame değil, parametre yoğun yetenek alanında frontier düzeyine ulaşan tamamlayıcı bir yol olarak görüyor

1 yorum

 
GN⁺ 5 시간 전
Hacker News yorumları
  • Bunun akıl yürütmede iyi olacak şekilde eğitilmiş küçük bir model olduğunu ve meselenin bundan ibaret sayılıp sayılamayacağını merak ediyorum
    Belirli konuları bilmiyor olabilir ama eline araç verildiğinde hevesle araştıran zeki bir insan gibi
    Modelin tüm bilgiyi öğrenmesini sağlamak yerine, sadece öğrenmeyi öğrenmesi için eğitip Pi Zero gibi küçük bir cihaz ve internet bağlantısıyla kendi kendine halledebilmesini sağlayabilsek gerçekten harika olurdu

    • Uzun zamandır bunun hayalini kuruyordum
      Parametrelere tüm bilgiyi kodlamak yerine, aynı boyutta olsa bile çoğunu akıl yürütmeye ayıran bir model nasıl olur diye düşünüyordum
      Sadece internette gezinme yeteneği verip dil tanımları, belgeler ve en iyi uygulamaları bulmasını sağlamak yeterli
      Kodlama ajanımın neden New York nüfusunu, cheesecake tarifini ya da devekuşunun ömrünü bilmesi gerektiğini anlamıyorum
      Düşünmesi ve akıl yürütmesi için gereken en az bilgiyi verip geri kalanını kendi başına öğrenmesine izin verilebilir
      Ama ne yazık ki bugünün büyük dil modelleri sonuçta token tahmini yaptığı için bu şekilde çalışmıyor
    • Ben buna yakın bile düşünmüyorum
      Akıl yürütme, her türlü bilgiyle eğitilmenin sonucunda ortaya çıkan bir yan ürün ve bu biçimde de model bir şeyi “bilmekten” ziyade sadece token üretiyor
      Çok sayıda kelime ve bunlar arasındaki makul bağlantıları içeren büyük veri kümeleriyle eğitilmezse, kelimelerle cümleler arasında uygun bağlantılar kuramaz ve dolayısıyla akıl da yürütemez
      Çok küçük bir veri kümesiyle küçük bir modeli eğitmeye çalışırsanız saçma sapan çıktılar görürsünüz
      Asgari veriyle azami üretim elde etmek için veri kümesini optimize etmek ilginç olabilir ama bir şirket son teknoloji bir model yapmak istiyorsa, böyle bir çabadan çok birkaç GPU daha eklemek ekonomik olarak çok daha mantıklı
    • Modele Boole mantığı, modal mantık ve matematiği epey iyi kullandırabilirsiniz ama bunu “şeyler hakkında düşünme” düzeyine taşımak arasında büyük bir boşluk var
      Örneğin bir topu bardağın içine koyup bardağı ters çevirerek masanın üzerine bırakmak, sonra bardağı kaldırıp kutuya koymak gibi çok temel bir soru bile, problemde açıkça belirtilmeyen bilgiye, özellikle de yerçekimi bilgisine ihtiyaç duyar
      Tüm terimleri katı biçimde tanımlamaya kalkarsanız hızla karmaşıklık bataklığına saplanırsınız
      Talimatları anlamak için şeyler hakkında temel bilgi gerekir; yalnızca nasıl akıl yürütüleceğini biliyorsanız neye ulaşmanız gerektiğine dair sezginiz olmaz
      Modelin eğitildiği devasa metin deposu ile herhangi bir konuyu sağlam biçimde ele alabilme yeteneği arasında epey belirgin bir kopukluk var
      Eğitim sırasının bu yolu yönlendirmek için kullanılıp kullanılamayacağını da merak ediyorum
      Mesela önce TinyStories ile temel okuryazarlık kazandırıp, sonra matematik ve felsefe metinleri, psikoloji ve sosyoloji metinleri, en sonunda da diyalog, öfkeli yazılar, kod ve romanları içeren büyük miktarda veriyi verirseniz; oyunculuk, yaratıcı yazarlık ve fantastik romanlarla başlayıp ardından aynı nihai büyük veri kümesini verdiğiniz bir modelden ciddi biçimde farklı olur mu diye düşünüyorum
      Mevcut yeteneklerin yeni eğitim verisini bağlama oturtma üzerinde ne kadar etkisi olduğunu da merak ediyorum
    • Aslında tam tersi
      Problemleri çözerken uzun düşünce zincirleri (CoT) üretmesi için eğitilmiş ve bunu iyi yapıyor ama araç çağırma becerisi neredeyse yok, 1-2 mesajdan uzun etkileşimleri yönetme becerisi de neredeyse yok
      https://huggingface.co/WeiboAI/VibeThinker-3B sayfasının en üstündeki uyarıya bakmanız yeterli
    • Bir süredir bu fikre kafayı takmış durumdaydım ve Opus akıl yürütmesinden damıtılmış Qwen türevleri de oldukça iyi çalışıyor
      Bir sonraki cephe bence modelleri daha az donanımda daha yetkin olacak şekilde optimize etmek
      Özellikle gerçek zamanlı öğrenme de mümkün hale gelirse daha da ilginç olur
  • Küçük ama güçlü modellerde yaşanan atılım, en yeni model sağlayıcılarının saf sermaye gücünü geride bırakıyor gibi görünüyor
    Küçük olanları desteklemek istiyorum ama kesin konuşmak için hâlâ erken olabilir
    Tersinden bakarsak, mevcut benchmark'ların gerçek geliştirici iş akışındaki başarıyı yakalamakta yeterince etkili olmaması da mümkün

    • İnsanlar muhtemelen küçük modellerin yetenekleri karşısında şaşırmaya devam edecek
      Ama bu modele sohbet ettirmeye çalışırsanız muhtemelen başarısız olur ve tutarlılığı bozulur
      Buna karşılık matematik problemlerini akıl yürüterek çözme becerisi gerçekten çok iyi
    • Birkaç gündür Framework masaüstümde qwen3.6:35b çalıştırmaya başladım ve oldukça etkileyici
      Gayet iyi çalışıyor ve bana ilk kullandığım Claude modellerini hatırlattı
      Denediğim kodlama ajanı için yerel modeller arasında gerçekten kullanılabilir şekilde çalışan ilk model olduğu için çok heyecanlıyım
    • Bazen optimizasyonun daha yeni başladığı hissine kapılıyorum
  • Herhangi bir modelin faydalı olabilmesi için, dar görevlerde bile temel bir zeka düzeyine ihtiyacı vardır
    5 yaşındaki birine araba kullanmayı öğretebilir misiniz? 10 yaşında? 12 yaşında?
    Araba kullanmak için okuyabilmek, buzlu ya da yağmurlu koşulları değerlendirebilmek ve topun peşinden aniden yola fırlayan bir çocuğu öngörebilmek gerekir
    İnsanlar bu tür temel bilgileri genellikle ergenliğin ortalarına doğru edinir
    Küçük modellerin de, görünüşte dar bir alanda bile yeterince iyi olabilmeleri için belli ölçüde temel bilgiye ihtiyacı vardır
    Frontier modellerin sahip olduğu her türlü nadir bilgiye ihtiyaç duymayabilirler, ama başlangıçta düşünülenden daha yüksek bir taban seviye gerekebilir

    • “Araba kullanmak için okuyabilmek gerekir” demek hiç doğru değil
      Ehliyet sınavını geçmek için okumak gerekebilir, ama dünyada okuma yazma bilmeden de çok iyi araba kullanan birçok insan var
      Yaygın trafik işaretlerinin yalnızca şekil ve renkten tanınabilecek şekilde tasarlanmasının bir nedeni var
    • Temel insan davranışlarını bu şekilde yalnızca metin tabanlı bir bilgisayar oyunu gibi indirgemek oldukça tuhaf görünüyor
      Araba kullanmak başlı başına büyük ölçüde aracı kontrol etmeye yönelik kas hafızasına dayanır; bu yüzden sık araç kullanan insanlar uzun yolda adeta otomatik pilottaymış gibi hareket ederken bambaşka şeyler düşünebilir
      Bu da bir bilgi türüdür, ama yalnızca tekrar yoluyla edinilir
      Elbette trafikte araç kullanmak için trafik kurallarına dair temel anlayış gibi çok daha fazlası gerekir, ancak sürüşün büyük kısmı kas hafızası, araç anlayışı ve biraz sonra ne olacağını öngörmektir
      İnsansı maymunların bunlarda iyi olmasının nedeni, milyonlarca yıl boyunca bedenlerini kullanıp sonuçlarını görerek evrimleşmiş olmalarıdır
      Bir orangutanın golf arabası sürdüğü bir GIF de vardı, ama ne kadar gerçek olduğundan emin değilim
      Modelleri geleceğin klon insanları gibi görmektense, belirli alanlarda belirli yeteneklere sahip araçlar olarak görmek daha faydalı olabilir
      Opus 4.8'den araba sürmesini istemek nasıl anlamsızsa, edge cihazlar için küçük bir görüntü modelinden roman yazmasını beklemek de aynı derecede anlamsızdır
      Bunlara belirli kullanım amaçları için yapılmış araçlar olarak bakmak gerekir
    • Bu konu, resmi bir araştırma olarak ele alınsa ilginç olurdu
      Asıl engelin a) muhakeme, b) fiziksel refleksler ve güç düzeyi olduğunu düşünüyorum
      Çocukken de buz, kar ve yağmuru biliyordum
      Dört mevsim bisiklete bindim ve özellikle mevsim geçişlerinde karlı ya da ıslak zeminde bisikleti kontrol etme konusunda kendime daha az güvenirdim
      Bu deneyim, Kanada'nın kuzeyinde kışın araba kullanmayı öğrenmeme zemin hazırladı ve aynı dersleri sürüşe uyguladım
      Sonuçların olmadığı ortamlarda, çocukların gerçek simülatörleri ya da video oyunu sürüş simülasyonlarını şaşırtıcı derecede hassas kullandığını gördüm
      9-11 yaş arası çocukların simülasyon ve oyunlarda yetişkin sürücülerden çok daha özgüvenli olduğu durumlar da oldu
      Çocuklar simülasyonda sonuç olmadığını biliyor ve ayrıca motive edilmedikçe buna göre davranıyor
      Buna karşılık düzenli araç kullanan yetişkinlerde, oyun oynarken bile kas hafızası ve önyargılar karar vermeyi yönlendiriyor
      Çocukların, sürüşün ve sürüş hatalarının gerçek sınırlarını ve sonuçlarını kavrayamama durumunu aşması için ne kadar eğitim ve maruziyet gerektiğini; tersine, deneyimli bir sürücünün ama oyunda acemi birinin sonuçsuz bir simülasyona gerçek deneyimini uygulamayı bırakması için ne kadar şey gerektiğini merak ediyorum
    • 10 yaş kesinlikle mümkün, 5 yaş da sınırda ama gerçek dışı değil
      Araba kullanmak için okuma becerisi gerekmez
      Ama başkalarıyla birlikte yolda araç kullanmak tamamen başka bir konudur
    • Düzgün araç kullanmak için keşif-kullanım dengesini de kurmak gerekir
      Üç yaşındaki bir çocuk, hataların tehlikeli olduğu durumlarda muhtemelen fazla keşfe yönelecektir
      Bu yalnızca bilgi değil, prefrontal korteksle birlikte gelişen kontrol sistemlerini de gerektirir
      Büyük dil modelleri henüz bu tür bir kontrolü pek sağlayamıyor
  • Bu sonucun yalnızca Python'a özel olduğunu not etmek gerekir
    Diğer dillerde bu kadar iyi olmayacaktır
    Alan odaklı küçük dil modellerinin daha fazla ortaya çıkması sevindirici
    Programlamaya özel bir uzman karışımı (MoE) modeli, birden çok dilde iyi çalışabilir

    • Java programcısını taklit edip kodu sınıflar ve accessor'larla şişirmeden, çalışan Python yazıyorsa zaten Opus'tan daha iyidir
    • Bu modelin gerçekte neye odaklandığı konusunda büyük bir kafa karışıklığı var
      Bu model; matematik, kendi içinde tamamlanan kodlama problemleri gibi kapalı dünyanın doğrulanabilir akıl yürütme görevleri için ucuz bir uzmandır
      “Kapalı dünya”, ihtiyaç duyulan bilginin zaten bağlamın içinde olduğu anlamına gelir
      Eksik bağlamı keşfeden bir araç kullanımı ajanı değildir
      “Doğrulanabilir” ise, cevabı üretmenin zor ama kontrol etmenin kolay olduğu problemler demektir
      Bu yüzden açık uçlu araştırma, tüm depoyu kapsayan ajan görevleri, olgusal soru-cevap ya da SVG üretimi için uygun değildir
      Sınırları net çizilmiş problemler için küçük bir akıl yürütme modülüne daha yakındır
  • Bu kadar küçük bir modelin ilginç yanı, tek bir Taalas çipi üzerine sığabilecek gibi görünmesidir
    HC1 zaten Llama 3.1 8B modelini çalıştırıyor
    Artık ASIC üzerinde, hem de inanılmaz hızlarda, az çok iyi muhakeme çalıştırabildiğimiz bir noktaya gelmiş durumdayız

    • Çıktıyı düşünerek iyileştirmede gerçekten güçlü bir 8B modeli Taalas üzerinde saniyede 16K token hızında çalıştırabilmek müthiş olurdu
  • Kaynak kod güvenlik incelemelerinde GPT-5 nano'nun yerine bu modeli deniyorum ve bir ölçüde başarılı oluyor
    RTX 3090 24GB VRAM üzerinde vLLM ile çalışıyor
    Model kartında yazdığı gibi yapılandırılmış çıktı konusunda iyi değil, ama bunu test harness'imde aşıyorum

    • Kısıt üretimiyle yapılandırılmış çıktı zorunlu kılınamaz mı?
    • Bunu nasıl aştığını merak ediyorum
  • Klasik pelikan SVG’si üretmeyi denemişler ama sadece kareler ve siyah daireler göstermiş, tam bir fiyasko olmuş

    • Bu muhtemelen beklenen bir sonuç gibi görünüyor
      Asıl nokta, “pelikanın kanatları vardır” gibi bilgiyi azaltırken çekirdek akıl yürütme yeteneğini korumuş olmaları gibi görünüyor
      “Bu bulgu, parametre sıkıştırma-kapsama hipotezini destekliyor. Bu hipoteze göre doğrulanabilir akıl yürütme küçük bir akıl yürütme çekirdeğine sıkıştırılabilir; ancak açık alan bilgisi ve genel amaçlı yetenekler, olgular, kavramlar ve uzun kuyruklu senaryolar genelinde geniş parametre kapsamı gerektirir.”
    • Tekrar deneyin ama bisikletin ve pelikanın ne olduğunu, pelikanın bisikletin üstüne nasıl oturduğunu dikkatlice açıklayın
      Ardından kullanmasını istediğiniz SVG etiketlerini ve belge referansını verin
      Benim aldığım sonuç burada: https://9ol.es/tmp/pelican.png
      Prompt burada: https://9ol.es/tmp/prompt_pelican.txt
      Kullanılan model prithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
    • Bu bir sanat üretim modeli değil, akıl yürütme modeli değil mi?
  • Değerlendirmelere ve benchmark’lara hâlâ güvenilemiyor
    Test veri kümesinin gerçekten görülmemiş örneklerden oluştuğu nasıl kanıtlanabilir?
    Bence bu modellerin iddia edildiği kadar iyi olduğunu kanıtlamanın tek yolu, gerçekten benimsenip benimsenmeyeceklerini bekleyip görmek

    • Bunu kanıtlamak için sonuçta kara kutu problemini çözmeye, yani şeffaflık hedefine yaklaşmaya ihtiyaç var
      Eğer bir tür akıl yürütücü uygulanacaksa, buna uygun en iyi mimariyi tasarlayıp uygulamak ve sonra test etmek gerekir
  • Böyle yetenekli küçük dil modelleri çıktığını görmek gerçekten keyifli
    Ama Hugging Face’te şöyle yazıyor:
    “This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents.” - https://huggingface.co/WeiboAI/VibeThinker-3B
    Bu yüzden pi.dev gibi bir kodlama harness’ine doğrudan bağlayıp kullanılamaz

  • Opus 4.5’ten daha iyi mi akıl yürütüyor?
    Prompt: “A B’ye giderse ve B de ardından C’ye giderse, A C’ye bir şey gönderebilir mi?”
    Yanıt şöyleydi:
    “Bunu en uygun şekilde yorumlamak gerekir. Bu cümle, örneğin bir topu paslamak gibi bir şeyi gönderme kavramıyla ilgili bir ilişki bulmacası olabilir.
    Senaryo: A, B’ye bir şey verir ve B de bunu C’ye aktarır.
    Soru: A da aynı şeyi C’ye verebilir mi?
    Cevap: Ancak A ikinci bir kopya edinebilirse mümkündür; örneğin nesne kopyalanmışsa. Aksi takdirde, onu B’ye verdikten sonra A artık ona sahip değildir, dolayısıyla bir kopya olmadan onu ‘gönderemez’.”
    Bunun dışında daha da az anlamlı bir sürü gereksiz açıklama ve “senaryo” eklenmişti

    • Aynı sorguyu ben de çalıştırdım; çıktı aşırı uzun ama cümlenin muğlaklığını akıl yürüterek çözmeye çalışıyor gibi görünüyor
      Yine de doğru cevabı veriyor
      Üstelik cevaba ulaşmak için kullandığı kayan nokta işlemi miktarını Opus’la karşılaştırırsak, bunun hâlâ net bir kazanç olduğunu düşünüyorum
      Benim sezgime göre Opus ölçeğindeki modellerin içinde bu tür muğlak durumları ele almak için kestirmeler kodlanmış durumda ve bu model sanki sınır durumları anlık olarak akıl yürüten bir program öğrenmiş gibi
      Bu, daha çok kristalize zekâ ile akıcı zekâ arasındaki farka benziyor
      Frontier modeller olasılıkları hatırlıyor, VibeThinker ise sanki anlık hesaplıyor
    • Kalite kontrol açıklamasında şunlar yer alıyor:
      “Çok aşamalı kalite kontrol.”
      “Büyük dil modeli tabanlı sorgu kalite filtreleme. Yüksek performanslı büyük dil modellerini kullanarak sorgu kalitesini değerlendiriyoruz ve açıklaması eksik, koşulları mantıksız, mantığı hatalı ya da hedef bilgi noktasını etkili biçimde değerlendiremeyen örnekleri eliyoruz.”
    • İnsan olarak ben de bu prompt’un nasıl yorumlanması gerektiğini bilmiyorum
    • A B’ye gider ve B de sonra C’ye giderse, C A’yı tanıyor olur mu?