S1: 6 dolarlık bir R1 rakibi mi?

(timkellogg.me)

14 puan yazan GN⁺ 2025-02-06 | 2 yorum | WhatsApp'ta paylaş

3 Şubat'ta yayımlanan yeni makale "s1: Simple test-time scaling", yapay zeka alanında gündem oldu
Asıl önemli nokta, modelin kendisinden çok yapay zeka alanında büyük bir ilerlemenin yaşanabileceğine işaret etmesi
Bu model en son teknoloji seviyesi (SOTA) düzeyine ulaşmıyor, ancak dizüstü bilgisayarda da çalıştırılabilen küçük bir model
Önemli olan, karmaşık ayrıntılara girmeden bu tekniğin nasıl çalıştığını anlamaya yardımcı olması

Çıkarımı ölçeklendirme: Benim için "bekle"!

OpenAI, “çıkarım süresi uzadıkça LLM performansı iyileşir” iddiasını ortaya koyup bir grafik sundu
Temelde, LLM daha uzun süre "düşünebilirse" daha yüksek performans gösterebiliyor
Sorun, modelin yanıt vermeden önceki ‘düşünme’ süresinin nasıl daha uzun tutulacağının kontrol edilmesi ve bunun nasıl yapılacağına dair yeterli açıklama olmamasıydı
s1 makalesi bu bölümü ayrıntılı biçimde açıklıyor ve oldukça ilginç
> LLM çıkarım sırasında "düşünürken", modelin iç düşünce süreci <think> ve </think> etiketlerinin içine yerleştiriliyor; </think> ortaya çıktığında ise son yanıt için ses tonunu kendinden emin ve otoriter bir üsluba değiştirmesi öğretiliyor
s1 makalesi, modelin daha uzun süre ‘kafa yormasını’ sağlamak için "</think>" ifadesini zorla "Wait" ile değiştiren basit bir tekniği anlatıyor
- "</think>" kaldırılarak ya da başka bir şeyle değiştirilerek modelin düşünmeye devam etmesi teşvik ediliyor
- Buna karşılık, aniden "</think>" ekleyerek çıkarımı kısa kesmek de mümkün
Bu yöntem sayesinde o3-mini-low ve o3-mini-high gibi modellere farklı ortalama çıkarım süreleri uygulanacak şekilde eğitim verilmiş olabileceği tahmin ediliyor
- Muhtemelen 3 model eğittiler ve her biri eğitim sırasında ölçülen farklı bir ortalama düşünme süresine sahipti
- Sonuçta eğitim süreci bu davranışı model ağırlıklarına kodlamaya başlıyor

Entropix ile bağlantısı

s1 makalesinde sunulan "Wait" tekniği, Entropix'in hedeflediği yaklaşımdan çok da farklı değil
Entropix, logit ve attention entropisi ile varyans entropisine (varentropy) bakarak token seçme biçimini değiştiren bir teknik
- Modelin "Wait" gibi token'lar aracılığıyla kendi yanıtını yeniden değerlendirmesini sağlamaya çalıştığı anlaşılıyor
Bu tür bir yaklaşımın hem çıkarım anında (inference time) hem de eğitim aşamasında uygulanabileceği düşünülüyor

Aşırı veri tutumluluğu (Extreme Data Frugality)

s1 modelinin yalnızca 6 dolara geliştirildiğinin söylenmesinin nedeni, küçük bir modelin az miktarda veriyle eğitilmiş olması
Süreç, 56K örnek veri içinden en değerli 1K'nın seçilip kullanılmasıyla ilerledi
- Sonuç olarak ek verinin model performansını hiç artırmadığı görülmüş
32B ölçeğinde bir model olduğu için dizüstü bilgisayarda da çalıştırılabiliyor
Yaklaşık 26 dakika boyunca 16 adet NVIDIA H100 kullanıldı ve bunun maliyetinin yaklaşık 6 dolar olduğu tahmin ediliyor
Düşük maliyet, çok sayıda deneyin (ablations) yapılabilmesini sağladı; gerçekten de çeşitli değişkenler küçük küçük değiştirilerek tam yeniden eğitimler tekrarlandı
- Örneğin, "Wait" ile "Hmm" arasında hangi token'ın daha etkili olduğu doğrudan ölçüldü
- Temel örnek veride hangi bölümün en anlamlı sinyali verdiği de test edildi

Jeopolitik sonuçlar

Yapay zekanın ulusal güvenlikle yakından bağlantılı olduğu yönünde bir bakış açısı var
OpenAI ve Anthropic gibi şirketlerin devasa bütçeler harcamasının nedeni de buradan geliyor
s1 gibi maliyeti düşüren yenilikler ortaya çıkmış olsa da, büyük sermaye kullanıldığında aynı anda çok daha fazla denemenin yürütülebilmesi de önemli
Yapay zeka gelişimini daha da hızlandırmak için daha büyük yatırımlar gerektiği yönünde görüşler de dile getiriliyor

Distealing (izinsiz model damıtımı)

s1 veri kümesi, temelde başka bir modelin (Qwen2.5) thought trace'lerini kullanarak yapılan bir damıtım (distillation) ürünü
OpenAI, DeepSeek'in kendi o1 modelini izinsiz biçimde damıtarak V3 modelini geliştirdiğinden şüpheleniyor
Ancak gerçekte damıtım faaliyetini engellemek giderek zorlaşıyor
- Yaklaşık 1.000 örnek, bireylerin bile rahatlıkla toplayabileceği bir düzeyde
OpenAI'nin yakın zamanda o3 modelini doğrudan dağıtmak yerine ajan biçiminde sunmasının nedeni de bu tür izinsiz damıtımı önleme çabası gibi görünüyor

Sonuç

s1'in ortaya çıkışı, açık alanda yapay zekanın ne kadar hızlı evrildiğini gösteren iyi bir örnek
OpenAI ve Anthropic gibi şirketlerin çok daha fazla hesaplama kaynağı kullanarak daha hızlı ilerleme kaydetmesi oldukça olası
s1, R1 ya da o1'in birebir kopyası değil; bunun yerine RL olmadan, yalnızca SFT (Supervised Fine Tuning) ile de benzer olasılıkların açılabileceğine işaret ediyor
2025 yılında daha büyük yeniliklerin beklendiği yönünde değerlendirmeler var

2 yorum

hoonix 2025-02-06

"Distillation"ın "Distealing" diye bükülmüş hâli gerçekten eğlenceli!

GN⁺ 2025-02-06

Hacker News görüşleri

Çıkarımı genişletmek için yapılan 'Wait' hack’i ilginç. Basit bir yöntemin performansı etkileyebilmesi, bilgisayar biliminin ilerleyişini sanki büyü yapıyormuşuz gibi hissettiriyor. Bu düşünme biçimine nasıl başlanabileceğini merak ediyorum
Eğer düşünce akışı modele metni işleyen bir tampon görevi gören geçici bir 'katman' sağlıyorsa, bunu ayrı bir FNN ve dikkat mekanizmasına sahip ayrı bir bağlam haline getirmenin anlamlı olup olmayacağını merak ediyorum. Bu, doğal dille açıklayan bir mikroişlemciyle birleşerek daha yoğun bir 'düşünce' temsili sağlayabilir
CoT yaygın olarak bilinen bir teknik, ancak DeepSeek hesaplama kısıtları nedeniyle bellek, bant genişliği ve paralellik optimizasyonları bulmaya odaklandı. Altyapı ve yazılım düzeyindeki optimizasyonları dikkat çekici
Mevcut benchmark'ların yeterince güçlü olmadığını düşünüyorum ve ABD'deki LLM laboratuvarları da altyapı ve donanım optimizasyonu eksikliğinin farkında olacaktır. RL seviyesi ve ana eğitim daha önemli hale gelecek
AI hack'leriyle denenen yöntemlerin laboratuvarlarda da kullanılıyor olması ilginç. R1'in düşünmeye devam etmesini sağlamak için 'Okay' ile değiştirme yöntemini kullandım
Tim'in blogunu yer imlerine ekledim. AI ve sinir ağları alanındaki gelişmeler şaşırtıcı. Ben de kişisel olarak zayıf on-device modellerle LLM tabanlı ajanlar yapmakta zorlanıyorum
10.000 adet H100'e sahip olmak, S1'den 625 kat daha fazla deney yapabilmek anlamına geliyor. Büyük şirketler hesaplama kaynaklarını boşa harcama eğiliminde
Çıkarım modellerinin çıktı uzunluğunu kontrol etme yöntemi ilginç. 'Wait' ile değiştirerek CoT enjekte etmeyi ve jailbreak'i kolaylaştırmayı sağlayan bir yöntem bulmuşlar
S1 için orijinal makale bağlantısını paylaşıyor
Büyük ölçekli organizasyonlarda çok fazla deney yapılamıyor; çalışanlar hızlı sonuç çıkarmaya odaklanıyor. Geçici kazançlar uğruna işler aceleye getiriliyor
LLM çıktısını şekillendirmek heykel yapmak gibi. Modeli bir oyun döngüsüne koyup her tick'te onunla etkileşime girerek istenen sonucu elde etmek gerekiyor. Hesaplama kaynaklarına olan açlık sürecek

S1: 6 dolarlık bir R1 rakibi mi?

Çıkarımı ölçeklendirme: Benim için "bekle"!

Entropix ile bağlantısı

Aşırı veri tutumluluğu (Extreme Data Frugality)

Jeopolitik sonuçlar

Distealing (izinsiz model damıtımı)

Sonuç

İlgili okumalar

2 yorum

Hacker News görüşleri