14 puan yazan GN⁺ 2025-02-06 | 2 yorum | WhatsApp'ta paylaş
  • 3 Şubat'ta yayımlanan yeni makale "s1: Simple test-time scaling", yapay zeka alanında gündem oldu
  • Asıl önemli nokta, modelin kendisinden çok yapay zeka alanında büyük bir ilerlemenin yaşanabileceğine işaret etmesi
  • Bu model en son teknoloji seviyesi (SOTA) düzeyine ulaşmıyor, ancak dizüstü bilgisayarda da çalıştırılabilen küçük bir model
  • Önemli olan, karmaşık ayrıntılara girmeden bu tekniğin nasıl çalıştığını anlamaya yardımcı olması

Çıkarımı ölçeklendirme: Benim için "bekle"!

  • OpenAI, “çıkarım süresi uzadıkça LLM performansı iyileşir” iddiasını ortaya koyup bir grafik sundu
  • Temelde, LLM daha uzun süre "düşünebilirse" daha yüksek performans gösterebiliyor
  • Sorun, modelin yanıt vermeden önceki ‘düşünme’ süresinin nasıl daha uzun tutulacağının kontrol edilmesi ve bunun nasıl yapılacağına dair yeterli açıklama olmamasıydı
  • s1 makalesi bu bölümü ayrıntılı biçimde açıklıyor ve oldukça ilginç
    > LLM çıkarım sırasında "düşünürken", modelin iç düşünce süreci <think> ve </think> etiketlerinin içine yerleştiriliyor; </think> ortaya çıktığında ise son yanıt için ses tonunu kendinden emin ve otoriter bir üsluba değiştirmesi öğretiliyor
  • s1 makalesi, modelin daha uzun süre ‘kafa yormasını’ sağlamak için "</think>" ifadesini zorla "Wait" ile değiştiren basit bir tekniği anlatıyor
    • "</think>" kaldırılarak ya da başka bir şeyle değiştirilerek modelin düşünmeye devam etmesi teşvik ediliyor
    • Buna karşılık, aniden "</think>" ekleyerek çıkarımı kısa kesmek de mümkün
  • Bu yöntem sayesinde o3-mini-low ve o3-mini-high gibi modellere farklı ortalama çıkarım süreleri uygulanacak şekilde eğitim verilmiş olabileceği tahmin ediliyor
    • Muhtemelen 3 model eğittiler ve her biri eğitim sırasında ölçülen farklı bir ortalama düşünme süresine sahipti
    • Sonuçta eğitim süreci bu davranışı model ağırlıklarına kodlamaya başlıyor

Entropix ile bağlantısı

  • s1 makalesinde sunulan "Wait" tekniği, Entropix'in hedeflediği yaklaşımdan çok da farklı değil
  • Entropix, logit ve attention entropisi ile varyans entropisine (varentropy) bakarak token seçme biçimini değiştiren bir teknik
    • Modelin "Wait" gibi token'lar aracılığıyla kendi yanıtını yeniden değerlendirmesini sağlamaya çalıştığı anlaşılıyor
  • Bu tür bir yaklaşımın hem çıkarım anında (inference time) hem de eğitim aşamasında uygulanabileceği düşünülüyor

Aşırı veri tutumluluğu (Extreme Data Frugality)

  • s1 modelinin yalnızca 6 dolara geliştirildiğinin söylenmesinin nedeni, küçük bir modelin az miktarda veriyle eğitilmiş olması
  • Süreç, 56K örnek veri içinden en değerli 1K'nın seçilip kullanılmasıyla ilerledi
    • Sonuç olarak ek verinin model performansını hiç artırmadığı görülmüş
  • 32B ölçeğinde bir model olduğu için dizüstü bilgisayarda da çalıştırılabiliyor
  • Yaklaşık 26 dakika boyunca 16 adet NVIDIA H100 kullanıldı ve bunun maliyetinin yaklaşık 6 dolar olduğu tahmin ediliyor
  • Düşük maliyet, çok sayıda deneyin (ablations) yapılabilmesini sağladı; gerçekten de çeşitli değişkenler küçük küçük değiştirilerek tam yeniden eğitimler tekrarlandı
    • Örneğin, "Wait" ile "Hmm" arasında hangi token'ın daha etkili olduğu doğrudan ölçüldü
    • Temel örnek veride hangi bölümün en anlamlı sinyali verdiği de test edildi

Jeopolitik sonuçlar

  • Yapay zekanın ulusal güvenlikle yakından bağlantılı olduğu yönünde bir bakış açısı var
  • OpenAI ve Anthropic gibi şirketlerin devasa bütçeler harcamasının nedeni de buradan geliyor
  • s1 gibi maliyeti düşüren yenilikler ortaya çıkmış olsa da, büyük sermaye kullanıldığında aynı anda çok daha fazla denemenin yürütülebilmesi de önemli
  • Yapay zeka gelişimini daha da hızlandırmak için daha büyük yatırımlar gerektiği yönünde görüşler de dile getiriliyor

Distealing (izinsiz model damıtımı)

  • s1 veri kümesi, temelde başka bir modelin (Qwen2.5) thought trace'lerini kullanarak yapılan bir damıtım (distillation) ürünü
  • OpenAI, DeepSeek'in kendi o1 modelini izinsiz biçimde damıtarak V3 modelini geliştirdiğinden şüpheleniyor
  • Ancak gerçekte damıtım faaliyetini engellemek giderek zorlaşıyor
    • Yaklaşık 1.000 örnek, bireylerin bile rahatlıkla toplayabileceği bir düzeyde
  • OpenAI'nin yakın zamanda o3 modelini doğrudan dağıtmak yerine ajan biçiminde sunmasının nedeni de bu tür izinsiz damıtımı önleme çabası gibi görünüyor

Sonuç

  • s1'in ortaya çıkışı, açık alanda yapay zekanın ne kadar hızlı evrildiğini gösteren iyi bir örnek
  • OpenAI ve Anthropic gibi şirketlerin çok daha fazla hesaplama kaynağı kullanarak daha hızlı ilerleme kaydetmesi oldukça olası
  • s1, R1 ya da o1'in birebir kopyası değil; bunun yerine RL olmadan, yalnızca SFT (Supervised Fine Tuning) ile de benzer olasılıkların açılabileceğine işaret ediyor
  • 2025 yılında daha büyük yeniliklerin beklendiği yönünde değerlendirmeler var

2 yorum

 
hoonix 2025-02-06

"Distillation"ın "Distealing" diye bükülmüş hâli gerçekten eğlenceli!

 
GN⁺ 2025-02-06
Hacker News görüşleri
  • Çıkarımı genişletmek için yapılan 'Wait' hack’i ilginç. Basit bir yöntemin performansı etkileyebilmesi, bilgisayar biliminin ilerleyişini sanki büyü yapıyormuşuz gibi hissettiriyor. Bu düşünme biçimine nasıl başlanabileceğini merak ediyorum

  • Eğer düşünce akışı modele metni işleyen bir tampon görevi gören geçici bir 'katman' sağlıyorsa, bunu ayrı bir FNN ve dikkat mekanizmasına sahip ayrı bir bağlam haline getirmenin anlamlı olup olmayacağını merak ediyorum. Bu, doğal dille açıklayan bir mikroişlemciyle birleşerek daha yoğun bir 'düşünce' temsili sağlayabilir

  • CoT yaygın olarak bilinen bir teknik, ancak DeepSeek hesaplama kısıtları nedeniyle bellek, bant genişliği ve paralellik optimizasyonları bulmaya odaklandı. Altyapı ve yazılım düzeyindeki optimizasyonları dikkat çekici

  • Mevcut benchmark'ların yeterince güçlü olmadığını düşünüyorum ve ABD'deki LLM laboratuvarları da altyapı ve donanım optimizasyonu eksikliğinin farkında olacaktır. RL seviyesi ve ana eğitim daha önemli hale gelecek

  • AI hack'leriyle denenen yöntemlerin laboratuvarlarda da kullanılıyor olması ilginç. R1'in düşünmeye devam etmesini sağlamak için 'Okay' ile değiştirme yöntemini kullandım

  • Tim'in blogunu yer imlerine ekledim. AI ve sinir ağları alanındaki gelişmeler şaşırtıcı. Ben de kişisel olarak zayıf on-device modellerle LLM tabanlı ajanlar yapmakta zorlanıyorum

  • 10.000 adet H100'e sahip olmak, S1'den 625 kat daha fazla deney yapabilmek anlamına geliyor. Büyük şirketler hesaplama kaynaklarını boşa harcama eğiliminde

  • Çıkarım modellerinin çıktı uzunluğunu kontrol etme yöntemi ilginç. 'Wait' ile değiştirerek CoT enjekte etmeyi ve jailbreak'i kolaylaştırmayı sağlayan bir yöntem bulmuşlar

  • S1 için orijinal makale bağlantısını paylaşıyor

  • Büyük ölçekli organizasyonlarda çok fazla deney yapılamıyor; çalışanlar hızlı sonuç çıkarmaya odaklanıyor. Geçici kazançlar uğruna işler aceleye getiriliyor

  • LLM çıktısını şekillendirmek heykel yapmak gibi. Modeli bir oyun döngüsüne koyup her tick'te onunla etkileşime girerek istenen sonucu elde etmek gerekiyor. Hesaplama kaynaklarına olan açlık sürecek