450 doların altında O1 Preview modelini doğrudan eğitmek

(sky.cs.berkeley.edu)

1 puan yazan GN⁺ 2025-02-22 | 1 yorum | WhatsApp'ta paylaş

UC Berkeley NovaSky ekibinin Sky-T1'i, 450 doların altında bir maliyetle O1 Preview düzeyinde bir akıl yürütme modelini doğrudan eğitebildiğini öne süren bir proje
o1 ve Gemini 2.0 Flash Thinking, uzun iç düşünce zincirleri kullanarak karmaşık görevlerde güçlü akıl yürütme performansı gösteriyor
Bu tür modellerde teknik ayrıntılar ve ağırlıklar açıklanmadığı için akademi ve açık kaynak topluluğunun bunları yeniden üretmesi ve genişletmesi zor
Still-2 ve Journey gibi açık ağırlıklı akıl yürütme modeli denemeleri olmuştu, ancak bunlar çoğunlukla matematik alanına odaklanmıştı
NovaSky ekibi, Sky-T1'in farkını aynı modelde hem matematik hem de kodlama alanlarında rekabetçi akıl yürütme performansı elde etmiş olması olarak sunuyor

Sky-T1'in hedeflediği sorun

Sky-T1, UC Berkeley Sky Computing Lab'in NovaSky ekibi tarafından yayımlanan bir proje ve merkezine O1 Preview modelini 450 doların altında doğrudan eğitmeyi koyuyor
o1 ve Gemini 2.0 Flash Thinking gibi akıl yürütmeye odaklı modeller, karmaşık görevleri çözerken uzun iç düşünce zincirleri üretebilme becerisi sergiliyor
Ancak bu model ailesinde teknik ayrıntılara ve model ağırlıklarına erişilemediği için akademi ile açık kaynak topluluğunun doğrudan katkı sunması zor durumda

Açık ağırlıklı akıl yürütme modeli akımı ve farkı

Açık ağırlıklı akıl yürütme modeli eğitme girişimleri olarak Still-2 ve Journey ortaya çıktı; bunlar matematik alanına odaklanıyordu
NovaSky ekibi, temel model ile instruct-tuned modelde akıl yürütme yeteneğini geliştirme yöntemlerini araştırıyor
Sky-T1 çalışması, yalnızca matematikte değil kodlamada da aynı modelle rekabetçi akıl yürütme performansı elde ettiğini vurguluyor

1 yorum

GN⁺ 2025-02-22

Hacker News yorumları

İlgilenen olursa ücretsiz GPU içeren bir Colab not defteri hazırladım
DeepSeek'in kullandığı algoritma olan GRPO ile bir çıkarım modelini sıfırdan eğiten not defteri ve Berkeley ekibinin kullandığı genel ince ayar not defteri var
Llama 3.1 8B için GRPO notebook: https://colab.research.google.com/github/unslothai/notebooks...
Genel finetuning notebook'u: https://colab.research.google.com/github/unslothai/notebooks...
Berkeley ekibinin 17K veri kümesi: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Face de 220K veri kümesi yayımladı: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- Ücretsiz katmandaki T4 üzerinde bunun ne kadar süreceğini merak ediyorum
  Normal bir programcının böyle “içini kurcalama” işlerine erişmesinin çok daha zor olacağını sanırdım; ama insanın bizzat denemek isteyeceği seviyede görünüyor
İsme O1 preview koymaları clickbait gibi göründüğü için tuhaf
Gerçekten o1 preview'ı yeniden eğitip indirebileceğimiz bir yol gibi bir şey beklemiştim
Ayrıca sadece 7 benchmark'a bakıp buna O1 preview demek doğru değil. Bazı kullanım senaryolarında O1 preview bu modelden daha iyi olabilir
Yine de maliyetlerin düşmesi iyi bir şey
- Belirli bir dil modeli bile değil, o modelin beta sürümüne doğrudan işaret eden bir ad olduğu için dürüstçe gelmiyor. Neden böyle yaptıklarını hiç anlamıyorum
- Katılıyorum. O1 preview adı biraz yanıltıcı
  Birkaç belirli benchmark'ın ötesinde daha geniş bir performans beklentisi yaratıyor. Maliyet düşüşü harika, ama pazarlama kapsamı daha şeffaf göstermeli
Rekabet gerçekten iyi
Birinin mimariyi açıkça paylaşması sayesinde son birkaç haftadır gelişmeler yağmur gibi geliyor
Eğitim veri kümeleri de açık olsa ve telif hakkı yasalarına takılmasak nereye varabileceğimizi hayal ettiriyor. Yasadışı bir şey yapalım demiyorum
Sanırım sadece hayal etmek zorundayız
- “Gelişmeler yağmur gibi geliyor” ifadesi tam yerinde. Özellikle Meta'nın modelleri neyle eğittiği ortaya çıktıktan sonra daha da öyle :)
- Böyle eğitim veri kümelerinin neredeyse tamamı telif hakkına tabi, bu yüzden asla tamamen özgür olamazlar
- Bu akış zaten sürüyordu; DeepSeek bunun örneklerinden biri gibi görünüyor
  Yine de bu gelişmeye dikkat çekti ve sayesinde daha fazla insan katkı vermeye, daha niş uygulama alanları bulmaya başladı
- Bugünkü hava şu değil mi: En ateşli startup'a sahipsen, sadece yasayı çiğneyip memurlara rüşvet veriyorsun? /s
  /s'e ek olarak, bir zamanlar yurt dışında yaşayıp o dönemin en popüler Bitcoin kumarhanesini işletmiştim ve Amerikalı olma ihtimali bulunan oyuncuları engellemek için inanılmaz para ve enerji harcadım. Bu yüzden çok büyük para kazanamadım
  Yasayı çiğneyip sonsuza kadar saklanarak yaşamak için ne kadar kazanmam gerektiğini hesaplamıştım; yılda 10-15 milyon dolar kazanabilirdim ama saklanmak için yeterli olmadığını düşündüm. Sanırım batırmışım
  Dünyanın en zengin insanı, parasının çoğunu ilk dönemde kumar işlemlerine aracılık ederek kazandı ve şimdi bütün federal kurumların işine burnunu sokuyor. İzin istemek yerine af dileyecek cesaretim olmalıymış gibi
Gerçek yapay zeka dağıtımlarında çıkarım zamanındaki hesaplama hâlâ çok az kullanılıyor
Birçok kişi geniş problem alanlarında akıl yürütmesi gereken temel modeller inşa ediyor, ama aynı tekniği görev bazlı performans iyileştirmesi için kullanan yeterince insan yok
R1 gibi daha büyük modellerin akıl yürütmesini belirli bir göreve kolayca damıtabilirsiniz. Dahası, belirli alt problemler için özel düşünme yönergeleri eklerseniz, ince ayarlı model hem göreve özgü akıl yürütmeyi hem de özel mantığı birlikte öğrenir
Zor değil ve prompt'u tekrar tekrar iyileştirmekten kolayca daha iyi sonuç veriyor. Bir hata bulursanız onu da düzeltebilirsiniz
Düşünme modeli damıtma ve özel düşünce süreci çıkarım zamanı ince ayarı için bir GitHub projesi oluşturdum: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- İzole bir görev değil de belirli bir problem alanı içindeki esnek sorgu kapsamı için ince ayar verisini nasıl yapılandırmak gerektiğini merak ediyorum
  Genel yönerge ayarlamaya benzer ama çok daha dar odaklı bir durum
  Örneğin bir doktorun araştırma literatürünü tarayıp tanıya yardımcı olduğu ve hipotezleri doğruladığı bir uygulama yaptığımızı varsayalım; doğal olarak hangi sorguların üretileceğini görmek için alan uzmanları ve gerçek kullanıcılarla çalışmak gerekir
  Ama bundan sonra olası sorguların, yönergelerin, anlatım ve bilişsel tarzların, formatların, konuşma akışlarının vb. dağılımını yeterince temsil eden dengeli bir veri kümesine geçiş süreci, nasıl yaklaşılacağı zor bir şey gibi geliyor. Yanlışlıkla aşırı uyum sağlayabileceğiniz sonsuz sayıda boyut varmış gibi görünüyor
Blog yazısı biraz belirsizdi; ben şöyle anladım
Eğitim verisini QwQ ile oluşturmuşlar, bazı temizliği GPT-4o-mini ile yapmışlar. Bu eğitim verisiyle akıl yürütme modeli olmayan Qwen2.5-32B-Instruct'a ince ayar uygulamışlar
Sonuç olarak Sky-T1, akıl yürütme görevlerinde QwQ'dan biraz kötü ama Qwen2.5'ten çok daha iyi
Burada küçümseyen tepkiler de var, ama temel bir modele ince ayar yaparak akıl yürütmede daha iyi hâle getirilebileceğini göstermesi açısından bence oldukça ilginç
- qwen2.5'in r1 damıtılmış modelleriyle de karşılaştırılsaydı iyi olurdu
Bu, sıfırdan eğitim değil ince ayar olduğu için çok daha makul bir öneri gibi görünüyor
Yine de bu alana derinlemesine girmiş biri değilim; ince ayar ayrıntılarını merak eden biri olarak hem veri kümesini hem de kodu indirebilmek hoşuma gidiyor
Daha iyi URL: https://novasky-ai.github.io/posts/sky-t1/
- Önceki tartışma burada: https://news.ycombinator.com/item?id=42681417
QwQ'nun akıl yürütme izleriyle eğitilmiş ve değerlendirmelerde çoğunlukla QwQ'dan biraz daha kötü
Muazzam bir başarı demek zor
“Model eğitimi, 8 adet H100 üzerinde DeepSpeed Zero-3 offloading ile 19 saatte tamamlanıyor ve Lambda Cloud fiyatlarına göre yaklaşık 450 dolar tutuyor” kısmı asıl nokta gibi görünüyor

450 doların altında O1 Preview modelini doğrudan eğitmek

Sky-T1'in hedeflediği sorun

Açık ağırlıklı akıl yürütme modeli akımı ve farkı

İlgili okumalar

1 yorum

Hacker News yorumları