22 puan yazan xguru 2025-01-17 | 1 yorum | WhatsApp'ta paylaş
  • Sky-T1-32B-Preview, o1-preview ile benzer seviyede performans gösteren bir akıl yürütme ve kodlama modeli; yalnızca 450 dolar gibi düşük bir maliyetle eğitildi
  • Tüm kodlar açık kaynak olarak sunuluyor; bu sayede herkes yeniden üretebilir ve geliştirebilir
    • o1 ve Gemini 2.0 gibi yüksek performanslı akıl yürütme modelleri karmaşık görevleri çözebiliyor, ancak teknik ayrıntılar ve model ağırlıkları gizli tutuluyor

Tamamen açık kaynak: birlikte ilerleme

Nasıl yapıldı (Recipes)

Veri hazırlama süreci

  • Veriler, QwQ-32B-Preview modeli kullanılarak üretildi ve farklı alanları kapsayan bir veri karışımı oluşturuldu
  • Yeniden yapılandırma ve format iyileştirmesi:
    • QwQ verileri, akıl yürütme modelinin öğrenme verimliliğini artırmak için GPT-4o-mini ile yeniden biçimlendirildi
    • Yeniden biçimlendirme sayesinde kodlama verilerinin doğruluğu %25'ten %90'ın üzerine çıkarıldı
  • Reddetme örneklemesi:
    • Matematik problemleri: doğru yanıtla karşılaştırılarak hatalı örnekler elendi
    • Kodlama problemleri: veri kümesinin birim testleri çalıştırılarak doğru yanıt doğrulandı
  • Nihai veri:
    • Kodlama verisi: APPs ve TACO veri kümelerinden 5.000
    • Matematik verisi: NuminaMATH içindeki AIME, MATH, Olympiads'tan 10.000
    • Diğer veriler: bilim ve bulmaca problemlerinden 1.000

Eğitim süreci

  • Eğitilen model: Qwen2.5-32B-Instruct (akıl yürütme yeteneği olmayan açık kaynak model)
  • Eğitim ortamı:
    • 8 adet H100 GPU kullanıldı, DeepSpeed Zero-3 offloading uygulandı
    • Eğitim süresi: 19 saat
    • Maliyet: yaklaşık 450 dolar (Lambda Cloud temelinde)
  • Eğitim, Llama-Factory kullanılarak gerçekleştirildi

Değerlendirme ve sonuç özeti

  • Sky-T1-32B-Preview, çeşitli benchmark'larda rakip modellerle karşılaştırıldığında şu performansı gösterdi:
    • Math500: Sky-T1 %82,4 ile o1-preview (%81,4) ile neredeyse aynı seviyede ve Qwen-2.5'in (%76,2) belirgin şekilde önünde
    • AIME2024: Sky-T1 %43,3 ile o1-preview'dan (%40,0) daha yüksek ve Qwen-2.5'e (%16,7) kıyasla çok daha üstün
    • LiveCodeBench (Easy): Sky-T1 %86,3 ile Qwen-2.5'e (%84,6) yakın; o1-preview (%92,9) ile arasındaki fark ise küçük
    • LiveCodeBench (Medium): Sky-T1 %56,8 ile o1-preview'dan (%54,9) daha yüksek ve Qwen-2.5'e (%40,8) göre açık ara önde
    • LiveCodeBench (Hard): Sky-T1 %17,9 ile o1-preview'u (%16,3) az farkla geçiyor ve Qwen-2.5 (%9,8) ile arasında büyük fark var
    • GPQA-Diamond: Sky-T1 %56,8 ile QwQ'nun (%52,5) biraz önünde, ancak o1-preview'un (%75,2) gerisinde
  • Sky-T1-32B-Preview, hem matematik hem de kodlama alanlarında güçlü performans gösteriyor; özellikle orta zorluktaki kodlama görevlerinde öne çıkıyor
  • Matematik odaklı benchmark'larda da üst sıralarda yer alıyor ve genel olarak verimli ama güçlü bir model olduğunu kanıtlıyor.

Öne çıkan bulgular

  • Model boyutunun önemi:
    • 7B ve 14B boyutundaki modellerde yalnızca sınırlı iyileşme görüldü
    • 32B model, performans ve sonuç tutarlılığı açısından açık ara daha üstün
  • Veri karışımının önemi:
    • Tek alanlı veriyle eğitim yapıldığında performans düşebiliyor
    • Matematik ve kodlama verilerinin dengeli karıştırılmasıyla her iki alanda da yüksek performans elde edildi

Gelecek planları

  • Verimliliği korurken yüksek akıl yürütme performansı sunan modeller geliştirmeye odaklanma
  • Test zamanı verimliliğini ve doğruluğu artıran ileri teknikleri araştırma
  • Toplulukla iş birliği içinde daha gelişmiş modeller geliştirmeyi hedefleme

1 yorum

 
kimjoin2 2025-01-17

Neden... neden SKT-T1 diye okuyorum ki