- Sky-T1-32B-Preview, o1-preview ile benzer seviyede performans gösteren bir akıl yürütme ve kodlama modeli; yalnızca 450 dolar gibi düşük bir maliyetle eğitildi
- Tüm kodlar açık kaynak olarak sunuluyor; bu sayede herkes yeniden üretebilir ve geliştirebilir
- o1 ve Gemini 2.0 gibi yüksek performanslı akıl yürütme modelleri karmaşık görevleri çözebiliyor, ancak teknik ayrıntılar ve model ağırlıkları gizli tutuluyor
Tamamen açık kaynak: birlikte ilerleme
- Sky-T1-32B-Preview, tüm ayrıntıları açık kaynak hale getiriyor:
Nasıl yapıldı (Recipes)
Veri hazırlama süreci
- Veriler, QwQ-32B-Preview modeli kullanılarak üretildi ve farklı alanları kapsayan bir veri karışımı oluşturuldu
- Yeniden yapılandırma ve format iyileştirmesi:
- QwQ verileri, akıl yürütme modelinin öğrenme verimliliğini artırmak için GPT-4o-mini ile yeniden biçimlendirildi
- Yeniden biçimlendirme sayesinde kodlama verilerinin doğruluğu %25'ten %90'ın üzerine çıkarıldı
- Reddetme örneklemesi:
- Matematik problemleri: doğru yanıtla karşılaştırılarak hatalı örnekler elendi
- Kodlama problemleri: veri kümesinin birim testleri çalıştırılarak doğru yanıt doğrulandı
- Nihai veri:
- Kodlama verisi: APPs ve TACO veri kümelerinden 5.000
- Matematik verisi: NuminaMATH içindeki AIME, MATH, Olympiads'tan 10.000
- Diğer veriler: bilim ve bulmaca problemlerinden 1.000
Eğitim süreci
- Eğitilen model: Qwen2.5-32B-Instruct (akıl yürütme yeteneği olmayan açık kaynak model)
- Eğitim ortamı:
- 8 adet H100 GPU kullanıldı, DeepSpeed Zero-3 offloading uygulandı
- Eğitim süresi: 19 saat
- Maliyet: yaklaşık 450 dolar (Lambda Cloud temelinde)
- Eğitim, Llama-Factory kullanılarak gerçekleştirildi
Değerlendirme ve sonuç özeti
- Sky-T1-32B-Preview, çeşitli benchmark'larda rakip modellerle karşılaştırıldığında şu performansı gösterdi:
- Math500: Sky-T1 %82,4 ile o1-preview (%81,4) ile neredeyse aynı seviyede ve Qwen-2.5'in (%76,2) belirgin şekilde önünde
- AIME2024: Sky-T1 %43,3 ile o1-preview'dan (%40,0) daha yüksek ve Qwen-2.5'e (%16,7) kıyasla çok daha üstün
- LiveCodeBench (Easy): Sky-T1 %86,3 ile Qwen-2.5'e (%84,6) yakın; o1-preview (%92,9) ile arasındaki fark ise küçük
- LiveCodeBench (Medium): Sky-T1 %56,8 ile o1-preview'dan (%54,9) daha yüksek ve Qwen-2.5'e (%40,8) göre açık ara önde
- LiveCodeBench (Hard): Sky-T1 %17,9 ile o1-preview'u (%16,3) az farkla geçiyor ve Qwen-2.5 (%9,8) ile arasında büyük fark var
- GPQA-Diamond: Sky-T1 %56,8 ile QwQ'nun (%52,5) biraz önünde, ancak o1-preview'un (%75,2) gerisinde
- Sky-T1-32B-Preview, hem matematik hem de kodlama alanlarında güçlü performans gösteriyor; özellikle orta zorluktaki kodlama görevlerinde öne çıkıyor
- Matematik odaklı benchmark'larda da üst sıralarda yer alıyor ve genel olarak verimli ama güçlü bir model olduğunu kanıtlıyor.
Öne çıkan bulgular
- Model boyutunun önemi:
- 7B ve 14B boyutundaki modellerde yalnızca sınırlı iyileşme görüldü
- 32B model, performans ve sonuç tutarlılığı açısından açık ara daha üstün
- Veri karışımının önemi:
- Tek alanlı veriyle eğitim yapıldığında performans düşebiliyor
- Matematik ve kodlama verilerinin dengeli karıştırılmasıyla her iki alanda da yüksek performans elde edildi
Gelecek planları
- Verimliliği korurken yüksek akıl yürütme performansı sunan modeller geliştirmeye odaklanma
- Test zamanı verimliliğini ve doğruluğu artıran ileri teknikleri araştırma
- Toplulukla iş birliği içinde daha gelişmiş modeller geliştirmeyi hedefleme
1 yorum
Neden... neden SKT-T1 diye okuyorum ki