Sky-T1: 450 dolara o1 preview seviyesinde yüksek performanslı bir akıl yürütme modeli eğitmek

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview, o1-preview ile benzer seviyede performans gösteren bir akıl yürütme ve kodlama modeli; yalnızca 450 dolar gibi düşük bir maliyetle eğitildi Tüm kodlar açık kaynak olarak sunuluyor; bu sayede herkes yeniden üretebilir ve geliştirebilir o1 ve Gemini 2.0 gibi yüksek performanslı akıl yürütme modelleri karmaşık görevleri çözebiliyor, ancak teknik ayrıntılar ve model ağırlıkları gizli tutuluyor Tamamen açık kaynak: birlikte ilerleme Sky-T1-32B-Preview, tüm ayrıntıları açık kaynak hale getiriyor: Altyapı: veri oluşturma, model eğitimi ve değerlendirme için birleşik depo Veri: 17.000 eğitim verisi sağlanıyor Teknik ayrıntılar: teknik rapor ve wandb logları Model ağırlıkları: 32B boyutundaki model ağırlıkları Nasıl yapıldı (Recipes) Veri hazırlama süreci Veriler, QwQ-32B-Preview modeli kullanılarak üretildi ve farklı alanları kapsayan bir veri karışımı oluşturuldu Yeniden yapılandırma ve format iyileştirmesi: QwQ verileri, akıl yürütme modelinin öğrenme verimliliğini artırmak için GPT-4o-mini ile yeniden biçimlendirildi Yeniden biçimlendirme sayesinde kodlama verilerinin doğruluğu %25'ten %90'ın üzerine çıkarıldı Reddetme örneklemesi: Matematik problemleri: doğru yanıtla karşılaştırılarak hatalı örnekler elendi Kodlama problemleri: veri kümesinin birim testleri çalıştırılarak doğru yanıt doğrulandı Nihai veri: Kodlama verisi: APPs ve TACO veri kümelerinden 5.000 Matematik verisi: NuminaMATH içindeki AIME, MATH, Olympiads'tan 10.000 Diğer veriler: bilim ve bulmaca problemlerinden 1.000 Eğitim süreci Eğitilen model: Qwen2.5-32B-Instruct (akıl yürütme yeteneği olmayan açık kaynak model) Eğitim ortamı: 8 adet H100 GPU kullanıldı, DeepSpeed Zero-3 offloading uygulandı Eğitim süresi: 19 saat Maliyet: yaklaşık 450 dolar (Lambda Cloud temelinde) Eğitim, Llama-Factory kullanılarak gerçekleştirildi Değerlendirme ve sonuç özeti Sky-T1-32B-Preview, çeşitli benchmark'larda rakip modellerle karşılaştırıldığında şu performansı gösterdi: Math500: Sky-T1 %82,4 ile o1-preview (%81,4) ile neredeyse aynı seviyede ve Qwen-2.5'in (%76,2) belirgin şekilde önünde AIME2024: Sky-T1 %43,3 ile o1-preview'dan (%40,0) daha yüksek ve Qwen-2.5'e (%16,7) kıyasla çok daha üstün LiveCodeBench (Easy): Sky-T1 %86,3 ile Qwen-2.5'e (%84,6) yakın; o1-preview (%92,9) ile arasındaki fark ise küçük LiveCodeBench (Medium): Sky-T1 %56,8 ile o1-preview'dan (%54,9) daha yüksek ve Qwen-2.5'e (%40,8) göre açık ara önde LiveCodeBench (Hard): Sky-T1 %17,9 ile o1-preview'u (%16,3) az farkla geçiyor ve Qwen-2.5 (%9,8) ile arasında büyük fark var GPQA-Diamond: Sky-T1 %56,8 ile QwQ'nun (%52,5) biraz önünde, ancak o1-preview'un (%75,2) gerisinde Sky-T1-32B-Preview, hem matematik hem de kodlama alanlarında güçlü performans gösteriyor; özellikle orta zorluktaki kodlama görevlerinde öne çıkıyor Matematik odaklı benchmark'larda da üst sıralarda yer alıyor ve genel olarak verimli ama güçlü bir model olduğunu kanıtlıyor. Öne çıkan bulgular Model boyutunun önemi: 7B ve 14B boyutundaki modellerde yalnızca sınırlı iyileşme görüldü 32B model, performans ve sonuç tutarlılığı açısından açık ara daha üstün Veri karışımının önemi: Tek alanlı veriyle eğitim yapıldığında performans düşebiliyor Matematik ve kodlama verilerinin dengeli karıştırılmasıyla her iki alanda da yüksek performans elde edildi Gelecek planları Verimliliği korurken yüksek akıl yürütme performansı sunan modeller geliştirmeye odaklanma Test zamanı verimliliğini ve doğruluğu artıran ileri teknikleri araştırma Toplulukla iş birliği içinde daha gelişmiş modeller geliştirmeyi hedefleme

(novasky-ai.github.io)

22 puan yazan xguru 2025-01-17 | 1 yorum | WhatsApp'ta paylaş

Sky-T1-32B-Preview, o1-preview ile benzer seviyede performans gösteren bir akıl yürütme ve kodlama modeli; yalnızca 450 dolar gibi düşük bir maliyetle eğitildi
Tüm kodlar açık kaynak olarak sunuluyor; bu sayede herkes yeniden üretebilir ve geliştirebilir
- o1 ve Gemini 2.0 gibi yüksek performanslı akıl yürütme modelleri karmaşık görevleri çözebiliyor, ancak teknik ayrıntılar ve model ağırlıkları gizli tutuluyor

Tamamen açık kaynak: birlikte ilerleme

Sky-T1-32B-Preview, tüm ayrıntıları açık kaynak hale getiriyor:
- Altyapı: veri oluşturma, model eğitimi ve değerlendirme için birleşik depo
- Veri: 17.000 eğitim verisi sağlanıyor
- Teknik ayrıntılar: teknik rapor ve wandb logları
- Model ağırlıkları: 32B boyutundaki model ağırlıkları

Nasıl yapıldı (Recipes)

Veri hazırlama süreci

Veriler, QwQ-32B-Preview modeli kullanılarak üretildi ve farklı alanları kapsayan bir veri karışımı oluşturuldu
Yeniden yapılandırma ve format iyileştirmesi:
- QwQ verileri, akıl yürütme modelinin öğrenme verimliliğini artırmak için GPT-4o-mini ile yeniden biçimlendirildi
- Yeniden biçimlendirme sayesinde kodlama verilerinin doğruluğu %25'ten %90'ın üzerine çıkarıldı
Reklam
Reddetme örneklemesi:
- Matematik problemleri: doğru yanıtla karşılaştırılarak hatalı örnekler elendi
- Kodlama problemleri: veri kümesinin birim testleri çalıştırılarak doğru yanıt doğrulandı
Nihai veri:
- Kodlama verisi: APPs ve TACO veri kümelerinden 5.000
- Matematik verisi: NuminaMATH içindeki AIME, MATH, Olympiads'tan 10.000
- Diğer veriler: bilim ve bulmaca problemlerinden 1.000

Eğitim süreci

Eğitilen model: Qwen2.5-32B-Instruct (akıl yürütme yeteneği olmayan açık kaynak model)
Eğitim ortamı:
- 8 adet H100 GPU kullanıldı, DeepSpeed Zero-3 offloading uygulandı
- Eğitim süresi: 19 saat
- Maliyet: yaklaşık 450 dolar (Lambda Cloud temelinde)
Eğitim, Llama-Factory kullanılarak gerçekleştirildi

Değerlendirme ve sonuç özeti

Sky-T1-32B-Preview, çeşitli benchmark'larda rakip modellerle karşılaştırıldığında şu performansı gösterdi:
- Math500: Sky-T1 %82,4 ile o1-preview (%81,4) ile neredeyse aynı seviyede ve Qwen-2.5'in (%76,2) belirgin şekilde önünde
- AIME2024: Sky-T1 %43,3 ile o1-preview'dan (%40,0) daha yüksek ve Qwen-2.5'e (%16,7) kıyasla çok daha üstün
- LiveCodeBench (Easy): Sky-T1 %86,3 ile Qwen-2.5'e (%84,6) yakın; o1-preview (%92,9) ile arasındaki fark ise küçük
- LiveCodeBench (Medium): Sky-T1 %56,8 ile o1-preview'dan (%54,9) daha yüksek ve Qwen-2.5'e (%40,8) göre açık ara önde
- LiveCodeBench (Hard): Sky-T1 %17,9 ile o1-preview'u (%16,3) az farkla geçiyor ve Qwen-2.5 (%9,8) ile arasında büyük fark var
- GPQA-Diamond: Sky-T1 %56,8 ile QwQ'nun (%52,5) biraz önünde, ancak o1-preview'un (%75,2) gerisinde
Reklam
Sky-T1-32B-Preview, hem matematik hem de kodlama alanlarında güçlü performans gösteriyor; özellikle orta zorluktaki kodlama görevlerinde öne çıkıyor
Matematik odaklı benchmark'larda da üst sıralarda yer alıyor ve genel olarak verimli ama güçlü bir model olduğunu kanıtlıyor.

Öne çıkan bulgular

Model boyutunun önemi:
- 7B ve 14B boyutundaki modellerde yalnızca sınırlı iyileşme görüldü
- 32B model, performans ve sonuç tutarlılığı açısından açık ara daha üstün
Veri karışımının önemi:
- Tek alanlı veriyle eğitim yapıldığında performans düşebiliyor
- Matematik ve kodlama verilerinin dengeli karıştırılmasıyla her iki alanda da yüksek performans elde edildi

Gelecek planları

Verimliliği korurken yüksek akıl yürütme performansı sunan modeller geliştirmeye odaklanma
Test zamanı verimliliğini ve doğruluğu artıran ileri teknikleri araştırma
Toplulukla iş birliği içinde daha gelişmiş modeller geliştirmeyi hedefleme

1 yorum

kimjoin2 2025-01-17

Neden... neden SKT-T1 diye okuyorum ki