- Hunyuan-T1, TurboS tabanlı ultra büyük bir Hybrid-Transformer-Mamba MoE modeli
- Geniş ölçekli son işlem eğitimiyle insan tercihine uygun çıkarım yetenekleri genişletildi ve performans artırıldı
- TurboS'un uzun metin işleme yeteneği sayesinde bağlam kaybı ve uzun mesafeli bilgi bağımlılığı sorunları çözüldü
- Mamba mimarisi, uzun sekans işlemesini optimize ederek verimli bir hesaplama yöntemiyle uzun metin bilgisini yakalayabiliyor
- Aynı dağıtım koşullarında decoding hızı 2 kat arttı
- Modelin sonradan eğitimi aşamasında toplam hesaplama gücünün %96,7'si pekiştirmeli öğrenmeye ayrıldı
- Matematik, mantıksal akıl yürütme, bilim, kod gibi çeşitli problemleri içeren veri setleri toplanarak modelin akıl yürütme yeteneği güçlendirildi
- Doğru cevap geri bildirimi ve gerçek zamanlı kullanıcı geri bildirimiyle model performansı artırıldı
- Müfredat öğrenimi yaklaşımı uygulandı
- Veri zorluğu kademeli olarak artırılırken modelin bağlam uzunluğu genişletildi
- Token'ları verimli kullanma yeteneği güçlendirildi
- Pekiştirmeli öğrenme stratejisi: veri yeniden öğrenimi ve politika sıfırlama stratejileri uygulandı → eğitim kararlılığı %50'den fazla iyileşti
- Ödül sistemi
- Öz-ödüllendirme yöntemi benimsendi → model çıktısını kendi değerlendirip puanlıyor
- Kapsamlı ödül sistemi uygulandı → modelin bilgi verimliliği ve içerik ayrıntıları güçlendirildi
Benchmark performans değerlendirmesi
- MMLU-pro, CEval, AIME, Zebra Logic gibi Çince ve İngilizce akıl yürütme göstergelerinde güçlü performans
- DeepSeek R1 ile aynı seviyede performans veya biraz daha iyi sonuçlar
- Kültürel yaratıcılık, metin özetleme, ajan yetenekleri alanlarında üstünlük sağladı
- MMLU-PRO değerlendirmesinde 87,2 puan aldı → beşeri bilimler, sosyal bilimler, fen ve teknoloji dahil 14 alanda güçlü bellek ve anlama yeteneğini gösterdi
- GPQA-diamond değerlendirmesinde 69,3 puan elde etti → doktora seviyesinde fizik, kimya ve biyoloji problemlerini çözme yeteneğini doğruladı
- Kod, matematik ve mantıksal akıl yürütmede güçlü performans gösterdi
- LiveCodeBench'te 64,9 puan aldı → kod yazma ve anlama yeteneğini doğruladı
- MATH-500'de 96,2 puan → DeepSeek R1'e yakın matematik problem çözme yeteneğini gösterdi
- ArenaHard'da 91,9 puan aldı → çeşitli hizalama görevleri, talimat izleme görevleri ve araç kullanımı görevlerinde güçlü uyum kabiliyeti gösterdi
1 yorum
Hacker News yorumu
Hunyuanya da Çince 混元, "ilkel kaos" veya "ilksel birlik" anlamına geliyorApolloadlı tüm ürünler)