Tencent Hunyuan-T1 - İlk Mamba mimarisi tabanlı ultra büyük model

(llm.hunyuan.tencent.com)

2 puan yazan GN⁺ 2025-03-23 | 1 yorum | WhatsApp'ta paylaş

Hunyuan-T1, TurboS tabanlı ultra büyük bir Hybrid-Transformer-Mamba MoE modeli
Geniş ölçekli son işlem eğitimiyle insan tercihine uygun çıkarım yetenekleri genişletildi ve performans artırıldı
TurboS'un uzun metin işleme yeteneği sayesinde bağlam kaybı ve uzun mesafeli bilgi bağımlılığı sorunları çözüldü
Mamba mimarisi, uzun sekans işlemesini optimize ederek verimli bir hesaplama yöntemiyle uzun metin bilgisini yakalayabiliyor
- Aynı dağıtım koşullarında decoding hızı 2 kat arttı
Modelin sonradan eğitimi aşamasında toplam hesaplama gücünün %96,7'si pekiştirmeli öğrenmeye ayrıldı
- Matematik, mantıksal akıl yürütme, bilim, kod gibi çeşitli problemleri içeren veri setleri toplanarak modelin akıl yürütme yeteneği güçlendirildi
- Doğru cevap geri bildirimi ve gerçek zamanlı kullanıcı geri bildirimiyle model performansı artırıldı
- Müfredat öğrenimi yaklaşımı uygulandı
  - Veri zorluğu kademeli olarak artırılırken modelin bağlam uzunluğu genişletildi
  - Token'ları verimli kullanma yeteneği güçlendirildi
Pekiştirmeli öğrenme stratejisi: veri yeniden öğrenimi ve politika sıfırlama stratejileri uygulandı → eğitim kararlılığı %50'den fazla iyileşti
Ödül sistemi
- Öz-ödüllendirme yöntemi benimsendi → model çıktısını kendi değerlendirip puanlıyor
- Kapsamlı ödül sistemi uygulandı → modelin bilgi verimliliği ve içerik ayrıntıları güçlendirildi
Reklam

Benchmark performans değerlendirmesi

MMLU-pro, CEval, AIME, Zebra Logic gibi Çince ve İngilizce akıl yürütme göstergelerinde güçlü performans
DeepSeek R1 ile aynı seviyede performans veya biraz daha iyi sonuçlar
- Kültürel yaratıcılık, metin özetleme, ajan yetenekleri alanlarında üstünlük sağladı
MMLU-PRO değerlendirmesinde 87,2 puan aldı → beşeri bilimler, sosyal bilimler, fen ve teknoloji dahil 14 alanda güçlü bellek ve anlama yeteneğini gösterdi
GPQA-diamond değerlendirmesinde 69,3 puan elde etti → doktora seviyesinde fizik, kimya ve biyoloji problemlerini çözme yeteneğini doğruladı
Kod, matematik ve mantıksal akıl yürütmede güçlü performans gösterdi
- LiveCodeBench'te 64,9 puan aldı → kod yazma ve anlama yeteneğini doğruladı
- MATH-500'de 96,2 puan → DeepSeek R1'e yakın matematik problem çözme yeteneğini gösterdi
ArenaHard'da 91,9 puan aldı → çeşitli hizalama görevleri, talimat izleme görevleri ve araç kullanımı görevlerinde güçlü uyum kabiliyeti gösterdi

1 yorum

GN⁺ 2025-03-23

Hacker News yorumu

Modelin üstün performansı, pekiştirmeli öğrenmenin optimizasyon sürecinde önemli bir rol oynadığını tamamen kanıtlıyor
- Eğer bu pekiştirmeli öğrenme başka yerlerde daha iyi yanıtlar sunmak yerine sadece benchmark'ları manipüle ediyorsa, bunu nasıl fark edebileceğimiz sorusu ortaya çıkıyor
Bu modeli biraz denedikten sonra, İngilizce sorulara Çince yanıt verme eğiliminde gibi görünüyor
Büyük modelleri 389b parametreydi; peki ultra büyük modelin ne kadar büyük olduğunu merak ediyorum
Bu günlerde çok fazla model çıkıyor ve yapay zeka alanında çok fazla ilerleme yaşanıyor, takip etmesi zor
- Gerçekte neyin çığır açıcı veya önemli olduğundan emin olamıyorum
Mamba tabanlı bir modelin iyi çalıştığını görmek ilginç
Bu tür isimlerin Latin harfleriyle yazımı her zaman kafa karıştırıcı
- Karakterler ve tonlar çıkarılınca geriye anlamsız bir yazı kalıyor
- Hunyuan ya da Çince 混元, "ilkel kaos" veya "ilksel birlik" anlamına geliyor
- Piyasaya daha fazla Çin ürünü ve hizmeti çıktıkça bunu hatırlamayı kolaylaştırıyor
- Bu, Batılı ürünlerde Yunan mitolojisinin popüler olmasına benziyor (ör. Apollo adlı tüm ürünler)
Huggingface demosuna bağlı olmaları, ağırlıkları yayımlayacaklarına işaret ediyor mu diye merak ediyorum
Kobe?

Tencent Hunyuan-T1 - İlk Mamba mimarisi tabanlı ultra büyük model

Benchmark performans değerlendirmesi

İlgili okumalar

1 yorum

Hacker News yorumu