2 puan yazan GN⁺ 2025-03-23 | 1 yorum | WhatsApp'ta paylaş
  • Hunyuan-T1, TurboS tabanlı ultra büyük bir Hybrid-Transformer-Mamba MoE modeli
  • Geniş ölçekli son işlem eğitimiyle insan tercihine uygun çıkarım yetenekleri genişletildi ve performans artırıldı
  • TurboS'un uzun metin işleme yeteneği sayesinde bağlam kaybı ve uzun mesafeli bilgi bağımlılığı sorunları çözüldü
  • Mamba mimarisi, uzun sekans işlemesini optimize ederek verimli bir hesaplama yöntemiyle uzun metin bilgisini yakalayabiliyor
    • Aynı dağıtım koşullarında decoding hızı 2 kat arttı
  • Modelin sonradan eğitimi aşamasında toplam hesaplama gücünün %96,7'si pekiştirmeli öğrenmeye ayrıldı
    • Matematik, mantıksal akıl yürütme, bilim, kod gibi çeşitli problemleri içeren veri setleri toplanarak modelin akıl yürütme yeteneği güçlendirildi
    • Doğru cevap geri bildirimi ve gerçek zamanlı kullanıcı geri bildirimiyle model performansı artırıldı
    • Müfredat öğrenimi yaklaşımı uygulandı
      • Veri zorluğu kademeli olarak artırılırken modelin bağlam uzunluğu genişletildi
      • Token'ları verimli kullanma yeteneği güçlendirildi
  • Pekiştirmeli öğrenme stratejisi: veri yeniden öğrenimi ve politika sıfırlama stratejileri uygulandı → eğitim kararlılığı %50'den fazla iyileşti
  • Ödül sistemi
    • Öz-ödüllendirme yöntemi benimsendi → model çıktısını kendi değerlendirip puanlıyor
    • Kapsamlı ödül sistemi uygulandı → modelin bilgi verimliliği ve içerik ayrıntıları güçlendirildi

Benchmark performans değerlendirmesi

  • MMLU-pro, CEval, AIME, Zebra Logic gibi Çince ve İngilizce akıl yürütme göstergelerinde güçlü performans
  • DeepSeek R1 ile aynı seviyede performans veya biraz daha iyi sonuçlar
    • Kültürel yaratıcılık, metin özetleme, ajan yetenekleri alanlarında üstünlük sağladı
  • MMLU-PRO değerlendirmesinde 87,2 puan aldı → beşeri bilimler, sosyal bilimler, fen ve teknoloji dahil 14 alanda güçlü bellek ve anlama yeteneğini gösterdi
  • GPQA-diamond değerlendirmesinde 69,3 puan elde etti → doktora seviyesinde fizik, kimya ve biyoloji problemlerini çözme yeteneğini doğruladı
  • Kod, matematik ve mantıksal akıl yürütmede güçlü performans gösterdi
    • LiveCodeBench'te 64,9 puan aldı → kod yazma ve anlama yeteneğini doğruladı
    • MATH-500'de 96,2 puan → DeepSeek R1'e yakın matematik problem çözme yeteneğini gösterdi
  • ArenaHard'da 91,9 puan aldı → çeşitli hizalama görevleri, talimat izleme görevleri ve araç kullanımı görevlerinde güçlü uyum kabiliyeti gösterdi

1 yorum

 
GN⁺ 2025-03-23
Hacker News yorumu
  • Modelin üstün performansı, pekiştirmeli öğrenmenin optimizasyon sürecinde önemli bir rol oynadığını tamamen kanıtlıyor
    • Eğer bu pekiştirmeli öğrenme başka yerlerde daha iyi yanıtlar sunmak yerine sadece benchmark'ları manipüle ediyorsa, bunu nasıl fark edebileceğimiz sorusu ortaya çıkıyor
  • Bu modeli biraz denedikten sonra, İngilizce sorulara Çince yanıt verme eğiliminde gibi görünüyor
  • Büyük modelleri 389b parametreydi; peki ultra büyük modelin ne kadar büyük olduğunu merak ediyorum
  • Bu günlerde çok fazla model çıkıyor ve yapay zeka alanında çok fazla ilerleme yaşanıyor, takip etmesi zor
    • Gerçekte neyin çığır açıcı veya önemli olduğundan emin olamıyorum
  • Mamba tabanlı bir modelin iyi çalıştığını görmek ilginç
  • Bu tür isimlerin Latin harfleriyle yazımı her zaman kafa karıştırıcı
    • Karakterler ve tonlar çıkarılınca geriye anlamsız bir yazı kalıyor
    • Hunyuan ya da Çince 混元, "ilkel kaos" veya "ilksel birlik" anlamına geliyor
    • Piyasaya daha fazla Çin ürünü ve hizmeti çıktıkça bunu hatırlamayı kolaylaştırıyor
    • Bu, Batılı ürünlerde Yunan mitolojisinin popüler olmasına benziyor (ör. Apollo adlı tüm ürünler)
  • Huggingface demosuna bağlı olmaları, ağırlıkları yayımlayacaklarına işaret ediyor mu diye merak ediyorum
  • Kobe?