3 puan yazan GN⁺ 2024-09-10 | 1 yorum | WhatsApp'ta paylaş
  • Birkaç gün önce biri, şaşırtıcı benchmark sonuçlarıyla birlikte Llama 3.1 70B’nin ince ayarlanmış sürümü olduğunu iddia ettiği Reflection 70B’yi duyurdu
    • Weight yayını berbattı. 3.1 için fine-tuning olduğunu iddia ederken 3.0 için LoRA yayımladılar
    • Yayımlanan ağırlıklarla çalıştırıldığında ilk başta değerlendirme sonuçları beklentilerin altında kaldı
    • Barındırılan endpoint kullanıldığında ise değerlendirmeler SOTA düzeyinde sonuç vermeye başladı
  • İnsanlar, endpoint’te hangi modelin çalıştığını doğrulamak için akıllıca yöntemler buldu
    • Modele özgü token’lar ve modele özgü sansür davranışı kullanıldı
    • Ortaya çıkan sonuca göre, kendi fine-tune ettikleri modeli değil Sonnet 3.5’i sarmalayan bir yapı kullandıkları iddia edildi
    • Bunun Sonnet olduğuna dair bulgular Twitter’da paylaşıldıktan sonra içerik değişti
    • Ardından başka bir kullanıcı, benzer bir yöntemle barındırılan modelin GPT 4o’ya değiştirildiğine dair kanıt bulduğunu öne sürdü
  • Sonuçlar karışık ve tutarsız; bu yüzden neyin doğru neyin yanlış olduğu net değil
  • Asıl geliştiricinin duyuru tweet’i: https://twitter.com/mattshumer_/status/1831767014341538166
  • Prompt’lar üzerinden bir şeylerin sürekli değiştiğini izleyen tweet zinciri: https://x.com/RealJosephus/status/1832904398831280448

1 yorum

 
GN⁺ 2024-09-10
Hacker News görüşü
  • Llama 3.1 70B modelinin performansının çok iyi olduğu duyuruldu, ancak çeşitli sorunlar ortaya çıktı

    • Lora for Llama 3.0'ın ağırlıkları yanlış şekilde dağıtıldı
    • İlk değerlendirme beklentilerin altında kaldı
    • Barındırılan endpoint'te SOTA performansı gösterdi
    • Modelin gerçekte hangi model olduğunu doğrulamak için çeşitli yöntemler kullanıldı
    • Sonuçta Sonnet 3.5 modelinin kullanıldığı ortaya çıktı
    • Daha sonra GPT 4o modeline geçildiğine dair kanıt bulundu
    • Karışıklık ve zaman kaybı yaşandı
  • Bu gönderinin daha fazla ilgi görmesi gerektiği savunuluyor

    • Yapay zeka alanında önemli bir figür olarak bilinen bir kişinin itibarı zarar gördü
    • "claude" filtrelemesi, etiket hataları ve modelin claude olduğunu kabul ettiğine dair kanıtlar var
    • En belirleyici unsur, modelin Llama sürümünün desteklemediği Arapça sorulara yanıt vermesiydi
  • İnsanlar ün uğruna çok şey yapıyor; Schumer'in nihai amacının ne olduğu merak ediliyor

  • Yazarın orijinal tweet'i (yakında silinecek)

    Dünyanın en iyi açık kaynak modeli Reflection 70B'yi duyurmaktan mutluluk duyuyorum.
    Reflection-Tuning kullanılarak eğitildi ve LLM'nin kendi hatalarını düzeltebilmesini sağladı.
    Gelecek hafta 405B yayımlanacak ve dünyanın en iyi modeli olması bekleniyor.
    
  • Adı "odd" ile kafiyeli olan ve üçüncü harfiyle başlayan birine (C*** Debussy) dair bir şaka var

  • Güvenilir bir kaynaktan "doğrulama" alınıp alınmadığı merak ediliyor; Reddit gönderilerine, Twitter flood'larına ve kaynağı belirsiz ekran görüntülerine güvenmek zor