- Birkaç gün önce biri, şaşırtıcı benchmark sonuçlarıyla birlikte Llama 3.1 70B’nin ince ayarlanmış sürümü olduğunu iddia ettiği Reflection 70B’yi duyurdu
- Weight yayını berbattı. 3.1 için fine-tuning olduğunu iddia ederken 3.0 için LoRA yayımladılar
- Yayımlanan ağırlıklarla çalıştırıldığında ilk başta değerlendirme sonuçları beklentilerin altında kaldı
- Barındırılan endpoint kullanıldığında ise değerlendirmeler SOTA düzeyinde sonuç vermeye başladı
- İnsanlar, endpoint’te hangi modelin çalıştığını doğrulamak için akıllıca yöntemler buldu
- Modele özgü token’lar ve modele özgü sansür davranışı kullanıldı
- Ortaya çıkan sonuca göre, kendi fine-tune ettikleri modeli değil Sonnet 3.5’i sarmalayan bir yapı kullandıkları iddia edildi
- Bunun Sonnet olduğuna dair bulgular Twitter’da paylaşıldıktan sonra içerik değişti
- Ardından başka bir kullanıcı, benzer bir yöntemle barındırılan modelin GPT 4o’ya değiştirildiğine dair kanıt bulduğunu öne sürdü
- Sonuçlar karışık ve tutarsız; bu yüzden neyin doğru neyin yanlış olduğu net değil
- Asıl geliştiricinin duyuru tweet’i: https://twitter.com/mattshumer_/status/1831767014341538166
- Prompt’lar üzerinden bir şeylerin sürekli değiştiğini izleyen tweet zinciri: https://x.com/RealJosephus/status/1832904398831280448
1 yorum
Hacker News görüşü
Llama 3.1 70B modelinin performansının çok iyi olduğu duyuruldu, ancak çeşitli sorunlar ortaya çıktı
Bu gönderinin daha fazla ilgi görmesi gerektiği savunuluyor
İnsanlar ün uğruna çok şey yapıyor; Schumer'in nihai amacının ne olduğu merak ediliyor
Yazarın orijinal tweet'i (yakında silinecek)
Adı "odd" ile kafiyeli olan ve üçüncü harfiyle başlayan birine (C*** Debussy) dair bir şaka var
Güvenilir bir kaynaktan "doğrulama" alınıp alınmadığı merak ediliyor; Reddit gönderilerine, Twitter flood'larına ve kaynağı belirsiz ekran görüntülerine güvenmek zor