Google Bard, LLM performans liderlik tablosunda GPT-4 Turbo’nun hemen altındaki 2. sıraya yükseldi
(twitter.com/JeffDean)- Google Bard (Gemini Pro), GPT-4-0314/0613 gibi modelleri geride bırakarak GPT-4 Turbo’nun (Arena ELO 1249) hemen altındaki 2. sıraya (1215) kadar sıçradı
- Ayrıca, HHEM liderlik tablosundaki halüsinasyon oranı da %12’den %4,9’a düştü. (GPT-4/4 Turbo %3,0, GPT 3.5 Turbo ise %3,5)
- Bard + Gemini Ultra’nın nasıl piyasaya sürüleceği gerçekten çok merak uyandırıyor
1 yorum
Hacker News görüşleri
Google Bard'ın performans sınırlamaları: Bir kullanıcı, Google Bard'ın performansının maliyet nedeniyle kısıtlandığından uzun süredir şüphelendiğini söylüyor. Google, Bard'ı ücretsiz sunuyor ve muhtemelen sonsuza kadar tüm kullanıcılar için devasa bir modeli ücretsiz çalıştırmak istemiyordu. Çıkarım maliyetlerinde bir yenilik olmuş olabilir ya da rekabette geri kaldığı yönündeki değerlendirmelerden bıkıp geçici olarak maliyete katlanmaya karar vermiş olabilir. Kullanıcı, Google'ın herkese açık şekilde en iyi modelini çalıştırdığını görebilmek için bir abonelik hizmeti başlatması gerektiğini düşünüyor.
Bard'ın ilk hayal kırıklığı ve iyileşmesi: Bard ilk çıktığında hayal kırıklığı yaratmıştı, ancak geliştiğini görmek güzel. Bir kullanıcının kişisel deneyimine göre, GPT 4/Turbo yerine Claude 2'yi daha sık kullanıyor ve onun yanıt tarzını ve sorulara verdiği cevapları tercih ediyor. Kagi'nin Claude 1'i GPT 4 (turbo olmayan) ile eşdeğer gördüğünü, Claude 2'nin kalitesini ise 4 Turbo ile aynı seviyede değerlendirdiğini belirtmekte fayda var.
Bard modelinin oy sayısı: Bard modelinin oy sayısı görece az. Kullanıcı, diğer modellerle benzer sayıda oy toplayana kadar bekleyeceğini söylüyor.
Bard'ın daha az kısıtlayıcı olması: Bard, GPT-4'e kıyasla çok daha az kısıtlayıcı ve kullanıcıya göre bu bile tek başına onu GPT-4'ten çok daha iyi yapıyor.
Ücretsiz LLM'ler arasında Bard'ın kullanışlılığı: Kullanıcı, tüm ücretsiz LLM'ler arasında Bard'ın en kullanışlısı olduğunu düşünüyor. ChatGPT 3.5'in kıyas kabul etmediğini ve tembel kaldığını söylüyor.
Benchmark yöntemine dair merak: Bir kullanıcı, benchmark'ın nasıl yapıldığını merak ediyor. Bunun kullanıcı beklentilerini veya kullanılabilirliği daha iyi temsil edecek şekilde geliştirilebileceğinden şüpheleniyor.
Kişisel deneyimle uyuşmaması: Bir kullanıcı, gerçekten bir cevaba ihtiyaç duyduğunda her seferinde yeniden GPT'ye döndüğünü söylüyor. Çoğu durumda Google Bard yerine ChatGPT 3.5'i tercih ediyor ve GPT 4'ün Bard'dan açıkça daha iyi olduğunu düşünüyor.
Bard ve ChatGPT karşılaştırması: Bir kullanıcı kişisel olarak Bard'ın ChatGPT'den çok daha iyi olduğunu düşünüyor. Sansürsüz Mistral kullanmak istiyor.
Bard'ın tepkiselliği ve sansür eklenmesi: Bard'ın eskiden isteklere daha duyarlı olduğu ve reddetmediği söyleniyor. Görünüşe göre bir sansür katmanı eklenmiş. Kullanıcı eski Bard'ı özlediğini söylüyor.