Google Bard, LLM performans liderlik tablosunda GPT-4 Turbo’nun hemen altındaki 2. sıraya yükseldi

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro), GPT-4-0314/0613 gibi modelleri geride bırakarak GPT-4 Turbo’nun (Arena ELO 1249) hemen altındaki 2. sıraya (1215) kadar sıçradı Ayrıca, HHEM liderlik tablosundaki halüsinasyon oranı da %12’den %4,9’a düştü. (GPT-4/4 Turbo %3,0, GPT 3.5 Turbo ise %3,5) Bard + Gemini Ultra’nın nasıl piyasaya sürüleceği gerçekten çok merak uyandırıyor

(twitter.com/JeffDean)

7 puan yazan xguru 2024-01-28 | 1 yorum | WhatsApp'ta paylaş

Google Bard (Gemini Pro), GPT-4-0314/0613 gibi modelleri geride bırakarak GPT-4 Turbo’nun (Arena ELO 1249) hemen altındaki 2. sıraya (1215) kadar sıçradı
Ayrıca, HHEM liderlik tablosundaki halüsinasyon oranı da %12’den %4,9’a düştü. (GPT-4/4 Turbo %3,0, GPT 3.5 Turbo ise %3,5)
Bard + Gemini Ultra’nın nasıl piyasaya sürüleceği gerçekten çok merak uyandırıyor

1 yorum

xguru 2024-01-28

Hacker News görüşleri

Google Bard'ın performans sınırlamaları: Bir kullanıcı, Google Bard'ın performansının maliyet nedeniyle kısıtlandığından uzun süredir şüphelendiğini söylüyor. Google, Bard'ı ücretsiz sunuyor ve muhtemelen sonsuza kadar tüm kullanıcılar için devasa bir modeli ücretsiz çalıştırmak istemiyordu. Çıkarım maliyetlerinde bir yenilik olmuş olabilir ya da rekabette geri kaldığı yönündeki değerlendirmelerden bıkıp geçici olarak maliyete katlanmaya karar vermiş olabilir. Kullanıcı, Google'ın herkese açık şekilde en iyi modelini çalıştırdığını görebilmek için bir abonelik hizmeti başlatması gerektiğini düşünüyor.

Jeff Dean'in tweet'ine göre, "Gemini Pro-scale model" adlı yeni bir model yayımlandı ve bağımsız lmsys liderlik tablosunda 2. sıraya yerleşti. "Pro-scale" ifadesinin ne anlama geldiği ve tüm kullanıcıların bu modeli zaten kullanıp kullanmadığı net değil.
Bard'ın ilk hayal kırıklığı ve iyileşmesi: Bard ilk çıktığında hayal kırıklığı yaratmıştı, ancak geliştiğini görmek güzel. Bir kullanıcının kişisel deneyimine göre, GPT 4/Turbo yerine Claude 2'yi daha sık kullanıyor ve onun yanıt tarzını ve sorulara verdiği cevapları tercih ediyor. Kagi'nin Claude 1'i GPT 4 (turbo olmayan) ile eşdeğer gördüğünü, Claude 2'nin kalitesini ise 4 Turbo ile aynı seviyede değerlendirdiğini belirtmekte fayda var.
Bard modelinin oy sayısı: Bard modelinin oy sayısı görece az. Kullanıcı, diğer modellerle benzer sayıda oy toplayana kadar bekleyeceğini söylüyor.
Bard'ın daha az kısıtlayıcı olması: Bard, GPT-4'e kıyasla çok daha az kısıtlayıcı ve kullanıcıya göre bu bile tek başına onu GPT-4'ten çok daha iyi yapıyor.
Ücretsiz LLM'ler arasında Bard'ın kullanışlılığı: Kullanıcı, tüm ücretsiz LLM'ler arasında Bard'ın en kullanışlısı olduğunu düşünüyor. ChatGPT 3.5'in kıyas kabul etmediğini ve tembel kaldığını söylüyor.
Benchmark yöntemine dair merak: Bir kullanıcı, benchmark'ın nasıl yapıldığını merak ediyor. Bunun kullanıcı beklentilerini veya kullanılabilirliği daha iyi temsil edecek şekilde geliştirilebileceğinden şüpheleniyor.

Jeff Dean'in tweet'ini gördükten sonra Bard'ı denedim. GPT-4'e kıyasla hâlâ hayal kırıklığı yaratıyor. Sorudan sapıyor ama bunun farkına varmıyor. Grafik oluşturmasını istediğimde üç kez "işte grafik" dedi ama ortada gerçek bir grafik yoktu; sonunda da böyle bir özelliği olmadığını söyledi.
Kişisel deneyimle uyuşmaması: Bir kullanıcı, gerçekten bir cevaba ihtiyaç duyduğunda her seferinde yeniden GPT'ye döndüğünü söylüyor. Çoğu durumda Google Bard yerine ChatGPT 3.5'i tercih ediyor ve GPT 4'ün Bard'dan açıkça daha iyi olduğunu düşünüyor.
Bard ve ChatGPT karşılaştırması: Bir kullanıcı kişisel olarak Bard'ın ChatGPT'den çok daha iyi olduğunu düşünüyor. Sansürsüz Mistral kullanmak istiyor.
Bard'ın tepkiselliği ve sansür eklenmesi: Bard'ın eskiden isteklere daha duyarlı olduğu ve reddetmediği söyleniyor. Görünüşe göre bir sansür katmanı eklenmiş. Kullanıcı eski Bard'ı özlediğini söylüyor.

Google Bard, LLM performans liderlik tablosunda GPT-4 Turbo’nun hemen altındaki 2. sıraya yükseldi

İlgili okumalar

1 yorum

Hacker News görüşleri