GPT-4.5 veya GPT-5, LMSYS'te test ediliyor olabilir mi?

(rentry.co)

3 puan yazan GN⁺ 2024-04-30 | Henüz yorum yok. | WhatsApp'ta paylaş

Arka plan

LMSYS'in kısa süre önce yayımladığı gpt2-chatbot modeli, daha önce bilinen GPT-2 modelini çok aşan bir performans gösteriyor
Bu modele dair bilgileri LMSYS sitesinde ya da başka yerlerde bulmak zor
LMSYS'in benchmark API sonuçlarında da yalnızca bu model özellikle hariç tutulmuş durumda

Kendini "GPT-4 tabanlı" olarak tanımlıyor ve "ChatGPT" diye adlandırıyor
Başka organizasyonların oluşturduğu OpenAI veri setleriyle eğitilmiş modellerden farklı özellikler gösteriyor
OpenAI'nin tiktoken tokenizer'ını kullanıyor gibi görünüyor
OpenAI'ye özgü prompt injection zafiyeti tespit edilmiş durumda
Diğer organizasyonların modellerinden farklı çıktı özellikleri sergiliyor

Gerçekte GPT-4.5 ya da GPT-5 olma ihtimali yüksek görünüyor. Çıktı kalitesi, GPT-3.5'ten GPT-4'e geçişteki sıçrama kadar büyük ölçüde iyileşmiş durumda
LMSYS'in kendi modelini eğitmiş ya da MoE benzeri bir yöntem kullanmış olma ihtimali de var, ancak OpenAI ile bağlantılar düşünüldüğünde bu olasılık düşük görünüyor

OpenAI'nin, LMSYS üzerinden en yeni GPT modelini gizlice benchmark etmek istemesi gibi görünüyor
Bunun amacı olağan benchmark test sonuçları elde etmek, aşırı beklentilerin yol açacağı olumsuz değerlendirmelerden kaçınmak ve diğer rakiplerin tepkisini en aza indirmek olabilir

Gerçekten GPT-2 mimarisi tabanlı olma ihtimali de var. Yakın tarihli araştırmalara göre GPT-2, bazı alanlarda diğer modellerden daha iyi performans gösterdi
Kendini GPT-4 olarak tanıtmasının nedeni, GPT-4 ile üretilmiş veri setlerinden yararlanmış olması olabilir
LMSYS'in sponsorlarından biri olan MBZUAI'nin ilgili araştırmada yer almış olması da dikkat çekici

gpt2-chatbotun kimliği etrafındaki tahminler ilgi çekici. Bunun OpenAI'nin en yeni modeli olma ihtimalinin yüksek olduğu görüşüne katılıyoruz
Öte yandan, GPT-2 mimarisi tabanlı olma ihtimali de tamamen dışlanamaz. Son araştırma sonuçlarına bakıldığında GPT-2'nin potansiyeli hâlâ yüksek görünüyor
OpenAI'nin LMSYS üzerinden gizlice benchmark yürüttüğü tahmini de ikna edici. Rakiplerin tepkisini önlerken nesnel değerlendirme alabilen bir strateji
Görünüşe göre bundan sonra da gpt2-chatbotun gerçek kimliğini ortaya çıkarmaya yönelik çeşitli deneyler ve araştırmalar sürecek. Bu, büyük dil modeli alanındaki gelişimin yönünü anlamak için bir fırsat olabilir
En başta "gpt2-chatbot" adının kendisi bile GPT-2 izlenimi vermek için seçilmiş olabilir. OpenAI'nin bu adı bilerek koymuş olma ihtimali de göz ardı edilemez