Andrej Karpathy'nin GPT-4.5 incelemesi

xguru · 2025-02-28T10:00:02+09:00

OpenAI bugün GPT-4.5'i yayınladı GPT-4'ün çıkışından sonra yaklaşık 2 yıldır beklenen neden, bu sürümün yalnızca daha büyük bir modeli eğitirken elde edilebilecek iyileşme etkisini nicel olarak ölçme fırsatı sunması Her sürümdeki "0.5", kabaca 10 kat daha fazla ön eğitim hesaplaması anlamına geliyor GPT modellerinin gelişim süreci GPT-1 → neredeyse anlamlı cümleler üretemiyordu GPT-2 → acemice bir oyuncak düzeyindeydi GPT-2.5 → fiilen atlanıp doğrudan GPT-3'e geçildi GPT-3 → ilgi çekici bir gelişim gösterdi GPT-3.5 → gerçek bir ürün olarak piyasaya sürülecek kadar gelişti ve ChatGPT patlamasını başlattı GPT-4 → daha da iyileşti, ancak belirgin bir "vay canına" noktası bulmak zordu Özellikle GPT-4 ile GPT-3.5 karşılaştırıldığında: Kelime seçimi daha yaratıcıydı ve prompt'un nüanslarını daha iyi anlıyordu Analojiler biraz daha yerindeydi, mizah anlayışı da biraz daha iyiydi Nadir bilgi alanlarında da kavrayış gelişmişti ve halüsinasyon sıklığı biraz azalmıştı Genel olarak her şey %20 daha iyi olmuş gibi hissediliyordu Bu, adeta su yükselirken bütün teknelerin yukarı kalkmasına benzer bir iyileşmeydi GPT-4.5 testi izlenimi GPT-4.5, GPT-4'ten 10 kat daha fazla ön eğitim aldı Ve test edildiğinde, az önceki %20'lik örüntü tekrar ediyor Her şey biraz daha iyi Ama tam olarak işaret edilebilecek net bir yenilik noktası yok Yine de genel model iyileştirme yönünün eğimini ölçmek açısından ilgi çekici ve önemli bir gösterge GPT-4.5 henüz bir "akıl yürütme(reasoning)" modeli değil GPT-4.5'e yalnızca ön eğitim, denetimli ince ayar (SFT), RLHF uygulandı Bu nedenle matematik, kodlama gibi mantıksal akıl yürütme gerektiren problemler için bir iyileşme yok Bu alanlarda pekiştirmeli öğrenme (RL) ve sistematik düşünme eğitimi gerekli; şu an için en iyi performansı OpenAI'nin o1 modeli gösteriyor Muhtemelen OpenAI, GPT-4.5'i temel alarak pekiştirmeli öğrenme uygulayıp onu "düşünen" bir modele dönüştürecek Bununla matematik, mantık ve kodlama yeteneklerini geliştirmeyi hedefleyecek GPT-4.5'in güçlü yanı: EQ Mantıksal akıl yürütmeden ziyade dünya bilgisi, yaratıcılık, analoji, mizah anlayışı gibi duygusal zekânın (EQ) önemli olduğu işlerde iyileşme var Bu yüzden etkileşimli bir deney yapmayı planlıyor: "GPT-4 vs GPT-4.5 karşılaştırmalı oylama" Mizah anlayışını değerlendiren 5 prompt seçildi Her prompt için GPT-4 ve GPT-4.5'in yanıtları karşılaştırılacak Deney, X(Twitter) üzerinde görsel (prompt ve yanıtlar) + anket özelliği kullanılarak yürütülecek 8 saat sonra hangi yanıtın hangi modele ait olduğu açıklanacak

(x.com)

3 puan yazan xguru 2025-02-28 | Henüz yorum yok. | WhatsApp'ta paylaş

OpenAI bugün GPT-4.5'i yayınladı
GPT-4'ün çıkışından sonra yaklaşık 2 yıldır beklenen neden, bu sürümün yalnızca daha büyük bir modeli eğitirken elde edilebilecek iyileşme etkisini nicel olarak ölçme fırsatı sunması
- Her sürümdeki "0.5", kabaca 10 kat daha fazla ön eğitim hesaplaması anlamına geliyor
GPT modellerinin gelişim süreci
- GPT-1 → neredeyse anlamlı cümleler üretemiyordu
- GPT-2 → acemice bir oyuncak düzeyindeydi
- GPT-2.5 → fiilen atlanıp doğrudan GPT-3'e geçildi
- GPT-3 → ilgi çekici bir gelişim gösterdi
- GPT-3.5 → gerçek bir ürün olarak piyasaya sürülecek kadar gelişti ve ChatGPT patlamasını başlattı
- GPT-4 → daha da iyileşti, ancak belirgin bir "vay canına" noktası bulmak zordu
Özellikle GPT-4 ile GPT-3.5 karşılaştırıldığında:
- Kelime seçimi daha yaratıcıydı ve prompt'un nüanslarını daha iyi anlıyordu
- Analojiler biraz daha yerindeydi, mizah anlayışı da biraz daha iyiydi
- Nadir bilgi alanlarında da kavrayış gelişmişti ve halüsinasyon sıklığı biraz azalmıştı
- Genel olarak her şey %20 daha iyi olmuş gibi hissediliyordu
- Bu, adeta su yükselirken bütün teknelerin yukarı kalkmasına benzer bir iyileşmeydi

GPT-4.5 testi izlenimi

GPT-4.5, GPT-4'ten 10 kat daha fazla ön eğitim aldı
Ve test edildiğinde, az önceki %20'lik örüntü tekrar ediyor
Her şey biraz daha iyi
- Ama tam olarak işaret edilebilecek net bir yenilik noktası yok
- Yine de genel model iyileştirme yönünün eğimini ölçmek açısından ilgi çekici ve önemli bir gösterge

GPT-4.5 henüz bir "akıl yürütme(reasoning)" modeli değil

GPT-4.5'e yalnızca ön eğitim, denetimli ince ayar (SFT), RLHF uygulandı
Bu nedenle matematik, kodlama gibi mantıksal akıl yürütme gerektiren problemler için bir iyileşme yok
Bu alanlarda pekiştirmeli öğrenme (RL) ve sistematik düşünme eğitimi gerekli; şu an için en iyi performansı OpenAI'nin o1 modeli gösteriyor
Muhtemelen OpenAI, GPT-4.5'i temel alarak pekiştirmeli öğrenme uygulayıp onu "düşünen" bir modele dönüştürecek
Bununla matematik, mantık ve kodlama yeteneklerini geliştirmeyi hedefleyecek

GPT-4.5'in güçlü yanı: EQ

Mantıksal akıl yürütmeden ziyade dünya bilgisi, yaratıcılık, analoji, mizah anlayışı gibi duygusal zekânın (EQ) önemli olduğu işlerde iyileşme var

Bu yüzden etkileşimli bir deney yapmayı planlıyor: "GPT-4 vs GPT-4.5 karşılaştırmalı oylama"

Mizah anlayışını değerlendiren 5 prompt seçildi
Her prompt için GPT-4 ve GPT-4.5'in yanıtları karşılaştırılacak
Deney, X(Twitter) üzerinde görsel (prompt ve yanıtlar) + anket özelliği kullanılarak yürütülecek
8 saat sonra hangi yanıtın hangi modele ait olduğu açıklanacak