- Google'ın çıkardığı Gemini 2.5 Pro, GPT-4o'nun göz alıcı görsel üretim yeteneğinin duyurulması nedeniyle daha az ilgi görse de, aslında önemli bir ilerleme niteliğinde
- Kod yazma performansı son derece güçlü ve en fazla 1 milyon token'lık bağlam uzunluğuyla tüm kod tabanını işleyebilecek kapasite sunuyor
- Kullanıcı geri bildirimleri de oldukça olumlu ve gerçek kodlama testlerinde üstün sonuçlar gösteriyor
- Buna karşılık karmaşık muhakeme problemlerinde Grok 3 veya Claude 3.7 Sonnet'ten daha zayıf kalıyor
Başlıca iyileştirmeler
- Gemini 2.5 Pro, Gemini 2.0 Flash tabanlı mimaride eğitim sonrası optimizasyon ve parametre genişletme yoluyla performans artışı sağlıyor
- En fazla 1.000.000 bağlam uzunluğu desteği sayesinde tüm kod tabanı girildiğinde bile güçlü sonuçlar üretebiliyor
- Çok dilli anlama yeteneği güçlendirilmiş; LMSYS sıralamasında İspanyolca işlemede rekor kırdı
Benchmark performansı
- LMSYS, Livebench, GPQA, AIME, SWEbench verified gibi başlıca benchmark'larda güçlü başarı elde etti
- ARC-AGI'de Deepseek r1'e benzer, Claude 3.7'den daha düşük seviyede
- WeirdML benchmark'ında 1. sırayı aldı; sıra dışı ML problemleri için çalışan PyTorch kodu yazma becerisi çok güçlü
- Aider Polyglot benchmark'ında da lider konumda
Gerçek kullanım örnekleri
- Wordle problemi, shader üretimi, uçuş simülatörü, Rubik küpü, zombi oyunu, arcade oyunu üretimi gibi çeşitli örneklerde etkileyici sonuçlar verdi
- Özellikle oyun üretimi görevlerinde rafine ve yüksek düzeyde çalışma kalitesi sundu
Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - kodlama yeteneği karşılaştırması
1. 3D küp içinde zıplayan top (Three.js)
- Gemini 2.5: Akıcı ve gerçeğe yakın hareketlerle en iyi sonucu verdi
- Grok 3: Başta iyiydi ancak zamanla toplar birbirine yapıştı ve düzgün çalışmadı
- Claude 3.7: Kurulum harikaydı ancak toplar durdu ve etkileşim eksikti
2. Minecraft tarzı oyun (Pygame)
- Gemini 2.5: Akıcı ve rafine oynanış, tüm gereksinimleri karşıladı
- Claude 3.7: Görsel efektler ve UI öğeleri içeren gelişmiş düzeyde sonuç
- Grok 3: Temel olarak çalıştı ancak hareket ve yerleşim yeterince akıcı değildi
3. Task Tracker web uygulaması
- Gemini 2.5: Yüksek derecede tamamlanmış UI ve doğal akış
- Claude 3.7: Temiz ve görsel olarak çekici
- Grok 3: Gereksinimleri karşıladı ama diğer modellere göre daha düşük olgunlukta
Karmaşık muhakeme yeteneği
1. Bilişsel önyargı testi (doktor ve oğlu problemi)
- Claude 3.7, Grok 3 problemi doğru biçimde çözdü
- Gemini 2.5 ise biraz kafa karışıklığı gösterdi
2. Tic-tac-toe'da en iyi hamleyi bulma
- Üç model de doğru cevaba ulaştı, ancak Grok 3 en net analizi sundu
- Ancak tüm doğru noktaları (3 ve 5) eksiksiz bulan bir model olmadı
3. Karmaşık akrabalık ilişkisi problemi
- Claude 3.7 doğru yanıt olan 12 kişiyi tam olarak buldu
- Gemini 2.5, Grok 3 ise 15 kişi diyerek yanlış sonuca ulaştı, ancak mantıkları anlaşılabiliyordu
Matematik yeteneği
1. Sonsuz dizinin GCD'sini bulma
- Yalnızca Gemini 2.5 doğru sonuca ulaştı
- Grok 3 yanlıştı
2. Ünlü harf sayısına dayalı ifade değerlendirmesi
- Doğru sonuca ulaşan tek model Claude 3.7 oldu
- Grok 3 bağlamı anlayamadı
- Gemini 2.5 ise belirsiz kaldı
Matematik yeteneği özeti
- Saf matematik problemlerinde Gemini 2.5 Pro güçlü
- Muhakeme içeren matematik problemlerinde Claude 3.7 Sonnet daha dengeli
- Grok 3, matematik performansı en düşük model
Sonuç
- Google'ın Gemini 2.5 Pro modeli, kod yazmaya özel olarak güçlü ve gerçek kullanım örneklerinde de üstün performans gösteriyor
- Karmaşık muhakeme ve düşünme problemlerinde rakip modellere kıyasla biraz daha zayıf kalıyor
- Matematik problemlerinde güçlü olsa da mantıksal muhakeme içeren durumlarda performans düşüşü yaşanıyor
- Çok dilli işleme ve büyük ölçekli girdi işlemede önemli avantajlara sahip
- Kodlama performansı: Çok güçlü
- Muhakeme yeteneği: Claude 3.7, Grok 3'e kıyasla daha zayıf
- Matematik yeteneği: Saf hesaplama becerisi güçlü
Henüz yorum yok.