Gemini 2.5 Pro, kodlama performansında en üst düzeyde (SOTA) bir model

(composio.dev)

5 puan yazan GN⁺ 2025-03-29 | Henüz yorum yok. | WhatsApp'ta paylaş

Google'ın çıkardığı Gemini 2.5 Pro, GPT-4o'nun göz alıcı görsel üretim yeteneğinin duyurulması nedeniyle daha az ilgi görse de, aslında önemli bir ilerleme niteliğinde
Kod yazma performansı son derece güçlü ve en fazla 1 milyon token'lık bağlam uzunluğuyla tüm kod tabanını işleyebilecek kapasite sunuyor
Kullanıcı geri bildirimleri de oldukça olumlu ve gerçek kodlama testlerinde üstün sonuçlar gösteriyor
Buna karşılık karmaşık muhakeme problemlerinde Grok 3 veya Claude 3.7 Sonnet'ten daha zayıf kalıyor

Başlıca iyileştirmeler

Gemini 2.5 Pro, Gemini 2.0 Flash tabanlı mimaride eğitim sonrası optimizasyon ve parametre genişletme yoluyla performans artışı sağlıyor
En fazla 1.000.000 bağlam uzunluğu desteği sayesinde tüm kod tabanı girildiğinde bile güçlü sonuçlar üretebiliyor
Çok dilli anlama yeteneği güçlendirilmiş; LMSYS sıralamasında İspanyolca işlemede rekor kırdı

Benchmark performansı

LMSYS, Livebench, GPQA, AIME, SWEbench verified gibi başlıca benchmark'larda güçlü başarı elde etti
ARC-AGI'de Deepseek r1'e benzer, Claude 3.7'den daha düşük seviyede
WeirdML benchmark'ında 1. sırayı aldı; sıra dışı ML problemleri için çalışan PyTorch kodu yazma becerisi çok güçlü
Aider Polyglot benchmark'ında da lider konumda

Gerçek kullanım örnekleri

Wordle problemi, shader üretimi, uçuş simülatörü, Rubik küpü, zombi oyunu, arcade oyunu üretimi gibi çeşitli örneklerde etkileyici sonuçlar verdi
Özellikle oyun üretimi görevlerinde rafine ve yüksek düzeyde çalışma kalitesi sundu

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - kodlama yeteneği karşılaştırması

1. 3D küp içinde zıplayan top (Three.js)

Gemini 2.5: Akıcı ve gerçeğe yakın hareketlerle en iyi sonucu verdi
Grok 3: Başta iyiydi ancak zamanla toplar birbirine yapıştı ve düzgün çalışmadı
Claude 3.7: Kurulum harikaydı ancak toplar durdu ve etkileşim eksikti

2. Minecraft tarzı oyun (Pygame)

Gemini 2.5: Akıcı ve rafine oynanış, tüm gereksinimleri karşıladı
Claude 3.7: Görsel efektler ve UI öğeleri içeren gelişmiş düzeyde sonuç
Grok 3: Temel olarak çalıştı ancak hareket ve yerleşim yeterince akıcı değildi

3. Task Tracker web uygulaması

Gemini 2.5: Yüksek derecede tamamlanmış UI ve doğal akış
Claude 3.7: Temiz ve görsel olarak çekici
Grok 3: Gereksinimleri karşıladı ama diğer modellere göre daha düşük olgunlukta

Karmaşık muhakeme yeteneği

1. Bilişsel önyargı testi (doktor ve oğlu problemi)

Claude 3.7, Grok 3 problemi doğru biçimde çözdü
Gemini 2.5 ise biraz kafa karışıklığı gösterdi

2. Tic-tac-toe'da en iyi hamleyi bulma

Üç model de doğru cevaba ulaştı, ancak Grok 3 en net analizi sundu
Ancak tüm doğru noktaları (3 ve 5) eksiksiz bulan bir model olmadı

3. Karmaşık akrabalık ilişkisi problemi

Claude 3.7 doğru yanıt olan 12 kişiyi tam olarak buldu
Gemini 2.5, Grok 3 ise 15 kişi diyerek yanlış sonuca ulaştı, ancak mantıkları anlaşılabiliyordu

Matematik yeteneği

1. Sonsuz dizinin GCD'sini bulma

Yalnızca Gemini 2.5 doğru sonuca ulaştı
Grok 3 yanlıştı

2. Ünlü harf sayısına dayalı ifade değerlendirmesi

Doğru sonuca ulaşan tek model Claude 3.7 oldu
Grok 3 bağlamı anlayamadı
Gemini 2.5 ise belirsiz kaldı

Matematik yeteneği özeti

Saf matematik problemlerinde Gemini 2.5 Pro güçlü
Muhakeme içeren matematik problemlerinde Claude 3.7 Sonnet daha dengeli
Grok 3, matematik performansı en düşük model

Sonuç

Google'ın Gemini 2.5 Pro modeli, kod yazmaya özel olarak güçlü ve gerçek kullanım örneklerinde de üstün performans gösteriyor
Karmaşık muhakeme ve düşünme problemlerinde rakip modellere kıyasla biraz daha zayıf kalıyor
Matematik problemlerinde güçlü olsa da mantıksal muhakeme içeren durumlarda performans düşüşü yaşanıyor
Çok dilli işleme ve büyük ölçekli girdi işlemede önemli avantajlara sahip

Kodlama performansı: Çok güçlü
Muhakeme yeteneği: Claude 3.7, Grok 3'e kıyasla daha zayıf
Matematik yeteneği: Saf hesaplama becerisi güçlü

Gemini 2.5 Pro, kodlama performansında en üst düzeyde (SOTA) bir model

Başlıca iyileştirmeler

Benchmark performansı

Gerçek kullanım örnekleri

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - kodlama yeteneği karşılaştırması

1. 3D küp içinde zıplayan top (Three.js)

2. Minecraft tarzı oyun (Pygame)

3. Task Tracker web uygulaması

Karmaşık muhakeme yeteneği

1. Bilişsel önyargı testi (doktor ve oğlu problemi)

2. Tic-tac-toe'da en iyi hamleyi bulma

3. Karmaşık akrabalık ilişkisi problemi

Matematik yeteneği

1. Sonsuz dizinin GCD'sini bulma

2. Ünlü harf sayısına dayalı ifade değerlendirmesi

Matematik yeteneği özeti

Sonuç

İlgili okumalar

Henüz yorum yok.