- Gemini 2.5 Pro, kod yazımında daha başarılı
- Claude 3.7 Sonnet de harika, ancak şu anda Gemini 2.5 Pro kullanmak daha avantajlı
- 1 milyon token bağlam penceresi ve ücretsiz kullanılabilmesi büyük avantaj
- Geçmişte Claude 3.7 Sonnet her zaman karşılaştırma ölçütüydü, ancak artık bu değişti
Gemini 2.5 Pro’ya kısa giriş
- Google’ın 26 Mart 2025’te yayımladığı deneysel bir akıl yürütme modeli
- Yayımlandıktan sonra Twitter(X), YouTube vb. platformlarda çok büyük yankı uyandırdı
- LMArena’da 1. sıraya yerleşti; kod yazma, matematik, bilim, görsel anlama gibi alanlarda çok üstün performans gösteriyor
- 1 milyon token bağlam penceresi sunuyor, ileride 2 milyon token da duyurulmuş durumda
- SWE Bench ölçümüne göre doğruluk oranı %63,8; bu da Claude 3.7 Sonnet’in %62,3 seviyesinin üstünde
- Google’ın sunduğu dinozor oyunu demosu gibi çeşitli örneklerle üstün performansını kanıtladı
- Genel olarak yalnızca kodlama değil, tüm zihinsel görevler için uygun çok yönlü bir model olarak değerlendiriliyor
Kodlama testi karşılaştırması
1. Uçuş simülatörü oluşturma
- Gemini 2.5 Pro
- Kusursuz çalışan bir simülatör oluşturdu
- Uçağın kontrolü, Minecraft tarzı şehir üretimi gibi tüm gereksinimleri karşıladı
- Tamlık seviyesi 10/10
- Claude 3.7 Sonnet
- Uçağın yana doğru uçması ve şehrin dışına çıkması gibi sorunlar ortaya çıktı
- İşlevsel tamamlanma düzeyi daha düşük
- Özet: Gemini 2.5 Pro açık ara galip
2. Rubik küpü görselleştirme ve çözme
- Gemini 2.5 Pro
- Tek seferde doğru görselleştirme ve çözümü uyguladı
- Three.js kullanarak küp renkleri, rastgele karıştırma, animasyon vb. her şeyi eksiksiz gerçekleştirdi
- Claude 3.7 Sonnet
- Renk gösteriminde başarısız oldu ve çözümü de gerçekleştiremedi
- Diğer LLM’lere benzer sınırlamalar gösterdi
- Özet: Gemini 2.5 Pro bu başlıkta da ezici üstünlük sağladı
3. 4 boyutlu tesseract içinde zıplayan top görselleştirmesi
- Gemini 2.5 Pro
- Fiziksel çarpışmalar, yüzey vurgusu vb. tüm gereksinimleri karşıladı
- Kod kalitesi ve çalışma durumu son derece başarılıydı
- Claude 3.7 Sonnet
- İşlevler çalıştı ancak gereksiz renkler eklendi
- Buna rağmen istenen işlevleri yerine getirdi
- Özet: Her iki model de gereksinimleri karşıladı, Claude da sonunda başardı
4. LeetCode sorunu: 3 kale yerleştirerek maksimum toplamı bulma
- Gemini 2.5 Pro
- Karmaşık bir kod yazdı ama çözüm doğruydu
- Zaman karmaşıklığını da uygun şekilde dikkate aldı
- Claude 3.7 Sonnet
- Daha kısa kod yazdı ancak zaman aşımı (TLE) oluştu
- Anlaşılması kolay olsa da performans açısından yetersiz kaldı
- Özet: Gemini 2.5 Pro hem performans hem doğrulukta önde
Sonuç
- Gemini 2.5 Pro açık biçimde üstün
- Bağlam penceresi, doğruluk ve çoklu görev performansında Claude 3.7 Sonnet’in önünde
- Claude hâlâ çok iyi bir model, ancak şu an için Gemini kullanmak daha verimli
- İleride 2 milyon token pencereye kadar genişlediğinde performans daha da artacak
- Google’ın yakın dönemdeki hafif modeli Gemma 3 27B ile birlikte güçlü bir yapay zeka ürün ailesi oluşturuyor
1 yorum
Hacker News görüşü
Gerçek kodlama sorunları için nakit ödüllü bir yarışma düzenlemek istiyor. Kuralların belirlenmesi gerekiyor. LLM'in bu sorunu çözüp çözemeyeceğinden emin değil
Gemini modeli, sohbetin ne zaman kesileceğini bildiren tek model
Gemini 2.5 Pro kullanmış ve oldukça iyi olduğunu düşünüyor
Yapay zeka modeli yarışında kaybeden Microsoft gibi görünüyor
Gemini 2.5 Pro, aider polyglot coding leaderboard'da yüksek puan aldı
Rubik küpü örneğinde Gemini 2.5, ezberlenmiş bir karıştırma dizisi kullanıyor
90'larda Visual Basic kullanırken şablondan yeni proje oluşturmanın ilginç olduğunu düşünüyordu
Gemini 2.5, karmaşık Cython kodunda pek iyi değil
Tarafsız bir tartışmaya ihtiyaç olup olmadığı soruluyor
Tüm test görevleri greenfield projeler