Gemini 2.5 Pro ile Claude 3.7 Sonnet’in kodlama karşılaştırması

(composio.dev)

9 puan yazan GN⁺ 2025-04-01 | 1 yorum | WhatsApp'ta paylaş

Gemini 2.5 Pro, kod yazımında daha başarılı
Claude 3.7 Sonnet de harika, ancak şu anda Gemini 2.5 Pro kullanmak daha avantajlı
1 milyon token bağlam penceresi ve ücretsiz kullanılabilmesi büyük avantaj
Geçmişte Claude 3.7 Sonnet her zaman karşılaştırma ölçütüydü, ancak artık bu değişti

Gemini 2.5 Pro’ya kısa giriş

Google’ın 26 Mart 2025’te yayımladığı deneysel bir akıl yürütme modeli
Yayımlandıktan sonra Twitter(X), YouTube vb. platformlarda çok büyük yankı uyandırdı
LMArena’da 1. sıraya yerleşti; kod yazma, matematik, bilim, görsel anlama gibi alanlarda çok üstün performans gösteriyor
1 milyon token bağlam penceresi sunuyor, ileride 2 milyon token da duyurulmuş durumda
SWE Bench ölçümüne göre doğruluk oranı %63,8; bu da Claude 3.7 Sonnet’in %62,3 seviyesinin üstünde
Google’ın sunduğu dinozor oyunu demosu gibi çeşitli örneklerle üstün performansını kanıtladı
Genel olarak yalnızca kodlama değil, tüm zihinsel görevler için uygun çok yönlü bir model olarak değerlendiriliyor

Kodlama testi karşılaştırması

1. Uçuş simülatörü oluşturma

Gemini 2.5 Pro
- Kusursuz çalışan bir simülatör oluşturdu
- Uçağın kontrolü, Minecraft tarzı şehir üretimi gibi tüm gereksinimleri karşıladı
- Tamlık seviyesi 10/10
Claude 3.7 Sonnet
- Uçağın yana doğru uçması ve şehrin dışına çıkması gibi sorunlar ortaya çıktı
- İşlevsel tamamlanma düzeyi daha düşük
Özet: Gemini 2.5 Pro açık ara galip

2. Rubik küpü görselleştirme ve çözme

Gemini 2.5 Pro
- Tek seferde doğru görselleştirme ve çözümü uyguladı
- Three.js kullanarak küp renkleri, rastgele karıştırma, animasyon vb. her şeyi eksiksiz gerçekleştirdi
Claude 3.7 Sonnet
- Renk gösteriminde başarısız oldu ve çözümü de gerçekleştiremedi
- Diğer LLM’lere benzer sınırlamalar gösterdi
Özet: Gemini 2.5 Pro bu başlıkta da ezici üstünlük sağladı

3. 4 boyutlu tesseract içinde zıplayan top görselleştirmesi

Gemini 2.5 Pro
- Fiziksel çarpışmalar, yüzey vurgusu vb. tüm gereksinimleri karşıladı
- Kod kalitesi ve çalışma durumu son derece başarılıydı
Claude 3.7 Sonnet
- İşlevler çalıştı ancak gereksiz renkler eklendi
- Buna rağmen istenen işlevleri yerine getirdi
Özet: Her iki model de gereksinimleri karşıladı, Claude da sonunda başardı

4. LeetCode sorunu: 3 kale yerleştirerek maksimum toplamı bulma

Gemini 2.5 Pro
- Karmaşık bir kod yazdı ama çözüm doğruydu
- Zaman karmaşıklığını da uygun şekilde dikkate aldı
Claude 3.7 Sonnet
- Daha kısa kod yazdı ancak zaman aşımı (TLE) oluştu
- Anlaşılması kolay olsa da performans açısından yetersiz kaldı
Özet: Gemini 2.5 Pro hem performans hem doğrulukta önde

Sonuç

Gemini 2.5 Pro açık biçimde üstün
- Bağlam penceresi, doğruluk ve çoklu görev performansında Claude 3.7 Sonnet’in önünde
Claude hâlâ çok iyi bir model, ancak şu an için Gemini kullanmak daha verimli
İleride 2 milyon token pencereye kadar genişlediğinde performans daha da artacak
Google’ın yakın dönemdeki hafif modeli Gemma 3 27B ile birlikte güçlü bir yapay zeka ürün ailesi oluşturuyor

1 yorum

GN⁺ 2025-04-01

Hacker News görüşü

Gerçek kodlama sorunları için nakit ödüllü bir yarışma düzenlemek istiyor. Kuralların belirlenmesi gerekiyor. LLM'in bu sorunu çözüp çözemeyeceğinden emin değil
- Amaç, Solvespace'in GTK 4 sürümünü yapmak
- Her platform için tek bir C++ dosyası bulunuyor
- Hedef, GTK3 dosyasını GTK4'e yeniden yazmak
- Yapay zekanın performansını kanıtlamak istiyorsanız, tüm oturumu belgeleyip bir YouTube videosu yapmanız öneriliyor
- Nihai test, PR'ın kabul edilip edilmeyeceği
Gemini modeli, sohbetin ne zaman kesileceğini bildiren tek model
- ChatGPT, bağlam dolduğunda konuşmayı unutma eğiliminde
- Gemini'nin araçları zayıf, ancak temelde daha iyi bir model gibi hissettiriyor
Gemini 2.5 Pro kullanmış ve oldukça iyi olduğunu düşünüyor
- Claude 3.5'in komutları izlemede daha iyi olduğu anlaşılıyor
- Cursor ve Claude CLI araçlarından hayal kırıklığına uğramış
- Gemini'nin bağlam penceresini gösterme biçimini beğeniyor
- Pazarın büyük yapay zeka şirketlerinin değerlemelerini kaldıramayacağını düşünüyor
- Bazen ücretsiz modeller daha iyi olabiliyor
Yapay zeka modeli yarışında kaybeden Microsoft gibi görünüyor
- ChatGPT tek seçenekken Microsoft lider olarak görülüyordu
- Copilot başarısız oldu ve Bing yapay zekadan yararlanamadı
- Google'dan Sundar Pichai, Microsoft'un modeliyle karşılaştırma yapmak istediğini söyledi
Gemini 2.5 Pro, aider polyglot coding leaderboard'da yüksek puan aldı
- Aider'in son sürüm çalışmasında çoğunlukla kullanılıyor
- Şu anda Gemini'nin en büyük sorunu katı hız sınırları
Rubik küpü örneğinde Gemini 2.5, ezberlenmiş bir karıştırma dizisi kullanıyor
- Karıştırma dizisini tersine çevirerek küpü çözüyor
90'larda Visual Basic kullanırken şablondan yeni proje oluşturmanın ilginç olduğunu düşünüyordu
- Yapay zeka ile kodlama buna benziyor ama abartılmış hissettiriyor
- Claude'un uçağının yana dönük olması hakkında kafasının karıştığına dair bir yorum var
Gemini 2.5, karmaşık Cython kodunda pek iyi değil
- Claude ve o3 komutları iyi takip ediyor
- Gemini alakasız değişiklikler yapmaya çalışıyor
Tarafsız bir tartışmaya ihtiyaç olup olmadığı soruluyor
- OP bağlantısı Composio için taraflı bir reklam gibi görünüyor
- Gemini 2.5 Pro hakkında abartılı açıklamalar var
Tüm test görevleri greenfield projeler
- LLM kullanmak için mevcut projelerde değişiklik veya düzeltme yapmak gerekiyor
- Testlerin, modelin kullanışlılığını ölçmek açısından anlamlı olmadığını düşünüyor

Gemini 2.5 Pro ile Claude 3.7 Sonnet’in kodlama karşılaştırması

Gemini 2.5 Pro’ya kısa giriş

Kodlama testi karşılaştırması

1. Uçuş simülatörü oluşturma

2. Rubik küpü görselleştirme ve çözme

3. 4 boyutlu tesseract içinde zıplayan top görselleştirmesi

4. LeetCode sorunu: 3 kale yerleştirerek maksimum toplamı bulma

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşü