9 puan yazan GN⁺ 2025-04-01 | 1 yorum | WhatsApp'ta paylaş
  • Gemini 2.5 Pro, kod yazımında daha başarılı
  • Claude 3.7 Sonnet de harika, ancak şu anda Gemini 2.5 Pro kullanmak daha avantajlı
  • 1 milyon token bağlam penceresi ve ücretsiz kullanılabilmesi büyük avantaj
  • Geçmişte Claude 3.7 Sonnet her zaman karşılaştırma ölçütüydü, ancak artık bu değişti

Gemini 2.5 Pro’ya kısa giriş

  • Google’ın 26 Mart 2025’te yayımladığı deneysel bir akıl yürütme modeli
  • Yayımlandıktan sonra Twitter(X), YouTube vb. platformlarda çok büyük yankı uyandırdı
  • LMArena’da 1. sıraya yerleşti; kod yazma, matematik, bilim, görsel anlama gibi alanlarda çok üstün performans gösteriyor
  • 1 milyon token bağlam penceresi sunuyor, ileride 2 milyon token da duyurulmuş durumda
  • SWE Bench ölçümüne göre doğruluk oranı %63,8; bu da Claude 3.7 Sonnet’in %62,3 seviyesinin üstünde
  • Google’ın sunduğu dinozor oyunu demosu gibi çeşitli örneklerle üstün performansını kanıtladı
  • Genel olarak yalnızca kodlama değil, tüm zihinsel görevler için uygun çok yönlü bir model olarak değerlendiriliyor

Kodlama testi karşılaştırması

1. Uçuş simülatörü oluşturma

  • Gemini 2.5 Pro
    • Kusursuz çalışan bir simülatör oluşturdu
    • Uçağın kontrolü, Minecraft tarzı şehir üretimi gibi tüm gereksinimleri karşıladı
    • Tamlık seviyesi 10/10
  • Claude 3.7 Sonnet
    • Uçağın yana doğru uçması ve şehrin dışına çıkması gibi sorunlar ortaya çıktı
    • İşlevsel tamamlanma düzeyi daha düşük
  • Özet: Gemini 2.5 Pro açık ara galip

2. Rubik küpü görselleştirme ve çözme

  • Gemini 2.5 Pro
    • Tek seferde doğru görselleştirme ve çözümü uyguladı
    • Three.js kullanarak küp renkleri, rastgele karıştırma, animasyon vb. her şeyi eksiksiz gerçekleştirdi
  • Claude 3.7 Sonnet
    • Renk gösteriminde başarısız oldu ve çözümü de gerçekleştiremedi
    • Diğer LLM’lere benzer sınırlamalar gösterdi
  • Özet: Gemini 2.5 Pro bu başlıkta da ezici üstünlük sağladı

3. 4 boyutlu tesseract içinde zıplayan top görselleştirmesi

  • Gemini 2.5 Pro
    • Fiziksel çarpışmalar, yüzey vurgusu vb. tüm gereksinimleri karşıladı
    • Kod kalitesi ve çalışma durumu son derece başarılıydı
  • Claude 3.7 Sonnet
    • İşlevler çalıştı ancak gereksiz renkler eklendi
    • Buna rağmen istenen işlevleri yerine getirdi
  • Özet: Her iki model de gereksinimleri karşıladı, Claude da sonunda başardı

4. LeetCode sorunu: 3 kale yerleştirerek maksimum toplamı bulma

  • Gemini 2.5 Pro
    • Karmaşık bir kod yazdı ama çözüm doğruydu
    • Zaman karmaşıklığını da uygun şekilde dikkate aldı
  • Claude 3.7 Sonnet
    • Daha kısa kod yazdı ancak zaman aşımı (TLE) oluştu
    • Anlaşılması kolay olsa da performans açısından yetersiz kaldı
  • Özet: Gemini 2.5 Pro hem performans hem doğrulukta önde

Sonuç

  • Gemini 2.5 Pro açık biçimde üstün
    • Bağlam penceresi, doğruluk ve çoklu görev performansında Claude 3.7 Sonnet’in önünde
  • Claude hâlâ çok iyi bir model, ancak şu an için Gemini kullanmak daha verimli
  • İleride 2 milyon token pencereye kadar genişlediğinde performans daha da artacak
  • Google’ın yakın dönemdeki hafif modeli Gemma 3 27B ile birlikte güçlü bir yapay zeka ürün ailesi oluşturuyor

1 yorum

 
GN⁺ 2025-04-01
Hacker News görüşü
  • Gerçek kodlama sorunları için nakit ödüllü bir yarışma düzenlemek istiyor. Kuralların belirlenmesi gerekiyor. LLM'in bu sorunu çözüp çözemeyeceğinden emin değil

    • Amaç, Solvespace'in GTK 4 sürümünü yapmak
    • Her platform için tek bir C++ dosyası bulunuyor
    • Hedef, GTK3 dosyasını GTK4'e yeniden yazmak
    • Yapay zekanın performansını kanıtlamak istiyorsanız, tüm oturumu belgeleyip bir YouTube videosu yapmanız öneriliyor
    • Nihai test, PR'ın kabul edilip edilmeyeceği
  • Gemini modeli, sohbetin ne zaman kesileceğini bildiren tek model

    • ChatGPT, bağlam dolduğunda konuşmayı unutma eğiliminde
    • Gemini'nin araçları zayıf, ancak temelde daha iyi bir model gibi hissettiriyor
  • Gemini 2.5 Pro kullanmış ve oldukça iyi olduğunu düşünüyor

    • Claude 3.5'in komutları izlemede daha iyi olduğu anlaşılıyor
    • Cursor ve Claude CLI araçlarından hayal kırıklığına uğramış
    • Gemini'nin bağlam penceresini gösterme biçimini beğeniyor
    • Pazarın büyük yapay zeka şirketlerinin değerlemelerini kaldıramayacağını düşünüyor
    • Bazen ücretsiz modeller daha iyi olabiliyor
  • Yapay zeka modeli yarışında kaybeden Microsoft gibi görünüyor

    • ChatGPT tek seçenekken Microsoft lider olarak görülüyordu
    • Copilot başarısız oldu ve Bing yapay zekadan yararlanamadı
    • Google'dan Sundar Pichai, Microsoft'un modeliyle karşılaştırma yapmak istediğini söyledi
  • Gemini 2.5 Pro, aider polyglot coding leaderboard'da yüksek puan aldı

    • Aider'in son sürüm çalışmasında çoğunlukla kullanılıyor
    • Şu anda Gemini'nin en büyük sorunu katı hız sınırları
  • Rubik küpü örneğinde Gemini 2.5, ezberlenmiş bir karıştırma dizisi kullanıyor

    • Karıştırma dizisini tersine çevirerek küpü çözüyor
  • 90'larda Visual Basic kullanırken şablondan yeni proje oluşturmanın ilginç olduğunu düşünüyordu

    • Yapay zeka ile kodlama buna benziyor ama abartılmış hissettiriyor
    • Claude'un uçağının yana dönük olması hakkında kafasının karıştığına dair bir yorum var
  • Gemini 2.5, karmaşık Cython kodunda pek iyi değil

    • Claude ve o3 komutları iyi takip ediyor
    • Gemini alakasız değişiklikler yapmaya çalışıyor
  • Tarafsız bir tartışmaya ihtiyaç olup olmadığı soruluyor

    • OP bağlantısı Composio için taraflı bir reklam gibi görünüyor
    • Gemini 2.5 Pro hakkında abartılı açıklamalar var
  • Tüm test görevleri greenfield projeler

    • LLM kullanmak için mevcut projelerde değişiklik veya düzeltme yapmak gerekiyor
    • Testlerin, modelin kullanışlılığını ölçmek açısından anlamlı olmadığını düşünüyor