5 puan yazan GN⁺ 2025-03-29 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Google'ın çıkardığı Gemini 2.5 Pro, GPT-4o'nun göz alıcı görsel üretim yeteneğinin duyurulması nedeniyle daha az ilgi görse de, aslında önemli bir ilerleme niteliğinde
  • Kod yazma performansı son derece güçlü ve en fazla 1 milyon token'lık bağlam uzunluğuyla tüm kod tabanını işleyebilecek kapasite sunuyor
  • Kullanıcı geri bildirimleri de oldukça olumlu ve gerçek kodlama testlerinde üstün sonuçlar gösteriyor
  • Buna karşılık karmaşık muhakeme problemlerinde Grok 3 veya Claude 3.7 Sonnet'ten daha zayıf kalıyor

Başlıca iyileştirmeler

  • Gemini 2.5 Pro, Gemini 2.0 Flash tabanlı mimaride eğitim sonrası optimizasyon ve parametre genişletme yoluyla performans artışı sağlıyor
  • En fazla 1.000.000 bağlam uzunluğu desteği sayesinde tüm kod tabanı girildiğinde bile güçlü sonuçlar üretebiliyor
  • Çok dilli anlama yeteneği güçlendirilmiş; LMSYS sıralamasında İspanyolca işlemede rekor kırdı

Benchmark performansı

  • LMSYS, Livebench, GPQA, AIME, SWEbench verified gibi başlıca benchmark'larda güçlü başarı elde etti
  • ARC-AGI'de Deepseek r1'e benzer, Claude 3.7'den daha düşük seviyede
  • WeirdML benchmark'ında 1. sırayı aldı; sıra dışı ML problemleri için çalışan PyTorch kodu yazma becerisi çok güçlü
  • Aider Polyglot benchmark'ında da lider konumda

Gerçek kullanım örnekleri

  • Wordle problemi, shader üretimi, uçuş simülatörü, Rubik küpü, zombi oyunu, arcade oyunu üretimi gibi çeşitli örneklerde etkileyici sonuçlar verdi
  • Özellikle oyun üretimi görevlerinde rafine ve yüksek düzeyde çalışma kalitesi sundu

Gemini 2.5 Pro vs Claude 3.7 vs Grok 3 - kodlama yeteneği karşılaştırması

1. 3D küp içinde zıplayan top (Three.js)

  • Gemini 2.5: Akıcı ve gerçeğe yakın hareketlerle en iyi sonucu verdi
  • Grok 3: Başta iyiydi ancak zamanla toplar birbirine yapıştı ve düzgün çalışmadı
  • Claude 3.7: Kurulum harikaydı ancak toplar durdu ve etkileşim eksikti

2. Minecraft tarzı oyun (Pygame)

  • Gemini 2.5: Akıcı ve rafine oynanış, tüm gereksinimleri karşıladı
  • Claude 3.7: Görsel efektler ve UI öğeleri içeren gelişmiş düzeyde sonuç
  • Grok 3: Temel olarak çalıştı ancak hareket ve yerleşim yeterince akıcı değildi

3. Task Tracker web uygulaması

  • Gemini 2.5: Yüksek derecede tamamlanmış UI ve doğal akış
  • Claude 3.7: Temiz ve görsel olarak çekici
  • Grok 3: Gereksinimleri karşıladı ama diğer modellere göre daha düşük olgunlukta

Karmaşık muhakeme yeteneği

1. Bilişsel önyargı testi (doktor ve oğlu problemi)

  • Claude 3.7, Grok 3 problemi doğru biçimde çözdü
  • Gemini 2.5 ise biraz kafa karışıklığı gösterdi

2. Tic-tac-toe'da en iyi hamleyi bulma

  • Üç model de doğru cevaba ulaştı, ancak Grok 3 en net analizi sundu
  • Ancak tüm doğru noktaları (3 ve 5) eksiksiz bulan bir model olmadı

3. Karmaşık akrabalık ilişkisi problemi

  • Claude 3.7 doğru yanıt olan 12 kişiyi tam olarak buldu
  • Gemini 2.5, Grok 3 ise 15 kişi diyerek yanlış sonuca ulaştı, ancak mantıkları anlaşılabiliyordu

Matematik yeteneği

1. Sonsuz dizinin GCD'sini bulma

  • Yalnızca Gemini 2.5 doğru sonuca ulaştı
  • Grok 3 yanlıştı

2. Ünlü harf sayısına dayalı ifade değerlendirmesi

  • Doğru sonuca ulaşan tek model Claude 3.7 oldu
  • Grok 3 bağlamı anlayamadı
  • Gemini 2.5 ise belirsiz kaldı

Matematik yeteneği özeti

  • Saf matematik problemlerinde Gemini 2.5 Pro güçlü
  • Muhakeme içeren matematik problemlerinde Claude 3.7 Sonnet daha dengeli
  • Grok 3, matematik performansı en düşük model

Sonuç

  • Google'ın Gemini 2.5 Pro modeli, kod yazmaya özel olarak güçlü ve gerçek kullanım örneklerinde de üstün performans gösteriyor
  • Karmaşık muhakeme ve düşünme problemlerinde rakip modellere kıyasla biraz daha zayıf kalıyor
  • Matematik problemlerinde güçlü olsa da mantıksal muhakeme içeren durumlarda performans düşüşü yaşanıyor
  • Çok dilli işleme ve büyük ölçekli girdi işlemede önemli avantajlara sahip
  • Kodlama performansı: Çok güçlü
  • Muhakeme yeteneği: Claude 3.7, Grok 3'e kıyasla daha zayıf
  • Matematik yeteneği: Saf hesaplama becerisi güçlü

Henüz yorum yok.

Henüz yorum yok.