9 puan yazan GN⁺ 2025-03-26 | 3 yorum | WhatsApp'ta paylaş
  • Gemini 2.5, karmaşık problem çözümü için tasarlanmış en akıllı muhakeme tabanlı yapay zeka modeli
  • İlk sürüm olan Gemini 2.5 Pro Experimental, çeşitli yapay zeka benchmark'larında en yüksek performansı kaydetti
  • Özellikle LMArena sıralamasında açık ara 1. sıraya yerleşti
  • Mevcut modellerden farklı olarak, yanıt vermeden önce kendi düşünme sürecinden geçen bir yapı ile tasarlandığı için doğruluk ve performans artırıldı

Yapay zekada 'düşünme' yeteneği nedir?

  • Basit sınıflandırma veya tahminin ötesinde, bilgi analizi, mantıksal sonuç çıkarma, bağlamı anlama, karar verme gibi yüksek düzey bilişsel yetenekleri içerir
  • Bunun için DeepMind, pekiştirmeli öğrenme, Chain-of-Thought prompt tekniği gibi yöntemleri kullanarak yapay zekanın muhakeme yeteneğini araştırıyordu
  • Mevcut Gemini 2.0 Flash Thinking modeline kıyasla bir adım daha ileri performans gösteriyor

Bundan sonraki yön

  • Gemini 2.5 ile geliştirilmiş temel modeller ve son işlem teknikleri birleştirilerek yeni bir performans seviyesine ulaşılması hedefleniyor
  • Gelecekte bu düşünme yeteneğinin tüm Gemini modellerine varsayılan olarak eklenmesiyle, daha karmaşık problem çözümü ve gelişmiş ajan desteği sağlanması planlanıyor

Gemini 2.5 Pro tanıtımı

  • Gemini 2.5 Pro Experimental, şimdiye kadar geliştirilen modeller arasında en karmaşık görevleri yerine getirmede öne çıkıyor
  • İnsan tercihlerini temel alan LMArena değerlendirmesinde açık ara 1. sırada yer aldı
  • Kodlama, matematik, bilim benchmark'larında da güçlü performans sergiliyor
  • Şu anda Google AI Studio ve Gemini uygulamasında kullanılabiliyor; yakında Vertex AI üzerinde de sunulacak
  • İleride fiyatlandırma planı devreye alınarak daha yüksek çağrı limitleriyle ölçeklenebilir hizmet sunulması planlanıyor

Geliştirilmiş muhakeme performansı

  • Karmaşık mantık problemlerini çözmede en üst düzey benchmark sonuçları kaydetti
  • Ek maliyet gerektiren test teknikleri olmadan da (ör. çoğunluk oylaması) güçlü performansını koruyor
  • GPQA, AIME 2025 gibi matematik ve bilim sorularında lider performans gösteriyor
  • Yüzlerce uzman tarafından tasarlanan yüksek zorluk seviyeli muhakeme testi 'Humanity’s Last Exam'de araç kullanmadan %18,8 ile sektörün en iyi sonucunu elde etti

Gelişmiş kodlama performansı

  • Kodlama performansı, Gemini 2.0'a kıyasla büyük ölçüde iyileştirildi
  • Web uygulaması oluşturma, ajan tipi kod yazma, kod dönüştürme ve düzeltme konularında güçlü yetenekler sunuyor
  • SWE-Bench Verified değerlendirmesinde özel bir ajan kullanıldığında %63,8 elde etti
  • Tek satırlık bir prompt ile çalıştırılabilir bir video oyunu oluşturan örnekler de bulunuyor

Gemini model ailesinin güçlü yönlerini koruyor

  • Gemini 2.5, mevcut Gemini modellerinin güçlü yönleri olan çok modlu işleme ve uzun bağlam penceresini koruyor
  • 1 milyon token'lık bağlam penceresini destekliyor (yakında 2 milyona çıkarılacak)
  • Metin, ses, görsel, video, tüm kod deposu gibi çeşitli bilgi kaynaklarını bütüncül biçimde işleyebiliyor
  • Geliştiriciler ve kurumsal kullanıcılar, Google AI Studio, Gemini Advanced, Vertex AI gibi servisler üzerinden deney ve test yapabiliyor

3 yorum

 
wowfoot 2025-03-26

Claude ve GPT-4.5’i geride bırakıyor ama Grok 3’ü birkaç kez denemeye kıyasla geçemiyor.
Grok 3 gerçekten etkileyici.

 
zxshinxz 2025-03-26

Google AI Studio'da Gemini 2.5 Pro çıkınca mevcut Gemini 2.0 Pro'ların hepsi ortadan kaybolmuş görünüyor.. Ücretsiz olarak epey faydalı şekilde kullanıyordum, o yüzden biraz üzücü. Gemini 2.5 Pro'nun dakika başına 2 kez sınırı ve günde yalnızca 50 çağrı yapılabilmesi gibi kısıtlamaları biraz fazla büyük görünüyor.

 
GN⁺ 2025-03-26
Hacker News görüşleri
  • LLM kullanarak roman gibi uzun metinler yazarken en büyük sorunlardan biri, ayrıntı verdiğinizde modelin buna aşırı tepki vermesi

    • Örneğin epik fantezideki aşk ilgisinin profilini verdiğinizde, ana karakter neredeyse her zaman 3 sayfa içinde onunla karşılaşıyor
    • Bu mantıksız bir gelişme ve bunu değiştirmeye yönelik girişimler işe yaramıyor
    • Mevcut model 19 sayfa ürettikten sonra bile doğal bir akış sergiliyor ve çok sayıda ayrıntı içeriyor
    • Oldukça etkileyici
  • Farklı modelleri kıyaslamak için matematik bulmacaları kullanıyordum

    • Bu bulmaca bilgisayarla çözmek için yaklaşık 3 gün sürdü ve matematik bölümü mezunu biri elle bir günde çözdü
    • Gemini 2.5 bu bulmacayı çözen ilk model oldu; bu da LLM'lerin matematiksel akıl yürütmede nüfusun %95'inden fazlasından daha iyi olduğu anlamına geliyor
    • Bulmaca şöyle: üç kişi dairesel şekilde duruyor ve her birinin başının üstünde pozitif bir tam sayı var; iki sayının toplamı üçüncü sayıya eşit
    • Birinci kişi kendi sayısını bilmediğini söylüyor, ikinci kişi de bilmediğini söylüyor, üçüncü kişi de bilmediğini söylüyor
    • İlk kişiye tekrar sorulduğunda 65 diye yanıt veriyor
    • Soru, bu üç sayının çarpımının ne olduğu
  • Ses transkripsiyonu ve karmaşık fotoğraflarda canlıların etrafına sınır kutusu çizme görevlerinde çok iyi performans gösterdi

    • Hatta bisiklete binen bir pelikan da çizdi
    • İlgili notlara bağlantıdan ulaşılabilir
  • Benchmark'larda eşi benzeri görülmemiş şekilde en yüksek performansı kaydetti

    • Yüksek kalite ve net sonuçlar gösteriyor ama biraz yavaş
    • Google yine büyük bir iş başarıyor
  • Gemini 2.5 Pro, aider polyglot leaderboard'da %73 skorla SOTA elde etti

    • Önceki Gemini modellerine göre büyük bir sıçrama gösteriyor
    • Verimli diff-like düzenleme biçimini etkili şekilde kullanan ilk Gemini modeli
  • Bu tür duyurular artık şablon gibi görünmeye başladı

    • En son teknoloji model
    • X, Y, Z ile benchmark karşılaştırmaları
    • "Daha iyi" akıl yürütme
    • Harika bir model olabilir ama tekrar eden metin ilgiyi azaltıyor
  • Gemini 2.5, ciddi biçimde iyileştirilmiş bir temel modeli ve geliştirilmiş son işlemeyi birleştirerek yeni bir performans düzeyine ulaştı

    • İleride bu düşünme yeteneklerini tüm modellere doğrudan yerleştirerek daha karmaşık problemleri ele alacak ve daha yetenekli, bağlam farkındalığı olan ajanları destekleyecek
    • İnternete bağlı ve gerektiğinde akıl yürütme modeli olarak çalışıyor
    • Yakın zamanda çıkan canvas modunun bu modelde de desteklenmesini umuyorum
  • Dart kütüphanesindeki bir bug'ın nedenini tespit etmek için, LLM'ye tüm kod tabanını ve bug açıklamasını veren bir test vakası kullandım

    • Yaklaşık 360.000 token içeriyor
    • Bunu bir ay önce önde gelen modellerle denedim ama doğru düzeltmeyi yalnızca bu model belirledi
  • Gemini kullanmayı planlıyorsanız, şu uyarılara dikkat etmek gerekiyor

    • Gizli bilgileri ya da değerlendiricilerin görebileceği veya Google'ın kullanabileceği verileri girmeyin
    • Google AI kalitesini artırmak ve ürünleri geliştirmek için insan değerlendiriciler konuşmaları okuyup açıklama ekleyerek işliyor
    • Bu süreçte gizliliği korumak için konuşmalar Google hesabından ayrıştırılıyor
  • 2.0 modeli henüz eski sayılmazken adına neden +0.5 eklendiğini merak ediyorum

    • Bunun pazarlama nedeniyle mi, yeni bir model mimarisini mi gösterdiği, yoksa 2.0 tabanlı daha fazla eğitim verisi ya da yeni bir servis altyapısı mı olduğu merak konusu
    • *.5 adlandırması ilk ortaya çıktığında bana biraz saçma gelmişti
    • OpenAI, 3.5'i çıkardığında zaten 4'ü hazırladığını ve 3'ü ChatGPT'ye daha uygun hale getirmek için ayarladığını söylemişti
    • Anthropic'in Sonnet 3, 3.5, 3.5 (new), 3.7 şeklindeki adlandırmasının bu yaklaşımın en kötü örneği olduğunu düşünüyorum
    • semver, tarih tabanlı adlandırma ("Gemini Pro 2025") ya da anlamlı harf-rakam kombinasyonlarını (ör. 4o - "Omni") tercih ederim