4 puan yazan GN⁺ 2026-02-20 | 4 yorum | WhatsApp'ta paylaş
  • Karmaşık görevleri ele almak için geliştirilmiş çok modlu bir yapay zeka modeli olup, basit yanıtların ötesine geçen problem çözmeyi hedefliyor
  • ARC-AGI-2 benchmark'ında %77,1 doğrulama puanı alarak önceki 3 Pro'ya kıyasla iki katın üzerinde çıkarım performansı elde etti
  • Veri entegrasyonu, görsel açıklama, yaratıcı kodlama gibi yüksek zorluk seviyesindeki işlerde gelişmiş akıl yürütme yeteneği sergiliyor
  • Metin, ses, görüntü, video, kod deposu gibi çeşitli girdi biçimlerini işliyor ve en fazla 1 milyon token bağlam ile 64K token çıktı destekliyor
  • Google, bu preview ile agentic workflow'ları geliştirme ve ileride genel kullanıma sunmadan önce doğrulama yapma sürecini sürdürüyor

Gemini 3.1 Pro genel bakış

  • Gemini 3.1 Pro, karmaşık görevleri ele almak için geliştirilmiş çok modlu bir yapay zeka modeli olup, basit yanıtların ötesine geçen problem çözmeyi hedefliyor
    • Google bunu, Gemini 3 Deep Think başarısını mümkün kılan temel zekâ yükseltmesi olarak tanımlıyor
    • Metin, ses, görüntü, video, kod deposu gibi çok modlu girdileri işliyor
    • En fazla 1 milyon token bağlam penceresi ve 64K token çıktı destekliyor
    • Bu sürüm şu anda tüketici, geliştirici ve kurumsal ürünlerin geneline kademeli olarak dağıtılıyor
  • Dağıtım kanalları şu şekilde

Performans ve benchmark'lar

  • Gemini 3.1 Pro, akıl yürütme (reasoning) yeteneği odaklı iyileştirmeler sayesinde karmaşık problem çözme için optimize edildi
    • ARC-AGI-2 benchmark'ında %77,1 doğrulama puanı aldı; bu, önceki 3 Pro'ya göre iki katın üzerinde performans artışı anlamına geliyor
    • Başlıca performans karşılaştırma sonuçları (Gemini 3 Pro'ya kıyasla):
      • ARC-AGI-2: %77,1 (vs %31,1)
      • GPQA Diamond: %94,3 (vs %91,9)
      • Terminal-Bench 2.0: %68,5 (vs %56,9)
      • LiveCodeBench Pro: Elo 2887 (vs 2439)
      • BrowseComp: %85,9 (vs %59,2)
    • Bu benchmark'lar, modelin tamamen yeni mantık kalıplarını çözme yeteneğini değerlendiriyor
  • Google, bunu “daha akıllı ve daha yetkin bir temel model” olarak tanımlıyor ve karmaşık problem çözmenin temeli olarak sunuyor

Gerçek kullanım örnekleri

  • Gemini 3.1 Pro, ileri düzey akıl yürütmeyi pratik biçimde uygulayarak çeşitli kullanım olasılıkları gösteriyor
    • Görsel açıklama üretimi: Karmaşık konuları açık ve görsel olarak anlatma yeteneği
    • Veri entegrasyonu: Birden çok veriyi tek bir birleşik görünümde sentezleme
    • Yaratıcı proje geliştirme: Sanatsal ve tasarımsal fikirleri kodla hayata geçirme
  • Somut örnekler
    • Kod tabanlı animasyon: Metin istemiyle bir web sitesi için SVG animasyonu üretip çözünürlük kaybı olmadan dosya boyutunu en aza indirme
    • Karmaşık sistem entegrasyonu: Uluslararası Uzay İstasyonu (ISS) yörüngesini gerçek zamanlı görselleştiren bir dashboard oluşturma
    • Etkileşimli tasarım: 3D sığırcık sürüsü simülasyonu kodlayarak el takibi ve müziğe duyarlı bir arayüz oluşturma
    • Yaratıcı kodlama: Wuthering Heights'ın edebi atmosferini yansıtan modern bir portföy web sitesi tasarlama

Dağıtım ve erişim

  • Gemini 3.1 Pro, kullanıcı geri bildirimi toplamak amacıyla preview olarak yayımlandı
    • Google AI Pro ve Ultra planı kullanıcıları, Gemini uygulamasında daha yüksek kullanım limitlerinden yararlanabiliyor
    • NotebookLM içinde Pro ve Ultra kullanıcılarına özel olarak sunuluyor
    • Geliştiriciler ve kurumlar, AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio üzerinden erişebiliyor

Gelecek planları

  • Google, Gemini 3 Pro'nun çıkışından sonra hızlı iyileştirme temposunu koruyor; bu 3.1 Pro preview ile güncellemeleri doğrulama ve agentic workflow'ları genişletme çalışmalarını sürdürüyor
  • Genel kullanıma sunum (GA), doğrulama tamamlandıktan sonra yapılacak; Google ayrıca “kullanıcıların bu modelle neler inşa edip keşfedeceğini merakla bekliyoruz” dedi

4 yorum

 
jwh926 2026-02-20

Keşke kodlama performansı açısından Claude Opus seviyesine bir an önce yetişse.

 
ifmkl 2026-02-20

Aynen öyle. 3.0 preview model CLI'a geldiğinde kullandığım ilk gün o kadar hoşuma gitmişti ki bloga izlenimlerimi bile yazmıştım ama sonra hızla ... Bu yüzden şu anda ağırlıklı olarak codex ve claude code kullanıyorum. Ama claude da biraz... 4.6 opus ya da sonnet iyi mi diye bakacağım; olmazsa kod için codex'i, diğer çeşitli işler için de gemini'yi sabitleyebilirim sanırım..

 
GN⁺ 2026-02-20
Hacker News görüşleri
  • Gemini 3.1 Pro gerçekten heyecan verici görünüyor
    Şimdiye kadar neredeyse her zaman Claude tarafına kaydım ama Claude Opus özellikle kodlamada öne çıkıyor
    Gemini de neredeyse harika, ancak hâlâ Claude seviyesinde değil
    Her modelin güçlü yanlarını kaçırmamak için her ay ChatGPT Plus ↔ Gemini Pro ↔ Claude abonelikleri arasında dönüşümlü geçiş yapıyorum

  • Eski bir Googler olarak Gemini 3.1 Pro’nun 3.0’dan daha iyi olmasını umuyorum
    Ama geliştirme için Gemini en sinir bozucu modeldi
    Claude Opus, VS Code Copilot’ta düşünce akışı ve yanıtları dengeliyor; Gemini ise sadece thinking token kullanıyor ve sonucu açıklamıyor
    Sık sık döngüye giriyor, araç kullanımında beceriksiz kalıyor ve dosyaları alakasız biçimde değiştiriyor
    Bu yüzden “plan Gemini, uygulama Claude” stratejisini kullandım, ama sonunda sadece Claude kullanır oldum
    Anthropic modellerini gerçek proje odaklı biçimde incelerken, Google’ın gerçek kullanım testleri yetersizmiş gibi görünüyor

    • Projemde renk uzayı matematiği çok fazla ve Gemini 3 Pro sık sık temel tip hataları yapıyor
      int8’i float sanıyor ya da normalizasyon olup olmadığını unutuyor
      Hafızası zayıf biri gibi hissettiriyor
      Yine de mimari tasarım tartışmalarında oldukça yardımcı oluyor
    • Gemini 3’ü Openclaw’da kullanırken saat başına 10~20 dolar, prompt başına 1.5~3 dolar ödüyordum
      Verimsizliğin zirvesiydi
    • Model performansı sonuçta ince ayar ve araç entegrasyonuna bağlı
      Claude sanki “kodlama sürecinin” kendisini öğrenmiş gibi ve Anthropic kullanıcı geri bildirimini ince ayara yansıtıyor gibi görünüyor
      Google ise genel amaçlı model peşinde koştuğu için “her şeyi biraz yapan ama hiçbir şeyi kusursuz yapmayan” bir durumda gibi duruyor
    • Gemini 3.0 benim için kullanılamaz düzeydeydi
      Claude ya da Codex probleme nasıl yaklaştığını açıklarken Gemini doğrudan işe girişiyor
      Düzeltme isteklerini görmezden geliyor ve çalışma alanını kirletiyor
      Ücretsiz kullanılabilmesine rağmen neredeyse hiç kullanmıyorum
      Anthropic sanki erkenden “kullanıcının kontrol sahibi olması gerektiğini” fark etmiş gibi
    • Gemini agentic görevlerde zayıf
      OpenAI Claude seviyesine yaklaştı ama Google’ın hâlâ gidecek yolu var
  • İnsanlar Google’ın maliyet verimliliğini küçümsüyor
    Opus’un yarı fiyatına ama performansı oldukça iyi
    Artificial Analysis metriklerine göre 3.1, Opus’tan %40 daha ucuz ve %30 daha hızlı

    • Ama “1 sentlik vasat bir yanıttan ziyade 2 sentlik harika bir yanıt daha iyidir” diye bakanlar da var
      Geliştirme içinse aylık 300 dolar olsa bile en iyi modeli kullanmaya değer
      Tüketici odaklı yapay zekada bu hesabın farklı olacağı kesin
    • Elbette işi düzgün yapamıyorsa yarı fiyatlı olması da bir anlam ifade etmiyor
      Yine de performans yetişirse fiyat avantajı çekici olur
    • Opus %20 daha iyi kod üretiyorsa gerçek projelerde bu fark büyüktür
      Ama performans benzerse %50 maliyet düşüşü büyük bir avantajdır
    • Gemini’nin benchmark sonuçları da iyi ve DeepMind mühendisleri de çok başarılı
      Kişisel olarak hem işte hem hobi amaçlı kodlamada bende iyi çalışıyor
      Buna rağmen toplulukta çok sert eleştiriler görmesi şaşırtıcı
    • Deepseek, Opus’un %2 fiyatına ama çoğu kişi yine de onu kodlama için kullanmıyor
  • Bu aralar modeller fazla güçlü
    Eskisine göre çok daha kısa sürede tam teşekküllü yazılım üretmek mümkün
    Ama sürümler arasındaki davranış farkı o kadar büyük ki her ay yeni bir ekibi yönetiyormuş gibi hissettiriyor
    Modelin habersizce değiştirilmesi ya da ince biçimde farklılaşması yüzünden istikrarsız bir temel gibi duruyor

    • Opus 4.6, daha önce o4-mini’nin çözemediği bir problemi çözdü
      Bunu sqlite-chronicle issue sayfasında görmek mümkün
      Sonrasında birkaç projedeki tıkanıklıkları da açtı
    • Anthropic, Google ve OpenAI modellerinin hepsini kullandım ama hâlâ tam bir ürün üretmek için yeterli değiller
      Yine de fikir edinmek ve bir kod tabanına başlamak için fazlasıyla yeterliler
    • GPT 5.1 codex max ile yaptığım uygulama hâlâ iyi çalışıyor
      Aynı kodda, onu üreten modelin tekrar çalışmasının daha kolay olduğu bir tür öz tutarlılık var gibi
    • Gerçekte his, “dâhi ama tuhaf bir mühendisi” yönetmek gibi
      Buna rağmen hâlâ inanılmaz bir teknoloji
    • “Bir suşi menüsü fiyatına bir dâhi mühendisi bir ay çalıştırmak” sözüne karşı “onunla hesap makinesi mi yapacaksın?” diye şaka yapanlar da vardı
  • Gemini 3.1 Pro’nun fiyatı değişmedi
    Girdi $2/M, çıktı $12/M ve bu resmî belgede belirtiliyor
    Bilgi kesim tarihi 2025 Ocak ve yeni bir “medium thinking” modu eklenmiş
    Opus 4.6’nın $5/$25 fiyatına kıyasla fark büyük

    • Kurumsal CLI agent kullanmak isteyenler için Google’ın karmaşık süreçleri sorun oluyor
      IAM kuralları ayarlama, ödeme, ürün adını bulma gibi noktalarda takılıyorlar
      OpenAI ve Anthropic çok daha basit
      Buna rağmen aylık ücretler benzer
    • Vendor-Bench 2’de uzun süreli akıl yürütme performansı iyileşmezse CC’den geçmeyi düşünmüyorum
      Anthropic full-stack optimizasyonla önde gidiyor
    • Hâlâ minimal reasoning yok
      Opus 4.6 gibi thinking kapalıyken de hızlı ve akıllı bir model henüz yok
    • Codex’ten daha ucuz görünmesi ilginç
    • Bilgi kesim tarihinin 2025 Ocak olması biraz eski hissettiriyor
  • Gemini 3 hâlâ preview durumunda ve 2.5’in yakında kaldırılması planlanıyor
    Resmî kaldırma takvimine bakınca bazı modellerin yerine bir alternatif bile sunulmadan kapatıldığı görülüyor
    Google’ın gerçek üretim modeli ne zaman çıkaracağı belirsiz

    • Ben de katılıyorum. Kaldırılmış ya da hiç yayınlanmamış modellere bağımlı olmak riskli
      Gerçekten çalışan sistemlerim olduğu için bu durum ciddi bir kaygı yaratıyor
    • Sanırım bağlantıyı yanlış okudun. Yalnızca 2.5-preview kaldırılıyor, 2.5’in kararlı sürümü ise 2026 sonbaharına kadar kalacak
    • Google, bu kadar çok insanın bağlı olduğu yazılımları asla kapatmaz herhalde, değil mi?
      Killed by Google bunun ne kadar boş bir beklenti olduğunu gösteriyor
    • Tam da böyle anlarda insan “hah, işte bu tam Google’lık” diyor
    • 2.5’in kaldırıldığına dair henüz bir duyuru yok
      3.0 preview ise 2.5 en az bir yıl daha kalır gibi görünüyor
      Resmî belgede de “kesin bitiş tarihi önceden duyurularak paylaşılacaktır” deniyor
  • Gemini, UI ve veri senkronizasyonu race condition problemini tek seferde çözdü
    Opus 4.6 ise ancak üç denemeden sonra çözebilmişti; bu yüzden şaşırtıcıydı
    Öncekine göre daha az geveze ve doğrudan konuya giriyor
    Bundan sonra R&D için Gemini, işi tamamlarken ise Opus/Sonnet 4.6 kullanmayı düşünebilirim

    • Benim kombinasyonum şöyle: kod araştırması için Opus 4.6, kod yazımı için GPT 5.3 codex, bilimsel ve matematiksel algoritmalar için Gemini, güvenlikle ilgili sorular içinse Grok
      Birden fazla modeli destekleyen birleşik wrapper kullanınca hangi modeli seçeceğim derdi azalıyor
      Sonuçta önemli olan “benim problemime en uygun model”
  • Gemini, “oto yıkama sorusuna” kusursuz cevap verdi
    “Yürüyerek gidersen yıkatacak araban olmaz, dolayısıyla arabayla gitmelisin” şeklinde mantıksal bir yanıt verdi

    • Belki eğitim verisinde bu soru vardır diye düşündüm, o yüzden onu fil oto yıkama sorusuna çevirdim
      Gemini, “fili de yanında götürmen gerekir” diye mantıklı biçimde açıklayıp ayrıntılı gerekçeler sundu
      Oldukça etkileyici bir akıl yürütme örneğiydi
    • GPT-OSS-120b de aynı soruya doğru cevap verdi
      Ama Gemini’nin “yağmurlu günde araba yıkama tahmini” cümlesi sevimli olsa da biraz fazla özgüvenli geldi
    • Asıl önemli olan, doğru cevabı vermesi değil, gerekçeyi gerçekten çıkarıp çıkaramadığı
    • Aslında Gemini 3 Pro ve Flash da bu soruya zaten doğru cevap vermişti
    • Ama yanıtlar fazla uzun olduğu için yorucu olabiliyor
  • “Pelikanın bisiklete bindiği SVG” testinde Gemini iyi sonuç verdi
    Sonuç bağlantısına bakılabilir
    ARC-AGI benchmark artışı sayesinde görsel üretim yeteneği gelişmiş gibi duruyor

    • Animasyonlu SVG artık temel örneklerin parçası
      Benchmark’ın kendisi anlamını yitirdi ve artık zevk meselesi gibi görünüyor
      Yeni bir “vibe check” benchmark’ına ihtiyaç var
    • Benim aldığım sonuç, pelikandan çok 3D stile yakındı
      İlginç bir değişim
    • Ama hâlâ kendi kişisel SVG benchmark’ımda başarısız oluyor (insan kalbinin kesiti)
      Sonunda yine insan tasarımcının eli gerekiyor
    • Modeller daha da gelişirse SVG tabanlı gerçek zamanlı UI veya etkileşimli medya üretimi de mümkün olabilir
    • Buna karşılık PostScript gibi diğer vektör formatlarında neredeyse hiç ilerleme yok
      Muhtemelen Google’ın SVG’ye özel optimizasyon yapmasının sonucu
  • Simon Willison’ın blogunda paylaşılan pelikan SVG’si oldukça iyiydi ama üretilmesi 5 dakikadan uzun sürdü
    Bu, lansman başlangıcındaki performans sorununa benziyor

    • Gemini’nin sorunu hep “gereğinden fazla yardımcı olmaya çalışma” tavrı
      Sadece pelikan ve bisiklet istenmişken bulut, güneş ve şapka da ekliyor
      Kodlamada da aynı şekilde istenmeyen refactor ve yorum eklemeyi durduramıyor
    • Komik olan şu ki, bu tür testler yüzünden Google belli ki gerçekten hayvan+araç SVG üretimine çok emek harcamış
      Jeff Dean’in tweet’i da buna işaret ediyor
    • LLM’lerin neden SVG’de bu kadar güçlü olduğunu merak ediyorum
      Diğer mekânsal kavrayışlarda zayıfken isabetli şekil üretiminde çok iyiler
    • Yakında modeller “pelikan bisiklet SVG’si üretme” üzerinden benchmark rekabetine girecek gibi görünüyor
    • Google blogundaki resmî gönderiye bakınca, SVG üretiminin önemli kullanım senaryolarından biri olarak geçtiği görülüyor
      Yani bu, genel yetenek artışından çok açıkça hedeflenmiş bir eğitim sonucuna benziyor
 
clumsily 2026-02-20

Muhtemelen çok geçmeden sessiz sedasız performansı kırpılacak gibi geliyor; en kritik nokta da ne kadar kırpılacağı olacak sanırım. (Çoğu yapay zeka modelinin zaman geçtikçe aptallaştığı hissi var gerçi ama Google bu konuda özellikle daha kötü gibi.)
3 Pro da ilk çıktığının hemen ardından iyiydi ama yaklaşık bir hafta sonra birden aptallaşmıştı; sonunda kullanmayı bıraktığımı hatırlıyorum.