Gemini 3.1 Pro

(blog.google)

4 puan yazan GN⁺ 2026-02-20 | 4 yorum | WhatsApp'ta paylaş

Karmaşık görevleri ele almak için geliştirilmiş çok modlu bir yapay zeka modeli olup, basit yanıtların ötesine geçen problem çözmeyi hedefliyor
ARC-AGI-2 benchmark'ında %77,1 doğrulama puanı alarak önceki 3 Pro'ya kıyasla iki katın üzerinde çıkarım performansı elde etti
Veri entegrasyonu, görsel açıklama, yaratıcı kodlama gibi yüksek zorluk seviyesindeki işlerde gelişmiş akıl yürütme yeteneği sergiliyor
Metin, ses, görüntü, video, kod deposu gibi çeşitli girdi biçimlerini işliyor ve en fazla 1 milyon token bağlam ile 64K token çıktı destekliyor
Google, bu preview ile agentic workflow'ları geliştirme ve ileride genel kullanıma sunmadan önce doğrulama yapma sürecini sürdürüyor

Gemini 3.1 Pro genel bakış

Gemini 3.1 Pro, karmaşık görevleri ele almak için geliştirilmiş çok modlu bir yapay zeka modeli olup, basit yanıtların ötesine geçen problem çözmeyi hedefliyor
- Google bunu, Gemini 3 Deep Think başarısını mümkün kılan temel zekâ yükseltmesi olarak tanımlıyor
- Metin, ses, görüntü, video, kod deposu gibi çok modlu girdileri işliyor
- En fazla 1 milyon token bağlam penceresi ve 64K token çıktı destekliyor
- Bu sürüm şu anda tüketici, geliştirici ve kurumsal ürünlerin geneline kademeli olarak dağıtılıyor
Dağıtım kanalları şu şekilde
- Geliştiriciler: Gemini API in Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Kurumlar: Vertex AI, Gemini Enterprise
- Tüketiciler: Gemini uygulaması, NotebookLM

Performans ve benchmark'lar

Gemini 3.1 Pro, akıl yürütme (reasoning) yeteneği odaklı iyileştirmeler sayesinde karmaşık problem çözme için optimize edildi
- ARC-AGI-2 benchmark'ında %77,1 doğrulama puanı aldı; bu, önceki 3 Pro'ya göre iki katın üzerinde performans artışı anlamına geliyor
- Başlıca performans karşılaştırma sonuçları (Gemini 3 Pro'ya kıyasla):
  - ARC-AGI-2: %77,1 (vs %31,1)
  - GPQA Diamond: %94,3 (vs %91,9)
  - Terminal-Bench 2.0: %68,5 (vs %56,9)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: %85,9 (vs %59,2)
- Bu benchmark'lar, modelin tamamen yeni mantık kalıplarını çözme yeteneğini değerlendiriyor
Google, bunu “daha akıllı ve daha yetkin bir temel model” olarak tanımlıyor ve karmaşık problem çözmenin temeli olarak sunuyor

Gerçek kullanım örnekleri

Gemini 3.1 Pro, ileri düzey akıl yürütmeyi pratik biçimde uygulayarak çeşitli kullanım olasılıkları gösteriyor
- Görsel açıklama üretimi: Karmaşık konuları açık ve görsel olarak anlatma yeteneği
- Veri entegrasyonu: Birden çok veriyi tek bir birleşik görünümde sentezleme
- Yaratıcı proje geliştirme: Sanatsal ve tasarımsal fikirleri kodla hayata geçirme
Somut örnekler
- Kod tabanlı animasyon: Metin istemiyle bir web sitesi için SVG animasyonu üretip çözünürlük kaybı olmadan dosya boyutunu en aza indirme
- Karmaşık sistem entegrasyonu: Uluslararası Uzay İstasyonu (ISS) yörüngesini gerçek zamanlı görselleştiren bir dashboard oluşturma
- Etkileşimli tasarım: 3D sığırcık sürüsü simülasyonu kodlayarak el takibi ve müziğe duyarlı bir arayüz oluşturma
- Yaratıcı kodlama: Wuthering Heights'ın edebi atmosferini yansıtan modern bir portföy web sitesi tasarlama

Dağıtım ve erişim

Gemini 3.1 Pro, kullanıcı geri bildirimi toplamak amacıyla preview olarak yayımlandı
- Google AI Pro ve Ultra planı kullanıcıları, Gemini uygulamasında daha yüksek kullanım limitlerinden yararlanabiliyor
- NotebookLM içinde Pro ve Ultra kullanıcılarına özel olarak sunuluyor
- Geliştiriciler ve kurumlar, AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio üzerinden erişebiliyor

Gelecek planları

Google, Gemini 3 Pro'nun çıkışından sonra hızlı iyileştirme temposunu koruyor; bu 3.1 Pro preview ile güncellemeleri doğrulama ve agentic workflow'ları genişletme çalışmalarını sürdürüyor
Genel kullanıma sunum (GA), doğrulama tamamlandıktan sonra yapılacak; Google ayrıca “kullanıcıların bu modelle neler inşa edip keşfedeceğini merakla bekliyoruz” dedi

4 yorum

jwh926 2026-02-20

Keşke kodlama performansı açısından Claude Opus seviyesine bir an önce yetişse.

ifmkl 2026-02-20

Aynen öyle. 3.0 preview model CLI'a geldiğinde kullandığım ilk gün o kadar hoşuma gitmişti ki bloga izlenimlerimi bile yazmıştım ama sonra hızla ... Bu yüzden şu anda ağırlıklı olarak codex ve claude code kullanıyorum. Ama claude da biraz... 4.6 opus ya da sonnet iyi mi diye bakacağım; olmazsa kod için codex'i, diğer çeşitli işler için de gemini'yi sabitleyebilirim sanırım..

GN⁺ 2026-02-20

Hacker News görüşleri

Gemini 3.1 Pro gerçekten heyecan verici görünüyor
Şimdiye kadar neredeyse her zaman Claude tarafına kaydım ama Claude Opus özellikle kodlamada öne çıkıyor
Gemini de neredeyse harika, ancak hâlâ Claude seviyesinde değil
Her modelin güçlü yanlarını kaçırmamak için her ay ChatGPT Plus ↔ Gemini Pro ↔ Claude abonelikleri arasında dönüşümlü geçiş yapıyorum
Eski bir Googler olarak Gemini 3.1 Pro’nun 3.0’dan daha iyi olmasını umuyorum
Ama geliştirme için Gemini en sinir bozucu modeldi
Claude Opus, VS Code Copilot’ta düşünce akışı ve yanıtları dengeliyor; Gemini ise sadece thinking token kullanıyor ve sonucu açıklamıyor
Sık sık döngüye giriyor, araç kullanımında beceriksiz kalıyor ve dosyaları alakasız biçimde değiştiriyor
Bu yüzden “plan Gemini, uygulama Claude” stratejisini kullandım, ama sonunda sadece Claude kullanır oldum
Anthropic modellerini gerçek proje odaklı biçimde incelerken, Google’ın gerçek kullanım testleri yetersizmiş gibi görünüyor
- Projemde renk uzayı matematiği çok fazla ve Gemini 3 Pro sık sık temel tip hataları yapıyor
  int8’i float sanıyor ya da normalizasyon olup olmadığını unutuyor
  Hafızası zayıf biri gibi hissettiriyor
  Yine de mimari tasarım tartışmalarında oldukça yardımcı oluyor
- Gemini 3’ü Openclaw’da kullanırken saat başına 10~20 dolar, prompt başına 1.5~3 dolar ödüyordum
  Verimsizliğin zirvesiydi
- Model performansı sonuçta ince ayar ve araç entegrasyonuna bağlı
  Claude sanki “kodlama sürecinin” kendisini öğrenmiş gibi ve Anthropic kullanıcı geri bildirimini ince ayara yansıtıyor gibi görünüyor
  Google ise genel amaçlı model peşinde koştuğu için “her şeyi biraz yapan ama hiçbir şeyi kusursuz yapmayan” bir durumda gibi duruyor
- Gemini 3.0 benim için kullanılamaz düzeydeydi
  Claude ya da Codex probleme nasıl yaklaştığını açıklarken Gemini doğrudan işe girişiyor
  Düzeltme isteklerini görmezden geliyor ve çalışma alanını kirletiyor
  Ücretsiz kullanılabilmesine rağmen neredeyse hiç kullanmıyorum
  Anthropic sanki erkenden “kullanıcının kontrol sahibi olması gerektiğini” fark etmiş gibi
- Gemini agentic görevlerde zayıf
  OpenAI Claude seviyesine yaklaştı ama Google’ın hâlâ gidecek yolu var
İnsanlar Google’ın maliyet verimliliğini küçümsüyor
Opus’un yarı fiyatına ama performansı oldukça iyi
Artificial Analysis metriklerine göre 3.1, Opus’tan %40 daha ucuz ve %30 daha hızlı
- Ama “1 sentlik vasat bir yanıttan ziyade 2 sentlik harika bir yanıt daha iyidir” diye bakanlar da var
  Geliştirme içinse aylık 300 dolar olsa bile en iyi modeli kullanmaya değer
  Tüketici odaklı yapay zekada bu hesabın farklı olacağı kesin
- Elbette işi düzgün yapamıyorsa yarı fiyatlı olması da bir anlam ifade etmiyor
  Yine de performans yetişirse fiyat avantajı çekici olur
- Opus %20 daha iyi kod üretiyorsa gerçek projelerde bu fark büyüktür
  Ama performans benzerse %50 maliyet düşüşü büyük bir avantajdır
- Gemini’nin benchmark sonuçları da iyi ve DeepMind mühendisleri de çok başarılı
  Kişisel olarak hem işte hem hobi amaçlı kodlamada bende iyi çalışıyor
  Buna rağmen toplulukta çok sert eleştiriler görmesi şaşırtıcı
- Deepseek, Opus’un %2 fiyatına ama çoğu kişi yine de onu kodlama için kullanmıyor
Bu aralar modeller fazla güçlü
Eskisine göre çok daha kısa sürede tam teşekküllü yazılım üretmek mümkün
Ama sürümler arasındaki davranış farkı o kadar büyük ki her ay yeni bir ekibi yönetiyormuş gibi hissettiriyor
Modelin habersizce değiştirilmesi ya da ince biçimde farklılaşması yüzünden istikrarsız bir temel gibi duruyor
- Opus 4.6, daha önce o4-mini’nin çözemediği bir problemi çözdü
  Bunu sqlite-chronicle issue sayfasında görmek mümkün
  Sonrasında birkaç projedeki tıkanıklıkları da açtı
- Anthropic, Google ve OpenAI modellerinin hepsini kullandım ama hâlâ tam bir ürün üretmek için yeterli değiller
  Yine de fikir edinmek ve bir kod tabanına başlamak için fazlasıyla yeterliler
- GPT 5.1 codex max ile yaptığım uygulama hâlâ iyi çalışıyor
  Aynı kodda, onu üreten modelin tekrar çalışmasının daha kolay olduğu bir tür öz tutarlılık var gibi
- Gerçekte his, “dâhi ama tuhaf bir mühendisi” yönetmek gibi
  Buna rağmen hâlâ inanılmaz bir teknoloji
- “Bir suşi menüsü fiyatına bir dâhi mühendisi bir ay çalıştırmak” sözüne karşı “onunla hesap makinesi mi yapacaksın?” diye şaka yapanlar da vardı
Gemini 3.1 Pro’nun fiyatı değişmedi
Girdi $2/M, çıktı $12/M ve bu resmî belgede belirtiliyor
Bilgi kesim tarihi 2025 Ocak ve yeni bir “medium thinking” modu eklenmiş
Opus 4.6’nın $5/$25 fiyatına kıyasla fark büyük
- Kurumsal CLI agent kullanmak isteyenler için Google’ın karmaşık süreçleri sorun oluyor
  IAM kuralları ayarlama, ödeme, ürün adını bulma gibi noktalarda takılıyorlar
  OpenAI ve Anthropic çok daha basit
  Buna rağmen aylık ücretler benzer
- Vendor-Bench 2’de uzun süreli akıl yürütme performansı iyileşmezse CC’den geçmeyi düşünmüyorum
  Anthropic full-stack optimizasyonla önde gidiyor
- Hâlâ minimal reasoning yok
  Opus 4.6 gibi thinking kapalıyken de hızlı ve akıllı bir model henüz yok
- Codex’ten daha ucuz görünmesi ilginç
- Bilgi kesim tarihinin 2025 Ocak olması biraz eski hissettiriyor
Gemini 3 hâlâ preview durumunda ve 2.5’in yakında kaldırılması planlanıyor
Resmî kaldırma takvimine bakınca bazı modellerin yerine bir alternatif bile sunulmadan kapatıldığı görülüyor
Google’ın gerçek üretim modeli ne zaman çıkaracağı belirsiz
- Ben de katılıyorum. Kaldırılmış ya da hiç yayınlanmamış modellere bağımlı olmak riskli
  Gerçekten çalışan sistemlerim olduğu için bu durum ciddi bir kaygı yaratıyor
- Sanırım bağlantıyı yanlış okudun. Yalnızca 2.5-preview kaldırılıyor, 2.5’in kararlı sürümü ise 2026 sonbaharına kadar kalacak
- Google, bu kadar çok insanın bağlı olduğu yazılımları asla kapatmaz herhalde, değil mi?
  Killed by Google bunun ne kadar boş bir beklenti olduğunu gösteriyor
- Tam da böyle anlarda insan “hah, işte bu tam Google’lık” diyor
- 2.5’in kaldırıldığına dair henüz bir duyuru yok
  3.0 preview ise 2.5 en az bir yıl daha kalır gibi görünüyor
  Resmî belgede de “kesin bitiş tarihi önceden duyurularak paylaşılacaktır” deniyor
Gemini, UI ve veri senkronizasyonu race condition problemini tek seferde çözdü
Opus 4.6 ise ancak üç denemeden sonra çözebilmişti; bu yüzden şaşırtıcıydı
Öncekine göre daha az geveze ve doğrudan konuya giriyor
Bundan sonra R&D için Gemini, işi tamamlarken ise Opus/Sonnet 4.6 kullanmayı düşünebilirim
- Benim kombinasyonum şöyle: kod araştırması için Opus 4.6, kod yazımı için GPT 5.3 codex, bilimsel ve matematiksel algoritmalar için Gemini, güvenlikle ilgili sorular içinse Grok
  Birden fazla modeli destekleyen birleşik wrapper kullanınca hangi modeli seçeceğim derdi azalıyor
  Sonuçta önemli olan “benim problemime en uygun model”
Gemini, “oto yıkama sorusuna” kusursuz cevap verdi
“Yürüyerek gidersen yıkatacak araban olmaz, dolayısıyla arabayla gitmelisin” şeklinde mantıksal bir yanıt verdi
- Belki eğitim verisinde bu soru vardır diye düşündüm, o yüzden onu fil oto yıkama sorusuna çevirdim
  Gemini, “fili de yanında götürmen gerekir” diye mantıklı biçimde açıklayıp ayrıntılı gerekçeler sundu
  Oldukça etkileyici bir akıl yürütme örneğiydi
- GPT-OSS-120b de aynı soruya doğru cevap verdi
  Ama Gemini’nin “yağmurlu günde araba yıkama tahmini” cümlesi sevimli olsa da biraz fazla özgüvenli geldi
- Asıl önemli olan, doğru cevabı vermesi değil, gerekçeyi gerçekten çıkarıp çıkaramadığı
- Aslında Gemini 3 Pro ve Flash da bu soruya zaten doğru cevap vermişti
- Ama yanıtlar fazla uzun olduğu için yorucu olabiliyor
“Pelikanın bisiklete bindiği SVG” testinde Gemini iyi sonuç verdi
Sonuç bağlantısına bakılabilir
ARC-AGI benchmark artışı sayesinde görsel üretim yeteneği gelişmiş gibi duruyor
- Animasyonlu SVG artık temel örneklerin parçası
  Benchmark’ın kendisi anlamını yitirdi ve artık zevk meselesi gibi görünüyor
  Yeni bir “vibe check” benchmark’ına ihtiyaç var
- Benim aldığım sonuç, pelikandan çok 3D stile yakındı
  İlginç bir değişim
- Ama hâlâ kendi kişisel SVG benchmark’ımda başarısız oluyor (insan kalbinin kesiti)
  Sonunda yine insan tasarımcının eli gerekiyor
- Modeller daha da gelişirse SVG tabanlı gerçek zamanlı UI veya etkileşimli medya üretimi de mümkün olabilir
- Buna karşılık PostScript gibi diğer vektör formatlarında neredeyse hiç ilerleme yok
  Muhtemelen Google’ın SVG’ye özel optimizasyon yapmasının sonucu
Simon Willison’ın blogunda paylaşılan pelikan SVG’si oldukça iyiydi ama üretilmesi 5 dakikadan uzun sürdü
Bu, lansman başlangıcındaki performans sorununa benziyor
- Gemini’nin sorunu hep “gereğinden fazla yardımcı olmaya çalışma” tavrı
  Sadece pelikan ve bisiklet istenmişken bulut, güneş ve şapka da ekliyor
  Kodlamada da aynı şekilde istenmeyen refactor ve yorum eklemeyi durduramıyor
- Komik olan şu ki, bu tür testler yüzünden Google belli ki gerçekten hayvan+araç SVG üretimine çok emek harcamış
  Jeff Dean’in tweet’i da buna işaret ediyor
- LLM’lerin neden SVG’de bu kadar güçlü olduğunu merak ediyorum
  Diğer mekânsal kavrayışlarda zayıfken isabetli şekil üretiminde çok iyiler
- Yakında modeller “pelikan bisiklet SVG’si üretme” üzerinden benchmark rekabetine girecek gibi görünüyor
- Google blogundaki resmî gönderiye bakınca, SVG üretiminin önemli kullanım senaryolarından biri olarak geçtiği görülüyor
  Yani bu, genel yetenek artışından çok açıkça hedeflenmiş bir eğitim sonucuna benziyor

clumsily 2026-02-20

Muhtemelen çok geçmeden sessiz sedasız performansı kırpılacak gibi geliyor; en kritik nokta da ne kadar kırpılacağı olacak sanırım. (Çoğu yapay zeka modelinin zaman geçtikçe aptallaştığı hissi var gerçi ama Google bu konuda özellikle daha kötü gibi.)
3 Pro da ilk çıktığının hemen ardından iyiydi ama yaklaşık bir hafta sonra birden aptallaşmıştı; sonunda kullanmayı bıraktığımı hatırlıyorum.