Gemini 3 Deep Think tanıtıldı

(blog.google)

7 puan yazan GN⁺ 2026-02-13 | 1 yorum | WhatsApp'ta paylaş

Bilim, araştırma ve mühendislik problemlerini çözmeyi hedefleyen Google yapay zeka modeli Gemini 3 Deep Think büyük çaplı bir yükseltme aldı
Yeni sürüm, bilim insanları ve araştırmacılarla iş birliği içinde, eksik veriler veya net bir doğru cevabı olmayan karmaşık problemleri ele alacak şekilde tasarlandı
Matematik, programlama, fizik ve kimya gibi farklı alanlardaki uluslararası olimpiyatlar ve benchmark'larda altın madalya düzeyinde performans elde etti
Gerçek araştırma ve mühendislik uygulamalarını destekliyor ve bir eskizden 3D yazdırılabilir model oluşturma gibi pratik yetenekler sunuyor
Google AI Ultra aboneleri ve Gemini API erken erişim programı üzerinden kullanılabiliyor; ileride araştırmacılar ve şirketler için daha da genişletilmesi planlanıyor

Gemini 3 Deep Think'e genel bakış

Gemini 3 Deep Think, bilim, araştırma ve mühendislik alanlarındaki modern zorlukları çözmek için tasarlanmış bir uzman akıl yürütme modu
- Google, net bir doğru cevabı olmayan veya verilerin eksik olduğu problemleri ele alma yeteneğini güçlendirmek için bilim insanları ve araştırmacılarla yakın çalıştı
- Teorik bilgi ile pratik mühendislikte kullanılabilirliği birleştirerek, gerçek uygulamalara odaklanan bir modele dönüştü
Bu yükseltme, Gemini uygulaması üzerinden Google AI Ultra abonelerine sunuluyor; Gemini API üzerinden de araştırmacılar, mühendisler ve şirketler erken erişim başvurusu yapabiliyor

İlk kullanıcı örnekleri

Rutgers University'den matematikçi Lisa Carbone, yüksek enerji fiziğiyle ilgili bir matematik makalesini incelerken Deep Think'i kullandı ve insan incelemesinden geçmiş mantıksal hataları tespit etti
Duke University'deki Wang Lab, yarı iletken malzeme keşfi için karmaşık kristal büyütme süreçlerini optimize ederek 100μm üzeri ince film büyütme reçeteleri tasarladı
Google Platforms & Devices bölümünden Anupam Pathak, fiziksel bileşen tasarımını hızlandırmak için Deep Think'i test etti

Matematiksel ve algoritmik doğrulukta artış

Deep Think, Uluslararası Matematik Olimpiyatı ve Uluslararası Üniversitelerarası Programlama Yarışması düzeyinde altın madalya seviyesinde sonuçlar elde etti
Son sürüm, aşağıdaki akademik benchmark'larda en yüksek sonuçlara ulaştı
- Humanity’s Last Exam: 48.4% (araç kullanılmadan)
- ARC-AGI-2: 84.6% (ARC Prize Foundation tarafından doğrulandı)
- Codeforces: Elo 3455
- International Math Olympiad 2025: altın madalya düzeyinde performans
Deep Think, matematiksel keşif yapan uzman ajanların geliştirilmesinde de kullanılıyor

Karmaşık bilim alanlarını keşfetme

Matematik ve programlamanın ötesinde, kimya, fizik ve daha geniş bilim alanlarında da performans artışı sağladı
- 2025 Uluslararası Fizik ve Kimya Olimpiyatları yazılı bölümlerinde altın madalya düzeyinde sonuçlar elde etti
- Kuramsal fizik benchmark'ı CMT-Benchmark üzerinde %50,5 skor kaydetti
Bu performans, Deep Think'in bilimsel akıl yürütme yeteneklerinin genişlediğini gösteriyor

Gerçek mühendislik işlerini hızlandırma

Deep Think, karmaşık verilerin yorumlanmasını ve fiziksel sistemlerin modellenmesini destekleyerek araştırmacıların ve mühendislerin pratik kullanımını hedefliyor
Gemini API üzerinden gerçek araştırma ortamlarında erişim genişletiliyor
Örneğin kullanıcılar, bir eskiz girerek 3D yazdırılabilir model oluşturabiliyor; Deep Think ise bunu analiz edip modelleyerek dosya üretimine kadar süreci tamamlıyor

Erişim ve kullanım

Google AI Ultra aboneleri, Gemini uygulamasında Deep Think'i hemen kullanabiliyor
Araştırmacılar, mühendisler ve şirketler, Gemini API üzerinden sunulan erken erişim programına katılmak için başvuru yapabiliyor
Google, Deep Think sayesinde yeni bilimsel keşiflerin ve uygulama örneklerinin yaygınlaşmasını bekliyor

1 yorum

GN⁺ 2026-02-13

Hacker News görüşleri

Arc-AGI-2 skorunun %84,6 olması şaşırtıcı
Resmi blog yazısına bakınca Gemini 3 Deep Think hakkında ayrıntılar görülebiliyor
- Uzun zamandır Gemini 3’ün inanılmaz derecede genel amaçlı (general) olduğu izlenimini alıyordum
  Sadece metin açıklamalarıyla Balatro’yu (ante 8) yenebildi. İnsan için çok zor değil ama bir LLM’in bunu özel eğitim olmadan yapması şaşırtıcı
  Balatro Bench üzerinde test ettim; Deepseek bu oyunu hiç oynayamıyor
- Daha bir yıl önce bu benchmark’ta ancak %1~10 seviyesindeydi, şimdi ise neredeyse AGI düzeyi denebilecek bir noktaya çıkmış olması inanılmaz
- ARC-AGI skorundaki artış ilginç ama bunu “genel zekâ” sıçraması olarak görmek abartılı
  Ben ARC-AGI’deki G’nin “graphical” olduğu şakasını yapıyorum. Modeller şimdiye kadar uzamsal akıl yürütmede (spatial reasoning) zayıftı; görünen o ki bunu bu kez çözmüşler
  ARC-AGI 3’te deneme-yanılma temelli oyun benzeri görevlerin eklenmesini umuyorum
- ARC Prize liderlik tablosuna bakınca, şu anda görev başına yaklaşık 13,62 $ maliyet çıkıyor
  Gerçekçi olarak bakarsak, çalıştırma maliyetinin makul seviyeye gelmesi için 5~10 yıl daha gerekebilir
  Yine de model benchmark’a aşırı uyum sağlamış (fitting) olabilir mi diye merak ediyorum
- Adil bir karşılaştırma için GPT-5.x Pro gibi aynı sınıftaki modellerle kıyaslamak gerekir
Model yayın hızının anormal derecede arttığı hissi var
Sadece bugün bile Gemini 3 Deep Think ve GPT 5.3 Codex Spark çıktı; birkaç gün önce de Opus 4.6, GLM5, MiniMax M2.5 vardı
- Bunun Çin Yeni Yılı döneminin etkisi olduğu anlaşılıyor
  Çinli araştırma laboratuvarları bu dönemde model çıkarıyor, ABD’li laboratuvarlar da DeepSeek R1’in (20 Ocak 2025) yarattığı etkiyi yaşamamak için daha güçlü modelleri aceleyle yayımlıyor gibi görünüyor
- Artık model türü o kadar çoğaldı ki ayırt etmek bile zor
  Gemini 3 Deep Think, tamamen yeni bir modelden çok, Gemini 3 Pro üzerine çıkarım yeteneği (subagent) eklenmiş bir sürüm gibi duruyor
  OpenClaw gibi harici ajan çerçevelerine de bağlanabildiği için, “ajan iş akışı” tartışmasının abartılı olduğunu düşünüyorum
- Son birkaç haftada gerçekten patlayıcı bir yayın döngüsü yaşandı
- Bunu tek kelimeyle ifade edeceksem, Fast takeoff derim
Google tamamen öne geçmiş durumda
İnsanlar geride kaldığını sanıyordu ama bu aslında en iyi stratejiymiş
- Modeller etkileyici ama ürün kalitesi berbat
  Gemini web/CLI’yi iki ay kullandım; konuşma sırasında bağlamı kaybediyor, hava kalitesini nasıl iyileştireceğimi sorunca bağlam olmadan sadece hava temizleyici listesi veriyor
  Hatta Rus propaganda sitelerini kaynak gösteriyor ya da cümlenin ortasında Çinceye geçiyor
  Bu kalite için ayda 20 avro vermek mantıklı gelmiyor
- Normal zamanda Google yavaş ve bürokratik ama savaş modu Google inanılmaz hızda çalışıyor
- OpenAI birkaç saat sonra yine bir şey çıkarır; bu rekabet eğlenceli
  ARC-AGI-2’nin LLM’lerin sınırı olduğunu söyleyenler şimdi ölçütü yine değiştirecek
  İnsan çabasının büyük kısmı “AI hâlâ AGI değil”i kanıtlamaya harcanacak gibi görünüyor
- Yine de gerçek pratik kullanım açısından Google hâlâ geride
  Gemini 3 Pro’nun hâlâ pek çok sorunu var
Gemini 3 Pro kullanarak bir tarihî belge dijitalleştirme projesi yürütüyorum
1885~1974 arasında Almanca yazılmış el yazısı toplantı tutanaklarını tarayıp sayfa sayfa deşifre ettikten sonra çeviriyorum
Yaklaşık 2.370 sayfa işledim, doğruluk %95 civarında ve API maliyeti yaklaşık 50 $
Elle kontrol gerekiyor ama zaman tasarrufu muazzam
- Tek geçiş bile yeterli olabilir; kontrol tamamlandıktan sonra toplam verimliliği yeniden değerlendirmek gerekebilir
Sezgime göre modellerde üç tür spektrum var
Düşünmeyen tip, düşünen tip ve best-of-N tipi (Deep Think, GPT Pro)
Her birinde hesaplama karmaşıklığı kabaca doğrusal, karesel ve kübik olarak artıyor
Düşünen tip, scratchpad yazımı gerektiren problemleri çözebiliyor
- Bir sonraki adımın ajan sürüsü (agent swarm) olacağını düşünüyorum
  Yönetici model bir prompt alıp birden fazla alt ajan oluşturur, bunları paralel dener, sonuçları değerlendirir ve yeniden dağıtır
- best-of-N modellerinde kritik nokta uzun bağlam kullanımı
  Google, 2.5 sürümünden beri uzun bağlamı pratikte gerçekten iyi kullanıyor
  pass@N kavramı da ilginç; güvenlik açığı arama ya da optimizasyon problemleri gibi zamanı paraya çeviren arama tabanlı işler için uygun
- Büyük bir düşünmeyen modelin küçük bir düşünen modelle aynı performansı verip veremeyeceği sorusuna Anthropic modelleri iyi bir örnek
  Bu görselde Opus 4.6, düşünme olmadan da yüksek performans gösteriyor
Tüm benchmark’ların değerlendirme metodolojisi PDF’i burada
ARC-AGI-2 skoru olan %84,6, semi-private set temel alınarak verilmiş
private set’te %85’i geçerse “solved” sayılıyor ve 700 bin $ ödül veriliyor
Ayrıntılar için ARC Prize rehberine bakılabilir
- Belgenin başlığının “Gemini 3.1 Pro” olması, yakında yeni bir sürüm geleceğini düşündürüyor
- Ama private set’te %85’i aşmak zor olabilir. Çünkü bu veri sızıntısı anlamına gelebilir
Son dönemde modeller o kadar hızlı gelişiyor ki, işimin 3~5 yıl içinde ortadan kalkabileceğini düşünmeye başladım
Görünen o ki LLM’ler artık kendilerini iyileştirme aşamasına girdi
OpenRouter’da olmaması üzücü
Son zamanlardaki üst düzey Deep Think modelleri sadece kendi platformlarında kullanılabilecek şekilde kapatılıyor
- OpenRouter güzel ama litellm sadece basit bir Python kütüphanesi olduğu için daha temiz
  litellm belgelerine bakılabilir
- Ama artık altın çağın (golden age) sona erdiği hissi var
Gemini bana hep bilgisi geniş ama esnekliği düşük bir model gibi geldi
Senaryo dışı isteklerde kolayca dağılıyor
- Aslında bu deneyim biraz da kullanıcının uyum sağlamasıyla ilgili olabilir
  Google modellerini uzun süre kullandığım için OpenAI modellerinin çok daha kötü olduğunu hissettim
  Tersine, OpenAI kullanıcıları da aynı nedenle kendi modellerinin en iyisi olduğunu düşünecektir
- Bazı yönleriyle Gemini, kendi tarzında düşünen bir model gibi
  Henüz test etmedim ama komut uygulama becerisi iyileşmiş olabilir
Modellerin gelişim hızı gerçekten şaşırtıcı
Artık bir duvara toslayacaklarını düşünüyordum ama yeni modeller mevcut benchmark’ları tamamen parçalıyor
- Ancak şirketler benchmark skorlarını optimize etmeye odaklandıkça, bunun gerçek performansla olan korelasyonu giderek azalıyor

Gemini 3 Deep Think tanıtıldı

Gemini 3 Deep Think'e genel bakış

İlk kullanıcı örnekleri

Matematiksel ve algoritmik doğrulukta artış

Karmaşık bilim alanlarını keşfetme

Gerçek mühendislik işlerini hızlandırma

Erişim ve kullanım

İlgili okumalar

1 yorum

Hacker News görüşleri