- Bilim, araştırma ve mühendislik problemlerini çözmeyi hedefleyen Google yapay zeka modeli Gemini 3 Deep Think büyük çaplı bir yükseltme aldı
- Yeni sürüm, bilim insanları ve araştırmacılarla iş birliği içinde, eksik veriler veya net bir doğru cevabı olmayan karmaşık problemleri ele alacak şekilde tasarlandı
- Matematik, programlama, fizik ve kimya gibi farklı alanlardaki uluslararası olimpiyatlar ve benchmark'larda altın madalya düzeyinde performans elde etti
- Gerçek araştırma ve mühendislik uygulamalarını destekliyor ve bir eskizden 3D yazdırılabilir model oluşturma gibi pratik yetenekler sunuyor
- Google AI Ultra aboneleri ve Gemini API erken erişim programı üzerinden kullanılabiliyor; ileride araştırmacılar ve şirketler için daha da genişletilmesi planlanıyor
Gemini 3 Deep Think'e genel bakış
- Gemini 3 Deep Think, bilim, araştırma ve mühendislik alanlarındaki modern zorlukları çözmek için tasarlanmış bir uzman akıl yürütme modu
- Google, net bir doğru cevabı olmayan veya verilerin eksik olduğu problemleri ele alma yeteneğini güçlendirmek için bilim insanları ve araştırmacılarla yakın çalıştı
- Teorik bilgi ile pratik mühendislikte kullanılabilirliği birleştirerek, gerçek uygulamalara odaklanan bir modele dönüştü
- Bu yükseltme, Gemini uygulaması üzerinden Google AI Ultra abonelerine sunuluyor; Gemini API üzerinden de araştırmacılar, mühendisler ve şirketler erken erişim başvurusu yapabiliyor
İlk kullanıcı örnekleri
- Rutgers University'den matematikçi Lisa Carbone, yüksek enerji fiziğiyle ilgili bir matematik makalesini incelerken Deep Think'i kullandı ve insan incelemesinden geçmiş mantıksal hataları tespit etti
- Duke University'deki Wang Lab, yarı iletken malzeme keşfi için karmaşık kristal büyütme süreçlerini optimize ederek 100μm üzeri ince film büyütme reçeteleri tasarladı
- Google Platforms & Devices bölümünden Anupam Pathak, fiziksel bileşen tasarımını hızlandırmak için Deep Think'i test etti
Matematiksel ve algoritmik doğrulukta artış
- Deep Think, Uluslararası Matematik Olimpiyatı ve Uluslararası Üniversitelerarası Programlama Yarışması düzeyinde altın madalya seviyesinde sonuçlar elde etti
- Son sürüm, aşağıdaki akademik benchmark'larda en yüksek sonuçlara ulaştı
- Humanity’s Last Exam: 48.4% (araç kullanılmadan)
- ARC-AGI-2: 84.6% (ARC Prize Foundation tarafından doğrulandı)
- Codeforces: Elo 3455
- International Math Olympiad 2025: altın madalya düzeyinde performans
- Deep Think, matematiksel keşif yapan uzman ajanların geliştirilmesinde de kullanılıyor
Karmaşık bilim alanlarını keşfetme
- Matematik ve programlamanın ötesinde, kimya, fizik ve daha geniş bilim alanlarında da performans artışı sağladı
- 2025 Uluslararası Fizik ve Kimya Olimpiyatları yazılı bölümlerinde altın madalya düzeyinde sonuçlar elde etti
- Kuramsal fizik benchmark'ı CMT-Benchmark üzerinde %50,5 skor kaydetti
- Bu performans, Deep Think'in bilimsel akıl yürütme yeteneklerinin genişlediğini gösteriyor
Gerçek mühendislik işlerini hızlandırma
- Deep Think, karmaşık verilerin yorumlanmasını ve fiziksel sistemlerin modellenmesini destekleyerek araştırmacıların ve mühendislerin pratik kullanımını hedefliyor
- Gemini API üzerinden gerçek araştırma ortamlarında erişim genişletiliyor
- Örneğin kullanıcılar, bir eskiz girerek 3D yazdırılabilir model oluşturabiliyor; Deep Think ise bunu analiz edip modelleyerek dosya üretimine kadar süreci tamamlıyor
Erişim ve kullanım
- Google AI Ultra aboneleri, Gemini uygulamasında Deep Think'i hemen kullanabiliyor
- Araştırmacılar, mühendisler ve şirketler, Gemini API üzerinden sunulan erken erişim programına katılmak için başvuru yapabiliyor
- Google, Deep Think sayesinde yeni bilimsel keşiflerin ve uygulama örneklerinin yaygınlaşmasını bekliyor
1 yorum
Hacker News görüşleri
Arc-AGI-2 skorunun %84,6 olması şaşırtıcı
Resmi blog yazısına bakınca Gemini 3 Deep Think hakkında ayrıntılar görülebiliyor
Sadece metin açıklamalarıyla Balatro’yu (ante 8) yenebildi. İnsan için çok zor değil ama bir LLM’in bunu özel eğitim olmadan yapması şaşırtıcı
Balatro Bench üzerinde test ettim; Deepseek bu oyunu hiç oynayamıyor
Ben ARC-AGI’deki G’nin “graphical” olduğu şakasını yapıyorum. Modeller şimdiye kadar uzamsal akıl yürütmede (spatial reasoning) zayıftı; görünen o ki bunu bu kez çözmüşler
ARC-AGI 3’te deneme-yanılma temelli oyun benzeri görevlerin eklenmesini umuyorum
Gerçekçi olarak bakarsak, çalıştırma maliyetinin makul seviyeye gelmesi için 5~10 yıl daha gerekebilir
Yine de model benchmark’a aşırı uyum sağlamış (fitting) olabilir mi diye merak ediyorum
Model yayın hızının anormal derecede arttığı hissi var
Sadece bugün bile Gemini 3 Deep Think ve GPT 5.3 Codex Spark çıktı; birkaç gün önce de Opus 4.6, GLM5, MiniMax M2.5 vardı
Çinli araştırma laboratuvarları bu dönemde model çıkarıyor, ABD’li laboratuvarlar da DeepSeek R1’in (20 Ocak 2025) yarattığı etkiyi yaşamamak için daha güçlü modelleri aceleyle yayımlıyor gibi görünüyor
Gemini 3 Deep Think, tamamen yeni bir modelden çok, Gemini 3 Pro üzerine çıkarım yeteneği (subagent) eklenmiş bir sürüm gibi duruyor
OpenClaw gibi harici ajan çerçevelerine de bağlanabildiği için, “ajan iş akışı” tartışmasının abartılı olduğunu düşünüyorum
Google tamamen öne geçmiş durumda
İnsanlar geride kaldığını sanıyordu ama bu aslında en iyi stratejiymiş
Gemini web/CLI’yi iki ay kullandım; konuşma sırasında bağlamı kaybediyor, hava kalitesini nasıl iyileştireceğimi sorunca bağlam olmadan sadece hava temizleyici listesi veriyor
Hatta Rus propaganda sitelerini kaynak gösteriyor ya da cümlenin ortasında Çinceye geçiyor
Bu kalite için ayda 20 avro vermek mantıklı gelmiyor
ARC-AGI-2’nin LLM’lerin sınırı olduğunu söyleyenler şimdi ölçütü yine değiştirecek
İnsan çabasının büyük kısmı “AI hâlâ AGI değil”i kanıtlamaya harcanacak gibi görünüyor
Gemini 3 Pro’nun hâlâ pek çok sorunu var
Gemini 3 Pro kullanarak bir tarihî belge dijitalleştirme projesi yürütüyorum
1885~1974 arasında Almanca yazılmış el yazısı toplantı tutanaklarını tarayıp sayfa sayfa deşifre ettikten sonra çeviriyorum
Yaklaşık 2.370 sayfa işledim, doğruluk %95 civarında ve API maliyeti yaklaşık 50 $
Elle kontrol gerekiyor ama zaman tasarrufu muazzam
Sezgime göre modellerde üç tür spektrum var
Düşünmeyen tip, düşünen tip ve best-of-N tipi (Deep Think, GPT Pro)
Her birinde hesaplama karmaşıklığı kabaca doğrusal, karesel ve kübik olarak artıyor
Düşünen tip, scratchpad yazımı gerektiren problemleri çözebiliyor
Yönetici model bir prompt alıp birden fazla alt ajan oluşturur, bunları paralel dener, sonuçları değerlendirir ve yeniden dağıtır
Google, 2.5 sürümünden beri uzun bağlamı pratikte gerçekten iyi kullanıyor
pass@N kavramı da ilginç; güvenlik açığı arama ya da optimizasyon problemleri gibi zamanı paraya çeviren arama tabanlı işler için uygun
Bu görselde Opus 4.6, düşünme olmadan da yüksek performans gösteriyor
Tüm benchmark’ların değerlendirme metodolojisi PDF’i burada
ARC-AGI-2 skoru olan %84,6, semi-private set temel alınarak verilmiş
private set’te %85’i geçerse “solved” sayılıyor ve 700 bin $ ödül veriliyor
Ayrıntılar için ARC Prize rehberine bakılabilir
Son dönemde modeller o kadar hızlı gelişiyor ki, işimin 3~5 yıl içinde ortadan kalkabileceğini düşünmeye başladım
Görünen o ki LLM’ler artık kendilerini iyileştirme aşamasına girdi
OpenRouter’da olmaması üzücü
Son zamanlardaki üst düzey Deep Think modelleri sadece kendi platformlarında kullanılabilecek şekilde kapatılıyor
litellm belgelerine bakılabilir
Gemini bana hep bilgisi geniş ama esnekliği düşük bir model gibi geldi
Senaryo dışı isteklerde kolayca dağılıyor
Google modellerini uzun süre kullandığım için OpenAI modellerinin çok daha kötü olduğunu hissettim
Tersine, OpenAI kullanıcıları da aynı nedenle kendi modellerinin en iyisi olduğunu düşünecektir
Henüz test etmedim ama komut uygulama becerisi iyileşmiş olabilir
Modellerin gelişim hızı gerçekten şaşırtıcı
Artık bir duvara toslayacaklarını düşünüyordum ama yeni modeller mevcut benchmark’ları tamamen parçalıyor