7 puan yazan GN⁺ 2026-02-13 | 1 yorum | WhatsApp'ta paylaş
  • Bilim, araştırma ve mühendislik problemlerini çözmeyi hedefleyen Google yapay zeka modeli Gemini 3 Deep Think büyük çaplı bir yükseltme aldı
  • Yeni sürüm, bilim insanları ve araştırmacılarla iş birliği içinde, eksik veriler veya net bir doğru cevabı olmayan karmaşık problemleri ele alacak şekilde tasarlandı
  • Matematik, programlama, fizik ve kimya gibi farklı alanlardaki uluslararası olimpiyatlar ve benchmark'larda altın madalya düzeyinde performans elde etti
  • Gerçek araştırma ve mühendislik uygulamalarını destekliyor ve bir eskizden 3D yazdırılabilir model oluşturma gibi pratik yetenekler sunuyor
  • Google AI Ultra aboneleri ve Gemini API erken erişim programı üzerinden kullanılabiliyor; ileride araştırmacılar ve şirketler için daha da genişletilmesi planlanıyor

Gemini 3 Deep Think'e genel bakış

  • Gemini 3 Deep Think, bilim, araştırma ve mühendislik alanlarındaki modern zorlukları çözmek için tasarlanmış bir uzman akıl yürütme modu
    • Google, net bir doğru cevabı olmayan veya verilerin eksik olduğu problemleri ele alma yeteneğini güçlendirmek için bilim insanları ve araştırmacılarla yakın çalıştı
    • Teorik bilgi ile pratik mühendislikte kullanılabilirliği birleştirerek, gerçek uygulamalara odaklanan bir modele dönüştü
  • Bu yükseltme, Gemini uygulaması üzerinden Google AI Ultra abonelerine sunuluyor; Gemini API üzerinden de araştırmacılar, mühendisler ve şirketler erken erişim başvurusu yapabiliyor

İlk kullanıcı örnekleri

  • Rutgers University'den matematikçi Lisa Carbone, yüksek enerji fiziğiyle ilgili bir matematik makalesini incelerken Deep Think'i kullandı ve insan incelemesinden geçmiş mantıksal hataları tespit etti
  • Duke University'deki Wang Lab, yarı iletken malzeme keşfi için karmaşık kristal büyütme süreçlerini optimize ederek 100μm üzeri ince film büyütme reçeteleri tasarladı
  • Google Platforms & Devices bölümünden Anupam Pathak, fiziksel bileşen tasarımını hızlandırmak için Deep Think'i test etti

Matematiksel ve algoritmik doğrulukta artış

  • Deep Think, Uluslararası Matematik Olimpiyatı ve Uluslararası Üniversitelerarası Programlama Yarışması düzeyinde altın madalya seviyesinde sonuçlar elde etti
  • Son sürüm, aşağıdaki akademik benchmark'larda en yüksek sonuçlara ulaştı
    • Humanity’s Last Exam: 48.4% (araç kullanılmadan)
    • ARC-AGI-2: 84.6% (ARC Prize Foundation tarafından doğrulandı)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: altın madalya düzeyinde performans
  • Deep Think, matematiksel keşif yapan uzman ajanların geliştirilmesinde de kullanılıyor

Karmaşık bilim alanlarını keşfetme

  • Matematik ve programlamanın ötesinde, kimya, fizik ve daha geniş bilim alanlarında da performans artışı sağladı
    • 2025 Uluslararası Fizik ve Kimya Olimpiyatları yazılı bölümlerinde altın madalya düzeyinde sonuçlar elde etti
    • Kuramsal fizik benchmark'ı CMT-Benchmark üzerinde %50,5 skor kaydetti
  • Bu performans, Deep Think'in bilimsel akıl yürütme yeteneklerinin genişlediğini gösteriyor

Gerçek mühendislik işlerini hızlandırma

  • Deep Think, karmaşık verilerin yorumlanmasını ve fiziksel sistemlerin modellenmesini destekleyerek araştırmacıların ve mühendislerin pratik kullanımını hedefliyor
  • Gemini API üzerinden gerçek araştırma ortamlarında erişim genişletiliyor
  • Örneğin kullanıcılar, bir eskiz girerek 3D yazdırılabilir model oluşturabiliyor; Deep Think ise bunu analiz edip modelleyerek dosya üretimine kadar süreci tamamlıyor

Erişim ve kullanım

  • Google AI Ultra aboneleri, Gemini uygulamasında Deep Think'i hemen kullanabiliyor
  • Araştırmacılar, mühendisler ve şirketler, Gemini API üzerinden sunulan erken erişim programına katılmak için başvuru yapabiliyor
  • Google, Deep Think sayesinde yeni bilimsel keşiflerin ve uygulama örneklerinin yaygınlaşmasını bekliyor

1 yorum

 
GN⁺ 2026-02-13
Hacker News görüşleri
  • Arc-AGI-2 skorunun %84,6 olması şaşırtıcı
    Resmi blog yazısına bakınca Gemini 3 Deep Think hakkında ayrıntılar görülebiliyor

    • Uzun zamandır Gemini 3’ün inanılmaz derecede genel amaçlı (general) olduğu izlenimini alıyordum
      Sadece metin açıklamalarıyla Balatro’yu (ante 8) yenebildi. İnsan için çok zor değil ama bir LLM’in bunu özel eğitim olmadan yapması şaşırtıcı
      Balatro Bench üzerinde test ettim; Deepseek bu oyunu hiç oynayamıyor
    • Daha bir yıl önce bu benchmark’ta ancak %1~10 seviyesindeydi, şimdi ise neredeyse AGI düzeyi denebilecek bir noktaya çıkmış olması inanılmaz
    • ARC-AGI skorundaki artış ilginç ama bunu “genel zekâ” sıçraması olarak görmek abartılı
      Ben ARC-AGI’deki G’nin “graphical” olduğu şakasını yapıyorum. Modeller şimdiye kadar uzamsal akıl yürütmede (spatial reasoning) zayıftı; görünen o ki bunu bu kez çözmüşler
      ARC-AGI 3’te deneme-yanılma temelli oyun benzeri görevlerin eklenmesini umuyorum
    • ARC Prize liderlik tablosuna bakınca, şu anda görev başına yaklaşık 13,62 $ maliyet çıkıyor
      Gerçekçi olarak bakarsak, çalıştırma maliyetinin makul seviyeye gelmesi için 5~10 yıl daha gerekebilir
      Yine de model benchmark’a aşırı uyum sağlamış (fitting) olabilir mi diye merak ediyorum
    • Adil bir karşılaştırma için GPT-5.x Pro gibi aynı sınıftaki modellerle kıyaslamak gerekir
  • Model yayın hızının anormal derecede arttığı hissi var
    Sadece bugün bile Gemini 3 Deep Think ve GPT 5.3 Codex Spark çıktı; birkaç gün önce de Opus 4.6, GLM5, MiniMax M2.5 vardı

    • Bunun Çin Yeni Yılı döneminin etkisi olduğu anlaşılıyor
      Çinli araştırma laboratuvarları bu dönemde model çıkarıyor, ABD’li laboratuvarlar da DeepSeek R1’in (20 Ocak 2025) yarattığı etkiyi yaşamamak için daha güçlü modelleri aceleyle yayımlıyor gibi görünüyor
    • Artık model türü o kadar çoğaldı ki ayırt etmek bile zor
      Gemini 3 Deep Think, tamamen yeni bir modelden çok, Gemini 3 Pro üzerine çıkarım yeteneği (subagent) eklenmiş bir sürüm gibi duruyor
      OpenClaw gibi harici ajan çerçevelerine de bağlanabildiği için, “ajan iş akışı” tartışmasının abartılı olduğunu düşünüyorum
    • Son birkaç haftada gerçekten patlayıcı bir yayın döngüsü yaşandı
    • Bunu tek kelimeyle ifade edeceksem, Fast takeoff derim
  • Google tamamen öne geçmiş durumda
    İnsanlar geride kaldığını sanıyordu ama bu aslında en iyi stratejiymiş

    • Modeller etkileyici ama ürün kalitesi berbat
      Gemini web/CLI’yi iki ay kullandım; konuşma sırasında bağlamı kaybediyor, hava kalitesini nasıl iyileştireceğimi sorunca bağlam olmadan sadece hava temizleyici listesi veriyor
      Hatta Rus propaganda sitelerini kaynak gösteriyor ya da cümlenin ortasında Çinceye geçiyor
      Bu kalite için ayda 20 avro vermek mantıklı gelmiyor
    • Normal zamanda Google yavaş ve bürokratik ama savaş modu Google inanılmaz hızda çalışıyor
    • OpenAI birkaç saat sonra yine bir şey çıkarır; bu rekabet eğlenceli
      ARC-AGI-2’nin LLM’lerin sınırı olduğunu söyleyenler şimdi ölçütü yine değiştirecek
      İnsan çabasının büyük kısmı “AI hâlâ AGI değil”i kanıtlamaya harcanacak gibi görünüyor
    • Yine de gerçek pratik kullanım açısından Google hâlâ geride
      Gemini 3 Pro’nun hâlâ pek çok sorunu var
  • Gemini 3 Pro kullanarak bir tarihî belge dijitalleştirme projesi yürütüyorum
    1885~1974 arasında Almanca yazılmış el yazısı toplantı tutanaklarını tarayıp sayfa sayfa deşifre ettikten sonra çeviriyorum
    Yaklaşık 2.370 sayfa işledim, doğruluk %95 civarında ve API maliyeti yaklaşık 50 $
    Elle kontrol gerekiyor ama zaman tasarrufu muazzam

    • Tek geçiş bile yeterli olabilir; kontrol tamamlandıktan sonra toplam verimliliği yeniden değerlendirmek gerekebilir
  • Sezgime göre modellerde üç tür spektrum var
    Düşünmeyen tip, düşünen tip ve best-of-N tipi (Deep Think, GPT Pro)
    Her birinde hesaplama karmaşıklığı kabaca doğrusal, karesel ve kübik olarak artıyor
    Düşünen tip, scratchpad yazımı gerektiren problemleri çözebiliyor

    • Bir sonraki adımın ajan sürüsü (agent swarm) olacağını düşünüyorum
      Yönetici model bir prompt alıp birden fazla alt ajan oluşturur, bunları paralel dener, sonuçları değerlendirir ve yeniden dağıtır
    • best-of-N modellerinde kritik nokta uzun bağlam kullanımı
      Google, 2.5 sürümünden beri uzun bağlamı pratikte gerçekten iyi kullanıyor
      pass@N kavramı da ilginç; güvenlik açığı arama ya da optimizasyon problemleri gibi zamanı paraya çeviren arama tabanlı işler için uygun
    • Büyük bir düşünmeyen modelin küçük bir düşünen modelle aynı performansı verip veremeyeceği sorusuna Anthropic modelleri iyi bir örnek
      Bu görselde Opus 4.6, düşünme olmadan da yüksek performans gösteriyor
  • Tüm benchmark’ların değerlendirme metodolojisi PDF’i burada
    ARC-AGI-2 skoru olan %84,6, semi-private set temel alınarak verilmiş
    private set’te %85’i geçerse “solved” sayılıyor ve 700 bin $ ödül veriliyor
    Ayrıntılar için ARC Prize rehberine bakılabilir

    • Belgenin başlığının “Gemini 3.1 Pro” olması, yakında yeni bir sürüm geleceğini düşündürüyor
    • Ama private set’te %85’i aşmak zor olabilir. Çünkü bu veri sızıntısı anlamına gelebilir
  • Son dönemde modeller o kadar hızlı gelişiyor ki, işimin 3~5 yıl içinde ortadan kalkabileceğini düşünmeye başladım
    Görünen o ki LLM’ler artık kendilerini iyileştirme aşamasına girdi

  • OpenRouter’da olmaması üzücü
    Son zamanlardaki üst düzey Deep Think modelleri sadece kendi platformlarında kullanılabilecek şekilde kapatılıyor

    • OpenRouter güzel ama litellm sadece basit bir Python kütüphanesi olduğu için daha temiz
      litellm belgelerine bakılabilir
    • Ama artık altın çağın (golden age) sona erdiği hissi var
  • Gemini bana hep bilgisi geniş ama esnekliği düşük bir model gibi geldi
    Senaryo dışı isteklerde kolayca dağılıyor

    • Aslında bu deneyim biraz da kullanıcının uyum sağlamasıyla ilgili olabilir
      Google modellerini uzun süre kullandığım için OpenAI modellerinin çok daha kötü olduğunu hissettim
      Tersine, OpenAI kullanıcıları da aynı nedenle kendi modellerinin en iyisi olduğunu düşünecektir
    • Bazı yönleriyle Gemini, kendi tarzında düşünen bir model gibi
      Henüz test etmedim ama komut uygulama becerisi iyileşmiş olabilir
  • Modellerin gelişim hızı gerçekten şaşırtıcı
    Artık bir duvara toslayacaklarını düşünüyordum ama yeni modeller mevcut benchmark’ları tamamen parçalıyor

    • Ancak şirketler benchmark skorlarını optimize etmeye odaklandıkça, bunun gerçek performansla olan korelasyonu giderek azalıyor