2 puan yazan GN⁺ 2025-08-02 | 1 yorum | WhatsApp'ta paylaş
  • Gemini 2.5 Deep Think özelliği, Google AI Ultra abonelerine özel olarak Gemini uygulamasına dahil edildi
  • Yeni paralel düşünme (parallel thinking) tekniği ve araştırma bulgularıyla güncellenerek, IMO’da altın madalya kazanan bir modele dayanıp gerçek kullanıma daha uygun hâle getirildi
  • Yaratıcı problem çözme, matematiksel ve bilimsel akıl yürütme, algoritma geliştirme gibi çeşitli karmaşık görevlerde üstün performans gösteriyor
  • Performansı artırmak için çıkarım süresi (Thinking Time) uzatılıyor; farklı fikir ve çözümleri aynı anda keşfederek daha derin düşünce ve daha yaratıcı sonuçlar üretiyor
  • Güvenlik ve sorumlu yapay zeka geliştirme için, geliştirilmiş değerlendirme ve önlem süreçleri uygulanıyor; ayrıca API ve kurumsal kullanımın genişletilmesi planı duyuruluyor

Gemini 2.5 Deep Think yayını

  • Gemini 2.5 Deep Think özelliği, Google AI Ultra abonelerine Gemini uygulaması üzerinden sunuluyor
  • Güvenilir test kullanıcıları ve araştırmacıların geri bildirimleriyle, en güncel araştırma sonuçlarıyla güncellenmiş bir sürüm
  • Son uluslararası matematik olimpiyatı (IMO) için altın madalya düzeyinde bir modele dayalı olarak, gerçek kullanıcı deneyimine uyacak şekilde hız ve pratiklik iyileştirildi
  • Bu duyuru ile yaratıcılığı artıran bir problem çözme aracı olarak potansiyeli genişletirken, matematikçiler ve araştırmacılardan gelen geri bildirime göre işlevler daha da olgunlaştırılacak

Deep Think'in çalışma prensibi

  • Paralel düşünme tekniği kullanılarak Gemini, karmaşık bir probleme ilişkin çeşitli fikir ve çözümleri aynı anda arayıp karşılaştırıp birleştirebiliyor
  • Modelin çıkarım süresi (Thinking Time) uzatılıyor; böylece birçok hipotez daha derinlemesine incelenip daha yaratıcı çözümler bulunabiliyor
  • Güçlendirilmiş öğrenme ile bu genişletilmiş akıl yürütme yolları aktif biçimde kullanılacak şekilde eğitiliyor, daha sezgisel ve derin bir problem çözme becerisi güçlendiriliyor

Deep Think'in temel performans ve kullanım alanları

  • Aşamalı geliştirme ve tasarım: karmaşık sistemleri veya tasarımları adım adım geliştirme çalışmalarında yüksek performans sergiliyor
  • Bilimsel ve matematiksel keşif: matematiksel akıl yürütme veya bilimsel makale yorumlama gibi yüksek zorluklu yaratıcı keşiflerde güçlüdür
  • Algoritma ve kod geliştirme: problemin yapılandırılması, zaman karmaşıklığı ve ödünleşimleri hesaba katılması gereken zorlu kodlama problemlerinde en gelişmiş performans elde ediyor
  • LiveCodeBench V6 ve Humanity’s Last Exam gibi son benchmarklarda, önceki modellerle karşılaştırıldığında en yüksek düzeyde kod/bilgi/akıl yürütme performansı sunduğu kanıtlandı

Gemini'nin sorumlu geliştirme ve güvenliği

  • Gemini 2.5 Deep Think, güvenlik değerlendirmelerinde önceki Pro modeline göre geliştirilmiş içerik güvenliği ve nesnel ton gösteriyor
  • Karmaşıklık arttıkça risk de birlikte ölçülüyor; Frontier Safety değerlendirmeleri ve gerekli karşı önlemler güçlendiriliyor
  • Ayrıntılı güvenlik sonuçları model kartında görüntülenebilir

Deep Think'in kullanımı

  • Google AI Ultra aboneleri, Gemini uygulamasında model açılır menüsünden 2.5 Pro'yu seçip istem çubuğundaki Deep Think geçişini açarak, günde belirlenen sayıda kullanım hakkını tüketebiliyor
  • Kod çalıştırma, Google arama gibi araçlarla otomatik entegre oluyor ve çok daha uzun yanıtlar üretebiliyor
  • Yakın zamanda Gemini API ve kurumsal için ek testler de yapılacak

1 yorum

 
GN⁺ 2025-08-02
Hacker News görüşleri
  • Yeni çıkan Deep Think agent’ını denedim, ama daha beş prompt girer girmez günlük kullanım limitine ulaştım. Ayda $250 ödeyip böyle bir hizmet almak biraz hayal kırıklığı yaratıyor. o3-pro ya da Grok 4 Heavy’ye kıyasla fiyat/performans açısından belirgin biçimde geride kalıyor. Yapay zeka topluluğunda bu özellik, Google Ultra abonelik ücretini bir nebze olsun haklı çıkarabilecek tek unsur olarak ilgi görüyordu. Ama Google bir yandan AI Studio’da en iyi modelini ücretsiz sunarken, gerçekten para ödeyen Ultra abonelerine böyle bir ücretlendirme politikası uyguluyorsa bunu anlamak çok zor. Performans tarafında ise, işle ilgili zor bir senaryo verdiğimde net ve ikna edici bir çözüm sundu; hatta bu çözüm şirket içi toplantıda vardığımız sonuçla da örtüşüyordu. Ama sonuçta o3 de çok daha düşük bir fiyata benzer bir sonuca ulaştı. Sadece o3’ün raporu biraz daha dağınık görünüyordu. Biraz daha kullanmadan kesin bir şey söylemek zor

    • Tam anlamıyla ticarileşmeye/optimizasyona hazır olmayabilir, ama 2 Ağustos’ta yürürlüğe girecek Avrupa Birliği Yapay Zeka Yasası’ndan (EU AI Act) önce piyasaya sürüp iki yıl boyunca uyum sağlama stratejisi de olabilir. Bu yüzden önce az sayıda kullanıcıya sert kullanım sınırlarıyla açmış olmaları muhtemel diye düşünüyorum
    • Büyük context gerektiren işlerde Deep Think’in performansını merak ediyorum. Parallel thinking belirli problem türlerinde çok faydalı olabilir; bu yüzden klasik chain of thought’un ele alamadığı daha fazla bağlamı işleyip işleyemediğini denemek isterim
    • Yıllar önce kodlama becerisinin ölçüsü, internette arama yapmadan çözebilmek ya da StackOverflow gibi yerlerde iyi formüle edilmiş bir soru paylaşıp sonra cevabını kendin yazmaktı. Bazen “3 gündür uğraşıyordum, bu cevap hayatımı kurtardı” gibi yorumlar gelince gerçekten gurur verici oluyordu. Bu hafta boyunca zor bir problemi çözmeye çalışıyorum, ama Copilot tarzı yapay zeka modelleri neredeyse hiç yardımcı olmadı. Kodlamada gerçek beceri, kimse yardım edemediğinde — hatta yapay zeka bile — kendi başına genelleme, sentez ve yaratıcı düşünce üretmek zorunda kaldığında hissediliyor. (O yüzden yapay zeka kodlama agent’ları tarafından tamamen yerimin alınmasına daha biraz zaman var diye kendimi avutuyorum)
    • Hem Grok 4 hem de 4 Heavy’yi kullandım ve benim deneyimime göre gerçekten çok kötüler. Ne kadar çok sorgu girebildiğinizin önemi yok; yanıtlar kötüyse bir anlamı kalmıyor. Bu yıl LLM’lere yaptığım harcamalar arasında en kötüsü buydu. Çeşitli yapay zeka araçlarına epey para harcadım ama en çok Grok’a verdiğim paraya üzüldüm
    • Google’ın en üst düzey modellerini AI Studio’da bedava sunarken gerçek müşterilerine neredeyse hiçbir şey vermemesi bazen gerçekten şaşırtıcı geliyor. Ama bir yandan da hiç şaşırtıcı değil. Muhtemelen Google, AI Ultra müşterilerinden büyük kâr etmiyordur; AI Studio’nun ücretsiz katmanından elde ettiği büyük ölçekli kullanıcı verisini daha değerli görüyordur. En iyi modelleri ücretsiz açarsa en talepkâr kullanıcıların pazar payını kolayca alır. Sonra da ileride bu kullanıcılar üzerinde ücretlendirme politikası uygulayabilir; ayrıca şu an elindeki atıl sunucu kapasitesini değerlendirmek için de iyi bir strateji olur
  • Millet, Gemini Deep Think’e “bisiklete binen bir pelikanın SVG görselini çiz” diye prompt verdim ve ortaya bu çıktı https://www.svgviewer.dev/s/5R5iTexQ Simon Willison’dan önce denedim!

    • HN’de meme olan her şeyin eğitim verisine girme kaderi var. Her yapay zeka şirketinde bir internün havalı bir pelikan SVG’si çizmek için ter döktüğünü hayal etmek komik
    • Sonuca az önce baktım; gerçekten pelikani andırdığı için şaşırdım, gayet iyi
    • Böyle meme benchmark’ları (ör. çilek çizimi gibi) komik oluyor ama artık model eğitiminde o kadar çok yer alıyorlar ki kolayca kandırılabilen bir ölçüm biçimine dönüşüyorlar
    • Gerçekten gelecekte yaşıyormuşuz hissi veren türden bir değer
    • Dürüst olmak gerekirse ilk kez, “prompt’u görmeden sadece SVG’ye bakıp bunun bisiklete binen bir pelikan olduğunu tahmin edebilirim” diyeceğim bir çıktı görüyorum. Vocal tower örneği de çok etkileyiciydi. Görsel/mekânsal algı açısından ciddi bir ilerleme gibi duruyor
  • Kendiniz denemek isterseniz simonw’nin LLM cli’ını ve llm-consortium eklentisini kullanabilirsinizAvantaj 1: Birden fazla modeli istediğiniz gibi birleştirip kullanabiliyorsunuz. Laboratuvardan bağımsız olarak istediğiniz kombinasyonu kurabiliyorsunuzAvantaj 2: llm-model-gateway eklentisini kullanarak hepsini tek seferde yerel API üzerinden uygulamanıza ya da kodlama işbirliği araçlarınıza bağlayabiliyorsunuz https://x.com/karpathy/status/1870692546969735361
    Kurulumu ve örnek komutları, hatta consortium of consortium da yapılabileceğine dair örneği bile doğrudan yazmış.
    https://GitHub.com/irthomasthomas/llm-consortium

    • Bunun neden Gemini Deep Think’in yerel sürümü olarak anıldığını merak ediyorum. Multi-agent yapısı birçok şekilde kurulabilir diye düşünüyorum. Ayrıca çoklu modellerin covariance’ı nedeniyle hatalar senkronize olabilir; bu yüzden farklı mimari kombinasyonlarla hata korelasyonunu düşürürken tekil doğruluğu korumak performans optimizasyonu için önemli görünüyor. Birden fazla çözümü olan benchmark’larda bunu test etmek isterim
    • Avrupa Birliği’nin (EU) bir consortium of consortiums olup olmadığını merak ediyorum
    • Bu tür bir özelliği destekleyen bir OpenWebUI eklentisi varsa haber vermelerini istemiş
    • llm serve komutunu göremediğini belirtmiş
  • Birkaç hafta önce IMO’da altın madalya alan model bu değil ama ona çok yakın bir akraba gibi https://x.com/OfficialLoganK/status/1951262261512659430Henüz API üzerinden sunulmuyor

  • Bu yaklaşım Grok 4 Heavy’ye benziyor: birden fazla ‘reasoning’ agent’ını paralel çalıştırıp sonra yanıtları karşılaştırarak en iyi cevabı seçiyor ve toplamda yaklaşık 30 dakika sürüyor. Sonuçlar etkileyici, ama aslında Grok 4’e (tek agent, daha hızlı model) değil Grok 4 Heavy’ye karşı benchmark yapmak daha adil olur

    • Aynı reasoning hesaplama gücünü birden fazla agent’a dağıtınca daha iyi sonuç alınıyor. “Uzun düşününce cevabın kötüleşmesi” problemini de birçok kısa paralel düşünce dalıyla aşmak mümkün
    • Yazıda Deep Think’in paralel düşünme yaklaşımıyla farklı fikirleri aynı anda üretip değerlendirdiği, birleştirdiği ve düzelterek nihai çözüme ulaştığı belirtiliyordu. Bu açıklama çoklu agent kullanılıp kullanılmadığını net göstermediği için farklı yorumlara açık gibi geliyor
    • Grok-4 heavy, benchmark’lardaki pek çok soruyu kolayca çözmek için araç kullanıyor; bu yüzden doğrudan karşılaştırmanın sınırları var
    • Google’ın yaklaşımının Mixture of Experts’ten nasıl farklı olduğunu merak ediyorum. Mixture of Experts’te her uzmanın ağırlıkları farklı biçimde eğitiliyor; burada ise düşünce çeşitliliği temperature ayarıyla elde ediliyor. Aynı modeli birkaç kez çalıştırarak fikir çeşitliliği yaratmakla, mimarisi/ağırlıkları gerçekten farklı olan birden fazla modeli aynı anda çalıştırmak arasında hangisinin daha iyi olduğuna dair literatürde doğrudan bir karşılaştırma olup olmadığını merak ediyorum
    • Büyük LLM’leri bir tür karşılaşma formatında aynı yerde çalıştırıp son yanıtı seçen bir uygulamanın hâlâ çıkmamış olması şaşırtıcı
  • OpenAI fiyatı $200’a, Anthropic $100 ve $200’e, Gemini $250’ye, Grok ise $300’e kadar çıkardı. Sadece OpenAI “fiilen sınırsız” dedi ve ChatGPT Pro planında gerçekten hiç limite takılmadım. Claude Max tarafında ise birkaç kez sınıra çarptım. Bu şirketlerin limitleri neden açıkça paylaşmadığını merak ediyorum

    • Amaç çifte ücretlendirme. Fiyatlandırma adil olsaydı sorgu başına token bazlı ücret görünürdü ve herkes kullandığı kadar öderdi. Ama şirketler düzenli sabit gelir istiyor, gerçek kullanım miktarını da mümkün olduğunca düşük tutmak istiyor; bu yüzden aylık ya da yıllık “sınırsızmış gibi” planlar satıyorlar. Sonunda insanlar fiilî kullanımından daha fazlasını ödemiş oluyor
    • Limitleri önceden açıklamamalarının asıl sebebi, piyasa durumu ya da altyapı yüküne göre limitleri esnek biçimde ayarlayabilmek istemeleri. Eskiden ChatGPT görüntü üretimindeki Ghibli çılgınlığında olduğu gibi trafik bir anda patlayınca sınır koyabiliyorlar, şu anki gibi rahat dönemlerde ise gevşetebiliyorlar
    • Limitleri şeffaflaştırırsanız kullanıcılar limite göre hile yapmaya başlar; bu da sonunda herkes için limitlerin daha da düşmesine yol açar. O yüzden açıklamamak pratikte çoğu kullanıcı için daha iyi bir tercih olabilir
  • Son birkaç aydır Gemini kullanırken, aksine giderek kötüleştiğini hissediyorum. Hallucination çok sık oluyor ve bunu gösterdiğinizde bile yapay zeka diretmekten vazgeçmiyor. Güvenmek zorlaşıyor

    • Benim deneyimimde Flash giderek daha iyi oluyor. Pro için para ödüyor olmama rağmen Flash’ı daha sık kullanıyorum. Pro çoğu zaman güncel bilgi aramak yerine eski eğitim verisini tekrar ediyor gibi ve bu hayal kırıklığı yaratıyor; Flash’ta ise bu sorun neredeyse yok. Kodlama için Pro’yu Gemini CLI içinde kullanıyorum; sadece kod yazmakta değil, tasarım dokümanı oluşturma, haftalık görevleri parçalama, takvim yönetimi gibi konularda da inanılmaz iyi. Böyle sistematik bir yapı verdiğinizde kendi bağlamını da kendisi toparlıyormuş gibi hissettiriyor
    • Benim de deneyimim benzer. Gemini Pro’yu artık kullanmıyorum. Aşırı uzun ve kendi içinde çelişkili oluyor. Claude Sonnet 4 ise iyi yanıt veriyor. Son zamanlarda Sonnet ile Opus arasındaki farkın epey kapandığını hissediyorum. Yeni kota sistemi geldikten sonra artık önce Sonnet’i kullanıyorum. Şimdi Opus’la kıyaslandığında bile zor ya da karmaşık problemlerin çoğunu iyi çözüyor. Daha birkaç ay önce bu kadarını söyleyemezdim
    • Bana da Gemini giderek kötüleşiyor gibi geliyor. Ama fiction.livebench gibi benchmark’larda bunu sayısallaştırmak zor. Acaba modeli aşırı agresif quantizing ile çalıştırıyorlar da performans mı düşüyor, yoksa bizim beklentilerimiz mi sürekli yükseliyor diye merak ediyorum
    • Bunun daha çok tool entegrasyonu kaynaklı bir sorun olup olmadığını ve AI Studio’da mı yoksa API üzerinden mi kullandığını sormak isterim. Benim deneyimimde, kullanamayacağı araçları uyduruyor ve sonuçlar hakkında aşırı özgüvenli davranıyor
  • Google AI Ultra abonesiyseniz bugünden itibaren Gemini uygulamasında Deep Think’i (sabit sayıda prompt ile) kullanabileceğiniz söyleniyor. Ama “sabit set” ifadesinin sabit bir sayı mı yoksa önceden tanımlanmış prompt türleri mi anlamına geldiğini daha net öğrenmek istiyorum

    • Limit günde 10 istek. Her prompt üzerinde yaklaşık 30 dakika düşündüğü için genel kodlama ya da fanfic yazımından çok araştırma veya çok katmanlı sentez gerektiren problemlere uygun
  • Gemini CLI ile planlama yaparken, açıkça defalarca kendi kendine beklenmedik işler yapmamasını söyleyip müdahale etsem bile hâlâ keyfi değişiklikler yapmaya çalışıp planı bozduğu oluyor

    • Bu tür agent sistemleri bazen tam tersine daha çok karmaşa çıkarıyor. Claude Code (Anthropic), modelin performansını mümkün olduğunca ortaya çıkaran bir yaklaşım benimsediği için popüler. Ama Gemini CLI, Gemini Pro 2.5’in doğal performansını adeta aşağı çekiyor. Bu yüzden artık Gemini CLI’ı tamamen bıraktım (ücretsiz olsa bile). Yine de prompt ağırlıklı işlerde hâlâ çok güçlü olduğu için düzenli kullanıyorum
    • Ben de benzer bir durum yaşıyorum. Gemini CLI’a soyut ve büyük bir görevi doğrudan verince sürekli hata yapıyor. Ama net bir yapı kurup bağlam üretimini aşamalara ayırdığınızda gerçekten şaşırtıcı sonuçlar veriyor. İlk aşamada sadece kodu okuyup gereksinim tanım belgesi hazırlamasını istiyorum. Sonra o çıktıyı referans alarak ayrıntılı gereksinim spesifikasyonu, API tasarımı, tricky logic için sözde kod gibi belgeleri adım adım üretmesini istiyorum. En sonunda tüm geliştirmeyi hafta, gün ve saat bazında iş planına böldürüyorum; yeterli bilgiyi yükledikten sonra da nihai olarak kodu yazdırıyorum. Tam otomatikleştirilse script’le de yapılabilir ama pratikte insanın inceleyip geri bildirim verdiği, beyin fırtınasının tekrarlandığı yapı çok daha etkili oluyor. Bağlamın %90’ından fazlasını kendi kendine üretirken, son zamanlarda bu yöntemle çoğu hatayı neredeyse tamamen ortadan kaldırabildiğini görüyorum