5 puan yazan GN⁺ 2025-11-26 | 1 yorum | WhatsApp'ta paylaş
  • Google'ın Gemini 3'ü, basit bir sohbet botunun ötesine geçerek kod yazma, web'de gezinme ve dosya işlemleri gibi gerçek işleri yerine getiren bir dijital iş arkadaşı tipi yapay zekaya dönüştü
  • Birlikte tanıtılan Antigravity, kullanıcının bilgisayarına erişip otonom biçimde program yazan ve Inbox sistemi üzerinden onay ya da yardım isteyen ajan tabanlı bir araç
  • Gemini 3, kullanıcının talimatlarına göre web sitesi kurma, veri analizi yapma, makale yazma gibi işleri yerine getiriyor ve PhD düzeyinde araştırma yapabilme yeteneği sergiliyor
  • Hatalar hâlâ var, ancak bunlar daha çok muhakeme ve anlayış farkı düzeyinde; sistem, insanla birlikte çalışan bir "AI ekip arkadaşı" formuna daha yakın
  • Yazı, "sohbet botları çağından dijital iş arkadaşları çağına geçildiğini" vurgularken, insanların artık AI'ın hatalarını düzelten kişiler değil, AI'ın işini yöneten yöneticiler hâline geldiğini söylüyor

Gemini 3'ün gelişi ve 3 yıldaki değişim

  • ChatGPT'nin çıkışından yaklaşık 3 yıl sonra gelen Google Gemini 3, yapay zeka gelişiminin hızını gösteren bir örnek
    • 2022'de GPT-3.5 döneminde sistemler yalnızca paragraf ya da şiir üretme düzeyindeydi
    • 2025'te Gemini 3, etkileşimli oyunları doğrudan kodlayıp tasarlayabilecek seviyeye ulaştı
  • Gemini 3, kullanıcının isteği doğrultusunda “Candy-Powered FTL Starship Simulator” adlı gerçekten oynanabilir bir oyun üretti
    • Bu, geçmişte yalnızca metin açıklayan AI'ın, artık kodu ve arayüzü doğrudan hayata geçiren bir aşamaya evrildiğini gösteriyor

Antigravity ve ajan tipi AI

  • Google, Gemini 3 ile birlikte geliştiricilere yönelik Antigravity adlı bir araç da tanıttı
    • Bu araç, Claude Code veya OpenAI Codex benzeri şekilde kullanıcının bilgisayarına erişip otonom olarak kod yazan bir sistem
  • Antigravity, Inbox kavramını devreye sokarak AI'ın çalışma sırasında onay ya da yardıma ihtiyaç duyduğunda kullanıcıya bildirim göndermesini sağlıyor
  • Kullanıcı İngilizce komut veriyor, AI da bunları kod olarak uyguluyor
    • Örneğin yazarın bülten yazısı dosyalarını analiz ederek AI ile ilgili öngörüleri derleyen bir web sitesini otomatik oluşturdu
    • AI; web araması, kod çalıştırma ve tarayıcı testi yaptı, ardından sonucu Netlify'a dağıtılabilecek biçimde paketledi

İş birliğine dayalı AI olarak Gemini 3

  • Gemini 3, çalışma sırasında kullanıcı onayı isteme yoluyla ilerleme durumunu şeffaf biçimde paylaşıyor
    • Kullanıcı, AI'ın önerilerini gözden geçirip düzelterek birlikte çalışıyor
    • Bu süreç, daha çok "AI yönetimi" deneyimine benziyor
  • AI kusursuz değil, ancak hatalar çoğunlukla muhakeme farkı veya niyet yorumlama hatası düzeyinde; klasik halüsinasyon sorunu ise neredeyse yok
  • Gemini 3 ile iş birliği, "ekip arkadaşı yönetmeye" benzetiliyor ve yalnızca prompt girmekten daha ileri bir etkileşim biçimi vurgulanıyor

Araştırma yürütme yeteneği ve 'PhD düzeyi' değerlendirmesi

  • Gemini 3, araştırma veri setlerini analiz etme ve makale yazma görevlerini yerine getirdi
    • Eski bir kitlesel fonlama veri dosyasını kurtarıp düzenledi ve yeni analizler yaptı
    • "Girişimcilik ve iş stratejisi" konusunda 14 sayfalık bir makale yazdı
  • AI, bağımsız hipotezler kurdu, istatistiksel analiz yaptı ve kendi ölçütünü (fikir özgünlüğü ölçümü) oluşturdu
  • Ortaya çıkan çalışma lisansüstü öğrenci düzeyinde bir tamamlanmışlık gösterse de, bazı istatistiksel teknikler ve kuramsal akış zayıf kaldı
    • Ek talimatlar verildiğinde kalite belirgin biçimde arttı
    • Yazar, "PhD düzeyinde zekâ uzak değil" değerlendirmesini yaptı

Dijital iş arkadaşına dönüşüm

  • Gemini 3, düşünen ve uygulayan bir ortak AI olarak dünya genelinde milyarlarca kişinin erişimine açık
  • AI gelişiminde yavaşlama işareti yok; ajan tabanlı modellerin yükselişi ve AI yönetme becerisinin önemi öne çıkıyor
  • Yazar bunu, "sohbet botları çağından dijital iş arkadaşları çağına geçiş" olarak tanımlıyor
    • İnsanlar artık AI'ın hatalarını düzeltenler değil, AI'ın iş akışını yöneten yöneticiler hâline geliyor
  • Son olarak Gemini 3, yalnızca kod kullanarak bir blog kapak görseli üretmek gibi, metnin ötesine geçen yaratıcı yetenekler de sergiledi
  • Ancak AI'a bilgisayara erişim izni verildiğinde güvenlik riskleri bulunduğu için dikkatli olmak gerekiyor

1 yorum

 
GN⁺ 2025-11-26
Hacker News görüşleri
  • Bu tür yazıları her gördüğümde hep eksik kalan bir kısım oluyor — soru şu: "iyi mi, doğru mu"

    • Etkileyici kısımlar gösteriliyor ama gerçekte çoğu zaman kalite doğrulaması yapılmamış oluyor
    • Anladığım kodlarda güvenlik sorunları ya da hatalar görüyorum, ama bilmediğim bir alandaki 14 sayfalık makalede sadece “iyidir diye mi inanmalıyım?” diye düşündürüyor
    • Sonuçta benim bildiklerimde bunun sevk edilemeyecek düzeyde olduğunu görüyorum, bilmediklerim ise bana etkileyiciymiş gibi geliyor
    • Bu çelişki bana mantıklı gelmiyor
    • Uzman değerlendirmesine güvenmek ya da doğrudan doğrulanabilir karmaşık işler yaptırmak gibi yollar var
      • Örneğin eskiden edgeDetect(image) gibi bir Sobel filtresi kodu yazdırınca, modelden modele başarılı olup olmaması değişiyordu
      • Yakın zamanda bir WebGL glow shader yaptırdım; gerçekten çalışan bir demo üretti ve benim yazdığım modülle uyumluydu
      • Bunlar performans ve görsel doğruluk açısından doğrudan doğrulanabiliyor
      • Ama “yapabiliyor” demesi her seferinde yaptığı anlamına gelmiyor; en az bir kez başarmış olduğu anlamında görmek lazım
    • Son nesil modeller (Codex 5.1, Sonnet 4.5, Opus 4.5) giderek daha sevke hazır hale geliyor
      • Benim ölçütüm “satır başına WTF sayısı” ve bu değer hızla düşüyor
      • Codex 5.1 ile birkaç projeyi sorunsuz biçimde deploy ettim (ör. pine.town)
    • Yazının ilerleyen kısmında makalenin gerçek güçlü ve zayıf yanları da geçiyor
    • Model, kullanıcıyı memnun etme eğilimi nedeniyle bazen sahte bir özgüvenle yanlış cevaplar verebiliyor
      • Kullanıcı doğrulamazsa buna kanabilir
  • Şimdiye kadar AI ile etkileşim kurma biçimimizin çoğunlukla metin kutusu merkezli olması ilginç

    • Claude Code ya da OpenAI Codex gibi araçların ortaya çıkması büyük bir değişimdi
    • Gelecekte AI arayüzünü kimin gerçekten doğru kuracağına bağlı olarak çok büyük bir değer ortaya çıkacak gibi görünüyor
    • Metin, bilgi yoğunluğu yüksek olduğu için hâlâ verimli
      • Birkaç saniyede kaydırarak göz gezdirebilirsiniz ve klavye hâlâ en üretken giriş aracı
    • Unix CLI'ın 50 yılı aşkın süredir metin tabanlı kalmasının nedeni de aynı bağlamda
      • PowerShell gibi yapılandırılmış veri denemeleri olsa da sonuçta genellikten uzak kalıyor
      • Daha güçlü yaklaşım, AI'nin insanların mevcut arayüzlerini anlamasını sağlamak
    • AI UI için yeni bir şey bulma takıntısı biraz abartılı geliyor
      • Özünde insanların en rahat işlediği şey hâlâ metin, tablo ve grafikler
    • Dünya özünde çok modlu
      • Metni ve çeşitli veri tiplerini bütünlüklü biçimde ele alan birleşik bir arayüzün bir sonraki adım olduğunu düşünüyorum
      • Özellikle robotik ilerledikçe 3D öğeler de önemli hale gelecek gibi
    • ChatGPT'nin sesli arayüzü şaşırtıcı derecede doğal; hatta beyin fırtınası için daha uygun olabilir
  • “Halüsinasyon” sorunu hâlâ var

    • Daha incelikli ve insana benzer hatalar arttı, ama aynı zamanda ölümcül hatalar da hâlâ araya karışıyor
    • Claude'a 20 sayfalık bir kısa öykü yazdırdım, ama temel zaman sırası ya da karakter tutarlılığını bile koruyamadı
    • Son modeller artık basit hata yapmak yerine kendinden emin bir şekilde yanlış iddialar öne sürüyor, hatta var olmayan kaynaklar bile uyduruyor
  • “PhD düzeyinde zekâ mı?” sorusuna gelirsek, yüksek lisans/doktora öğrencisi olarak benzer bir his alıyorum

    • Son modellerle konuşunca, sanki alanında uzman bir araştırmacıyla konuşuyormuşum gibi bir izlenim veriyor
    • Yine de insanın doğal zekâsı ve motivasyonunun hâlâ önemli olduğunu düşünüyorum
    • Kodlamada sanki iki geliştiriciyle çalışıyormuşum gibi — biri yetkin bir orta seviye geliştirici, diğeri tamamen alakasız biri
      • Sorun şu ki ikisi de aynı görünüyor, ayırt edemiyorsunuz
    • Ben sık sık iki SOTA modeli birbirleriyle konuşturma deneyi yapıyorum
      • Yakın zamanda Gemini-3 ile ChatGPT-5.1'i karşı karşıya getirdim; insan düşünmeyi bıraktığında ortaya çıkabilecek sinirsel körelme (neural atrophy) sorununu tartıştılar
      • AI'nin insanı bilerek “düşünmeye zorlaması” gerekip gerekmediğini konuştukları an özellikle etkileyiciydi
    • HN'de bu tür görüşlerin bazen nedensiz yere eksilenmesi üzücü
  • Google'ın ilerleyişi yalnızca yazılımda değil, donanımda da gerçekleşiyor

    • Eğitim ve çıkarımın ikisini de kendi donanımıyla yürütüyor
    • Eskiden Google'ın gücü genel amaçlı donanımı kullanmaktı, ama şimdi tamamen farklı bir yöne evrilmiş durumda
  • Gemini 3 etkileyici, ama hâlâ mevcut literatürün sınırları içinde kaldığı hissini veriyor

    • Matematik problemlerinde yeni fikir istediğinizde mevcut sonuçları tekrar ediyor
    • Terrence Tao da bunu matematik problem çözümünde kullandı, ama tamamen yeni sonuçlar üretmekten çok fikir destek aracı gibi kullanıyor görünüyordu
    • Ben de Thinking with 3 Pro ile denedim; kaşıkla besler gibi ipucu vermeden kendi fikrime yaklaşamadı
    • Sonuçta hayranlığımız, modelin yeteneğinden çok kullanıcının beklenti sınırlarından kaynaklanıyor olabilir
    • Bu tür modeller özünde yeni fikirlerin kaynağı olmaktan çok bir bilgi kütüphanecisine daha yakın
    • Gerçek yaratıcı keşif, olasılıksal olarak daha az keşfedilmiş alanlarda dolaşmayı ve hedefleri kendi başına belirleyip değerlendirmeyi gerektirir
      • Mevcut Transformer mimarisi en olası token'ı seçmek üzere tasarlandığı için, özünde yenilikten çok tutarlılığı hedefliyor
      • Bu yüzden temperature yükseltmek de yaratıcılıktan çok metin tutarlılığının bozulmasına yol açıyor
      • Bunu çözmek için uyarlanabilir hedef üretimi ve simülasyon tabanlı değerlendirme gerekir, ama bunun hesaplama maliyeti çok yüksek
      • Sonuçta bugünkü LLM mimarisiyle gerçek zekâya ulaşmanın zor olduğunu düşünüyorum
    • “Gerçek zamanlı web araması kullan” şeklinde bir özel talimat eklemek, güncel bilgi aramada yardımcı oluyor
  • GPT-3'ün çıkış tarihi 2020 Haziran'dı ve ChatGPT de 3.5 sürümüydü

    • Küçük bir hata ama tam olarak belirtmek istedim
  • “Human in the loop”un, AI'nin hatalarını düzelten insan modelinden AI'yi yöneten insan modeline evrildiği söyleniyor; bunu uzun zamandır duyuyorum

    • Bunun gerçekte ne zaman net biçimde gerçekleşeceğini merak ediyorum
    • Tam anlamıyla net bir an olmayacak gibi geliyor
      • Nasıl ki bir yönetici sadece “talimat veren kişi” olamazsa, burada da her zaman bir düzeltme oranı olacaktır
    • CLI araçlarını ve ajanları doğrudan birbirine bağlayınca, bu eşik noktasının aslında çoktan geçildiğini hissediyorsunuz
    • Ben şahsen zaten AI'yi yönettiğim aşamaya geldiğimi hissediyorum
  • Claude Code ya da Antigrav gibi araçları doğrudan yerel sistemde çalıştırmanın güvenli olup olmadığı konusunda soru işaretlerim var

    • VS Code tabanlı ürünler çalışma alanı erişim kısıtları sayesinde daha güvenli, ama Warp gibi terminaller bunu komut izin/engelleme listeleriyle kontrol ediyor
    • Bazılarında bu kısıtlar flag ile kaldırılabiliyor ama bunu bilerek yapmak gerekiyor
    • Ben bu tür işleri her zaman yalnızca bir Podman geliştirme konteyneri içinde çalıştırıyorum
    • Bu sorunu çözmek için geliştirilen araç Leash — güvenlik kontrolleri için açık kaynak bir proje
    • Bazıları ise doğrudan “Yolo” deyip riski alarak çalıştırıyor
    • Gerçekte kullanıcıların çoğu bunları doğrudan yerelde çalıştırıyor