GPT-3'ten Gemini 3'e Üç Yıl

(oneusefulthing.org)

5 puan yazan GN⁺ 2025-11-26 | 1 yorum | WhatsApp'ta paylaş

Google'ın Gemini 3'ü, basit bir sohbet botunun ötesine geçerek kod yazma, web'de gezinme ve dosya işlemleri gibi gerçek işleri yerine getiren bir dijital iş arkadaşı tipi yapay zekaya dönüştü
Birlikte tanıtılan Antigravity, kullanıcının bilgisayarına erişip otonom biçimde program yazan ve Inbox sistemi üzerinden onay ya da yardım isteyen ajan tabanlı bir araç
Gemini 3, kullanıcının talimatlarına göre web sitesi kurma, veri analizi yapma, makale yazma gibi işleri yerine getiriyor ve PhD düzeyinde araştırma yapabilme yeteneği sergiliyor
Hatalar hâlâ var, ancak bunlar daha çok muhakeme ve anlayış farkı düzeyinde; sistem, insanla birlikte çalışan bir "AI ekip arkadaşı" formuna daha yakın
Yazı, "sohbet botları çağından dijital iş arkadaşları çağına geçildiğini" vurgularken, insanların artık AI'ın hatalarını düzelten kişiler değil, AI'ın işini yöneten yöneticiler hâline geldiğini söylüyor

Gemini 3'ün gelişi ve 3 yıldaki değişim

ChatGPT'nin çıkışından yaklaşık 3 yıl sonra gelen Google Gemini 3, yapay zeka gelişiminin hızını gösteren bir örnek
- 2022'de GPT-3.5 döneminde sistemler yalnızca paragraf ya da şiir üretme düzeyindeydi
- 2025'te Gemini 3, etkileşimli oyunları doğrudan kodlayıp tasarlayabilecek seviyeye ulaştı
Gemini 3, kullanıcının isteği doğrultusunda “Candy-Powered FTL Starship Simulator” adlı gerçekten oynanabilir bir oyun üretti
- Bu, geçmişte yalnızca metin açıklayan AI'ın, artık kodu ve arayüzü doğrudan hayata geçiren bir aşamaya evrildiğini gösteriyor

Antigravity ve ajan tipi AI

Google, Gemini 3 ile birlikte geliştiricilere yönelik Antigravity adlı bir araç da tanıttı
- Bu araç, Claude Code veya OpenAI Codex benzeri şekilde kullanıcının bilgisayarına erişip otonom olarak kod yazan bir sistem
Antigravity, Inbox kavramını devreye sokarak AI'ın çalışma sırasında onay ya da yardıma ihtiyaç duyduğunda kullanıcıya bildirim göndermesini sağlıyor
Kullanıcı İngilizce komut veriyor, AI da bunları kod olarak uyguluyor
- Örneğin yazarın bülten yazısı dosyalarını analiz ederek AI ile ilgili öngörüleri derleyen bir web sitesini otomatik oluşturdu
- AI; web araması, kod çalıştırma ve tarayıcı testi yaptı, ardından sonucu Netlify'a dağıtılabilecek biçimde paketledi

İş birliğine dayalı AI olarak Gemini 3

Gemini 3, çalışma sırasında kullanıcı onayı isteme yoluyla ilerleme durumunu şeffaf biçimde paylaşıyor
- Kullanıcı, AI'ın önerilerini gözden geçirip düzelterek birlikte çalışıyor
- Bu süreç, daha çok "AI yönetimi" deneyimine benziyor
AI kusursuz değil, ancak hatalar çoğunlukla muhakeme farkı veya niyet yorumlama hatası düzeyinde; klasik halüsinasyon sorunu ise neredeyse yok
Gemini 3 ile iş birliği, "ekip arkadaşı yönetmeye" benzetiliyor ve yalnızca prompt girmekten daha ileri bir etkileşim biçimi vurgulanıyor

Araştırma yürütme yeteneği ve 'PhD düzeyi' değerlendirmesi

Gemini 3, araştırma veri setlerini analiz etme ve makale yazma görevlerini yerine getirdi
- Eski bir kitlesel fonlama veri dosyasını kurtarıp düzenledi ve yeni analizler yaptı
- "Girişimcilik ve iş stratejisi" konusunda 14 sayfalık bir makale yazdı
AI, bağımsız hipotezler kurdu, istatistiksel analiz yaptı ve kendi ölçütünü (fikir özgünlüğü ölçümü) oluşturdu
Ortaya çıkan çalışma lisansüstü öğrenci düzeyinde bir tamamlanmışlık gösterse de, bazı istatistiksel teknikler ve kuramsal akış zayıf kaldı
- Ek talimatlar verildiğinde kalite belirgin biçimde arttı
- Yazar, "PhD düzeyinde zekâ uzak değil" değerlendirmesini yaptı

Dijital iş arkadaşına dönüşüm

Gemini 3, düşünen ve uygulayan bir ortak AI olarak dünya genelinde milyarlarca kişinin erişimine açık
AI gelişiminde yavaşlama işareti yok; ajan tabanlı modellerin yükselişi ve AI yönetme becerisinin önemi öne çıkıyor
Yazar bunu, "sohbet botları çağından dijital iş arkadaşları çağına geçiş" olarak tanımlıyor
- İnsanlar artık AI'ın hatalarını düzeltenler değil, AI'ın iş akışını yöneten yöneticiler hâline geliyor
Son olarak Gemini 3, yalnızca kod kullanarak bir blog kapak görseli üretmek gibi, metnin ötesine geçen yaratıcı yetenekler de sergiledi
Ancak AI'a bilgisayara erişim izni verildiğinde güvenlik riskleri bulunduğu için dikkatli olmak gerekiyor

1 yorum

GN⁺ 2025-11-26

Hacker News görüşleri

Bu tür yazıları her gördüğümde hep eksik kalan bir kısım oluyor — soru şu: "iyi mi, doğru mu"
- Etkileyici kısımlar gösteriliyor ama gerçekte çoğu zaman kalite doğrulaması yapılmamış oluyor
- Anladığım kodlarda güvenlik sorunları ya da hatalar görüyorum, ama bilmediğim bir alandaki 14 sayfalık makalede sadece “iyidir diye mi inanmalıyım?” diye düşündürüyor
- Sonuçta benim bildiklerimde bunun sevk edilemeyecek düzeyde olduğunu görüyorum, bilmediklerim ise bana etkileyiciymiş gibi geliyor
- Bu çelişki bana mantıklı gelmiyor
- Uzman değerlendirmesine güvenmek ya da doğrudan doğrulanabilir karmaşık işler yaptırmak gibi yollar var
  - Örneğin eskiden edgeDetect(image) gibi bir Sobel filtresi kodu yazdırınca, modelden modele başarılı olup olmaması değişiyordu
  - Yakın zamanda bir WebGL glow shader yaptırdım; gerçekten çalışan bir demo üretti ve benim yazdığım modülle uyumluydu
  - Bunlar performans ve görsel doğruluk açısından doğrudan doğrulanabiliyor
  - Ama “yapabiliyor” demesi her seferinde yaptığı anlamına gelmiyor; en az bir kez başarmış olduğu anlamında görmek lazım
- Son nesil modeller (Codex 5.1, Sonnet 4.5, Opus 4.5) giderek daha sevke hazır hale geliyor
  - Benim ölçütüm “satır başına WTF sayısı” ve bu değer hızla düşüyor
  - Codex 5.1 ile birkaç projeyi sorunsuz biçimde deploy ettim (ör. pine.town)
- Yazının ilerleyen kısmında makalenin gerçek güçlü ve zayıf yanları da geçiyor
- Model, kullanıcıyı memnun etme eğilimi nedeniyle bazen sahte bir özgüvenle yanlış cevaplar verebiliyor
  - Kullanıcı doğrulamazsa buna kanabilir
Şimdiye kadar AI ile etkileşim kurma biçimimizin çoğunlukla metin kutusu merkezli olması ilginç
- Claude Code ya da OpenAI Codex gibi araçların ortaya çıkması büyük bir değişimdi
- Gelecekte AI arayüzünü kimin gerçekten doğru kuracağına bağlı olarak çok büyük bir değer ortaya çıkacak gibi görünüyor
- Metin, bilgi yoğunluğu yüksek olduğu için hâlâ verimli
  - Birkaç saniyede kaydırarak göz gezdirebilirsiniz ve klavye hâlâ en üretken giriş aracı
- Unix CLI'ın 50 yılı aşkın süredir metin tabanlı kalmasının nedeni de aynı bağlamda
  - PowerShell gibi yapılandırılmış veri denemeleri olsa da sonuçta genellikten uzak kalıyor
  - Daha güçlü yaklaşım, AI'nin insanların mevcut arayüzlerini anlamasını sağlamak
- AI UI için yeni bir şey bulma takıntısı biraz abartılı geliyor
  - Özünde insanların en rahat işlediği şey hâlâ metin, tablo ve grafikler
- Dünya özünde çok modlu
  - Metni ve çeşitli veri tiplerini bütünlüklü biçimde ele alan birleşik bir arayüzün bir sonraki adım olduğunu düşünüyorum
  - Özellikle robotik ilerledikçe 3D öğeler de önemli hale gelecek gibi
- ChatGPT'nin sesli arayüzü şaşırtıcı derecede doğal; hatta beyin fırtınası için daha uygun olabilir
“Halüsinasyon” sorunu hâlâ var
- Daha incelikli ve insana benzer hatalar arttı, ama aynı zamanda ölümcül hatalar da hâlâ araya karışıyor
- Claude'a 20 sayfalık bir kısa öykü yazdırdım, ama temel zaman sırası ya da karakter tutarlılığını bile koruyamadı
- Son modeller artık basit hata yapmak yerine kendinden emin bir şekilde yanlış iddialar öne sürüyor, hatta var olmayan kaynaklar bile uyduruyor
“PhD düzeyinde zekâ mı?” sorusuna gelirsek, yüksek lisans/doktora öğrencisi olarak benzer bir his alıyorum
- Son modellerle konuşunca, sanki alanında uzman bir araştırmacıyla konuşuyormuşum gibi bir izlenim veriyor
- Yine de insanın doğal zekâsı ve motivasyonunun hâlâ önemli olduğunu düşünüyorum
- Kodlamada sanki iki geliştiriciyle çalışıyormuşum gibi — biri yetkin bir orta seviye geliştirici, diğeri tamamen alakasız biri
  - Sorun şu ki ikisi de aynı görünüyor, ayırt edemiyorsunuz
- Ben sık sık iki SOTA modeli birbirleriyle konuşturma deneyi yapıyorum
  - Yakın zamanda Gemini-3 ile ChatGPT-5.1'i karşı karşıya getirdim; insan düşünmeyi bıraktığında ortaya çıkabilecek sinirsel körelme (neural atrophy) sorununu tartıştılar
  - AI'nin insanı bilerek “düşünmeye zorlaması” gerekip gerekmediğini konuştukları an özellikle etkileyiciydi
- HN'de bu tür görüşlerin bazen nedensiz yere eksilenmesi üzücü
Google'ın ilerleyişi yalnızca yazılımda değil, donanımda da gerçekleşiyor
- Eğitim ve çıkarımın ikisini de kendi donanımıyla yürütüyor
- Eskiden Google'ın gücü genel amaçlı donanımı kullanmaktı, ama şimdi tamamen farklı bir yöne evrilmiş durumda
Gemini 3 etkileyici, ama hâlâ mevcut literatürün sınırları içinde kaldığı hissini veriyor
- Matematik problemlerinde yeni fikir istediğinizde mevcut sonuçları tekrar ediyor
- Terrence Tao da bunu matematik problem çözümünde kullandı, ama tamamen yeni sonuçlar üretmekten çok fikir destek aracı gibi kullanıyor görünüyordu
- Ben de Thinking with 3 Pro ile denedim; kaşıkla besler gibi ipucu vermeden kendi fikrime yaklaşamadı
- Sonuçta hayranlığımız, modelin yeteneğinden çok kullanıcının beklenti sınırlarından kaynaklanıyor olabilir
- Bu tür modeller özünde yeni fikirlerin kaynağı olmaktan çok bir bilgi kütüphanecisine daha yakın
- Gerçek yaratıcı keşif, olasılıksal olarak daha az keşfedilmiş alanlarda dolaşmayı ve hedefleri kendi başına belirleyip değerlendirmeyi gerektirir
  - Mevcut Transformer mimarisi en olası token'ı seçmek üzere tasarlandığı için, özünde yenilikten çok tutarlılığı hedefliyor
  - Bu yüzden temperature yükseltmek de yaratıcılıktan çok metin tutarlılığının bozulmasına yol açıyor
  - Bunu çözmek için uyarlanabilir hedef üretimi ve simülasyon tabanlı değerlendirme gerekir, ama bunun hesaplama maliyeti çok yüksek
  - Sonuçta bugünkü LLM mimarisiyle gerçek zekâya ulaşmanın zor olduğunu düşünüyorum
- “Gerçek zamanlı web araması kullan” şeklinde bir özel talimat eklemek, güncel bilgi aramada yardımcı oluyor
GPT-3'ün çıkış tarihi 2020 Haziran'dı ve ChatGPT de 3.5 sürümüydü
- Küçük bir hata ama tam olarak belirtmek istedim
“Human in the loop”un, AI'nin hatalarını düzelten insan modelinden AI'yi yöneten insan modeline evrildiği söyleniyor; bunu uzun zamandır duyuyorum
- Bunun gerçekte ne zaman net biçimde gerçekleşeceğini merak ediyorum
- Tam anlamıyla net bir an olmayacak gibi geliyor
  - Nasıl ki bir yönetici sadece “talimat veren kişi” olamazsa, burada da her zaman bir düzeltme oranı olacaktır
- CLI araçlarını ve ajanları doğrudan birbirine bağlayınca, bu eşik noktasının aslında çoktan geçildiğini hissediyorsunuz
- Ben şahsen zaten AI'yi yönettiğim aşamaya geldiğimi hissediyorum
Claude Code ya da Antigrav gibi araçları doğrudan yerel sistemde çalıştırmanın güvenli olup olmadığı konusunda soru işaretlerim var
- VS Code tabanlı ürünler çalışma alanı erişim kısıtları sayesinde daha güvenli, ama Warp gibi terminaller bunu komut izin/engelleme listeleriyle kontrol ediyor
- Bazılarında bu kısıtlar flag ile kaldırılabiliyor ama bunu bilerek yapmak gerekiyor
- Ben bu tür işleri her zaman yalnızca bir Podman geliştirme konteyneri içinde çalıştırıyorum
- Bu sorunu çözmek için geliştirilen araç Leash — güvenlik kontrolleri için açık kaynak bir proje
- Bazıları ise doğrudan “Yolo” deyip riski alarak çalıştırıyor
- Gerçekte kullanıcıların çoğu bunları doğrudan yerelde çalıştırıyor

GPT-3'ten Gemini 3'e Üç Yıl

Gemini 3'ün gelişi ve 3 yıldaki değişim

Antigravity ve ajan tipi AI

İş birliğine dayalı AI olarak Gemini 3

Araştırma yürütme yeteneği ve 'PhD düzeyi' değerlendirmesi

Dijital iş arkadaşına dönüşüm

İlgili okumalar

1 yorum

Hacker News görüşleri