Gemini 3.0, A/B testiyle kamuya açık biçimde fark edildi

(ricklamers.io)

5 puan yazan GN⁺ 2025-10-17 | 1 yorum | WhatsApp'ta paylaş

Bazı kullanıcılar, Google AI Studio içinde yeni Gemini 3.0 modelinin A/B testi biçiminde sunulduğunu fark etti
Gemini 3.0, kodlama performansında iyileşme beklenen yeni nesil bir model ve kullanıcılar SVG görsel üretim testi üzerinden kalite farkını doğruladı
Test sonuçlarında, Xbox 360 kumandasının SVG üretim çıktısı belirgin biçimde iyileşti ve Gemini 2.5 Pro'ya kıyasla büyük gelişme görüldü
Model tanımlayıcısı ecpt50a2y6mpgkcn; bunun büyük olasılıkla Gemini 3.0 Pro sürümü olduğu düşünülüyor ve çıktı uzunluğunda %40 artış, TTFT'de 24 saniye artış gibi performans değişimleri gözlendi
Bu durum, Google'ın yeni nesil Gemini modelinin deneysel dağıtımına başladığını düşündürüyor ve resmî duyurunun yaklaştığına işaret ediyor

Gemini 3.0'ın gayriresmî olarak ortaya çıkışı ve bağlamı

Son söylentilere göre, Google AI Studio'da A/B testi yoluyla bazı kullanıcıların Gemini 3.0 erişimi olduğu ortaya çıktı
Gemini 3.0, şu anda yapay zeka alanında AI görsel render etme ve kodlama performansındaki iyileşme beklentisiyle büyük ilgi gören bir model
Birden fazla denemenin ardından A/B test ekranı doğrudan deneyimlendi
Kullanılan istem: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
Sonuç olarak Gemini 3.0'ın ürettiği Xbox kumandası SVG'si, detay, doğruluk ve yerleşim bütünlüğü açısından önceki modele göre açık ara daha iyiydi
Gemini 3.0'ın model kimliği ecpt50a2y6mpgkcn olarak doğrulandı, ancak bunun tam olarak hangi sürüm olduğu net değil
Varsayılan seçili model Gemini 2.5 Pro olduğundan, bunun gerçekte Gemini 3.0 Pro ile karşılaştırma olduğu tahmin edilebilir
Gemini 2.5 Pro'ya kıyasla
- TTFT (Time to First Token) yaklaşık 24 saniye arttı
- Çıktı uzunluğu yaklaşık %40 arttı
- Muhakeme token'ları (reasoning tokens) içeriyor olabilir
Reklam

Ek

Gemini 3.0 ile Gemini 2.5 Pro arasındaki A/B karşılaştırmasında elde edilen çıktı görsellerinin listesi

1 yorum

GN⁺ 2025-10-17

Hacker News görüşü

Belki azınlıktayımdır ama iş yerinde tüm pro modellere erişimim varken Gemini’nin ChatGPT, Claude ve Deepseek’ten sürekli daha iyi olduğunu deneyimliyorum. Bunun nedeni web geliştirme, özellikle de çok fazla HTML/SCSS işi yapıyor olmam olabilir; ayrıca Google’ın interneti tarayıp daha fazla veriye sahip olmasının da bir avantaj olduğunu düşünüyorum. Elbette her modelin güçlü olduğu alanlar farklıdır ama UI/UX web geliştirmede Gemini’nin gerçekten öne çıktığını hissediyorum. 3.0 sürümünü gerçekten merakla bekliyorum
- Bana göre Gemini 2.5 Pro, özellikle aşağıdaki iki durumda Claude ve GPT-5’ten daha iyi.
  - Yaratıcı yazarlık: Gemini diğer modellere kıyasla ezici biçimde daha iyi. Kişisel olarak Gemini 2.5 Pro, yaratıcı yazıda (şiir, kısa öykü) gerçekten kullanılabilir bulduğum tek model. Nüansı anlama seviyesi oldukça iyi olduğu için kendi yaratıcı metinlerimi eleştirmede kullanıyorum. Tabii şiir yazımı gibi alanlarda tüm modeller hâlâ yetersiz
  - Karmaşık akıl yürütme (lisans/lisansüstü düzey matematik): Gemini çok az farkla daha doğru olduğu için en iyisi olduğunu düşünüyorum. Claude Opus 4.1 ve Sonnet 4.5 de benzer seviyede ama Gemini 2.5 daha tutarlı ve öngörülebilir yanıtlar veriyor (ben onu sık sık cebir, değişmeli cebir, kategori teorisi, cebirsel geometri, topoloji vb. için kullanıyorum)
  - Ancak tüm büyük kod tabanını tarama ya da açık uçlu sorularda refaktör isteme gibi “ajan” rolünde Gemini, Claude ve GPT-5’ten daha zayıf. Araç çağrılarında kısmi sorunları var, bu yüzden Copilot/Cursor içinde tutarsız çalışıyor
  - Genel olarak Gemini 2.5 Pro’nun en zeki model olduğunu düşünüyorum ama işe göre farklı modeller kullanmak daha doğru
- Birkaç hafta önce üçüncü taraf bir script, React butonumdaki click event’ini bozuyordu; ben de bunu mousedown event’i ekleyerek düzeltmeye çalışıyordum. Yorgundum, bu yüzden hızlı ve kaba bir çözüm olarak mousedown sonrasında birkaç ms bekleyip click simüle eden bir kod yazmayı düşünüyordum. Planımı Gemini’ye anlattığımda bunu doğrudan reddetti ve bunun yerine mousedown ile mouseup kombinasyonunu kullanmamı önererek daha temiz bir çözüm sundu. Sorunu kusursuzca anlayıp benim istediğim yöntem yerine daha iyi bir yol önermesi gerçekten etkileyiciydi
- Şirketimizde başlıca LLM modellerini benchmark ediyoruz ve Gemini 2.5, birkaç çok spesifik alan dışında ezici biçimde 1 numara. Bu, Google’ın pretraining’inin en iyisi olduğu yönündeki söylentilerle de uyumlu; sadece tuning/alignment tarafında biraz eksik kalıyor. Gemini 3 sürümünü gerçekten bu yüzden bekliyorum. 2.5 en iyisi olsa da hâlâ geliştirilecek çok şey var. (Spesifik alanlar: “gerçek akıl yürütme” için GPT-5 ve Python script yazımı için Claude ailesi)
- Arama doğruluğu ya da olguya dayalı işlerde Claude ve Gemini’nin ikisi de bana ChatGPT’den belirgin biçimde daha zayıf geliyor. Gemini birkaç aramadan sonra gelişigüzel uydurmaya başlıyor; buna karşılık ChatGPT onlarca hatta yüzlerce aramaya kadar devam ediyor ve önceki bulgulara dayanarak ek aramalar yapıyor
- Gemini’nin daha geniş context window’u gerçekten çok hoşuma gidiyor. Benim çalışma biçimim tüm kod tabanını string’e çevirip Gemini’ye yapıştırmak ve sonra sorular sormak. İnsanlar “ajan”ların birkaç dosya seçip bakmasını seviyor ama ben tüm kod tabanını olduğu gibi verip kod üretimi, dosya düzenleme vb. işleri konuşmalı şekilde yürütmeyi çok daha kullanışlı ve etkili buluyorum
LLM’lerle SVG üretimine gösterilen aşırı ilgiyi pek anlayamıyorum. Bu iş tek seferde başarılamıyor ve insanların da elle denemesi zor olduğu için çok da kullanışlı değil. Eğer model görsel geri bildirim alıp sonucu iyileştirebiliyorsa daha faydalı olabilir diye düşünüyorum. Bunun popüler bir benchmark görevine dönüşmesiyle şirketler örnek verileri eğitim setine ekliyor; sonuçta bu, genel model kalitesinden çok kimin daha iyi bir “text-to-SVG” veri seti kullandığını karşılaştırmaya dönüyor
Yaklaşık bir aydır Gemini 3 hakkında türlü tahminlerle birlikte haberler geliyor. Resmî duyuru yapılana kadar hüküm vermeyi ertelemek lazım; bunun Pro, Flash, Flash Lite yerine geçecek bir model mi yoksa tamamen yeni bir model mi olduğu, hatta çıkıp çıkmayacağı bile bilinmiyor. AIStudio’daki A/B test biçimi yüzünden tek bir prompt için sadece bir sonuç alabiliyorsunuz; bu da yalnızca hız, gecikme ve komut takibi gibi şeyleri anlamanızı sağlıyor. Böyle bir modelin gerçek performansını tek bir prompt’la değerlendirmek profesyonel bir değerlendirme değil bence. Birden çok dosya işleme ya da araç çağrılarına tepkisini doğal olarak anlayamazsınız. Boşuna beklentiyi şişirip sonra aşırı heyecan ya da hayal kırıklığı yaşamamak gerek. Spekülatif içerikleri sevmememin nedeni de bu; gerçek bağlam ve analiz olmadan sadece sansasyon öne çıkarılıyor
- Sanki bugünlerde hype üretmek başlı başına bir meslek olmuş gibi; her Twitter bağlantısında "GAME CHANGER!!!", "Herkes şok olacak!" gibi abartılı tepkiler görmek biraz sinir bozucu. Gerçek örnekler etkileyici ama yukarıda bahsettiğim profesyonel olmayan değerlendirmelerle dolu olması üzücü
Gerçekten harika bir pelikan çizimi. Gemini 3’ü denemek için çok heyecanlıyım ilgili Twitter örneği
- Benchmark (nihayet) kırıldı
- Beklediğimden daha çok bir sanat eseri gibi
- Bu gerçekten iyi mi? Bana bayağı kötü görünüyor
Bana tuhaf gelen şey şu: Gemini 2.5 Pro çoğu kullanımda üst düzey ama bu ancak ilk soruda geçerli. Yani tüm context’i verdikten sonra tek soru sorup tek yanıt aldığınızda en iyi performansı gösteriyor. Sohbet uzadıkça kalite hızla düşüyor. Üstelik diğer modellere göre context window’u daha genişken bunun olması tuhaf. Ben tüm projeyi (yaklaşık 200 bin token) sohbet penceresine koyup tek bir iyi hazırlanmış soru soruyor ve sonra o sohbet penceresini hemen kapatıyorum
- Uzun süren sohbetlerde yanıt kalitesinin gitgide düşmesi kullandığım tüm LLM’lerde aynıydı. Bu yüzden ikiden fazla mesajlaşmıyorum. İlk yanıtta istediğim sonuç çıkmazsa, mesaj ekledikçe doğru cevabı alma olasılığı giderek azalıyor. Her zaman yeni bir sohbette başlayıp prompt’u ayarlayarak tekrar denemenin daha iyi olduğunu düşünüyorum
“Gemini 3.0 şu anda özellikle kod yazma performansındaki iyileşme nedeniyle en çok beklenen yapay zeka sürümlerinden biri” deniyor ama Google içinde kullanan arkadaşlarımdan duyduğuma göre herkes hayal kırıklığına uğrayacak.
Düzenleme: Aslında şu an Gemini 3’ü kullanamıyorlar, o yüzden kötü olduğunu söylemeleri tersine gayet doğal
- Gemini 3.0 şu anda Google içinde bile yaygın olarak dağıtılmış değil. "Gemini for Google", 2.5 Pro ya da 2.5 Flash’ın fine-tune edilmiş bir sürümü. 3.0 modelinin kendisi geniş çapta kullanılmıyor. (Google çalışanıyım, ödeme ile ilgili bir ekipteyim ve bu kişisel görüşüm)
- Bu heyecanın üzerine su serpmek istemem ama Google içindeki Vibecoding ekibimizde bile Gemini 3 kullanmıyoruz
- Şaşırtıcı değil. LLM’ler performans artışında sınırların, yani azalan getiri bölgesinin, yakınına geldi; artık GPU’ları daha ucuza üretmenin bir yolunu bulmak gerekiyor
Twitter’da Gemini 3 örnekleri çok daha fazla akmaya başladı. Bunları gördükten sonra hemen Google hissesi aldım. Çıktılara bakınca geçmişteki şablonları kopyala-yapıştır etmek yerine gerçekten yaratıcı, yeni tasarımlar ürettiği hissi veriyor. Kod seviyesinde bu kadar tutarlı ve güzel sonuçlar çıkarmak aşırı zor; Gemini 3’ün bunu başarmış gibi görünmesi beni şoke etti. Üstelik modelden donanıma kadar dikey entegrasyonu tamamlamış tek şirketin Google olması, yapay zeka çağında başarılı olma ihtimalini çok yükseltiyor bence
- Finans uzmanı değilim ama sırf hype dolu Twitter paylaşımlarına bakarak hisse almak güvenli bir yatırım yöntemi değildir diye bir tavsiye verebilirim. Ama eğlence için ayırdığın parayla deniyorsan, ne yaparsan yap sorun değil
chetaslua Twitter hesabı Gemini 3 ile ilgili çeşitli deney sonuçları paylaşıyor (web desktop, Vampire Survivor klonu, gerçekten oynanabilir Vogel 3D modeli, çeşitli oyun klonları, SVG vb.). Özellikle one-shot tarzında çıktılar çok iyi ve etkileyici görünüyor
- Şu örnek gerçekten çok özgündü: canlı demo codepen
  Python terminalini çalıştırırsanız biraz eğlenceli, dördüncü duvarı yıkan bir etki ortaya çıkıyor
  1. "Python" print anahtar sözcüğünü kullanırsanız gerçek tarayıcı yazdırma penceresi açılıyor
  2. "Python" open anahtar sözcüğünü kullanırsanız tarayıcıda yeni bir sekme açılıyor ve ilgili dosyaya erişmeye çalışıyor
    Yani print ve open çalıştırmaları doğrudan tarayıcıya bağlanıyor
Looping’in iyileşmesini isterdim. Gerçekten ciddi bir sorun. CLI’da döngü tespiti özelliği var ve kullanmaya başladıktan 1 dakika sonra hemen algılıyor. Gemini app’teki 2.5 Pro’ya da defalarca tekrarlamamasını söyleseniz bile sonunda kelimeleri tekrar tekrar üretmeye başlıyor ve neredeyse kullanılamaz hale geliyor
Modeller SVG’yi “gözleriyle” değerlendirip birkaç kez düzelterek mi çalışıyor, yoksa tek seferde kusursuz sonuç vermeleri mi bekleniyor diye merak ediyorum
- Benim benchmark’ımda sadece tek şans var.
  Render edilmiş sonucu görsel modele gösterip en fazla üç kez iyileştirme yaptırmayı da denedim ama şaşırtıcı şekilde sonuç daha iyi olmadı

Gemini 3.0, A/B testiyle kamuya açık biçimde fark edildi

Gemini 3.0'ın gayriresmî olarak ortaya çıkışı ve bağlamı

Ek

İlgili okumalar

1 yorum

Hacker News görüşü