- Nano Banana Pro, Gemini 3 Pro tabanlı Google DeepMind'in en yeni görüntü üretme ve düzenleme modeli olup görsel fikirleri hassas biçimde hayata geçirme yeteneği sunuyor
- Metin oluşturma kalitesindeki iyileşme ve çok dilli destek sayesinde poster, mockup, infografik gibi işlerde okunması kolay ifadeler doğrudan görsele eklenebiliyor
- En fazla 14 görseli birleştirme, 5 kişide karakter tutarlılığını koruma, 2K~4K çözünürlük desteği gibi özelliklerle yüksek kaliteli görsel içerik üretimini destekliyor
- Google Ads, Workspace, Gemini uygulaması, AI Studio gibi çeşitli Google ürünlerine entegre edilerek tüketiciler, profesyoneller ve geliştiriciler tarafından kullanılabiliyor
- SynthID filigranı, yapay zeka ile üretilen görsellerde şeffaflığı sağlarken AI içerik tanımlama özelliği de doğrudan Gemini uygulamasında sunuluyor
Nano Banana Pro'ya genel bakış
- Nano Banana Pro, Gemini 3 Pro'nun akıl yürütme yeteneği ve dünya bilgisini kullanarak görsel bilgiyi ayrıntılı biçimde görselleştiren bir model
- Önceki sürüm olan Nano Banana (Gemini 2.5 Flash Image) sonrasında çıkan yükseltilmiş sürüm
- Fikir geliştirme, veri görselleştirme, el yazısı notları diyagrama dönüştürme gibi çeşitli tasarım işlerini destekliyor
Başlıca özellikler
- Doğru ve bağlam açısından zengin görseller üretme
- Gemini 3'ün gelişmiş akıl yürütme yetenekleri sayesinde eğitim amaçlı infografikler, diyagramlar gibi olgu temelli içerikler üretebiliyor
- Google Search'ün gerçek zamanlı bilgileriyle entegre çalışarak hava durumu, spor, tarifler gibi canlı verileri görselleştirebiliyor
- Çok dilli metin üretimi
- Görsel içindeki metni doğru ve kolay okunur biçimde sunuyor, ayrıca birden fazla dile çeviri ve yerelleştirme yapabiliyor
- Çeşitli font, doku ve tipografi stilleri kullanarak poster veya marka içerikleri üretimine uygun
- Yüksek kaliteli görsel ifade
- En fazla 14 görseli birleştirme ve 5 kişide karakter tutarlılığını koruma ile karmaşık kompozit görseller oluşturabiliyor
- Yerel düzenleme, kamera açısı ayarı, renk düzeltme, ışık geçişi gibi ince düzenleme kontrolleri sunuyor
- 2K ve 4K çözünürlük ile çeşitli en-boy oranlarını destekleyerek hem baskı hem dijital platformlara uyum sağlıyor
Kullanım ortamları
- Tüketiciler ve öğrenciler için
- Gemini uygulamasındaki 'Create images' özelliğinde Nano Banana Pro kullanılabiliyor
- Ücretsiz kullanıcılar sınırlı üretim kotasının ardından temel Nano Banana'ya geçiyor
- Google AI Plus, Pro ve Ultra aboneleri daha yüksek üretim limitlerine sahip oluyor
- Profesyoneller için
- Google Ads içindeki görsel üretme özelliği Nano Banana Pro'ya yükseltildi
- Google Workspace içindeki Slides ve Vids'de de kullanılabiliyor
- Geliştiriciler ve kurumlar için
- Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise gibi platformlarda genişletilmiş destek sunuluyor
- İçerik üreticileri için
- Flow aracı üzerinden video üreticileri ve pazarlamacılar sahne bazında ayrıntılı kontrol sağlayabiliyor
Yapay zeka ile üretilen görsellerin tanımlanması ve şeffaflık
- Nano Banana Pro ile üretilen tüm görsellere kaynak tespiti için SynthID dijital filigranı ekleniyor
- Gemini uygulamasında görsel yükleyerek bunun “Google AI ile üretilip üretilmediği” doğrudan kontrol edilebiliyor
- Ücretsiz ve Pro kullanıcılarının görsellerine görünür filigran (Gemini sparkle) de ekleniyor
- Ultra aboneleri ve AI Studio geliştirici araçları için filigransız temiz tuval sunuluyor
- SynthID'nin gelecekte ses ve video içeriklerine de genişletilmesi planlanıyor
İlgili materyaller
- Build with Nano Banana Pro: geliştiriciler için Gemini 3 Pro Image modelinin tanıtımı
- Prompting Tips for Nano Banana Pro: etkili prompt yazımı rehberi
- AI Image Verification in Gemini App: SynthID tabanlı görsel doğrulama özelliğinin açıklaması
Orijinal metinde ek bilgi yok
1 yorum
Hacker News yorumları
Bu hafta Google sanki Godzilla gibi hareket ediyormuş gibi hissettirdi
İlk kez AI Studio’ya kart bağlamayı denedim ama ödeme süreci fazlasıyla karmaşıktı
Tüm ayarları tamamlamama rağmen sürekli “permission denied” hatası aldım
Bu kadar uğraşıp bir de para ödeyeceksem, model ne kadar iyi olursa olsun bir anlamı kalmıyor
Erişilebilirliği artırmak için ekip yoğun şekilde iyileştirmeler yapıyor
Ödeme tarafındaki sürtünmeyi azaltmak için AI Studio’ya entegre ödeme sistemi hazırlanıyor ve ocak ayında dünya genelinde kullanıma sunulmasının planlandığı söyleniyor
Diğer servislerde tek bir API anahtarı yeterliyken, Google’da hesap oluşturma → uygulama oluşturma → servisi etkinleştirme → OAuth uygulaması oluşturma → JSON indirme adımlarının hepsini yapmak gerekiyor
Kayıt süreci çok daha basit ve çeşitli yapay zeka modelleri sunuyor
Sırf basit bir test için GCP projesi oluşturmak fazlasıyla ağır kaçıyor
Tüm düzenleme odaklı prompt’larımı Nano Banana Pro ile yeniden test ettim
SHRDLU, M&M Van Halen ve Scorpio Street testlerini geçti
Sonuçlara buradan bakabilirsiniz
NB Pro, orijinal NB’ye kıyasla belirgin şekilde daha iyi performans gösterdi
Testin kendisi pek uygun değilmiş gibi geldi
Sonuç kusursuz değil ama isteneni yerine getirdi
Net bilgi gerektiren prompt’ları geçiyor ama sadece eğik bir nesneyi düzleştirmek hâlâ zor
Slider yerine orijinal-sonuç eşzamanlı gösterim daha sezgisel olabilir
Birkaç aydır Nano Banana prompt engineering analizi yapıyordum, Google da yeni sürümü çıkardı
Yeni model gemimg paketi içinde doğrudan çalışıyor
Ama fiyatı yüksek olduğu için varsayılan model yapmak zor
Dokümana göre model ara görselleri (Thinking aşaması) en fazla iki adet üretiyor
Bu da maliyet artışının nedeni olabilir
Model sağ ve solu gözlemcinin bakış açısına göre yorumlayıp yanlış yerleştirdi
Bu tür göreli yönerge hataları tıp alanında da sık görülen bir sorun
İlgili örnek bağlantısı
Prompt’ların çoğu NB Pro’da da iyi çalışıyor
Rehber bağlantısı
Benim deney sonuçlarımı da paylaştım
“Studio Ghibli tarzına dönüştürme” ChatGPT’ye göre çok daha isabetli
Ama aşırı gerçekçi görseller bazen uncanny valley etkisine düşebiliyor
Teknolojik değişime uyum sağlayan esnek araç tasarımının ne kadar önemli olduğunu yeniden hatırlattı
Kısa prompt’larla tam bir infografik üretme becerisi şaşırtıcı
“Datasette projesi nasıl çalışır” diye istedim, oldukça tamamlanmış bir sonuç aldım
Sonuç bağlantısı
Şu anda metni ayrı render ediyorduk, artık tek seferde yapmak mümkün olabilir
Sonuç görseline bakabilirsiniz
GitHub bağlantısı
Bunu Instagram için kare formata da otomatik dönüştürdü
Yapay zeka görselleri artık bariz artefaktlar üretmiyor ama stil yüzünden hâlâ yapay zeka ürünü oldukları anlaşılıyor
Özellikle infografikler, insan yapımı olanlardan ayırt edilebildi
Bu, belirli veri setlerinin aşırı temsil edilmesinin sonucu gibi görünüyor
Ortalama üzerinden eğitilmiş modeller “ortalama bir görsel uzayı” üretiyor
İlgili örneklere bakınca, ince ayarla daha gerçekçi sonuçlar almak mümkün görünüyor
Bazı modeller kasıtlı olarak stili törpüleyerek yapay bir his bırakıyor
Açık modellerde LoRA ile ince ayar yapılabiliyor ama kapalı modellerde bunun zor olması sorun
Daha özgün görseller isteniyorsa prompt’un kendisinin daha yaratıcı olması gerekiyor
Bu yüzden sıradaki görev olarak görsel düzenleme yetenekleri öne çıkıyor
İlk modellerin kalitesi daha düşüktü ama daha ilginç sonuçlar veriyordu
SynthID iyi bir ilk adım ama filigransız yapay zeka içeriklerini ayırt edememek gibi bir sınırı var
Büyük şirketlerin standartlaştırılmış tanımlayıcılar benimsemesi gerekiyor
Photoshop için de böyle bir düzenleme olsaydı yaratıcılık ciddi şekilde kısıtlanırdı
Gerçek kamerayla çekilmiş fotoğraf olduğunu kanıtlayıp iMessage içinde doğrulama işareti eklemek gibi
Sonunda büyük ticari modeller varsayılan olarak filigranı zorunlu kılacaktır
Bu bitmeyen bir kedi-fare oyunu olacak
2D animatörler henüz rahat olabilir
Sprite sheet üretmeyi denediğimde, kareleri sadece tekrar etti; doğal ara hareketler (interpolation) üretemedi
Resmî kaynak derlemesi
Developer Blog
DeepMind Sayfası
Model Card PDF
SynthID tanıtımı
Bu model, ilk kez piyano testimi geçen görsel üretim modeli oldu
Oktavlar boyunca siyah tuş desenini doğru şekilde tekrar ediyor
Önceki modeller tuş dizilimini hep yanlış gösteriyordu
Belirli notaları renklendirme isteğini de rastgele ele alıyor
Piyano standartlaşmış bir nesne olduğu ve eğitim verisi bol olması gerektiği hâlde kavrayışı yetersiz
88 tuşun tamamında tutarlılığı korumuş olması etkileyici
Artık model metni görselin içine doğal biçimde render edebiliyor
Eskiden imkânsız olan bu özellik şimdi temel bir yetenek gibi hissettiriyor
Eğriler, boşluklar ve dengeyi tutturmak gibi ince tasarım işleri için insan eli hâlâ daha iyi