- Nano Banana, Google’ın Gemini 2.5 Flash Image modeli olup metin prompt’larını ayrıntılı biçimde yorumlayarak karmaşık görsel kompozisyonlarını doğru şekilde uygulayan otoregresif bir görsel üretim modelidir
- Güçlü metin kodlayıcısı sayesinde ayrıntılı kuralları, renk kodlarını ve JSON·HTML tabanlı girdileri sadakatle yansıtır; prompt’a uyum seviyesi çok yüksektir
- ChatGPT’nin gpt-image-1 modelinden daha ucuzdur; geliştiriciler API üzerinden doğrudan görsel üretim uygulamaları kurabilir ve Python paketi gemimg ile kolayca kullanabilir
- Karmaşık düzenleme·birleştirme·kod·web sayfası render etme gibi çeşitli deneylerde yüksek doğruluk ve tutarlılık gösterdi; ancak stil dönüşümü ve metin render etme konusunda sınırlamaları var
- AI görsel üretiminde hassas kontrol olasılığını gösteriyor ve gelecekte prompt tabanlı görsel mühendislik için yeni bir ölçüt olarak öne çıkıyor
AI görsel üretim modellerindeki değişim ve Nano Banana’nın ortaya çıkışı
- Son dönemde AI görsel üretimi alanında FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 gibi çeşitli modeller ortaya çıktı; ancak 2025 Mart ayında ChatGPT’nin ücretsiz görsel üretim özelliği kamu algısına yön verdi
- ChatGPT’nin görselleri sarı tonları ve tutarlı çizgi çalışması·tipografi ile kolayca ayırt edilebiliyor
- ChatGPT’nin temel modeli gpt-image-1, otoregresif bir yapı kullanıyor; görselleri token düzeyinde üretiyor ve tek bir yüksek kaliteli görsel için yaklaşık 30 saniye harcıyor
- 2025 Ağustos’ta LMArena’da “** nano-banana**” kod adlı bir model ortaya çıktı ve daha sonra Google bunu Gemini 2.5 Flash Image olarak duyurdu
- Görseli 1.290 token ile üretiyor ve Gemini uygulamasının popülerliğinin artmasıyla “Nano Banana” adı fiili resmî takma ada dönüştü
Nano Banana’nın görsel üretimi ve API kullanımı
Prompt’a uyum testi: kafatası pankeki ve görsel düzenleme
- “Yaban mersini ve maple şurubu eklenmiş kafatası şeklinde pankek görseli” prompt’u doğru biçimde uygulandı
- Şurubun akışı, pankekin dokusu ve yaban mersinlerinin konumu gibi ayrıntılar sadakatle yansıtıldı
- Ardından aynı görsel üzerinde eşzamanlı 5 düzenleme komutu (çilek·böğürtlen ekleme, nane süsü, tabak değiştirme, arka plana insan ekleme) uygulandı
- Tüm değişiklikler doğru şekilde yansıtıldı ve gereksiz kısımlar en az düzeyde değiştirildi
Kişi tutarlılığı testi: Ugly Sonic ve Obama ile tokalaşma
- Nano Banana, LoRA eğitimi olmadan da belirli bir kişi tutarlılığını koruyabiliyor
- “Ugly Sonic’in Barack Obama ile tokalaştığı görsel” prompt’unda gerçekten iki karakter birlikte yer aldı
- Sonrasında “Pulitzer-prize-winning New York Times cover photo” ifadesi eklendiğinde kompozisyon·renk·ışık kalitesi iyileşti
- “Metin hariç” komutuyla gereksiz unsurlar kaldırılabildi
- 17 adet Ugly Sonic görseli birlikte girildiğinde, dış görünüş daha doğru yeniden üretildi
Gemini 2.5 Flash ile Nano Banana arasındaki ilişki
- Nano Banana, Gemini 2.5 Flash’ın multimodal kodlayıcısının genişletilmiş bir sürümü olup
- Markdown·JSON eğitimi, nesne tanıma ve segmentasyon maskesi üretme yeteneğine sahip
- CLIP(77 token) veya T5(512 token)’dan çok daha uzun olan 32.768 token bağlam penceresini destekliyor
- Karmaşık kural tabanlı prompt’ları (ör. üç kedinin renk·kıyafet·ışık·kompozisyon koşulları) eksiksiz biçimde karşıladı
- ChatGPT ise aynı prompt’ta renk ve kompozisyon hataları üretti
Kod·metin üretim deneyleri
- “Buzdolabı mıknatıslarından oluşan Python Fibonacci kodu görseli” prompt’unda
- Nano Banana kod yapısını kısmen yeniden üretirken sözdizimi vurgulama renklerinin bir kısmını da yansıttı
- ChatGPT de benzer bir deneme yaptı ancak kalite farkı belirgindi
- “Önceki metni mıknatıslarla göster” deneyinde Nano Banana’nın sistem prompt’unun bir kısmı açığa çıktı
- İç kurallar arasında “buzzword kullanımı yasak” maddesinin bulunduğu görüldü
- Büyük harflerle (MUST) yazıldığında prompt’a uyum oranının arttığı gözlemlendi
Büyük prompt işleme: HTML·JSON girdileri
- Nano Banana, HTML/CSS/JS kodunun tamamını render ederek web sayfası görseli üretebiliyor
- Yerleşim ve renkler doğruydu, ancak bazı metin ve oran hataları vardı
- JSON tabanlı karakter betimlemesi girdisinde Paladin/Pirate/Barista karışımı bir karakter görselleştirildi
- Kıyafet, aksesuar ve duruş gibi unsurların çoğu JSON alanlarıyla eşleşti
- “Gerçek çekim koşulları” eklendiğinde fotogerçekçilik arttı, yansıma ışığı ve derinlik hissi oluştu
Nano Banana’nın sınırları ve sorunları
- “Make me into Studio Ghibli” prompt’unda stil dönüşümü başarısız oldu
- Otoregresif yapısı nedeniyle stil değişimine karşı direnç bulunuyor
- Telif kısıtları neredeyse yok, birden çok IP karakteri tek sahnede birlikte üretilebiliyor
- Örneğin Mario, Mickey Mouse, Pikachu ve Optimus Prime aynı kulüpte yer alabiliyor
- NSFW içerik üretme olasılığı var; sansür gevşek
- Metin render etme kusurları ve stil dönüşümündeki zayıflık gibi teknik sınırlamalar hâlâ sürüyor
Sonuç ve önemi
- Nano Banana, hassas prompt mühendisliğiyle yüksek kaliteli görsel kontrolü sağlayabilen bir model
- HTML·JSON·birleşik kural tabanlı girdileri bile yorumlayabildiği için AI görsel üretiminde yeni bir deney platformu olarak yükseliyor
- ChatGPT merkezli kamu algısının ötesine geçerek AI görsel üretiminin gerçek imkân ve sınırlarını sınayan bir örnek sunuyor
- Yazar, tüm deney prompt’larını ve Jupyter Notebook’u yayımlayarak yeniden üretilebilirlik ve şeffaflık sağladı
- Nano Banana, prompt merkezli görsel mühendisliği çağındaki dönüşüm noktasını gösteren bir örnek olarak değerlendiriliyor
Henüz yorum yok.