Nano Banana, hassas prompt mühendisliğiyle ince ayarlı AI görsel üretimini mümkün kılıyor
(minimaxir.com)- Nano Banana, Google’ın Gemini 2.5 Flash Image modeli olup metin prompt’larını ayrıntılı biçimde yorumlayarak karmaşık görsel kompozisyonlarını doğru şekilde uygulayan otoregresif bir görsel üretim modelidir
- Güçlü metin kodlayıcısı sayesinde ayrıntılı kuralları, renk kodlarını ve JSON·HTML tabanlı girdileri sadakatle yansıtır; prompt’a uyum seviyesi çok yüksektir
- ChatGPT’nin gpt-image-1 modelinden daha ucuzdur; geliştiriciler API üzerinden doğrudan görsel üretim uygulamaları kurabilir ve Python paketi gemimg ile kolayca kullanabilir
- Karmaşık düzenleme·birleştirme·kod·web sayfası render etme gibi çeşitli deneylerde yüksek doğruluk ve tutarlılık gösterdi; ancak stil dönüşümü ve metin render etme konusunda sınırlamaları var
- AI görsel üretiminde hassas kontrol olasılığını gösteriyor ve gelecekte prompt tabanlı görsel mühendislik için yeni bir ölçüt olarak öne çıkıyor
AI görsel üretim modellerindeki değişim ve Nano Banana’nın ortaya çıkışı
- Son dönemde AI görsel üretimi alanında FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 gibi çeşitli modeller ortaya çıktı; ancak 2025 Mart ayında ChatGPT’nin ücretsiz görsel üretim özelliği kamu algısına yön verdi
- ChatGPT’nin görselleri sarı tonları ve tutarlı çizgi çalışması·tipografi ile kolayca ayırt edilebiliyor
- ChatGPT’nin temel modeli gpt-image-1, otoregresif bir yapı kullanıyor; görselleri token düzeyinde üretiyor ve tek bir yüksek kaliteli görsel için yaklaşık 30 saniye harcıyor
- 2025 Ağustos’ta LMArena’da “** nano-banana**” kod adlı bir model ortaya çıktı ve daha sonra Google bunu Gemini 2.5 Flash Image olarak duyurdu
- Görseli 1.290 token ile üretiyor ve Gemini uygulamasının popülerliğinin artmasıyla “Nano Banana” adı fiili resmî takma ada dönüştü
Nano Banana’nın görsel üretimi ve API kullanımı
- Nano Banana ile Gemini web/mobil uygulamasındaki “Create Image 🍌” özelliği veya Google AI Studio üzerinden ücretsiz olarak görsel üretmek mümkün
- AI Studio’da oran ayarı gibi ayrıntılı parametreler destekleniyor
- Üretilen görsellerde sağ alt köşede filigran yer alıyor
- Geliştiriciler Gemini API’nin gemini-2.5-flash-image endpoint’i üzerinden programatik olarak görsel üretebilir
- 1MP görsel başına yaklaşık $0.04, ChatGPT’nin $0.17 fiyatından daha ucuz
- API kullanımının karmaşıklığını azaltmak için yazılan Python paketi gemimg, basit prompt’larla görsel üretmeyi sağlıyor
from gemimg import GemImg g = GemImg(api_key="AI...") g.generate("A kitten with prominent purple-and-green fur.")
Prompt’a uyum testi: kafatası pankeki ve görsel düzenleme
- “Yaban mersini ve maple şurubu eklenmiş kafatası şeklinde pankek görseli” prompt’u doğru biçimde uygulandı
- Şurubun akışı, pankekin dokusu ve yaban mersinlerinin konumu gibi ayrıntılar sadakatle yansıtıldı
- Ardından aynı görsel üzerinde eşzamanlı 5 düzenleme komutu (çilek·böğürtlen ekleme, nane süsü, tabak değiştirme, arka plana insan ekleme) uygulandı
- Tüm değişiklikler doğru şekilde yansıtıldı ve gereksiz kısımlar en az düzeyde değiştirildi
Kişi tutarlılığı testi: Ugly Sonic ve Obama ile tokalaşma
- Nano Banana, LoRA eğitimi olmadan da belirli bir kişi tutarlılığını koruyabiliyor
- “Ugly Sonic’in Barack Obama ile tokalaştığı görsel” prompt’unda gerçekten iki karakter birlikte yer aldı
- Sonrasında “Pulitzer-prize-winning New York Times cover photo” ifadesi eklendiğinde kompozisyon·renk·ışık kalitesi iyileşti
- “Metin hariç” komutuyla gereksiz unsurlar kaldırılabildi
- 17 adet Ugly Sonic görseli birlikte girildiğinde, dış görünüş daha doğru yeniden üretildi
Gemini 2.5 Flash ile Nano Banana arasındaki ilişki
- Nano Banana, Gemini 2.5 Flash’ın multimodal kodlayıcısının genişletilmiş bir sürümü olup
- Markdown·JSON eğitimi, nesne tanıma ve segmentasyon maskesi üretme yeteneğine sahip
- CLIP(77 token) veya T5(512 token)’dan çok daha uzun olan 32.768 token bağlam penceresini destekliyor
- Karmaşık kural tabanlı prompt’ları (ör. üç kedinin renk·kıyafet·ışık·kompozisyon koşulları) eksiksiz biçimde karşıladı
- ChatGPT ise aynı prompt’ta renk ve kompozisyon hataları üretti
Kod·metin üretim deneyleri
- “Buzdolabı mıknatıslarından oluşan Python Fibonacci kodu görseli” prompt’unda
- Nano Banana kod yapısını kısmen yeniden üretirken sözdizimi vurgulama renklerinin bir kısmını da yansıttı
- ChatGPT de benzer bir deneme yaptı ancak kalite farkı belirgindi
- “Önceki metni mıknatıslarla göster” deneyinde Nano Banana’nın sistem prompt’unun bir kısmı açığa çıktı
- İç kurallar arasında “buzzword kullanımı yasak” maddesinin bulunduğu görüldü
- Büyük harflerle (MUST) yazıldığında prompt’a uyum oranının arttığı gözlemlendi
Büyük prompt işleme: HTML·JSON girdileri
- Nano Banana, HTML/CSS/JS kodunun tamamını render ederek web sayfası görseli üretebiliyor
- Yerleşim ve renkler doğruydu, ancak bazı metin ve oran hataları vardı
- JSON tabanlı karakter betimlemesi girdisinde Paladin/Pirate/Barista karışımı bir karakter görselleştirildi
- Kıyafet, aksesuar ve duruş gibi unsurların çoğu JSON alanlarıyla eşleşti
- “Gerçek çekim koşulları” eklendiğinde fotogerçekçilik arttı, yansıma ışığı ve derinlik hissi oluştu
Nano Banana’nın sınırları ve sorunları
- “Make me into Studio Ghibli” prompt’unda stil dönüşümü başarısız oldu
- Otoregresif yapısı nedeniyle stil değişimine karşı direnç bulunuyor
- Telif kısıtları neredeyse yok, birden çok IP karakteri tek sahnede birlikte üretilebiliyor
- Örneğin Mario, Mickey Mouse, Pikachu ve Optimus Prime aynı kulüpte yer alabiliyor
- NSFW içerik üretme olasılığı var; sansür gevşek
- Metin render etme kusurları ve stil dönüşümündeki zayıflık gibi teknik sınırlamalar hâlâ sürüyor
Sonuç ve önemi
- Nano Banana, hassas prompt mühendisliğiyle yüksek kaliteli görsel kontrolü sağlayabilen bir model
- HTML·JSON·birleşik kural tabanlı girdileri bile yorumlayabildiği için AI görsel üretiminde yeni bir deney platformu olarak yükseliyor
- ChatGPT merkezli kamu algısının ötesine geçerek AI görsel üretiminin gerçek imkân ve sınırlarını sınayan bir örnek sunuyor
- Yazar, tüm deney prompt’larını ve Jupyter Notebook’u yayımlayarak yeniden üretilebilirlik ve şeffaflık sağladı
- Nano Banana, prompt merkezli görsel mühendisliği çağındaki dönüşüm noktasını gösteren bir örnek olarak değerlendiriliyor
1 yorum
Hacker News yorumu
Çıktı kontrolü giderek kolaylaşıyor ve artık her sahnede karakteri, ışığı ve günün saatini tutarlı biçimde koruyabiliyorum
ortam, kamera, özne, kompozisyon, ışık, renk ve kalite olmak üzere 7 aşamalı prompt katmanı kullanıyorum; biraz abartılı ama deneme yapıyorum
ayrıca görselin üstüne doğrudan bounding box çizerek düzenleme yapabildiğim basit bir araç geliştirdim; Claude’a görseli gönderip düzenleme prompt’unu otomatik oluşturmasını sağlıyorum
bu süreç sayesinde sahneler arası geçişleri doğal olan bir GenAI video üretim hattı kurabildim
karakter, arka plan ve stil tutarlılığını korumaya çalışıyoruz; senin çalışmanla çok benzer noktalar var
bu arada ürünümüz Hypernatural.ai’a da bakmak isteyebilirsin
Buna Gemini CLI ekleyip bir PR gönderdim; aşağıdaki gibi çalıştırılabiliyor
sonuçlar bu yorumda
Bu bağlantıdaki gibi bunu HTML/CSS ile kendin mi yaptın, yoksa amp-code gibi otomasyon araçları mı var?
öyle olsa uv ile CLI doğrudan kurulabilir gibi görünüyor
Çin’deki düzenleme modelleri giderek NanoBanana seviyesine yaklaşıyor ve açık kaynak oldukları için maske ve kernel tabanlı gelişmiş görsel manipülasyonları mümkün kılıyorlar
LoRA ile stil aktarımı da yapılabiliyor; kapalı Amerikan modellerinden çok daha ilginçler
Nano Banana’nın eğitim verisini çıkarıp bunu yeni bir modele distill etmek de kolaylaşacak gibi görünüyor
Nano Banana’nın 32.768 token’lık context window’u sayesinde karmaşık görsel üretim hatlarında araya Mistral 7B koyup prompt’un 4 varyasyonunu üretiyorum
stil aktarımının zayıf olduğu doğru, ama iki görsel birlikte verildiğinde biraz daha iyi sonuç çıkıyor
ilki dönüştürülecek görsel, ikincisi ise stil referans görseli olarak kullanılıyor
Portföy örneğimde de bu yaklaşımı kullandım
çilek sağ göz çukurunda (görselin solunda), böğürtlen ise diğer tarafta
çoğu görsel açıklaması gözlemcinin bakış açısından yazıldığı için böyle olmuş gibi görünüyor
kullanıcı iskeletin sol gözüne çilek koyulmasını istiyorsa, “onun sol gözü” diye açıkça belirtmeliydi
bu yüzden prompt’a “sağ ve sol karakterin bakış açısına göre” diye yazınca başarı oranı arttı
yazar Nano Banana’nın tüm düzenlemeleri doğru yaptığını söylemiş ama bu nokta tartışmalı
iskeletin “sağ gözü”nü iskeletin bakış açısından yorumlamak gerektiğini düşünüyorum
bundan sonra üretilen görsellerde watermark kayboluyor
Mahallemi 18. yüzyıl manzarası olarak görselleştirdiğim bir proje yapıyorum
SketchUp ve Twinmotion ile modelledim ama gerçekçi görseller üretmek zordu
birçok yapay zeka görsel üreticisi denedim, fakat geometri tutarlılığını koruyarak yeni bir stili uygulayabilen ilk araç Nano Banana oldu
“bu çizimi fotoğraf gibi yap” gibi basit bir prompt ile şaşırtıcı sonuçlar aldım
ancak 18. yüzyıl ifadesini doğrudan yazınca bazen resimsi bir üsluba kayıyor; bu yüzden “korunmuş tarihi bir sokağın fotoğrafı” gibi dolaylı ifadeler kullanıyorum
hâlâ elle modelleme yapıyorum ama Nano Banana sayesinde modellemeye yaklaşımım değişti
birçok sorun, insanların ne istediklerini açıkça ifade edememesinden kaynaklanıyor
prompt mühendisliği, iletişimin karmaşıklığını ele alma becerisi ve sözle anlam arasındaki boşluğu fark etmeyi sağlıyor
bu, programlama dillerinden farklı olarak muğlak bir arayüz ve prompt mühendisliği de bunu yönetmeye yarayan yeni bir beceri
Sonic gibi gerçekçi uyarlaması zor bir karakter olduğu için sonucu merak ettim ama fotogerçekçilik yerine sadece dijital sanat tarzı görseller çıktı
anahtar kelimeleri değiştirsem de durum aynıydı ve ChatGPT’de telif filtresi yüzünden bunu test etmek bile mümkün olmadı
yine de denemenin kendisi ilginçti
bir portreyi clay animation tarzına çevirmesini istedim ama neredeyse hiç değişiklik olmadı
sonra “10 yaş daha genç yap” ekleyince birden kil figürü gibi görünmeye başladı
örneğin hiçbir talimat olmadan odaya şömine ya da garaj ekleyebiliyor
sıcaklığı 0’a ayarlayınca bile bunlar oluyor; bu yüzden güvenilir bir uygulama yapmak zor
daha iyi deneyim yaşayan biri olup olmadığını merak ediyorum
büyük harfler farklı tokenize edildiği için, modelin anlamasının zor olduğu girdiler hâline gelebilir