Nano Banana, hassas prompt mühendisliğiyle ince ayarlı AI görsel üretimini mümkün kılıyor

(minimaxir.com)

10 puan yazan GN⁺ 2025-11-14 | 1 yorum | WhatsApp'ta paylaş

Nano Banana, Google’ın Gemini 2.5 Flash Image modeli olup metin prompt’larını ayrıntılı biçimde yorumlayarak karmaşık görsel kompozisyonlarını doğru şekilde uygulayan otoregresif bir görsel üretim modelidir
Güçlü metin kodlayıcısı sayesinde ayrıntılı kuralları, renk kodlarını ve JSON·HTML tabanlı girdileri sadakatle yansıtır; prompt’a uyum seviyesi çok yüksektir
ChatGPT’nin gpt-image-1 modelinden daha ucuzdur; geliştiriciler API üzerinden doğrudan görsel üretim uygulamaları kurabilir ve Python paketi gemimg ile kolayca kullanabilir
Karmaşık düzenleme·birleştirme·kod·web sayfası render etme gibi çeşitli deneylerde yüksek doğruluk ve tutarlılık gösterdi; ancak stil dönüşümü ve metin render etme konusunda sınırlamaları var
AI görsel üretiminde hassas kontrol olasılığını gösteriyor ve gelecekte prompt tabanlı görsel mühendislik için yeni bir ölçüt olarak öne çıkıyor

AI görsel üretim modellerindeki değişim ve Nano Banana’nın ortaya çıkışı

Son dönemde AI görsel üretimi alanında FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 gibi çeşitli modeller ortaya çıktı; ancak 2025 Mart ayında ChatGPT’nin ücretsiz görsel üretim özelliği kamu algısına yön verdi
ChatGPT’nin görselleri sarı tonları ve tutarlı çizgi çalışması·tipografi ile kolayca ayırt edilebiliyor
ChatGPT’nin temel modeli gpt-image-1, otoregresif bir yapı kullanıyor; görselleri token düzeyinde üretiyor ve tek bir yüksek kaliteli görsel için yaklaşık 30 saniye harcıyor
2025 Ağustos’ta LMArena’da “** nano-banana**” kod adlı bir model ortaya çıktı ve daha sonra Google bunu Gemini 2.5 Flash Image olarak duyurdu
- Görseli 1.290 token ile üretiyor ve Gemini uygulamasının popülerliğinin artmasıyla “Nano Banana” adı fiili resmî takma ada dönüştü

Nano Banana’nın görsel üretimi ve API kullanımı

Nano Banana ile Gemini web/mobil uygulamasındaki “Create Image 🍌” özelliği veya Google AI Studio üzerinden ücretsiz olarak görsel üretmek mümkün
- AI Studio’da oran ayarı gibi ayrıntılı parametreler destekleniyor
- Üretilen görsellerde sağ alt köşede filigran yer alıyor
Geliştiriciler Gemini API’nin gemini-2.5-flash-image endpoint’i üzerinden programatik olarak görsel üretebilir
- 1MP görsel başına yaklaşık $0.04, ChatGPT’nin $0.17 fiyatından daha ucuz
API kullanımının karmaşıklığını azaltmak için yazılan Python paketi gemimg, basit prompt’larla görsel üretmeyi sağlıyor
```
from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")
```
Reklam

Prompt’a uyum testi: kafatası pankeki ve görsel düzenleme

“Yaban mersini ve maple şurubu eklenmiş kafatası şeklinde pankek görseli” prompt’u doğru biçimde uygulandı
- Şurubun akışı, pankekin dokusu ve yaban mersinlerinin konumu gibi ayrıntılar sadakatle yansıtıldı
Ardından aynı görsel üzerinde eşzamanlı 5 düzenleme komutu (çilek·böğürtlen ekleme, nane süsü, tabak değiştirme, arka plana insan ekleme) uygulandı
- Tüm değişiklikler doğru şekilde yansıtıldı ve gereksiz kısımlar en az düzeyde değiştirildi

Kişi tutarlılığı testi: Ugly Sonic ve Obama ile tokalaşma

Nano Banana, LoRA eğitimi olmadan da belirli bir kişi tutarlılığını koruyabiliyor
“Ugly Sonic’in Barack Obama ile tokalaştığı görsel” prompt’unda gerçekten iki karakter birlikte yer aldı
- Sonrasında “Pulitzer-prize-winning New York Times cover photo” ifadesi eklendiğinde kompozisyon·renk·ışık kalitesi iyileşti
- “Metin hariç” komutuyla gereksiz unsurlar kaldırılabildi
17 adet Ugly Sonic görseli birlikte girildiğinde, dış görünüş daha doğru yeniden üretildi

Gemini 2.5 Flash ile Nano Banana arasındaki ilişki

Nano Banana, Gemini 2.5 Flash’ın multimodal kodlayıcısının genişletilmiş bir sürümü olup
- Markdown·JSON eğitimi, nesne tanıma ve segmentasyon maskesi üretme yeteneğine sahip
- CLIP(77 token) veya T5(512 token)’dan çok daha uzun olan 32.768 token bağlam penceresini destekliyor
Reklam
Karmaşık kural tabanlı prompt’ları (ör. üç kedinin renk·kıyafet·ışık·kompozisyon koşulları) eksiksiz biçimde karşıladı
- ChatGPT ise aynı prompt’ta renk ve kompozisyon hataları üretti

Kod·metin üretim deneyleri

“Buzdolabı mıknatıslarından oluşan Python Fibonacci kodu görseli” prompt’unda
- Nano Banana kod yapısını kısmen yeniden üretirken sözdizimi vurgulama renklerinin bir kısmını da yansıttı
- ChatGPT de benzer bir deneme yaptı ancak kalite farkı belirgindi
“Önceki metni mıknatıslarla göster” deneyinde Nano Banana’nın sistem prompt’unun bir kısmı açığa çıktı
- İç kurallar arasında “buzzword kullanımı yasak” maddesinin bulunduğu görüldü
- Büyük harflerle (MUST) yazıldığında prompt’a uyum oranının arttığı gözlemlendi

Büyük prompt işleme: HTML·JSON girdileri

Nano Banana, HTML/CSS/JS kodunun tamamını render ederek web sayfası görseli üretebiliyor
- Yerleşim ve renkler doğruydu, ancak bazı metin ve oran hataları vardı
Reklam
JSON tabanlı karakter betimlemesi girdisinde Paladin/Pirate/Barista karışımı bir karakter görselleştirildi
- Kıyafet, aksesuar ve duruş gibi unsurların çoğu JSON alanlarıyla eşleşti
- “Gerçek çekim koşulları” eklendiğinde fotogerçekçilik arttı, yansıma ışığı ve derinlik hissi oluştu

Nano Banana’nın sınırları ve sorunları

“Make me into Studio Ghibli” prompt’unda stil dönüşümü başarısız oldu
- Otoregresif yapısı nedeniyle stil değişimine karşı direnç bulunuyor
Telif kısıtları neredeyse yok, birden çok IP karakteri tek sahnede birlikte üretilebiliyor
- Örneğin Mario, Mickey Mouse, Pikachu ve Optimus Prime aynı kulüpte yer alabiliyor
NSFW içerik üretme olasılığı var; sansür gevşek
Metin render etme kusurları ve stil dönüşümündeki zayıflık gibi teknik sınırlamalar hâlâ sürüyor

Sonuç ve önemi

Nano Banana, hassas prompt mühendisliğiyle yüksek kaliteli görsel kontrolü sağlayabilen bir model
HTML·JSON·birleşik kural tabanlı girdileri bile yorumlayabildiği için AI görsel üretiminde yeni bir deney platformu olarak yükseliyor
ChatGPT merkezli kamu algısının ötesine geçerek AI görsel üretiminin gerçek imkân ve sınırlarını sınayan bir örnek sunuyor
Yazar, tüm deney prompt’larını ve Jupyter Notebook’u yayımlayarak yeniden üretilebilirlik ve şeffaflık sağladı
Nano Banana, prompt merkezli görsel mühendisliği çağındaki dönüşüm noktasını gösteren bir örnek olarak değerlendiriliyor

1 yorum

GN⁺ 2025-11-14

Hacker News yorumu

Storyboard için günde onlarca görsel üretiyorum
Çıktı kontrolü giderek kolaylaşıyor ve artık her sahnede karakteri, ışığı ve günün saatini tutarlı biçimde koruyabiliyorum
ortam, kamera, özne, kompozisyon, ışık, renk ve kalite olmak üzere 7 aşamalı prompt katmanı kullanıyorum; biraz abartılı ama deneme yapıyorum
ayrıca görselin üstüne doğrudan bounding box çizerek düzenleme yapabildiğim basit bir araç geliştirdim; Claude’a görseli gönderip düzenleme prompt’unu otomatik oluşturmasını sağlıyorum
bu süreç sayesinde sahneler arası geçişleri doğal olan bir GenAI video üretim hattı kurabildim
- Bizim ekip de benzer şekilde storyboard hazırlamak için nano banana kullanıyor ve img2vid modeliyle tam hareketli video üretiyor
  karakter, arka plan ve stil tutarlılığını korumaya çalışıyoruz; senin çalışmanla çok benzer noktalar var
  bu arada ürünümüz Hypernatural.ai’a da bakmak isteyebilirsin
- Bense tam tersine, sonuç bir kez raydan çıkınca tekrar başlangıçtaki niyete döndürmenin neredeyse imkânsız olduğunu düşünüyorum
gemimg Python kütüphanesini seviyorum
Buna Gemini CLI ekleyip bir PR gönderdim; aşağıdaki gibi çalıştırılabiliyor
sonuçlar bu yorumda
- @simonw’ye bir sorum var — gemini-cli terminal oturumunun gist önizlemesini nasıl yaptın?
  Bu bağlantıdaki gibi bunu HTML/CSS ile kendin mi yaptın, yoksa amp-code gibi otomasyon araçları mı var?
- pyproject.toml’a neden project.scripts girdisi eklemediğini merak ediyorum
  öyle olsa uv ile CLI doğrudan kurulabilir gibi görünüyor
- Yazar başta açık kaynağı vurgulamıştı; QwenEdit ekosistemine de değinip değinmeyeceğini merak ediyorum
  Çin’deki düzenleme modelleri giderek NanoBanana seviyesine yaklaşıyor ve açık kaynak oldukları için maske ve kernel tabanlı gelişmiş görsel manipülasyonları mümkün kılıyorlar
  LoRA ile stil aktarımı da yapılabiliyor; kapalı Amerikan modellerinden çok daha ilginçler
  Nano Banana’nın eğitim verisini çıkarıp bunu yeni bir modele distill etmek de kolaylaşacak gibi görünüyor
minimaxir’in yazısını ilgiyle okudum
Nano Banana’nın 32.768 token’lık context window’u sayesinde karmaşık görsel üretim hatlarında araya Mistral 7B koyup prompt’un 4 varyasyonunu üretiyorum
stil aktarımının zayıf olduğu doğru, ama iki görsel birlikte verildiğinde biraz daha iyi sonuç çıkıyor
ilki dönüştürülecek görsel, ikincisi ise stil referans görseli olarak kullanılıyor
Portföy örneğimde de bu yaklaşımı kullandım
- Muhtemelen geçmişteki “make me Ghibli” akımından sonra, Studio Ghibli tarzını engellemek için konmuş açık bir kısıtlama olabilir
İkinci iskelet pankek görselinde eğlenceli bir hata fark ettim
çilek sağ göz çukurunda (görselin solunda), böğürtlen ise diğer tarafta
çoğu görsel açıklaması gözlemcinin bakış açısından yazıldığı için böyle olmuş gibi görünüyor
- Ben insan olsam muhtemelen Nano Banana gibi davranırdım
  kullanıcı iskeletin sol gözüne çilek koyulmasını istiyorsa, “onun sol gözü” diye açıkça belirtmeliydi
- Bence birçok kişi “sol göz”ün özneye göre mi yoksa kameraya göre mi olduğunu karıştırır
- Ben de bunu kaçırmıştım ama sonra karakter JSON’unda aynı soruna dikkat çektim
  bu yüzden prompt’a “sağ ve sol karakterin bakış açısına göre” diye yazınca başarı oranı arttı
- Ben de aynı şeyi düşündüm
  yazar Nano Banana’nın tüm düzenlemeleri doğru yaptığını söylemiş ama bu nokta tartışmalı
  iskeletin “sağ gözü”nü iskeletin bakış açısından yorumlamak gerektiğini düşünüyorum
İsteği Google AI Studio’ya gönderin; watermark kaldırma için tarayıcının geliştirici araçlarında “watermark_4” isteğini engellemeniz yeterli
bundan sonra üretilen görsellerde watermark kayboluyor
“Nano Banana stil aktarımında zayıf” cümlesine şaşırdım
Mahallemi 18. yüzyıl manzarası olarak görselleştirdiğim bir proje yapıyorum
SketchUp ve Twinmotion ile modelledim ama gerçekçi görseller üretmek zordu
birçok yapay zeka görsel üreticisi denedim, fakat geometri tutarlılığını koruyarak yeni bir stili uygulayabilen ilk araç Nano Banana oldu
“bu çizimi fotoğraf gibi yap” gibi basit bir prompt ile şaşırtıcı sonuçlar aldım
ancak 18. yüzyıl ifadesini doğrudan yazınca bazen resimsi bir üsluba kayıyor; bu yüzden “korunmuş tarihi bir sokağın fotoğrafı” gibi dolaylı ifadeler kullanıyorum
hâlâ elle modelleme yapıyorum ama Nano Banana sayesinde modellemeye yaklaşımım değişti
- Ama sanatsal görselleri stil referansı olarak verirsen, Nano Banana eğitim kapsamının dışına çıkıp düzgün genelleme yapamıyor
“prompt engineered” ifadesi sonuçta görmek istediğini doğrudan yazmak anlamına geliyor
- Ama bu gerçekten bir beceri
  birçok sorun, insanların ne istediklerini açıkça ifade edememesinden kaynaklanıyor
  prompt mühendisliği, iletişimin karmaşıklığını ele alma becerisi ve sözle anlam arasındaki boşluğu fark etmeyi sağlıyor
- Modele göre bazı prompt’lar anlaşılmayabiliyor
- Artık LLM’lerle etkileşimi bir doğal dil arayüzü olarak görüyoruz
  bu, programlama dillerinden farklı olarak muğlak bir arayüz ve prompt mühendisliği de bunu yönetmeye yarayan yeni bir beceri
- Sonuçta istenen çıktıyı almak için prompt’u tekrar tekrar revize etme süreci
- Eskiden buna “Google Fu” denirdi
Live-action Komşum Totoro sahnesi istemeyi denedim
Sonic gibi gerçekçi uyarlaması zor bir karakter olduğu için sonucu merak ettim ama fotogerçekçilik yerine sadece dijital sanat tarzı görseller çıktı
anahtar kelimeleri değiştirsem de durum aynıydı ve ChatGPT’de telif filtresi yüzünden bunu test etmek bile mümkün olmadı
yine de denemenin kendisi ilginçti
Nano Banana bazen düzenlemelere yavaş tepki veriyor
bir portreyi clay animation tarzına çevirmesini istedim ama neredeyse hiç değişiklik olmadı
sonra “10 yaş daha genç yap” ekleyince birden kil figürü gibi görünmeye başladı
- Bu bir stil aktarımı isteği olduğu için, Ghibli örneğinde olduğu gibi başarısız olması kaçınılmaz
Benim deneyimime göre nano banana hâlâ
- görsele rastgele düzenlemeler yapıyor
- ölçeği değiştiriyor ya da
- ince ama genel ayrıntı değişiklikleri yaratıyor
  örneğin hiçbir talimat olmadan odaya şömine ya da garaj ekleyebiliyor
  sıcaklığı 0’a ayarlayınca bile bunlar oluyor; bu yüzden güvenilir bir uygulama yapmak zor
  daha iyi deneyim yaşayan biri olup olmadığını merak ediyorum
- “ALL CAPS” kısmı ilginç
  büyük harfler farklı tokenize edildiği için, modelin anlamasının zor olduğu girdiler hâline gelebilir
- Ben PixLab editörünü geliştiriyorum; bunda büyük harfli komutlar tam olarak yazıldığı gibi uygulanıyor

Nano Banana, hassas prompt mühendisliğiyle ince ayarlı AI görsel üretimini mümkün kılıyor

AI görsel üretim modellerindeki değişim ve Nano Banana’nın ortaya çıkışı

Nano Banana’nın görsel üretimi ve API kullanımı

Prompt’a uyum testi: kafatası pankeki ve görsel düzenleme

Kişi tutarlılığı testi: Ugly Sonic ve Obama ile tokalaşma

Gemini 2.5 Flash ile Nano Banana arasındaki ilişki

Kod·metin üretim deneyleri

Büyük prompt işleme: HTML·JSON girdileri

Nano Banana’nın sınırları ve sorunları

Sonuç ve önemi

İlgili okumalar

1 yorum

Hacker News yorumu