10 puan yazan GN⁺ 2025-11-14 | 1 yorum | WhatsApp'ta paylaş
  • Nano Banana, Google’ın Gemini 2.5 Flash Image modeli olup metin prompt’larını ayrıntılı biçimde yorumlayarak karmaşık görsel kompozisyonlarını doğru şekilde uygulayan otoregresif bir görsel üretim modelidir
  • Güçlü metin kodlayıcısı sayesinde ayrıntılı kuralları, renk kodlarını ve JSON·HTML tabanlı girdileri sadakatle yansıtır; prompt’a uyum seviyesi çok yüksektir
  • ChatGPT’nin gpt-image-1 modelinden daha ucuzdur; geliştiriciler API üzerinden doğrudan görsel üretim uygulamaları kurabilir ve Python paketi gemimg ile kolayca kullanabilir
  • Karmaşık düzenleme·birleştirme·kod·web sayfası render etme gibi çeşitli deneylerde yüksek doğruluk ve tutarlılık gösterdi; ancak stil dönüşümü ve metin render etme konusunda sınırlamaları var
  • AI görsel üretiminde hassas kontrol olasılığını gösteriyor ve gelecekte prompt tabanlı görsel mühendislik için yeni bir ölçüt olarak öne çıkıyor

AI görsel üretim modellerindeki değişim ve Nano Banana’nın ortaya çıkışı

  • Son dönemde AI görsel üretimi alanında FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 gibi çeşitli modeller ortaya çıktı; ancak 2025 Mart ayında ChatGPT’nin ücretsiz görsel üretim özelliği kamu algısına yön verdi
  • ChatGPT’nin görselleri sarı tonları ve tutarlı çizgi çalışması·tipografi ile kolayca ayırt edilebiliyor
  • ChatGPT’nin temel modeli gpt-image-1, otoregresif bir yapı kullanıyor; görselleri token düzeyinde üretiyor ve tek bir yüksek kaliteli görsel için yaklaşık 30 saniye harcıyor
  • 2025 Ağustos’ta LMArena’da “** nano-banana**” kod adlı bir model ortaya çıktı ve daha sonra Google bunu Gemini 2.5 Flash Image olarak duyurdu
    • Görseli 1.290 token ile üretiyor ve Gemini uygulamasının popülerliğinin artmasıyla “Nano Banana” adı fiili resmî takma ada dönüştü

Nano Banana’nın görsel üretimi ve API kullanımı

  • Nano Banana ile Gemini web/mobil uygulamasındaki “Create Image 🍌” özelliği veya Google AI Studio üzerinden ücretsiz olarak görsel üretmek mümkün
    • AI Studio’da oran ayarı gibi ayrıntılı parametreler destekleniyor
    • Üretilen görsellerde sağ alt köşede filigran yer alıyor
  • Geliştiriciler Gemini API’nin gemini-2.5-flash-image endpoint’i üzerinden programatik olarak görsel üretebilir
    • 1MP görsel başına yaklaşık $0.04, ChatGPT’nin $0.17 fiyatından daha ucuz
  • API kullanımının karmaşıklığını azaltmak için yazılan Python paketi gemimg, basit prompt’larla görsel üretmeyi sağlıyor
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    
    Reklam

Prompt’a uyum testi: kafatası pankeki ve görsel düzenleme

  • Yaban mersini ve maple şurubu eklenmiş kafatası şeklinde pankek görseli” prompt’u doğru biçimde uygulandı
    • Şurubun akışı, pankekin dokusu ve yaban mersinlerinin konumu gibi ayrıntılar sadakatle yansıtıldı
  • Ardından aynı görsel üzerinde eşzamanlı 5 düzenleme komutu (çilek·böğürtlen ekleme, nane süsü, tabak değiştirme, arka plana insan ekleme) uygulandı
    • Tüm değişiklikler doğru şekilde yansıtıldı ve gereksiz kısımlar en az düzeyde değiştirildi

Kişi tutarlılığı testi: Ugly Sonic ve Obama ile tokalaşma

  • Nano Banana, LoRA eğitimi olmadan da belirli bir kişi tutarlılığını koruyabiliyor
  • “Ugly Sonic’in Barack Obama ile tokalaştığı görsel” prompt’unda gerçekten iki karakter birlikte yer aldı
    • Sonrasında “Pulitzer-prize-winning New York Times cover photo” ifadesi eklendiğinde kompozisyon·renk·ışık kalitesi iyileşti
    • “Metin hariç” komutuyla gereksiz unsurlar kaldırılabildi
  • 17 adet Ugly Sonic görseli birlikte girildiğinde, dış görünüş daha doğru yeniden üretildi

Gemini 2.5 Flash ile Nano Banana arasındaki ilişki

  • Nano Banana, Gemini 2.5 Flash’ın multimodal kodlayıcısının genişletilmiş bir sürümü olup
    • Markdown·JSON eğitimi, nesne tanıma ve segmentasyon maskesi üretme yeteneğine sahip
    • CLIP(77 token) veya T5(512 token)’dan çok daha uzun olan 32.768 token bağlam penceresini destekliyor
    Reklam
  • Karmaşık kural tabanlı prompt’ları (ör. üç kedinin renk·kıyafet·ışık·kompozisyon koşulları) eksiksiz biçimde karşıladı
    • ChatGPT ise aynı prompt’ta renk ve kompozisyon hataları üretti

Kod·metin üretim deneyleri

  • Buzdolabı mıknatıslarından oluşan Python Fibonacci kodu görseli” prompt’unda
    • Nano Banana kod yapısını kısmen yeniden üretirken sözdizimi vurgulama renklerinin bir kısmını da yansıttı
    • ChatGPT de benzer bir deneme yaptı ancak kalite farkı belirgindi
  • Önceki metni mıknatıslarla göster” deneyinde Nano Banana’nın sistem prompt’unun bir kısmı açığa çıktı
    • İç kurallar arasında “buzzword kullanımı yasak” maddesinin bulunduğu görüldü
    • Büyük harflerle (MUST) yazıldığında prompt’a uyum oranının arttığı gözlemlendi

Büyük prompt işleme: HTML·JSON girdileri

  • Nano Banana, HTML/CSS/JS kodunun tamamını render ederek web sayfası görseli üretebiliyor
    • Yerleşim ve renkler doğruydu, ancak bazı metin ve oran hataları vardı
    Reklam
  • JSON tabanlı karakter betimlemesi girdisinde Paladin/Pirate/Barista karışımı bir karakter görselleştirildi
    • Kıyafet, aksesuar ve duruş gibi unsurların çoğu JSON alanlarıyla eşleşti
    • “Gerçek çekim koşulları” eklendiğinde fotogerçekçilik arttı, yansıma ışığı ve derinlik hissi oluştu

Nano Banana’nın sınırları ve sorunları

  • Make me into Studio Ghibli” prompt’unda stil dönüşümü başarısız oldu
    • Otoregresif yapısı nedeniyle stil değişimine karşı direnç bulunuyor
  • Telif kısıtları neredeyse yok, birden çok IP karakteri tek sahnede birlikte üretilebiliyor
    • Örneğin Mario, Mickey Mouse, Pikachu ve Optimus Prime aynı kulüpte yer alabiliyor
  • NSFW içerik üretme olasılığı var; sansür gevşek
  • Metin render etme kusurları ve stil dönüşümündeki zayıflık gibi teknik sınırlamalar hâlâ sürüyor

Sonuç ve önemi

  • Nano Banana, hassas prompt mühendisliğiyle yüksek kaliteli görsel kontrolü sağlayabilen bir model
  • HTML·JSON·birleşik kural tabanlı girdileri bile yorumlayabildiği için AI görsel üretiminde yeni bir deney platformu olarak yükseliyor
  • ChatGPT merkezli kamu algısının ötesine geçerek AI görsel üretiminin gerçek imkân ve sınırlarını sınayan bir örnek sunuyor
  • Yazar, tüm deney prompt’larını ve Jupyter Notebook’u yayımlayarak yeniden üretilebilirlik ve şeffaflık sağladı
  • Nano Banana, prompt merkezli görsel mühendisliği çağındaki dönüşüm noktasını gösteren bir örnek olarak değerlendiriliyor

1 yorum

 
GN⁺ 2025-11-14
Hacker News yorumu
  • Storyboard için günde onlarca görsel üretiyorum
    Çıktı kontrolü giderek kolaylaşıyor ve artık her sahnede karakteri, ışığı ve günün saatini tutarlı biçimde koruyabiliyorum
    ortam, kamera, özne, kompozisyon, ışık, renk ve kalite olmak üzere 7 aşamalı prompt katmanı kullanıyorum; biraz abartılı ama deneme yapıyorum
    ayrıca görselin üstüne doğrudan bounding box çizerek düzenleme yapabildiğim basit bir araç geliştirdim; Claude’a görseli gönderip düzenleme prompt’unu otomatik oluşturmasını sağlıyorum
    bu süreç sayesinde sahneler arası geçişleri doğal olan bir GenAI video üretim hattı kurabildim
    • Bizim ekip de benzer şekilde storyboard hazırlamak için nano banana kullanıyor ve img2vid modeliyle tam hareketli video üretiyor
      karakter, arka plan ve stil tutarlılığını korumaya çalışıyoruz; senin çalışmanla çok benzer noktalar var
      bu arada ürünümüz Hypernatural.ai’a da bakmak isteyebilirsin
    • Bense tam tersine, sonuç bir kez raydan çıkınca tekrar başlangıçtaki niyete döndürmenin neredeyse imkânsız olduğunu düşünüyorum
  • gemimg Python kütüphanesini seviyorum
    Buna Gemini CLI ekleyip bir PR gönderdim; aşağıdaki gibi çalıştırılabiliyor
    sonuçlar bu yorumda
    • @simonw’ye bir sorum var — gemini-cli terminal oturumunun gist önizlemesini nasıl yaptın?
      Bu bağlantıdaki gibi bunu HTML/CSS ile kendin mi yaptın, yoksa amp-code gibi otomasyon araçları mı var?
    • pyproject.toml’a neden project.scripts girdisi eklemediğini merak ediyorum
      öyle olsa uv ile CLI doğrudan kurulabilir gibi görünüyor
    • Yazar başta açık kaynağı vurgulamıştı; QwenEdit ekosistemine de değinip değinmeyeceğini merak ediyorum
      Çin’deki düzenleme modelleri giderek NanoBanana seviyesine yaklaşıyor ve açık kaynak oldukları için maske ve kernel tabanlı gelişmiş görsel manipülasyonları mümkün kılıyorlar
      LoRA ile stil aktarımı da yapılabiliyor; kapalı Amerikan modellerinden çok daha ilginçler
      Nano Banana’nın eğitim verisini çıkarıp bunu yeni bir modele distill etmek de kolaylaşacak gibi görünüyor
  • minimaxir’in yazısını ilgiyle okudum
    Nano Banana’nın 32.768 token’lık context window’u sayesinde karmaşık görsel üretim hatlarında araya Mistral 7B koyup prompt’un 4 varyasyonunu üretiyorum
    stil aktarımının zayıf olduğu doğru, ama iki görsel birlikte verildiğinde biraz daha iyi sonuç çıkıyor
    ilki dönüştürülecek görsel, ikincisi ise stil referans görseli olarak kullanılıyor
    Portföy örneğimde de bu yaklaşımı kullandım
    • Muhtemelen geçmişteki “make me Ghibli” akımından sonra, Studio Ghibli tarzını engellemek için konmuş açık bir kısıtlama olabilir
  • İkinci iskelet pankek görselinde eğlenceli bir hata fark ettim
    çilek sağ göz çukurunda (görselin solunda), böğürtlen ise diğer tarafta
    çoğu görsel açıklaması gözlemcinin bakış açısından yazıldığı için böyle olmuş gibi görünüyor
    • Ben insan olsam muhtemelen Nano Banana gibi davranırdım
      kullanıcı iskeletin sol gözüne çilek koyulmasını istiyorsa, “onun sol gözü” diye açıkça belirtmeliydi
    • Bence birçok kişi “sol göz”ün özneye göre mi yoksa kameraya göre mi olduğunu karıştırır
    • Ben de bunu kaçırmıştım ama sonra karakter JSON’unda aynı soruna dikkat çektim
      bu yüzden prompt’a “sağ ve sol karakterin bakış açısına göre” diye yazınca başarı oranı arttı
    • Ben de aynı şeyi düşündüm
      yazar Nano Banana’nın tüm düzenlemeleri doğru yaptığını söylemiş ama bu nokta tartışmalı
      iskeletin “sağ gözü”nü iskeletin bakış açısından yorumlamak gerektiğini düşünüyorum
  • İsteği Google AI Studio’ya gönderin; watermark kaldırma için tarayıcının geliştirici araçlarında “watermark_4” isteğini engellemeniz yeterli
    bundan sonra üretilen görsellerde watermark kayboluyor
  • “Nano Banana stil aktarımında zayıf” cümlesine şaşırdım
    Mahallemi 18. yüzyıl manzarası olarak görselleştirdiğim bir proje yapıyorum
    SketchUp ve Twinmotion ile modelledim ama gerçekçi görseller üretmek zordu
    birçok yapay zeka görsel üreticisi denedim, fakat geometri tutarlılığını koruyarak yeni bir stili uygulayabilen ilk araç Nano Banana oldu
    “bu çizimi fotoğraf gibi yap” gibi basit bir prompt ile şaşırtıcı sonuçlar aldım
    ancak 18. yüzyıl ifadesini doğrudan yazınca bazen resimsi bir üsluba kayıyor; bu yüzden “korunmuş tarihi bir sokağın fotoğrafı” gibi dolaylı ifadeler kullanıyorum
    hâlâ elle modelleme yapıyorum ama Nano Banana sayesinde modellemeye yaklaşımım değişti
    • Ama sanatsal görselleri stil referansı olarak verirsen, Nano Banana eğitim kapsamının dışına çıkıp düzgün genelleme yapamıyor
  • “prompt engineered” ifadesi sonuçta görmek istediğini doğrudan yazmak anlamına geliyor
    • Ama bu gerçekten bir beceri
      birçok sorun, insanların ne istediklerini açıkça ifade edememesinden kaynaklanıyor
      prompt mühendisliği, iletişimin karmaşıklığını ele alma becerisi ve sözle anlam arasındaki boşluğu fark etmeyi sağlıyor
    • Modele göre bazı prompt’lar anlaşılmayabiliyor
    • Artık LLM’lerle etkileşimi bir doğal dil arayüzü olarak görüyoruz
      bu, programlama dillerinden farklı olarak muğlak bir arayüz ve prompt mühendisliği de bunu yönetmeye yarayan yeni bir beceri
    • Sonuçta istenen çıktıyı almak için prompt’u tekrar tekrar revize etme süreci
    • Eskiden buna “Google Fu” denirdi
  • Live-action Komşum Totoro sahnesi istemeyi denedim
    Sonic gibi gerçekçi uyarlaması zor bir karakter olduğu için sonucu merak ettim ama fotogerçekçilik yerine sadece dijital sanat tarzı görseller çıktı
    anahtar kelimeleri değiştirsem de durum aynıydı ve ChatGPT’de telif filtresi yüzünden bunu test etmek bile mümkün olmadı
    yine de denemenin kendisi ilginçti
  • Nano Banana bazen düzenlemelere yavaş tepki veriyor
    bir portreyi clay animation tarzına çevirmesini istedim ama neredeyse hiç değişiklik olmadı
    sonra “10 yaş daha genç yap” ekleyince birden kil figürü gibi görünmeye başladı
    • Bu bir stil aktarımı isteği olduğu için, Ghibli örneğinde olduğu gibi başarısız olması kaçınılmaz
  • Benim deneyimime göre nano banana hâlâ
    • görsele rastgele düzenlemeler yapıyor
    • ölçeği değiştiriyor ya da
    • ince ama genel ayrıntı değişiklikleri yaratıyor
      örneğin hiçbir talimat olmadan odaya şömine ya da garaj ekleyebiliyor
      sıcaklığı 0’a ayarlayınca bile bunlar oluyor; bu yüzden güvenilir bir uygulama yapmak zor
      daha iyi deneyim yaşayan biri olup olmadığını merak ediyorum
    • “ALL CAPS” kısmı ilginç
      büyük harfler farklı tokenize edildiği için, modelin anlamasının zor olduğu girdiler hâline gelebilir
    • Ben PixLab editörünü geliştiriyorum; bunda büyük harfli komutlar tam olarak yazıldığı gibi uygulanıyor