10 puan yazan GN⁺ 2025-11-14 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Nano Banana, Google’ın Gemini 2.5 Flash Image modeli olup metin prompt’larını ayrıntılı biçimde yorumlayarak karmaşık görsel kompozisyonlarını doğru şekilde uygulayan otoregresif bir görsel üretim modelidir
  • Güçlü metin kodlayıcısı sayesinde ayrıntılı kuralları, renk kodlarını ve JSON·HTML tabanlı girdileri sadakatle yansıtır; prompt’a uyum seviyesi çok yüksektir
  • ChatGPT’nin gpt-image-1 modelinden daha ucuzdur; geliştiriciler API üzerinden doğrudan görsel üretim uygulamaları kurabilir ve Python paketi gemimg ile kolayca kullanabilir
  • Karmaşık düzenleme·birleştirme·kod·web sayfası render etme gibi çeşitli deneylerde yüksek doğruluk ve tutarlılık gösterdi; ancak stil dönüşümü ve metin render etme konusunda sınırlamaları var
  • AI görsel üretiminde hassas kontrol olasılığını gösteriyor ve gelecekte prompt tabanlı görsel mühendislik için yeni bir ölçüt olarak öne çıkıyor

AI görsel üretim modellerindeki değişim ve Nano Banana’nın ortaya çıkışı

  • Son dönemde AI görsel üretimi alanında FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 gibi çeşitli modeller ortaya çıktı; ancak 2025 Mart ayında ChatGPT’nin ücretsiz görsel üretim özelliği kamu algısına yön verdi
  • ChatGPT’nin görselleri sarı tonları ve tutarlı çizgi çalışması·tipografi ile kolayca ayırt edilebiliyor
  • ChatGPT’nin temel modeli gpt-image-1, otoregresif bir yapı kullanıyor; görselleri token düzeyinde üretiyor ve tek bir yüksek kaliteli görsel için yaklaşık 30 saniye harcıyor
  • 2025 Ağustos’ta LMArena’da “** nano-banana**” kod adlı bir model ortaya çıktı ve daha sonra Google bunu Gemini 2.5 Flash Image olarak duyurdu
    • Görseli 1.290 token ile üretiyor ve Gemini uygulamasının popülerliğinin artmasıyla “Nano Banana” adı fiili resmî takma ada dönüştü

Nano Banana’nın görsel üretimi ve API kullanımı

  • Nano Banana ile Gemini web/mobil uygulamasındaki “Create Image 🍌” özelliği veya Google AI Studio üzerinden ücretsiz olarak görsel üretmek mümkün
    • AI Studio’da oran ayarı gibi ayrıntılı parametreler destekleniyor
    • Üretilen görsellerde sağ alt köşede filigran yer alıyor
  • Geliştiriciler Gemini API’nin gemini-2.5-flash-image endpoint’i üzerinden programatik olarak görsel üretebilir
    • 1MP görsel başına yaklaşık $0.04, ChatGPT’nin $0.17 fiyatından daha ucuz
  • API kullanımının karmaşıklığını azaltmak için yazılan Python paketi gemimg, basit prompt’larla görsel üretmeyi sağlıyor
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Prompt’a uyum testi: kafatası pankeki ve görsel düzenleme

  • Yaban mersini ve maple şurubu eklenmiş kafatası şeklinde pankek görseli” prompt’u doğru biçimde uygulandı
    • Şurubun akışı, pankekin dokusu ve yaban mersinlerinin konumu gibi ayrıntılar sadakatle yansıtıldı
  • Ardından aynı görsel üzerinde eşzamanlı 5 düzenleme komutu (çilek·böğürtlen ekleme, nane süsü, tabak değiştirme, arka plana insan ekleme) uygulandı
    • Tüm değişiklikler doğru şekilde yansıtıldı ve gereksiz kısımlar en az düzeyde değiştirildi

Kişi tutarlılığı testi: Ugly Sonic ve Obama ile tokalaşma

  • Nano Banana, LoRA eğitimi olmadan da belirli bir kişi tutarlılığını koruyabiliyor
  • “Ugly Sonic’in Barack Obama ile tokalaştığı görsel” prompt’unda gerçekten iki karakter birlikte yer aldı
    • Sonrasında “Pulitzer-prize-winning New York Times cover photo” ifadesi eklendiğinde kompozisyon·renk·ışık kalitesi iyileşti
    • “Metin hariç” komutuyla gereksiz unsurlar kaldırılabildi
  • 17 adet Ugly Sonic görseli birlikte girildiğinde, dış görünüş daha doğru yeniden üretildi

Gemini 2.5 Flash ile Nano Banana arasındaki ilişki

  • Nano Banana, Gemini 2.5 Flash’ın multimodal kodlayıcısının genişletilmiş bir sürümü olup
    • Markdown·JSON eğitimi, nesne tanıma ve segmentasyon maskesi üretme yeteneğine sahip
    • CLIP(77 token) veya T5(512 token)’dan çok daha uzun olan 32.768 token bağlam penceresini destekliyor
  • Karmaşık kural tabanlı prompt’ları (ör. üç kedinin renk·kıyafet·ışık·kompozisyon koşulları) eksiksiz biçimde karşıladı
    • ChatGPT ise aynı prompt’ta renk ve kompozisyon hataları üretti

Kod·metin üretim deneyleri

  • Buzdolabı mıknatıslarından oluşan Python Fibonacci kodu görseli” prompt’unda
    • Nano Banana kod yapısını kısmen yeniden üretirken sözdizimi vurgulama renklerinin bir kısmını da yansıttı
    • ChatGPT de benzer bir deneme yaptı ancak kalite farkı belirgindi
  • Önceki metni mıknatıslarla göster” deneyinde Nano Banana’nın sistem prompt’unun bir kısmı açığa çıktı
    • İç kurallar arasında “buzzword kullanımı yasak” maddesinin bulunduğu görüldü
    • Büyük harflerle (MUST) yazıldığında prompt’a uyum oranının arttığı gözlemlendi

Büyük prompt işleme: HTML·JSON girdileri

  • Nano Banana, HTML/CSS/JS kodunun tamamını render ederek web sayfası görseli üretebiliyor
    • Yerleşim ve renkler doğruydu, ancak bazı metin ve oran hataları vardı
  • JSON tabanlı karakter betimlemesi girdisinde Paladin/Pirate/Barista karışımı bir karakter görselleştirildi
    • Kıyafet, aksesuar ve duruş gibi unsurların çoğu JSON alanlarıyla eşleşti
    • “Gerçek çekim koşulları” eklendiğinde fotogerçekçilik arttı, yansıma ışığı ve derinlik hissi oluştu

Nano Banana’nın sınırları ve sorunları

  • Make me into Studio Ghibli” prompt’unda stil dönüşümü başarısız oldu
    • Otoregresif yapısı nedeniyle stil değişimine karşı direnç bulunuyor
  • Telif kısıtları neredeyse yok, birden çok IP karakteri tek sahnede birlikte üretilebiliyor
    • Örneğin Mario, Mickey Mouse, Pikachu ve Optimus Prime aynı kulüpte yer alabiliyor
  • NSFW içerik üretme olasılığı var; sansür gevşek
  • Metin render etme kusurları ve stil dönüşümündeki zayıflık gibi teknik sınırlamalar hâlâ sürüyor

Sonuç ve önemi

  • Nano Banana, hassas prompt mühendisliğiyle yüksek kaliteli görsel kontrolü sağlayabilen bir model
  • HTML·JSON·birleşik kural tabanlı girdileri bile yorumlayabildiği için AI görsel üretiminde yeni bir deney platformu olarak yükseliyor
  • ChatGPT merkezli kamu algısının ötesine geçerek AI görsel üretiminin gerçek imkân ve sınırlarını sınayan bir örnek sunuyor
  • Yazar, tüm deney prompt’larını ve Jupyter Notebook’u yayımlayarak yeniden üretilebilirlik ve şeffaflık sağladı
  • Nano Banana, prompt merkezli görsel mühendisliği çağındaki dönüşüm noktasını gösteren bir örnek olarak değerlendiriliyor

Henüz yorum yok.

Henüz yorum yok.