10 puan yazan GN⁺ 2025-08-27 | 2 yorum | WhatsApp'ta paylaş
  • Google, görüntü oluşturma ve düzenleme yetenekleri daha da güçlendirilmiş, Nano-Banana olarak bilinen Gemini 2.5 Flash Image modelini tanıttı
  • Karakter tutarlılığını koruma, doğal dil tabanlı kısmi düzenleme, dünya bilgisinden yararlanma, çoklu görüntü birleştirme gibi özellikleri destekliyor
  • Geliştiriciler modeli Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai gibi platformlar üzerinden hemen kullanabiliyor
  • Fiyatlandırma, 1 milyon çıktı tokenı başına 30 dolar; görüntü başına yaklaşık 0,039 dolar
  • Tüm çıktılara görünmez dijital SynthID filigranı ekleniyor

Gemini 2.5 Flash Image'a giriş

  • Google, yeni nesil görüntü oluşturma ve düzenleme modeli Gemini 2.5 Flash Image'ı (kod adı nano-banana) duyurdu
  • Bu güncellemeyle birden fazla görüntüyü tek bir görselde birleştirme, belirli kişi ya da nesnelerin tutarlılığını koruma, doğal dille ince ayarlı dönüşümler yapma ve Gemini'nin dünya bilgisine dayalı görüntü oluşturma ile düzenleme mümkün hale geliyor
  • İlk sürüm olan Gemini 2.0 Flash'ta da düşük gecikme, maliyet verimliliği ve kullanım kolaylığı öne çıkıyordu; ancak kullanıcı geri bildirimleri doğrultusunda bu kez daha yüksek kaliteli görüntüler ve daha güçlü yaratıcı kontrol özellikleri eklendi
  • Şu anda Gemini API, Google AI Studio, Vertex AI gibi hizmetlerde kullanılabiliyor ve ücretlendirme 1 milyon çıktı tokenı başına 30 dolar olarak belirlenmiş durumda (görüntü başına yaklaşık 0,039 dolar)
  • Diğer giriş/çıkış yöntemleri de Gemini 2.5 Flash ile aynı fiyat politikasını izliyor
  • Resmi site: https://deepmind.google/models/gemini/image/

Başlıca özellikler ve senaryolar

  • Google AI Studio'da “Build Mode” yükseltmesi

    • Gemini 2.5 Flash Image ile uygulama geliştirme daha kolay hale geliyor
    • Geliştiriciler özelleştirilmiş yapay zeka uygulamalarını hızlıca oluşturabilir, test edebilir, remiksleyebilir; ayrıca doğrudan Google AI Studio üzerinden dağıtabilir veya kodu GitHub'a kaydedebilir
    • Örneğin “Kullanıcının bir görüntü yükleyip filtre uygulayabildiği bir görüntü düzenleme uygulaması oluştur” gibi bir istemle kolayca uygulama yapılabiliyor
    • Varsayılan şablonları seçme/remiksleme özelliği de ücretsiz sunuluyor
  • Karakter tutarlılığını koruma

    • Görüntü oluşturma sürecinde aynı karakterin görünümünü korumak büyük bir zorluktu
    • Gemini 2.5 Flash Image, aynı kişiyi farklı ortamlara yerleştirme, ürünü farklı açılardan/konumlarda gösterme, marka varlıklarında tutarlılığı sağlama gibi işlerde etkili biçimde kullanılabiliyor
    • Google AI Studio şablon uygulaması üzerinden karakter tutarlılığı demosu görmek ve kodu özelleştirmek kolay
    • Bu özellik; emlak kartları, çalışan rozetleri, toplu ürün mockup'ları gibi şablon tabanlı tasarımlarda tutarlılık sağlamak için de kullanılabiliyor
  • Doğal dil istemleriyle görüntü düzenleme

    • Kullanıcılar yalnızca doğal dil talimatlarıyla görüntünün belirli kısımlarını değiştirebiliyor
    • Örnekler arasında arka planı bulanıklaştırma, tişört lekesini silme, kişiyi kaldırma, pozu değiştirme ve siyah-beyaz görüntüyü renkliye çevirme yer alıyor
    • UI/istem tabanlı düzenleme yapabilen şablon uygulama sayesinde bunu pratikte deneyimlemek mümkün
  • Dünya bilgisine dayalı yerel kullanım

    • Önceki modeller estetik görüntü üretiminde güçlü olsa da, gerçek dünya hakkında anlamsal kavrayışları daha sınırlıydı
    • Gemini 2.5 Flash Image, dünya bilgisini temel alarak elle çizilmiş diyagramları tanıyabiliyor, gerçek dünya sorularına yanıt verebiliyor ve karmaşık düzenleme komutlarını yerine getirebiliyor
    • Doğrudan kullanım örneği olarak, basit bir tuvali etkileşimli bir eğitim asistanına dönüştüren bir uygulama sunuluyor
  • Çoklu görüntü füzyonu

    • Bu model birden fazla görüntüyü anlayıp doğal biçimde birleştirebiliyor
    • Örneğin bir ürünü yeni bir arka plana yerleştirme, tüm odanın renk tonunu ve dokusunu değiştirme, tek bir istemle görüntü füzyonu yapma gibi yetenekler sunuyor
    • Şablon uygulama ile sürükle-bırak yöntemiyle ürün yerleştirip fotogerçekçi birleşik görüntüler üretmek mümkün

Başlangıç ve iş ortaklıkları

  • Geliştirici dokümantasyonu ile hemen başlanabiliyor; şu anda önizleme aşamasında olsa da yakında kararlı hale gelmesi bekleniyor
  • Demo uygulamaların tamamı Google AI Studio'da kod remiksleme ve özelleştirme için açık
  • OpenRouter.ai ile ortaklık kapsamında model 3 milyon geliştiriciye sunuluyor ve OpenRouter'ın desteklediği 480'den fazla model arasında görüntü oluşturabilen ilk model oluyor
  • fal.ai ile iş birliği sayesinde daha geniş geliştirici topluluğuna erişim sağlanıyor

Dijital filigran ve geri bildirim

  • Gemini 2.5 Flash Image ile oluşturulan veya düzenlenen tüm görüntülere, yapay zeka üretimi olduklarının tespit edilebilmesi için görünmez SynthID dijital filigranı ekleniyor
  • Metin kalitesi, karakter tutarlılığı ve görüntü detaylarının betimlenmesi gibi alanlarda sürekli iyileştirme sürüyor
  • Geliştirici geri bildirimleri Google geliştirici forumu veya X (eski adıyla Twitter) üzerinden düzenli olarak alınıyor

Kısa kullanım örneği (Python kodu)

  • Python'da genai SDK ile PIL ve io kütüphaneleri kullanılarak, istenen istem ve görüntülerle Gemini 2.5 Flash Image'dan yararlanılabiliyor
  • Örnek: “Kedim restoranda nano-banana yerken” gibi serbest bir istem uygulanabiliyor
  • Üretilen çıktı, kod içinde hem düz metin hem de görüntü dosyası olarak kaydedilebiliyor

Gelecek gelişim yönü

  • Uzun metin render etme, daha güvenilir karakter tutarlılığı ve gerçekçi detay sunumu gibi alanlarda sürekli seviye artırma çalışmaları devam ediyor
  • Topluluğun aktif katılımı ve geri bildirimi teşvik ediliyor
  • Gemini 2.5 Flash Image ile daha çeşitli yaratıcı ve geliştirme deneyimlerinin yaygınlaşması bekleniyor

2 yorum

 
GN⁺ 2025-08-27
Hacker News yorumları
  • Bu, görüntü düzenleme modelleri için adeta GPT-4 anı gibi. Twitter'da etkileyici sonuçlara bakın
    • nano banana, yani gemini 2.5 flash, performans açısından o kadar güçlü ki lmarena'da 171 elo puan sıçradı
    • Twitter'da nano banana aratırsanız etkileyici sonuçlar görebilirsiniz
    • Bu aralar "nano banana" alan adlarının hepsi alınmış durumda ve herkes kendi görüntü üretim UI'ını sunuyor; hepsi de popüler model adını kullanan birer aracı gibi hissettiriyor
    • Adının neden nano banana olduğunu merak ediyorum
  • İşte bu, meşhur nano-banana modeli; şu anda LMArena'da adı gemini-2.5-flash-image-preview olarak değiştirilmiş
  • Gemini ile görüntü oluşturmaya çalışınca zamanın yarısında imkansız diye cevap veriyor
    • Üstelik Google'ın duyurduğu özellikler oraya buraya dağılmış durumda; hangi üründe kullanılabildiğini ve nereye ödeme yapılacağını hiç kestirememek gibi bir karmaşa da var
  • Görüntü modelleri sonuçta birer zaman vampiri gibi
    • Bir oda oluşturmak kolay ama aynı odayı farklı açılardan tutarlı şekilde üretmek fiilen imkansız
    • Görüntü tutarlılığı gerektiren işlerde kullanmak zor
  • Aile fotoğraflarını dijitalleştirdim ama çoğu hasarlıydı, bu yüzden onarmak zordu
    • Bu modelin detayları değiştirmeden restorasyon yapma konusunda iyi göründüğünü düşünüyorum; sonunda gerçekten işe yarar bir noktaya gelmiş olabilir
    • Aslında bu tür kusurlar film tarayıcı + ICE özelliği ve Vuescan gibi yazılımlarla otomatik olarak onarılabiliyor
      • Yüzlerce fotoğrafı deneysel bir bulut yapay zekasına emanet etmek gereksiz görünüyor
    • Acaba iyi bir video kalite iyileştirme yazılımı bilen var mı?
      • Video 2000 ve VHS kasetlerini dijitalleştiriyorum; anı videolarını az da olsa iyileştirmek istiyorum
    • Umarım iyi çalışır, ama örneklerden birinde yüz aşırı derecede AI'laştırılmış gibi hissettirdi
    • Aslında Flux Kontext adlı model birkaç ay önce zaten bu seviyeye ulaşmıştı
  • Model performansı etkileyici, ama aynı zamanda toplumsal etki konusunda endişeliyim
    • Sadece Facebook yorumlarına bakmak bile tedirgin etmeye yetiyor
    • Google'ın SynthID özelliğini test ettim ve oldukça iyi buldum
      • Sıkıştırma, kırpma, yeniden boyutlandırma, renk düzeltme ve overpainting sonrasında bile filigran kalıyor
    • Ben de yakın zamanda bir SpaceX fırlatma etkinliği sırasında deepfake dolandırıcılığına kanıp 15k BTC kaybettim
      • Teknoloji o kadar incelmiş durumda ki saldırılar gittikçe daha tehlikeli hale geliyor
    • Facebook yorumlarının botlar tarafından yürütüldüğü neredeyse kesin gibi görünüyor
  • Lamba örneği oldukça etkileyiciydi
    • Güç bağlantısı, aydınlatma ve gölgeler doğal şekilde ifade edilmişti
  • ChatGPT'nin görüntü üretimine kıyasla çok daha hızlı olmasını beğendim
    • ChatGPT o kadar yavaştı ki sonucu bildirimle almak gerekir hale gelmişti
    • “Gemini 2.5 Flash Image'ı deneyen OpenAI yatırımcılarının hali” gibi bir görüntüyü düşünmek bile komik
  • Uzun zamandır yapmak istediğim bir iş vardı
    • Görüntü1'deki belirli bir nesneyi Görüntü2'deki nesneyle değiştirmek istiyordum; hatta konumu da tam olarak belirtmek istiyordum
    • Birçok modeli denedim ama hepsi başarısız oldu; bu model ise neredeyse doğru yaptı ama sonunda başka bir nesneyi değiştirdi
    • Belirli bir konumu referans görselle değiştirmeye özel bir model olup olmadığını merak ediyorum
    • Alibaba'nın ACE++ modeli böyle bir özelliği destekliyor
      • phind.design üzerinde kullanılıyor, ama oldukça niş bir iş olduğu için yaygın değil