- Google, görüntü oluşturma ve düzenleme yetenekleri daha da güçlendirilmiş, Nano-Banana olarak bilinen Gemini 2.5 Flash Image modelini tanıttı
- Karakter tutarlılığını koruma, doğal dil tabanlı kısmi düzenleme, dünya bilgisinden yararlanma, çoklu görüntü birleştirme gibi özellikleri destekliyor
- Geliştiriciler modeli Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai gibi platformlar üzerinden hemen kullanabiliyor
- Fiyatlandırma, 1 milyon çıktı tokenı başına 30 dolar; görüntü başına yaklaşık 0,039 dolar
- Tüm çıktılara görünmez dijital SynthID filigranı ekleniyor
Gemini 2.5 Flash Image'a giriş
- Google, yeni nesil görüntü oluşturma ve düzenleme modeli Gemini 2.5 Flash Image'ı (kod adı nano-banana) duyurdu
- Bu güncellemeyle birden fazla görüntüyü tek bir görselde birleştirme, belirli kişi ya da nesnelerin tutarlılığını koruma, doğal dille ince ayarlı dönüşümler yapma ve Gemini'nin dünya bilgisine dayalı görüntü oluşturma ile düzenleme mümkün hale geliyor
- İlk sürüm olan Gemini 2.0 Flash'ta da düşük gecikme, maliyet verimliliği ve kullanım kolaylığı öne çıkıyordu; ancak kullanıcı geri bildirimleri doğrultusunda bu kez daha yüksek kaliteli görüntüler ve daha güçlü yaratıcı kontrol özellikleri eklendi
- Şu anda Gemini API, Google AI Studio, Vertex AI gibi hizmetlerde kullanılabiliyor ve ücretlendirme 1 milyon çıktı tokenı başına 30 dolar olarak belirlenmiş durumda (görüntü başına yaklaşık 0,039 dolar)
- Diğer giriş/çıkış yöntemleri de Gemini 2.5 Flash ile aynı fiyat politikasını izliyor
- Resmi site: https://deepmind.google/models/gemini/image/
Başlıca özellikler ve senaryolar
-
Google AI Studio'da “Build Mode” yükseltmesi
- Gemini 2.5 Flash Image ile uygulama geliştirme daha kolay hale geliyor
- Geliştiriciler özelleştirilmiş yapay zeka uygulamalarını hızlıca oluşturabilir, test edebilir, remiksleyebilir; ayrıca doğrudan Google AI Studio üzerinden dağıtabilir veya kodu GitHub'a kaydedebilir
- Örneğin “Kullanıcının bir görüntü yükleyip filtre uygulayabildiği bir görüntü düzenleme uygulaması oluştur” gibi bir istemle kolayca uygulama yapılabiliyor
- Varsayılan şablonları seçme/remiksleme özelliği de ücretsiz sunuluyor
-
Karakter tutarlılığını koruma
- Görüntü oluşturma sürecinde aynı karakterin görünümünü korumak büyük bir zorluktu
- Gemini 2.5 Flash Image, aynı kişiyi farklı ortamlara yerleştirme, ürünü farklı açılardan/konumlarda gösterme, marka varlıklarında tutarlılığı sağlama gibi işlerde etkili biçimde kullanılabiliyor
- Google AI Studio şablon uygulaması üzerinden karakter tutarlılığı demosu görmek ve kodu özelleştirmek kolay
- Bu özellik; emlak kartları, çalışan rozetleri, toplu ürün mockup'ları gibi şablon tabanlı tasarımlarda tutarlılık sağlamak için de kullanılabiliyor
-
Doğal dil istemleriyle görüntü düzenleme
- Kullanıcılar yalnızca doğal dil talimatlarıyla görüntünün belirli kısımlarını değiştirebiliyor
- Örnekler arasında arka planı bulanıklaştırma, tişört lekesini silme, kişiyi kaldırma, pozu değiştirme ve siyah-beyaz görüntüyü renkliye çevirme yer alıyor
- UI/istem tabanlı düzenleme yapabilen şablon uygulama sayesinde bunu pratikte deneyimlemek mümkün
-
Dünya bilgisine dayalı yerel kullanım
- Önceki modeller estetik görüntü üretiminde güçlü olsa da, gerçek dünya hakkında anlamsal kavrayışları daha sınırlıydı
- Gemini 2.5 Flash Image, dünya bilgisini temel alarak elle çizilmiş diyagramları tanıyabiliyor, gerçek dünya sorularına yanıt verebiliyor ve karmaşık düzenleme komutlarını yerine getirebiliyor
- Doğrudan kullanım örneği olarak, basit bir tuvali etkileşimli bir eğitim asistanına dönüştüren bir uygulama sunuluyor
-
Çoklu görüntü füzyonu
- Bu model birden fazla görüntüyü anlayıp doğal biçimde birleştirebiliyor
- Örneğin bir ürünü yeni bir arka plana yerleştirme, tüm odanın renk tonunu ve dokusunu değiştirme, tek bir istemle görüntü füzyonu yapma gibi yetenekler sunuyor
- Şablon uygulama ile sürükle-bırak yöntemiyle ürün yerleştirip fotogerçekçi birleşik görüntüler üretmek mümkün
Başlangıç ve iş ortaklıkları
- Geliştirici dokümantasyonu ile hemen başlanabiliyor; şu anda önizleme aşamasında olsa da yakında kararlı hale gelmesi bekleniyor
- Demo uygulamaların tamamı Google AI Studio'da kod remiksleme ve özelleştirme için açık
- OpenRouter.ai ile ortaklık kapsamında model 3 milyon geliştiriciye sunuluyor ve OpenRouter'ın desteklediği 480'den fazla model arasında görüntü oluşturabilen ilk model oluyor
- fal.ai ile iş birliği sayesinde daha geniş geliştirici topluluğuna erişim sağlanıyor
Dijital filigran ve geri bildirim
- Gemini 2.5 Flash Image ile oluşturulan veya düzenlenen tüm görüntülere, yapay zeka üretimi olduklarının tespit edilebilmesi için görünmez SynthID dijital filigranı ekleniyor
- Metin kalitesi, karakter tutarlılığı ve görüntü detaylarının betimlenmesi gibi alanlarda sürekli iyileştirme sürüyor
- Geliştirici geri bildirimleri Google geliştirici forumu veya X (eski adıyla Twitter) üzerinden düzenli olarak alınıyor
Kısa kullanım örneği (Python kodu)
- Python'da genai SDK ile PIL ve io kütüphaneleri kullanılarak, istenen istem ve görüntülerle Gemini 2.5 Flash Image'dan yararlanılabiliyor
- Örnek: “Kedim restoranda nano-banana yerken” gibi serbest bir istem uygulanabiliyor
- Üretilen çıktı, kod içinde hem düz metin hem de görüntü dosyası olarak kaydedilebiliyor
Gelecek gelişim yönü
- Uzun metin render etme, daha güvenilir karakter tutarlılığı ve gerçekçi detay sunumu gibi alanlarda sürekli seviye artırma çalışmaları devam ediyor
- Topluluğun aktif katılımı ve geri bildirimi teşvik ediliyor
- Gemini 2.5 Flash Image ile daha çeşitli yaratıcı ve geliştirme deneyimlerinin yaygınlaşması bekleniyor
2 yorum
Google Nano Banana nedir? Google'ın gizli görsel yapay zekası
Hacker News yorumları