Gemini 2.5 Flash Image - En yeni görüntü oluşturma ve düzenleme modeli tanıtıldı

(developers.googleblog.com)

10 puan yazan GN⁺ 2025-08-27 | 2 yorum | WhatsApp'ta paylaş

Google, görüntü oluşturma ve düzenleme yetenekleri daha da güçlendirilmiş, Nano-Banana olarak bilinen Gemini 2.5 Flash Image modelini tanıttı
Karakter tutarlılığını koruma, doğal dil tabanlı kısmi düzenleme, dünya bilgisinden yararlanma, çoklu görüntü birleştirme gibi özellikleri destekliyor
Geliştiriciler modeli Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai gibi platformlar üzerinden hemen kullanabiliyor
Fiyatlandırma, 1 milyon çıktı tokenı başına 30 dolar; görüntü başına yaklaşık 0,039 dolar
Tüm çıktılara görünmez dijital SynthID filigranı ekleniyor

Gemini 2.5 Flash Image'a giriş

Google, yeni nesil görüntü oluşturma ve düzenleme modeli Gemini 2.5 Flash Image'ı (kod adı nano-banana) duyurdu
Bu güncellemeyle birden fazla görüntüyü tek bir görselde birleştirme, belirli kişi ya da nesnelerin tutarlılığını koruma, doğal dille ince ayarlı dönüşümler yapma ve Gemini'nin dünya bilgisine dayalı görüntü oluşturma ile düzenleme mümkün hale geliyor
İlk sürüm olan Gemini 2.0 Flash'ta da düşük gecikme, maliyet verimliliği ve kullanım kolaylığı öne çıkıyordu; ancak kullanıcı geri bildirimleri doğrultusunda bu kez daha yüksek kaliteli görüntüler ve daha güçlü yaratıcı kontrol özellikleri eklendi
Şu anda Gemini API, Google AI Studio, Vertex AI gibi hizmetlerde kullanılabiliyor ve ücretlendirme 1 milyon çıktı tokenı başına 30 dolar olarak belirlenmiş durumda (görüntü başına yaklaşık 0,039 dolar)
Diğer giriş/çıkış yöntemleri de Gemini 2.5 Flash ile aynı fiyat politikasını izliyor
Resmi site: https://deepmind.google/models/gemini/image/

Başlıca özellikler ve senaryolar

Google AI Studio'da “Build Mode” yükseltmesi
- Gemini 2.5 Flash Image ile uygulama geliştirme daha kolay hale geliyor
- Geliştiriciler özelleştirilmiş yapay zeka uygulamalarını hızlıca oluşturabilir, test edebilir, remiksleyebilir; ayrıca doğrudan Google AI Studio üzerinden dağıtabilir veya kodu GitHub'a kaydedebilir
- Örneğin “Kullanıcının bir görüntü yükleyip filtre uygulayabildiği bir görüntü düzenleme uygulaması oluştur” gibi bir istemle kolayca uygulama yapılabiliyor
- Varsayılan şablonları seçme/remiksleme özelliği de ücretsiz sunuluyor
Karakter tutarlılığını koruma
- Görüntü oluşturma sürecinde aynı karakterin görünümünü korumak büyük bir zorluktu
- Gemini 2.5 Flash Image, aynı kişiyi farklı ortamlara yerleştirme, ürünü farklı açılardan/konumlarda gösterme, marka varlıklarında tutarlılığı sağlama gibi işlerde etkili biçimde kullanılabiliyor
- Google AI Studio şablon uygulaması üzerinden karakter tutarlılığı demosu görmek ve kodu özelleştirmek kolay
- Bu özellik; emlak kartları, çalışan rozetleri, toplu ürün mockup'ları gibi şablon tabanlı tasarımlarda tutarlılık sağlamak için de kullanılabiliyor
Doğal dil istemleriyle görüntü düzenleme
- Kullanıcılar yalnızca doğal dil talimatlarıyla görüntünün belirli kısımlarını değiştirebiliyor
- Örnekler arasında arka planı bulanıklaştırma, tişört lekesini silme, kişiyi kaldırma, pozu değiştirme ve siyah-beyaz görüntüyü renkliye çevirme yer alıyor
- UI/istem tabanlı düzenleme yapabilen şablon uygulama sayesinde bunu pratikte deneyimlemek mümkün
Dünya bilgisine dayalı yerel kullanım
- Önceki modeller estetik görüntü üretiminde güçlü olsa da, gerçek dünya hakkında anlamsal kavrayışları daha sınırlıydı
- Gemini 2.5 Flash Image, dünya bilgisini temel alarak elle çizilmiş diyagramları tanıyabiliyor, gerçek dünya sorularına yanıt verebiliyor ve karmaşık düzenleme komutlarını yerine getirebiliyor
- Doğrudan kullanım örneği olarak, basit bir tuvali etkileşimli bir eğitim asistanına dönüştüren bir uygulama sunuluyor
Çoklu görüntü füzyonu
- Bu model birden fazla görüntüyü anlayıp doğal biçimde birleştirebiliyor
- Örneğin bir ürünü yeni bir arka plana yerleştirme, tüm odanın renk tonunu ve dokusunu değiştirme, tek bir istemle görüntü füzyonu yapma gibi yetenekler sunuyor
- Şablon uygulama ile sürükle-bırak yöntemiyle ürün yerleştirip fotogerçekçi birleşik görüntüler üretmek mümkün

Başlangıç ve iş ortaklıkları

Geliştirici dokümantasyonu ile hemen başlanabiliyor; şu anda önizleme aşamasında olsa da yakında kararlı hale gelmesi bekleniyor
Demo uygulamaların tamamı Google AI Studio'da kod remiksleme ve özelleştirme için açık
OpenRouter.ai ile ortaklık kapsamında model 3 milyon geliştiriciye sunuluyor ve OpenRouter'ın desteklediği 480'den fazla model arasında görüntü oluşturabilen ilk model oluyor
fal.ai ile iş birliği sayesinde daha geniş geliştirici topluluğuna erişim sağlanıyor

Dijital filigran ve geri bildirim

Gemini 2.5 Flash Image ile oluşturulan veya düzenlenen tüm görüntülere, yapay zeka üretimi olduklarının tespit edilebilmesi için görünmez SynthID dijital filigranı ekleniyor
Metin kalitesi, karakter tutarlılığı ve görüntü detaylarının betimlenmesi gibi alanlarda sürekli iyileştirme sürüyor
Geliştirici geri bildirimleri Google geliştirici forumu veya X (eski adıyla Twitter) üzerinden düzenli olarak alınıyor

Kısa kullanım örneği (Python kodu)

Python'da genai SDK ile PIL ve io kütüphaneleri kullanılarak, istenen istem ve görüntülerle Gemini 2.5 Flash Image'dan yararlanılabiliyor
Örnek: “Kedim restoranda nano-banana yerken” gibi serbest bir istem uygulanabiliyor
Üretilen çıktı, kod içinde hem düz metin hem de görüntü dosyası olarak kaydedilebiliyor

Gelecek gelişim yönü

Uzun metin render etme, daha güvenilir karakter tutarlılığı ve gerçekçi detay sunumu gibi alanlarda sürekli seviye artırma çalışmaları devam ediyor
Topluluğun aktif katılımı ve geri bildirimi teşvik ediliyor
Gemini 2.5 Flash Image ile daha çeşitli yaratıcı ve geliştirme deneyimlerinin yaygınlaşması bekleniyor

2 yorum

xguru 2025-08-27

Google Nano Banana nedir? Google'ın gizli görsel yapay zekası

GN⁺ 2025-08-27

Hacker News yorumları

Bu, görüntü düzenleme modelleri için adeta GPT-4 anı gibi. Twitter'da etkileyici sonuçlara bakın
- nano banana, yani gemini 2.5 flash, performans açısından o kadar güçlü ki lmarena'da 171 elo puan sıçradı
- Twitter'da nano banana aratırsanız etkileyici sonuçlar görebilirsiniz
- Bu aralar "nano banana" alan adlarının hepsi alınmış durumda ve herkes kendi görüntü üretim UI'ını sunuyor; hepsi de popüler model adını kullanan birer aracı gibi hissettiriyor
- Adının neden nano banana olduğunu merak ediyorum
İşte bu, meşhur nano-banana modeli; şu anda LMArena'da adı gemini-2.5-flash-image-preview olarak değiştirilmiş
- nano-banana'nın ne olduğunu bilmeyenler için bağlantı: Google Nano Banana nedir? Google'ın gizli görüntü yapay zekası
- Ben de bunu merak ederek gelmiştim, cevabı bulduğum için teşekkürler
Gemini ile görüntü oluşturmaya çalışınca zamanın yarısında imkansız diye cevap veriyor
- Üstelik Google'ın duyurduğu özellikler oraya buraya dağılmış durumda; hangi üründe kullanılabildiğini ve nereye ödeme yapılacağını hiç kestirememek gibi bir karmaşa da var
Görüntü modelleri sonuçta birer zaman vampiri gibi
- Bir oda oluşturmak kolay ama aynı odayı farklı açılardan tutarlı şekilde üretmek fiilen imkansız
- Görüntü tutarlılığı gerektiren işlerde kullanmak zor
Aile fotoğraflarını dijitalleştirdim ama çoğu hasarlıydı, bu yüzden onarmak zordu
- Bu modelin detayları değiştirmeden restorasyon yapma konusunda iyi göründüğünü düşünüyorum; sonunda gerçekten işe yarar bir noktaya gelmiş olabilir
- Aslında bu tür kusurlar film tarayıcı + ICE özelliği ve Vuescan gibi yazılımlarla otomatik olarak onarılabiliyor
  - Yüzlerce fotoğrafı deneysel bir bulut yapay zekasına emanet etmek gereksiz görünüyor
- Acaba iyi bir video kalite iyileştirme yazılımı bilen var mı?
  - Video 2000 ve VHS kasetlerini dijitalleştiriyorum; anı videolarını az da olsa iyileştirmek istiyorum
- Umarım iyi çalışır, ama örneklerden birinde yüz aşırı derecede AI'laştırılmış gibi hissettirdi
- Aslında Flux Kontext adlı model birkaç ay önce zaten bu seviyeye ulaşmıştı
Model performansı etkileyici, ama aynı zamanda toplumsal etki konusunda endişeliyim
- Sadece Facebook yorumlarına bakmak bile tedirgin etmeye yetiyor
- Google'ın SynthID özelliğini test ettim ve oldukça iyi buldum
  - Sıkıştırma, kırpma, yeniden boyutlandırma, renk düzeltme ve overpainting sonrasında bile filigran kalıyor
- Ben de yakın zamanda bir SpaceX fırlatma etkinliği sırasında deepfake dolandırıcılığına kanıp 15k BTC kaybettim
  - Teknoloji o kadar incelmiş durumda ki saldırılar gittikçe daha tehlikeli hale geliyor
- Facebook yorumlarının botlar tarafından yürütüldüğü neredeyse kesin gibi görünüyor
Lamba örneği oldukça etkileyiciydi
- Güç bağlantısı, aydınlatma ve gölgeler doğal şekilde ifade edilmişti
ChatGPT'nin görüntü üretimine kıyasla çok daha hızlı olmasını beğendim
- ChatGPT o kadar yavaştı ki sonucu bildirimle almak gerekir hale gelmişti
- “Gemini 2.5 Flash Image'ı deneyen OpenAI yatırımcılarının hali” gibi bir görüntüyü düşünmek bile komik
Uzun zamandır yapmak istediğim bir iş vardı
- Görüntü1'deki belirli bir nesneyi Görüntü2'deki nesneyle değiştirmek istiyordum; hatta konumu da tam olarak belirtmek istiyordum
- Birçok modeli denedim ama hepsi başarısız oldu; bu model ise neredeyse doğru yaptı ama sonunda başka bir nesneyi değiştirdi
- Belirli bir konumu referans görselle değiştirmeye özel bir model olup olmadığını merak ediyorum
- Alibaba'nın ACE++ modeli böyle bir özelliği destekliyor
  - phind.design üzerinde kullanılıyor, ama oldukça niş bir iş olduğu için yaygın değil

Gemini 2.5 Flash Image - En yeni görüntü oluşturma ve düzenleme modeli tanıtıldı

Gemini 2.5 Flash Image'a giriş

Başlıca özellikler ve senaryolar

Google AI Studio'da “Build Mode” yükseltmesi

Karakter tutarlılığını koruma

Doğal dil istemleriyle görüntü düzenleme

Dünya bilgisine dayalı yerel kullanım

Çoklu görüntü füzyonu

Başlangıç ve iş ortaklıkları

Dijital filigran ve geri bildirim

Kısa kullanım örneği (Python kodu)

Gelecek gelişim yönü

İlgili okumalar

2 yorum

Hacker News yorumları