Gemini 2.5 Flash Image
(developers.googleblog.com)- Google, son teknoloji görüntü üretme ve düzenleme modeli Gemini 2.5 Flash Image'ı tanıttı
- Kullanıcılar birden fazla görüntüyü tek bir görüntüde birleştirme, karakter tutarlılığını koruma ve doğal dil tabanlı hedef görüntü dönüştürme özelliklerinden yararlanabiliyor
- Bu model, geliştiricilere ve kurumsal kullanıcılara Google AI Studio, Gemini API, Vertex AI üzerinden sunuluyor
- Görüntü birleştirme, şablon tabanlı üretim ve programlanabilir düzenleme gibi çeşitli kullanım örnekleri hazırlanmış durumda
- Yapay zeka tarafından oluşturulan görüntülere görünmez dijital filigran SynthID eklenerek, bunların üretilmiş/düzenlenmiş görüntüler olduğu anlaşılabiliyor
Gemini 2.5 Flash Image'a giriş
Google, Gemini 2.5 Flash Image'ı (kod adı nano-banana) tanıttı. Bu model; görüntü üretme ve düzenleme, çoklu görüntü birleştirme, karakter tutarlılığını koruma ve doğal dil komutlarıyla kapsamlı görüntü düzenleme gibi yetenekleri destekliyor. Ayrıca Gemini'nin dünya bilgisini kullanarak mevcut görüntü üretim modellerine kıyasla daha derin düzenleme ve üretim kalitesi sunuyor
Gemini 2.0 Flash'ın önceki sürümü düşük gecikme, maliyet verimliliği ve kullanım kolaylığı sunma avantajına sahipti; ancak topluluk talepleri doğrultusunda daha yüksek kalite ve yaratıcı kontrol yetenekleri güçlendirildi
Bu model Gemini API, Google AI Studio ve Vertex AI üzerinden önizleme olarak hemen kullanılabiliyor. Fiyatı 1 milyon çıktı token'ı başına 30,00 $ ve her bir görüntü için 1290 token (0,039 $) olarak ücretlendiriliyor. Girdi ve çıktının diğer modaliteleri de Gemini 2.5 Flash fiyatlandırmasını takip ediyor
Gerçek kullanım örnekleri
Google AI Studio'nun build mode'u yeniden düzenlenerek, özel AI uygulamalarında Gemini 2.5 Flash Image özelliklerini kolayca test edip geliştirme imkanı sağlanıyor. Doğrudan prompt yazarak uygulama oluşturmak veya önceden sunulan şablonları serbestçe remiksleyerek kullanmak mümkün. Tamamlanan uygulamalar AI Studio'dan doğrudan dağıtılabiliyor ya da kod GitHub'a kaydedilebiliyor
Örnek prompt: “Kullanıcının görüntü yükleyip çeşitli filtreler uygulayabildiği bir görüntü düzenleme uygulaması oluştur”
Karakter tutarlılığını koruma
Görüntü üretimindeki temel zorluklardan biri olan karakter veya nesne görünümündeki tutarlılık etkili biçimde korunabiliyor. Aynı kişiyi farklı ortamlara doğal şekilde yerleştirme, tek bir ürünü çeşitli açılar ve kurulumlarla üretme, marka varlıklarını tutarlı biçimde oluşturma gibi kullanım senaryoları mümkün
Google AI Studio'nun özelleştirilmiş şablon uygulaması üzerinden karakter tutarlılığı gösterimi yapılabiliyor ve bunun üzerine doğrudan kod özelleştirilebiliyor
Bunun yanında, görsel şablon tabanlı görüntü üretiminde de güçlü performans sergiliyor. Gayrimenkul kartları, çalışan rozetleri, katalog ürün mockup'ları gibi içerikler de tek bir tasarım şablonundan toplu olarak üretilebiliyor
Prompt tabanlı görüntü düzenleme
Yalnızca doğal dil komutlarıyla kısmi dönüşüm ve hassas yerel düzenleme destekleniyor. Örneğin arka plan bulanıklaştırma, kıyafetteki lekeyi kaldırma, fotoğraftaki kişiyi silme, öznenin pozunu değiştirme ve siyah-beyaz fotoğrafları renklendirme gibi işlemler tek bir prompt ile yapılabiliyor
Bu özellikleri doğrudan deneyimleyebilmek için, arayüz ve prompt tabanlı bir fotoğraf düzenleme şablon uygulaması da sunuluyor
Yerleşik dünya bilgisi
Mevcut görüntü üretim modellerinin sorunu, estetik görüntüler üretmelerine rağmen gerçek dünya hakkında anlamsal ve derin kavrayışlarının sınırlı olmasıydı. Gemini 2.5 Flash Image'a dünya bilgisi temeli eklendiği için, yeni kullanım alanlarında güçlü yanları daha belirgin hale geliyor
Örneğin elle çizilmiş diyagramları okuyup anlayabiliyor, gerçekçi soruları yanıtlayabiliyor ve karmaşık düzenleme komutlarını yerine getirebiliyor. Bu özellikler AI Studio için etkileşimli eğitim danışmanı uygulamasında doğrudan deneyimlenebiliyor
Çoklu görüntü birleştirme
Birden fazla girdi görüntüsünü yorumlayıp birleştirerek bileşik görüntüler oluşturabiliyor. Nesneleri başka sahnelere yerleştirme, bir odayı yeni renk ve dokularla yeniden stilize etme ve görüntü füzyonu gibi işlemleri tek bir prompt ile gerçekleştirebiliyor
Bunun için ürün görüntülerini sürükleyerek yeni sahnelere hızlıca birleştiren bir şablon uygulama da AI Studio'da sunuluyor
Geliştirmeye başlama rehberi
Geliştiriciler resmi belgeler üzerinden hemen başlayabiliyor ve model şu anda önizleme olarak sunuluyor. Metinde tanıtılan demo uygulamaların tamamı Google AI Studio'da vibe code ile oluşturulduğu için yalnızca prompt kullanarak remikslenip özelleştirilebiliyor
OpenRouter.ai ile yapılan iş birliği sayesinde dünya çapında 3 milyondan fazla geliştirici tarafından kullanılabiliyor ve şu anda OpenRouter'da görüntü üretimini destekleyen ilk model konumunda. fal.ai ile ortaklık sayesinde de daha geniş üretken medya geliştirici topluluğunda kullanımının yaygınlaşması bekleniyor
Gemini 2.5 Flash Image ile üretilen veya düzenlenen tüm görüntülerde görünmez SynthID dijital filigranı bulunuyor; böylece bunların yapay zeka üretimi olduğu tespit edilebiliyor
Python örnek kodu
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Yukarıdaki kod, prompt ile görüntüyü birlikte girdi olarak verip Gemini 2.5 Flash Image'da sonuç üretme örneğini gösteriyor
Geliştirici geri bildirimi ve gelecek planları
Google, uzun metin render etme, karakter tutarlılığını daha da geliştirme, gerçekçilik ve ayrıntı seviyesini artırma konularına odaklanmayı sürdürecek. Geri bildirimler geliştirici forumu ve X (eski adıyla Twitter) üzerinden alınıyor; şirket, geliştiricilerin farklı kullanım senaryolarını merakla bekliyor
1 yorum
Hacker News görüşleri
Bunun, görüntü düzenleme modelleri alanında tam anlamıyla GPT-4 anı olduğu hissi veriyor
"Nano banana" olarak adlandırılan Gemini 2.5 Flash inanılmaz derecede iyi
LMArena'da tam 171 ELO puanlık bir sıçrama kaydetti
Twitter'da nano banana diye aratırsanız inanılmaz sonuçlar görebilirsiniz
Örnek olarak şu tweete bakın
Birkaç haftadır bizzat test ediyorum
Bazen gerçekten etkileyici sonuçlar çıkıyor, ama istediğiniz görüntüyü elde etmek için prompt'u tekrar tekrar denemeniz gereken durumlar oluyor
Her derde deva değil ama kesinlikle muazzam bir ilerleme ve şu anda mevcut olanların en üst seviyesinde
Üçüncü örnekte ellerin garip göründüğü bir nokta var
Model hangi yöne yerleştireceğine karar verememiş gibi duruyor
Ama bu Gemini'nin ürettiği bir sorun değil, orijinal görselde zaten vardı
"nano banana" ile ilgili tüm kombinasyonlar, kendine özgü bir arayüze sahip alan adları olarak kaydedilmiş gibi görünüyor
Acaba popüler model isimlerinden yararlanıp kredi arbitrajı peşinde koşan aracı marjinciler mi var diye merak ediyorum
Yapay zeka ortaya çıkmadan önce Google, dünya çapındaki mühendislik yeteneklerini sadece reklam satmaya harcıyor diye çok eleştiriliyordu
Ama yapay zeka çağı gelince bu yetenekler artık ürün yerleştirmeye harcanabiliyor
Gerçekten çok yol katetmişiz
Bir diğer hayal kırıklığı ise pembe puffer montun düzenlenmiş halinin referans görüntüden hafifçe farklı olması
Bu modeli ürün tanıtımı için kullanıyorsanız ya da detaylara duyarlıysanız memnuniyetsizlik yaratabilir
GenAI görsel karşılaştırma sitesini güncelledim
Bu site, metinden görsele prompt uyumuna sıkı şekilde odaklanıyor
Yeni Google Gemini 2.5 Flash modeli (nano-banana) da eklendi
Model, 12 prompt'un 8'ini tam doğru yapıyor ve en iyi modeller olan Imagen ile gpt-image-1'e çok yaklaşıyor
Önceki Gemini Flash 2.0'a göre büyük bir yükseltme
Birinci sıradaki gpt-image-1 sadece labirent ve 9 köşeli yıldızda az farkla önde
Asıl şaşırtıcı olan, gpt-image-1'in neredeyse 6 aydır liderliğini koruyor olması (bu alanda 6 ay neredeyse sonsuzluk gibi)
Ama gpt-image-1 bir "editör" olarak neredeyse işe yaramaz, çünkü Kontext, Qwen ve Nano-Banana gibi inpainting yapmıyor; tüm görüntüyü baştan değiştiriyor
OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana vb. karşılaştırma bağlantısı
Ayrı bir cümle düzenleme benchmark'ına ihtiyaç olduğunu hissediyorum
Hunyuan, OpenAI 4o ve Gwen'in ahtapot testinde neden geçti sayıldığını pek anlamıyorum
"Her bir dokunaç" kısmını karşılamıyorlar
Midjourney ise çorap kuklalarını 8 kola değil 9 kola giydirmiş
Imagen 4 ile Gemini 2.5 Flash'ın bazı test vakalarında ürettiği görsellerin fazla benzer görünmesi ilginç
Belki de Gemini 2.5 Flash arka planda önce Imagen'le (bir diffusion modeli) bir temel görsel üretiyor, sonra Gemini tarafı prompt uyumunu artırmak için bunun üstünde düzenleme yapıyordur
Siteyi gerçekten çok beğendim
Acaba farklı modellerin stil kılavuzlarına (örneğin aynı tarzda çizilmiş illüstrasyonlar) ne kadar sadık kaldığını karşılaştıran bir site biliyor musunuz?
Şahsen bunun siteye eklenmesini isterdim
Mesela bir sanatçının stilinden birkaç görsel verip aynı stilde illüstrasyon üretip üretemediklerini karşılaştırmak isterim
Kitap illüstrasyonları gibi tutarlı stil gereken durumlarda çok faydalı olurdu
Gemini 2.5 Flash Image, aynı anda birden fazla görselle garip hileler olmadan çalışabilen tek model
Örneğin Flux Kontext'te "birinci görüntüyü ikinci görüntüye kompoze et" demek için önce görselleri zahmetli biçimde birleştirmeniz gerekiyor
Ama bu modelde böyle bir uğraş yok, hatta ikiden fazla görsel bile verebiliyorsunuz (tabii çok fazla olursa kafası karışabilir)
Kısa denemelerime göre uzun prompt'larda da uyumu iyi ve sözdizimsel ifadeler daha etkili çalışıyor gibi görünüyor
Henüz keşfedilmemiş daha fazla kontrol yöntemi de varmış gibi, o yüzden denemeye devam ediyorum
Fiyatı da rakip modellerle benzer, bu yüzden piyasada büyük değişim yaratmasını bekliyorum
Yan komşum tatilde olduğu için balıklarını ben besliyorum
Akvaryumun fotoğrafını çekip Gemini'ye "akvaryumu bir şehir simgesine koy" prompt'uyla görseller ürettiriyorum
Her gün bir tane gönderiyorum, komşum da buna bayılıyor
Böyle küçük şakalar gündelik hayata neşe katıyor
Ne yazık ki diğer yapay zeka ürünlerinde olduğu gibi aşırı katı güvenlik politikaları sorunu var
Prompt'ların yarısı reddediliyor
İnsan düzenlemesi yapılamıyorsa karakter tutarlılığı nasıl korunacak emin değilim
Ben çoğunlukla insan içeren fotoğrafları düzenlemek istiyorum ama bu modelle mümkün olmuyor
Google'ın deepfake meselesini dert etmesini anlıyorum ama bu gidişat zaten durdurulamaz ve toplumun eninde sonunda buna uyum sağlaması gerekecek
Araçların giderek kullanıcıyı daha çok kısıtlaması sinir bozucu
Sonunda özgürlüğü geri almak için yeni bir OSS hareketi gerekeceğini düşünüyorum
Çocukken Noel kıyafetleriyle birlikte çekilmiş bir çift ve kızın kuzenine ait bir fotoğrafım var
İkisi uzun süre ayrı yaşadı, bu yüzden fotoğraf şimdi çok değerli bir anı
Ama hem fiziksel durumu kötü hem de kalitesi düşük çözünürlüklü
Buna rağmen şimdiye kadar hiçbir yapay zeka modeli bunu onarabilmiş değil
İki gün önce Veo'yu ücretsiz kullanıp video üretmeyi denedim
Tamamen zararsız kelimeleri bile çıkardım ama yine de reddedildi
Sanırım "kendimi" üretmeye çalışmam sorun oldu, sonunda vazgeçtim
Aile fotoğraflarını dijitale aktardım ama renk kaymaları, lekeler, parmak izleri, film izleri gibi onarılması zor pek çok hasar var
Yüzlerce fotoğrafı tek tek düzeltmek zor olduğu için, ayrıntıları özellikle de yüzleri değiştirmeden toplu onarım yapabilecek kadar gelişmiş yapay zeka tabanlı görüntü üretimini uzun süredir bekliyordum
Bu model, detayları korurken sadece kayıp kısımları onarmada oldukça iyi görünüyor; sanırım deneme zamanı geldi
Yukarıda bahsedilen hasarların tamamı, ICE özelliği bulunan film tarayıcıları ve otomatik restorasyon yazılımlarıyla (Vuescan vb.) otomatik olarak düzeltilebilir
Yüzlerce hatta binlerce fotoğrafı deneysel ve kapalı kaynaklı bir bulut yapay zekasına yükleyip, karşılığında garip sıkıştırma ve artefaktlarla dolu vasat sonuçlar almaya gerek olmadığını düşünüyorum
Bunun kullanım amacını tam anlayamıyorum
Hasarsız fotoğrafı sadece hayal etmek yetmez mi?
Telefon kamerası AI upscaling'i de aynı şekilde
Uzaktaki bir şeyi görmek istiyorsanız hayal edin gitsin
Bence yapay zeka araçlarının, bir Photoshop uzmanının araçlarla manuel yaptığı şeyi otomatikleştirecek seviyeye gelmesi lazım
Yeni detayları kafadan uydurması zaman kaybı gibi geliyor
Acaba video dosyalarını restore edip iyileştiren bir yazılım bilen var mı?
Annemin 2000'lerden kalma videolarını ve VHS kasetlerini dijitale aktarıyorum
Dijitalleştirme kurulumum hazır ama video kalitesini daha da iyileştirmek istiyorum
Umarım iyi sonuç verir
Örneklerdeki "fotoğraf restorasyonu" prompt'unun sonucuna bakınca, kadının yüzünde yapay zeka karakteristiği fazla belirgin görünüyor
Elbette zamanla daha iyi hale geleceğini umuyorum
Bence birkaç ay önce Flux Kontext (https://bfl.ai/models/flux-kontext) zaten o seviyeye ulaşmıştı
Gemini 2.5 Flash Image ile üretilen/düzenlenen tüm görsellere, AI ile üretildiğini ya da düzenlendiğini göstermek için SynthID adlı görünmez bir dijital filigran ekleniyor
Amacı ve iyi niyeti anlıyorum ama yetişkinlerin kendi sorumluluğunu alması yerine büyük şirketlerin neyin yapılıp yapılamayacağına karar verdiği bu durum can sıkıcı
İnsana gözetleniyormuş hissi veriyor
İnsanlar teknoloji kullanırken gerçekten hiç sorumluluk sahibi yetişkinler oldu mu diye sormak isterim
Deepfake'ler, gerçeklik algısındaki güvensizliği daha da artırma potansiyeline zaten sahip
Sayısız sahte şeye kananlar da olacak, artık hiçbir şeye inanmayanlar da
Politikacılar kendileri için kötü görünen videolar çıktığında "sahte" diyecek
Zaten bir ölçüde post-truth çağında yaşıyoruz ama durum daha da kötüleşecek
Buna gerçekten kullanıcının yaptığı bir görsel demek zor
Örneğin bir sanatçı sipariş üzerine yaptığı işe filigran eklese, bu sadece işin kendisine ait olduğunu gösterir; bunu "ispiyonculuk" saymazsınız
Belki bunu o anlamda söylemediniz ama yine de düşünmeye değer
"Saklayacak bir şeyin yoksa korkacak bir şeyin de yoktur" türü mantığa katılmıyorum ama yapay zeka ile üretilmiş/düzenlenmiş görsellerde filigranın neden sorun olduğunu merak ediyorum
Kendi adıma, AI görsellerinde filigranın zorunlu olması gerektiğini düşünüyorum
Bu modeli kullanmak zorunda da değilsiniz, o yüzden şahsen bunu bir sorun olarak görmüyorum
Bu bir teknoloji silahlanma yarışı
removemysynthid.com bağlantısına bakın
Çoğu görsel üretici gibi piyano tuşu testinde başarısız oluyor (siyah tuşlar yanlış)
Test örneği
Piyano tuşu testinin ne olduğunu merak ediyorum
Bağlantı, AI Studio'da Google Drive erişim izni istiyor gibi göründüğü için kullanması zor
Kavram uzayına fikirleri de (örneğin 8 notanın tekrarı gibi) dahil eden bir model var mı merak ediyorum
Piyanoyu temsil ederken "piyano" kelimesine komşu sözcükler, tekrarlayan oktavlar gibi sabit bir kavramı ifade etmekte yetersiz kalıyor gibi görünüyor
Sadece sözcüklerle görsel ve anlamı tutarlı biçimde bağlamak zor gibi hissettiriyor
Bu modelin asıl gücü, üretim kalitesinin kendisinden çok "nesiller arası tutarlılık" gibi görünüyor
Örnek bağlantı
İlginç
Gerçek bir piyanoya aşina olan biri bunun yanlış olduğunu hemen fark eder; tıpkı metin render testi gibi, görünüşte benzer ama gerçekte yanlış bir sonuç çıkıyor
Genel bir prompt'ta biri Google Görseller'den ilk sonucu alıp "işte sana piyano klavyesi fotoğrafı" dese muhtemelen çoğu kişi bunu rahatlıkla kabul ederdi
Benim yatay metin testimde de başarısız oldu
Çatal/spagetti ve moda balonu örneklerini bizzat yeniden üretmeye çalıştım ama resmi sonuçlardan çok farklı çıktı
Üretilen sonuçlar yine de tutarlı
Reklam sayfasındaki görselleri kopyalayıp kullandığım için çözünürlük farklı olabilir ama prompt aynısıydı
Kullandığımın yeni model olduğundan oldukça eminim ve öncekine kıyasla gerçekten büyük bir ilerleme var
Sonuçların tutarlılığı ilginç
Kendi görsel model standart testim için birçok nesil çalıştırdım (şimdiye kadar piyano oktavını düzgün çizen tek bir model bile görmedim) ve Gemini 2.5 Flash Image da istisna değil
Kaç kez denerseniz deneyin sonuçlar hiç değişmiyor
ChatGPT'ye editör prompt'u verdiğimde istediğim değişiklik dışında başka şeyler de sık sık değişiyordu, ama burada böyle bir kayma hiç yok
Görsel örneği
Gerçek sonuçlar, reklamlarda gösterilenden çok daha sıradan ya da muğlak görünüyor
Örnekteki baloncuklu subject üretimi de aslında sadece öznenin içinde belirsiz kabarcık şekilleri üretmekten ibaret
Çatal örneğinde de sadece eriştenin üstüne bir çatal ekleniyor
Her iki durumda da teknik olarak prompt'u daha doğru takip ettiği söylenebilir ama görsel olarak daha az etkileyici
Photoshop uzmanı olmamış olmama seviniyorum
Bir ara cazip gelmişti ama sonuçta o yolu seçmediğim için memnunum
Artık nano-banana yeter
Diğer modellerin de yakında bunu yakalayacağından eminim
r/photoshopbattles topluluğuna da elveda
Rötuş başlı başına bir sanattır
Uzmanlar için böyle bir yapay zeka sadece verimliliği artıran başka bir araçtır
Photoshop kullanmayı bilmekten öte, iyi muhakeme önemlidir
Elbette iş miktarı artmazsa aynı işi daha az rötuşçunun yapması da mümkün
Fiyatlar düşerse herkes daha fazla rötuş yaptırır mı? Ondan emin değilim
İlginç bir bakış açısı
Ben programcıyım ama 2000'lerin başında Photoshop da öğrenmiştim ve görsel düzenlemekten gerçekten keyif alıyordum
Bugünkü üretken modeller o dönemde yaptıklarımdan çok daha iyi sonuçlar veriyor ama bu, o deneyimimin ve becerimin tamamen anlamsız olduğu anlamına gelmiyor
Hatta AI çıktısını düzeltip toparlamak için Photoshop'un (ya da bugünlerde Affinity Designer/Photo'nun) inanılmaz faydalı olduğunu düşünüyorum
Hiç pişman olmadım
Bu yorumu 10 yıl önce yazsaydım en azından program ve beceriler bana aitti, Google abonelik ücretini artırsa ya da hizmeti kapatsa bile bendeydi derdim
Şimdi PS de abonelik oldu ve iyi bir açık modelin çıkmasını beklemek gerekiyor
Photoshop hâlâ kullanışlı
AI görseller harika olabilir ama temel kompozisyonu kendim kurmak istiyorum ve AI çıktılarındaki artefaktları temizlemek ya da farklı AI katmanlarını birleştirmek için hâlâ manuel beceri şart
Sonuçta programlama gibi diğer alanlar da otomasyon karşısında çökecek
Sadece biraz daha uzun sürecek (5-10 yıl?)
Mühendislikte hatalar ve teknik borç yüzünden süreç daha uzun olabilir
Görselde bozarsanız yeniden üretirsiniz ama programı bozarsanız hemen ardından bakımı imkânsız bir kod yığını elde edersiniz
Ama bir gün bu dalga bizim alanımıza da gelecek
Gemini'den görsel üretmesini istediğimde yarısında yapamayacağına dair yanıt alıyorum
Google'ın özelliklerini gerçekten kullanmak çok zor hissettiriyor
Bazıları bir üründe, bazıları başka bir üründe dağınık duruyor; nereye gidip erişeceğiniz bile kafa karıştırıcı
Aynen
Web sitesinde "Gemini'de deneyin" deniyor ama Gemini 2.5 Flash'ı seçince bunu gerçekten doğru kullanıp kullanmadığımdan bile emin olamıyorum
Gemini uygulamasında ya da sitesinde bu model hiç yok
AI Studio gibi başka bir yol kullanmanız gerekiyor
Google'ın genel UI/UX'i gerçekten çok kafa karıştırıcı