Nano Banana 2 Lite
(deepmind.google)- Google DeepMind'in Gemini Image ailesine eklenen Nano Banana 2 Lite, görüntü üretimi ve düzenlemeyi daha hızlı ve daha düşük maliyetle çalıştırmayı hedefleyen bir model; tekrarı yüksek görsel işlerin maliyet yükünü azaltmaya odaklanıyor
- Ana eksenleri düşük gecikme ve büyük ölçekte maliyet verimliliği; daha ağır prodüksiyon modellerine göre daha düşük maliyetle binlerce görsel üretebiliyor
- Kalite tarafında Nano Banana ailesinin kontrol gücü ve doğruluğunu korurken karakter tutarlılığı, hassas düzenleme ve gerçek dünya bilgisinden yararlanmayı destekliyor
- Space Lift, Gridscape, Peek-A-Word ve Anywhere gibi örnekler, görsel üretimin uygulama akışını kesmeyecek kadar hızlandığında mümkün olan kullanıcı deneyimini gösteriyor
- Küçük yüzler, doğru yazım, ayrıntılı betimleme, veriye dayalı sonuçlar, çeviri ve yerelleştirme, karmaşık düzenleme ve birleştirme işlemlerinde hatalar oluşabileceği için üretilen sonuçların gözden geçirilmesi gerekiyor
Hızlı üretim ve düşük maliyet odaklı Gemini Image modeli
- Nano Banana 2 Lite, Google DeepMind'in duyurduğu, hızlı görüntü üretimi ve düzenleme ile düşük maliyeti hedefleyen bir Gemini Image modeli
- Başlıca kullanıcıları üreticiler, işletmeler ve geliştiriciler; çok sayıda görsel fikri hızlıca keşfetmeye yönelik iş akışlarına göre tasarlandı
- Google DeepMind bu modeli şimdiye kadarki en hızlı ve en verimli Gemini Image modeli olarak tanıtıyor ve en düşük maliyetle yüksek hızlı üretim ile düzenleme sunduğunu belirtiyor
- Erişim yolları şöyle:
- Google AI Studio
- Gemini uygulamasındaki Flash-Lite mode
- Gemini API
- Gemini Enterprise Agent Platform
Hız, maliyet ve kalite dengesi
- Temel nokta gecikmenin azaltılması; hızlı keşif ve yinelemeli çalışmayı destekliyor
- Büyük ölçekli üretimde, daha ağır prodüksiyon modellerine göre çok daha düşük maliyetle binlerce görsel oluşturabiliyor
- Kalite tarafında amaç, Nano Banana'dan beklenen kontrol gücü ve doğruluğu daha yüksek hızla sunmak
- Karakter tutarlılığını koruma
- Hassas görsel düzenleme
- Gerçek dünya bilgisinden yararlanma
- Prompt içinde karakter, arka plan, genel atmosfer gibi istenen unsurlar ne kadar ayrıntılı yazılırsa hedeflenen görsele yaklaşma ihtimali o kadar artıyor
- Prompt rehberleri View prompt guide ve Learn how to prompt bağlantılarında sunuluyor
Görsel üretim hızını temel alan uygulama örnekleri
- Space Lift, oda fotoğrafı yüklendiğinde Mid-Century Modern'den Bohemian Chic'e kadar farklı iç mekân konseptlerini anında üreten bir uygulama
- Gridscape, sonsuz bir tuval üzerinde soru girildiğinde Nano Banana 2 Lite ve Gemini 3.1 Flash Lite'ın ürettiği metin ve görsellerle bilgi düğümleri oluşturuyor
- Kullanıcılar tıklanabilir yolları izleyerek ilgili kavramları daha derinlemesine keşfedebiliyor
- Peek-A-Word, seçilen metni yapay zeka tarafından üretilen görsel materyallere dönüştürüyor ve kısa tanım ile bağlamsal görselleri tek bir alanda sunuyor
- Sekme değiştirmeden öğrenme akışını korumaya odaklanıyor
- Anywhere, Nano Banana 2 Lite ile yapılmış etkileşimli bir 3D dünya küresi uygulaması
- Görsel eklendiğinde, dünya çapındaki simge mekânları arka plan yapan kişiselleştirilmiş kartpostal serileri üretiyor
- Kullanıcılar küreyi döndürüp fotoğraflara tıklayarak sanal seyahat noktaları hakkında bilgi görebiliyor
Karşılaştırma metrikleri ve model kartı
- Google DeepMind, Nano Banana 2 Lite'ı şimdiye kadarki en verimli modeli olarak tanıtıyor ve kalite ile hız arasında iyi bir denge sunduğunu belirtiyor
- Karşılaştırma kapsamında amiral gemisi model Nano Banana 2 de yer alıyor
- Karşılaştırma alanları arasında prompt uyumu, ayrıntı sunumu ve kontrol gücü gibi görüntü üretim kalitesi unsurları bulunuyor
- Performans bölümünde şu metrikler yer alıyor
- Image Editing: lmarena.ai ölçümüne göre rakip modellere karşı görüntü düzenleme Elo puanı
- Image Generation: lmarena.ai ölçümüne göre rakip modellere karşı görüntü üretimi Elo puanı
- Latency per 1k resolution image: artificialanalysis.ai verilerine dayalı olarak 1k çözünürlüklü görsel başına gecikme
- Price per 1k resolution image: 1k çözünürlüklü görsel başına fiyat
- Model kartı View model card bağlantısında sunuluyor
İş ortaklarının gördüğü kullanım potansiyeli
- Figma Weave, Nano Banana 2 Lite'ın düğüm tabanlı tuval üzerinde tasarımcıların daha fazla fikir keşfetmesine ve benzersiz görseller oluşturmasına yardımcı olduğunu değerlendiriyor
- Manus AI, otonom iş akışları içinde sunum desteleri ve web sayfaları için gerçek zamanlı görsel üretimini test ediyor
- Hızın, yapay zeka ajanlarının hızlı görsel yinelemeleri ve birkaç saniye içinde sonuç sunması için uygun olduğu belirtiliyor
- Görsel kalitesinin tam Nano Banana 2'ye yakın olduğu düşünülüyor
- Artlist, üretim hızı hayal edilenden daha hızlı olduğunda kullanıcıların aracı beklemek yerine fikrin içinde kalabildiğini söylüyor
- Weekend, ses kontrollü TV oyunu Wit’s End'de instant-ramen'in 1k görsel üretimi temelinde Gemini 3.1 Flash Image'dan yaklaşık 2.7× daha hızlı olduğunu belirtiyor
- Metinden görsele üretim, düzenleme ve çoklu görsel birleştirmeyi tek bir drop-in API içinde ele alıyor
- Latitude, oyuncular keşif yaparken dünyayı üreten motorlarda görsel üretim hızının kritik olduğunu ve instant-ramen'in oyun deneyimine yetişecek kadar hızlı görsel üretimi mümkün kıldığını değerlendiriyor
Hâlâ gözden geçirilmesi gereken sınırlamalar
- Gemini çok çeşitli görseller üretebilse de bazı işlevler hâlâ geliştiriliyor ve üretilen görsellerin doğrudan kontrol edilmesi gerekiyor
- Görsel ve metinsel sadakat tarafında küçük yüzler, doğru yazım ve görsel içindeki ayrıntılı betimlemelerde zorluklar yaşanabiliyor
- Veri ve olgusal doğruluk açısından gerçek dünya bilgisi geniş olsa da tam değil
- İnfografik üretimi, diyagram açıklamaları ve karmaşık veri temsillerinde bilgileri yanlış yorumlayabilir veya gerçeğe aykırı sonuçlar üretebilir
- Veriye dayalı çıktılar doğrulanmalı
- Çeviri ve yerelleştirme tarafında, farklı dillerde metin üretimi ve çeviri mümkün olsa da dil bilgisi, yazım, kültürel nüanslar ve deyimsel ifadelerde zorluklar yaşanabilir
- Karmaşık düzenleme ve görsel harmanlamada, maske düzenleme, gündüzü geceye çevirme gibi büyük ışık değişiklikleri ve çoklu görsel birleştirmede yapay görünen sonuçlar, görsel artefaktlar veya kopuk sahneler ortaya çıkabilir
- Karakter tutarlılığı güçlü yanlarından biri olsa da her zaman kusursuz değil; Google DeepMind bunu daha istikrarlı hâle getirmek için geliştirmeye devam ediyor
Güvenlik özellikleri ve kullanım uyarıları
- Google DeepMind, veri kümelerindeki zararlı içeriği azaltmak ve zararlı çıktı olasılığını düşürmek için kapsamlı filtreleme ve veri etiketleme kullanıyor
- İçerik güvenliği kapsamında çocuk güvenliği ve temsili de içeren red team çalışmaları ve değerlendirmeler yapılıyor
- Üretilen görseller en yeni gizlilik ve güvenlik özelliklerini içeriyor; SynthID, yapay zeka tarafından üretilen görselleri tanımlayabilmek için görünmez dijital filigranı doğrudan görselin içine yerleştiriyor
- SynthID bilgileri Learn more bağlantısında sunuluyor
- Gemini 3.1 Flash-Lite Image gibi LLM'ler, Google'ın görüşlerini temsil etmeyen hatalı veya rahatsız edici içerikler üretebilir
- LLM tarafından sağlanan içeriklere güvenilirken, yayımlanırken veya kullanılırken dikkatli olunmalı; tıbbi, hukuki ve finansal gibi uzman tavsiyeleri için bunlara dayanılmamalı
1 yorum
Hacker News görüşleri
Ev iç dekorasyonu üretimine dair ilk örnek tarif etmesi zor derecede itici. Bugünlerde emlakçılar eski ve satılmayan dairelerin hepsini AI filtresinden geçiriyor; böylece gerçekte ne kadar korkunç bir şeyi fahiş bir fiyata satmaya çalıştıklarını görmeden önce, “IKEA tarzında döşense böyle görünebilir” türünden onlarca görseli kaydırmak zorunda kalıyorsun
Gerçek yatak odasına zar zor sadece bir queen yatak sığıyordu ;(
Özellikle belirli yerlere fayans döşendiğinde tüm alanın nasıl görüneceğini kafada canlandırmanın zor olduğu durumlarda faydalıydı
Eskiden sadece bunu yapacak birini tutmanın maliyeti daha yüksekti
Düzenlenmiş görseller hep aynı parlak duvarları ve gri dergi tarzı mobilyaları gösteriyor
AI bunu sadece ucuzlattı; sonunda işin buraya varması kaçınılmazdı
Bu şekilde düzenlenmiş görsellerde, düzenlendiğini belirten küçük bir watermark oluyor
AI filtresi çıkmadan önce de olan bir sorundu, yani yeni değil; ama şimdi çok daha ağırlaştı ve maliyeti düştü
Bu modeli test edebilmek için erken erişim aldım. İş aracılığıylaydı; Google'ın kişisel olarak benden hoşlanmaya başlaması hâlâ söz konusu değil lol
Burada reklamı yapıldığı gibi çalışıyor ve iyi text rendering gibi konularda Nano Banana 2'nin damıtılmış bir sürümü gibi görünüyor. Nano Banana 1 bu konuda çok daha zayıf
Tabii ayrıntılı prompt'larda temel Nano Banana 2 seviyesine hiç yaklaşmıyor. En büyük şikâyetim, NB2'de aspect ratio'yu programatik olarak zorlayabiliyorken NB2L'de bunu yapamamam
Yine de görsel başına $0.034 fiyat beklediğimden yüksek. Fiyatlar genelde üretim süresiyle ilişkili oluyor; bu model Nano Banana 1'in yarı süresinde üretiyor ama Nano Banana 1 görsel başına $0.039
Google'ın NB1 pipeline'ını doğrudan NB2L ile değiştirebileceği iddiası makul
Google dün Gemini uygulamasında ücretsiz görsel üretimine izin verdiğini duyurdu(https://blog.google/innovation-and-ai/products/gemini-app/pe...), ama hangi modeli kullandığını belirtmedi. Nano Banana 2 Lite'ın ana motivasyonunun bu olduğunu düşünüyorum
gemini-3.1-flash-lite-imageolarak değiştirdim ve 16:9, 4:3 gibi oranları kullanabildim[1] - https://cloud.google.com/developers/vertex-ai
Fena değil ama Google'ın bozuk AI Studio'sunun üstünde çalışıyor. Oradaki özelliklerin yarısı Google One hesabı gerektirdiği için kullanamıyorum
Benim hesabım Workspace hesabı, dolayısıyla uygun değilim ve geçiş de yapamıyorum. Çünkü Google One özel alan adlarını desteklemiyor
O zaman hem havalı e-posta adresini hem de Banana'yı kullanmak için iki hesap mı yönetip para ödemem gerekiyor? Bu noktada doğru sayıda ücretli Google hesabının 0 olduğu hissine kapılmaya başlıyorum
Benim çözümüm OpenRouter oldu. Geliştirme/test sohbetlerinde Google modelleriyle görsel üretebiliyor ve aynı prompt'u başka modellerle yan yana da çalıştırabiliyorum. Hafif görsel üretimi için çok kullanışlı
Genelde daha fazla bağlam barındırdığı için kişisel hesabı varsayılan kullanıyorum, ama bu kez de Workspace Drive gibi kaynakları getirmek için birkaç ek adım gerekiyor
Ayrıca Project Genie gibi şeyler Workspace'te hiç kullanılamıyor; bu da epey tuhaf hissettiriyor
https://www.burlap.app/download
Hız kesinlikle etkileyici. Temel NB2 görsel başına yaklaşık 30 saniye sürerken bu 5 saniyenin altında görünüyor
Çocukları karakter olarak kullanan, resimli hikâyeler üreten bir uygulama yaptım. İllüstrasyon stilini korurken çocuklara benzerliği de önceliklendirmek istedim
Birçok modeli test ettim ama stilize edilmiş halde benzerliği koruma konusunda buna yaklaşabilen başka bir model yok gibi. Diğer modeller onları sıradan karakterlere dönüştürüyor
Kullanıcının mümkün olduğunca çabuk “aha” anını yaşamasını istediğim için bu modeli uygulamanın onboarding'ine koyma fikri heyecan verici. 30 saniyeden fazla beklemek ideal değil
Ama gerçek illüstrasyonlarda yine de temel NB2'yi kullanacağım. Bu Lite sürüm, başkalarının da söylediği gibi, nüans ve tutarlılık konusunda hâlâ biraz sorunlu
Karşılaştırma tablosuna ChatGPT eklenmemiş. Bu kendi başına çok şey anlatıyor
Bunun yerine sorun gecikme süresi; ChatGPT Image 2'nin High ayarı 1024x1024'te yaklaşık 2 dakika sürüyor, yani yavaş
Her hâlükârda bunu bu tabloya koysalar tabloyu işe yaramaz hâle getirecek şekilde çarpıtırdı
ChatGPT Image 2 hakkında bir şeyler yazmak istiyorum ama artık insanlar ince ayrıntılı görsel üretimiyle ilgilenmiyor gibi görünüyor. Önceki testlerde ChatGPT Image 2 her şeyi ezip geçmesine rağmen durum böyle
Grok'un görsel modelinin burada öne çıkarılan neredeyse tüm metriklerde Nano Banana'yı geçtiğini görmek biraz şaşırtıcı
İkinci olarak bu zaten en ileri seviye frontier model değil, düşük maliyetli yüksek hacimli bir üretim modeli; dolayısıyla benchmark puanlarının düşük olması doğal
Nano Banana Pro hoşuma gitti. Henüz bir yerel alternatif var mı? Qwen Image, Klein ve son dönemde Krea hakkında bir şeyler duydum; tavsiye edilebilecek bir şey var mı merak ediyorum
Profilimdeki GenAI Showdown'a bakarsanız yerel ve kapalı kaynak modellerle karşılaştırmalı benchmark'lar var
Hatta Gemini 2.5 de var; yani orijinal NB'den daha yüksek puan almıştı, bu da oldukça etkileyici
Görsel üretim tarafında epey geride kaldım; ara sıra roleplay token'ları, şaka amaçlı şeyler ya da kişisel kullanım için geçici varlıklar üretmek dışında pek kullanmıyorum. Benim ölçütlerime göre bu çılgınlık seviyesinde
Yaklaşık 2 saniyede görsel üretebiliyor. Eskiden ChatGPT ile aynı kalitede bir görsel üretmek 30 saniye ile 1 dakika arasında sürüyordu
Buradaki olumsuz tepkiyi anlamıyorum
Ayrıca olumsuz tepkilerin önemli bir kısmı, AI art kavramının kendisinden nefret eden ve başarısız olmasını isteyen insanlardan geliyor
Görselin kendisinin merkezde olduğu işler yapan insanlar, görsel başına daha fazla harcama yapmak ister
Buna karşılık görsel bir raporun parçasıysa ya da atılacak bir çıktıysa veya bir demoya girecekse, ucuz yaklaşım daha iyidir
Bu sayfadaki “hands on” bölümünde gösterilen gerçek zamanlı prototip gibi bir şeyi nasıl elde ettiklerini merak ediyorum
gemini.g'de canvas ekleyebiliyor ya da görsel üretimi kullanabiliyorum ama “space lift” prompt'unu nereye girmem gerektiğini, demodaki gibi bir sonuç almak için, pek anlayamadım
Vay canına, gecikme süresi inanılmaz derecede düşmüş. Bu seviye birkaç kullanım senaryosunun önünü açacaktır, ancak bağlantı verilen web sayfası modeller arasındaki farkları anlaşılır biçimde açıklamıyor
Yine de genel görsel modellerle kişisel deneyimime dayanarak, kendi iş akışımda Google'ın en iyisi olduğunu düşünüyorum. Tabii Uzak Doğu sağlayıcılarını henüz denemedim
Başkalarının ne düşündüğünü merak ediyorum