Nano Banana 2 Lite

(deepmind.google)

1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş

Google DeepMind'in Gemini Image ailesine eklenen Nano Banana 2 Lite, görüntü üretimi ve düzenlemeyi daha hızlı ve daha düşük maliyetle çalıştırmayı hedefleyen bir model; tekrarı yüksek görsel işlerin maliyet yükünü azaltmaya odaklanıyor
Ana eksenleri düşük gecikme ve büyük ölçekte maliyet verimliliği; daha ağır prodüksiyon modellerine göre daha düşük maliyetle binlerce görsel üretebiliyor
Kalite tarafında Nano Banana ailesinin kontrol gücü ve doğruluğunu korurken karakter tutarlılığı, hassas düzenleme ve gerçek dünya bilgisinden yararlanmayı destekliyor
Space Lift, Gridscape, Peek-A-Word ve Anywhere gibi örnekler, görsel üretimin uygulama akışını kesmeyecek kadar hızlandığında mümkün olan kullanıcı deneyimini gösteriyor
Küçük yüzler, doğru yazım, ayrıntılı betimleme, veriye dayalı sonuçlar, çeviri ve yerelleştirme, karmaşık düzenleme ve birleştirme işlemlerinde hatalar oluşabileceği için üretilen sonuçların gözden geçirilmesi gerekiyor

Hızlı üretim ve düşük maliyet odaklı Gemini Image modeli

Nano Banana 2 Lite, Google DeepMind'in duyurduğu, hızlı görüntü üretimi ve düzenleme ile düşük maliyeti hedefleyen bir Gemini Image modeli
Başlıca kullanıcıları üreticiler, işletmeler ve geliştiriciler; çok sayıda görsel fikri hızlıca keşfetmeye yönelik iş akışlarına göre tasarlandı
Google DeepMind bu modeli şimdiye kadarki en hızlı ve en verimli Gemini Image modeli olarak tanıtıyor ve en düşük maliyetle yüksek hızlı üretim ile düzenleme sunduğunu belirtiyor
Erişim yolları şöyle:
- Google AI Studio
- Gemini uygulamasındaki Flash-Lite mode
- Gemini API
- Gemini Enterprise Agent Platform

Hız, maliyet ve kalite dengesi

Temel nokta gecikmenin azaltılması; hızlı keşif ve yinelemeli çalışmayı destekliyor
Büyük ölçekli üretimde, daha ağır prodüksiyon modellerine göre çok daha düşük maliyetle binlerce görsel oluşturabiliyor
Kalite tarafında amaç, Nano Banana'dan beklenen kontrol gücü ve doğruluğu daha yüksek hızla sunmak
- Karakter tutarlılığını koruma
- Hassas görsel düzenleme
- Gerçek dünya bilgisinden yararlanma
Prompt içinde karakter, arka plan, genel atmosfer gibi istenen unsurlar ne kadar ayrıntılı yazılırsa hedeflenen görsele yaklaşma ihtimali o kadar artıyor
Prompt rehberleri View prompt guide ve Learn how to prompt bağlantılarında sunuluyor

Görsel üretim hızını temel alan uygulama örnekleri

Space Lift, oda fotoğrafı yüklendiğinde Mid-Century Modern'den Bohemian Chic'e kadar farklı iç mekân konseptlerini anında üreten bir uygulama
Gridscape, sonsuz bir tuval üzerinde soru girildiğinde Nano Banana 2 Lite ve Gemini 3.1 Flash Lite'ın ürettiği metin ve görsellerle bilgi düğümleri oluşturuyor
- Kullanıcılar tıklanabilir yolları izleyerek ilgili kavramları daha derinlemesine keşfedebiliyor
Peek-A-Word, seçilen metni yapay zeka tarafından üretilen görsel materyallere dönüştürüyor ve kısa tanım ile bağlamsal görselleri tek bir alanda sunuyor
- Sekme değiştirmeden öğrenme akışını korumaya odaklanıyor
Anywhere, Nano Banana 2 Lite ile yapılmış etkileşimli bir 3D dünya küresi uygulaması
- Görsel eklendiğinde, dünya çapındaki simge mekânları arka plan yapan kişiselleştirilmiş kartpostal serileri üretiyor
- Kullanıcılar küreyi döndürüp fotoğraflara tıklayarak sanal seyahat noktaları hakkında bilgi görebiliyor

Karşılaştırma metrikleri ve model kartı

Google DeepMind, Nano Banana 2 Lite'ı şimdiye kadarki en verimli modeli olarak tanıtıyor ve kalite ile hız arasında iyi bir denge sunduğunu belirtiyor
Karşılaştırma kapsamında amiral gemisi model Nano Banana 2 de yer alıyor
Karşılaştırma alanları arasında prompt uyumu, ayrıntı sunumu ve kontrol gücü gibi görüntü üretim kalitesi unsurları bulunuyor
Performans bölümünde şu metrikler yer alıyor
- Image Editing: lmarena.ai ölçümüne göre rakip modellere karşı görüntü düzenleme Elo puanı
- Image Generation: lmarena.ai ölçümüne göre rakip modellere karşı görüntü üretimi Elo puanı
- Latency per 1k resolution image: artificialanalysis.ai verilerine dayalı olarak 1k çözünürlüklü görsel başına gecikme
- Price per 1k resolution image: 1k çözünürlüklü görsel başına fiyat
Model kartı View model card bağlantısında sunuluyor

İş ortaklarının gördüğü kullanım potansiyeli

Figma Weave, Nano Banana 2 Lite'ın düğüm tabanlı tuval üzerinde tasarımcıların daha fazla fikir keşfetmesine ve benzersiz görseller oluşturmasına yardımcı olduğunu değerlendiriyor
Manus AI, otonom iş akışları içinde sunum desteleri ve web sayfaları için gerçek zamanlı görsel üretimini test ediyor
- Hızın, yapay zeka ajanlarının hızlı görsel yinelemeleri ve birkaç saniye içinde sonuç sunması için uygun olduğu belirtiliyor
- Görsel kalitesinin tam Nano Banana 2'ye yakın olduğu düşünülüyor
Artlist, üretim hızı hayal edilenden daha hızlı olduğunda kullanıcıların aracı beklemek yerine fikrin içinde kalabildiğini söylüyor
Weekend, ses kontrollü TV oyunu Wit’s End'de instant-ramen'in 1k görsel üretimi temelinde Gemini 3.1 Flash Image'dan yaklaşık 2.7× daha hızlı olduğunu belirtiyor
- Metinden görsele üretim, düzenleme ve çoklu görsel birleştirmeyi tek bir drop-in API içinde ele alıyor
Latitude, oyuncular keşif yaparken dünyayı üreten motorlarda görsel üretim hızının kritik olduğunu ve instant-ramen'in oyun deneyimine yetişecek kadar hızlı görsel üretimi mümkün kıldığını değerlendiriyor

Hâlâ gözden geçirilmesi gereken sınırlamalar

Gemini çok çeşitli görseller üretebilse de bazı işlevler hâlâ geliştiriliyor ve üretilen görsellerin doğrudan kontrol edilmesi gerekiyor
Görsel ve metinsel sadakat tarafında küçük yüzler, doğru yazım ve görsel içindeki ayrıntılı betimlemelerde zorluklar yaşanabiliyor
Veri ve olgusal doğruluk açısından gerçek dünya bilgisi geniş olsa da tam değil
- İnfografik üretimi, diyagram açıklamaları ve karmaşık veri temsillerinde bilgileri yanlış yorumlayabilir veya gerçeğe aykırı sonuçlar üretebilir
- Veriye dayalı çıktılar doğrulanmalı
Çeviri ve yerelleştirme tarafında, farklı dillerde metin üretimi ve çeviri mümkün olsa da dil bilgisi, yazım, kültürel nüanslar ve deyimsel ifadelerde zorluklar yaşanabilir
Karmaşık düzenleme ve görsel harmanlamada, maske düzenleme, gündüzü geceye çevirme gibi büyük ışık değişiklikleri ve çoklu görsel birleştirmede yapay görünen sonuçlar, görsel artefaktlar veya kopuk sahneler ortaya çıkabilir
Karakter tutarlılığı güçlü yanlarından biri olsa da her zaman kusursuz değil; Google DeepMind bunu daha istikrarlı hâle getirmek için geliştirmeye devam ediyor

Güvenlik özellikleri ve kullanım uyarıları

Google DeepMind, veri kümelerindeki zararlı içeriği azaltmak ve zararlı çıktı olasılığını düşürmek için kapsamlı filtreleme ve veri etiketleme kullanıyor
İçerik güvenliği kapsamında çocuk güvenliği ve temsili de içeren red team çalışmaları ve değerlendirmeler yapılıyor
Üretilen görseller en yeni gizlilik ve güvenlik özelliklerini içeriyor; SynthID, yapay zeka tarafından üretilen görselleri tanımlayabilmek için görünmez dijital filigranı doğrudan görselin içine yerleştiriyor
SynthID bilgileri Learn more bağlantısında sunuluyor
Gemini 3.1 Flash-Lite Image gibi LLM'ler, Google'ın görüşlerini temsil etmeyen hatalı veya rahatsız edici içerikler üretebilir
LLM tarafından sağlanan içeriklere güvenilirken, yayımlanırken veya kullanılırken dikkatli olunmalı; tıbbi, hukuki ve finansal gibi uzman tavsiyeleri için bunlara dayanılmamalı

1 yorum

GN⁺ 3 시간 전

Hacker News görüşleri

Ev iç dekorasyonu üretimine dair ilk örnek tarif etmesi zor derecede itici. Bugünlerde emlakçılar eski ve satılmayan dairelerin hepsini AI filtresinden geçiriyor; böylece gerçekte ne kadar korkunç bir şeyi fahiş bir fiyata satmaya çalıştıklarını görmeden önce, “IKEA tarzında döşense böyle görünebilir” türünden onlarca görseli kaydırmak zorunda kalıyorsun
- Bunun yasa dışı yanıltıcı tanıtım sayılması gerektiğini düşünüyorum. AI kullanımında fazlasıyla gri alan var
- Bence neredeyse dolandırıcılık düzeyinde. Streeteasy'de bir daire, sanki masa, şifonyer ve queen yatak sığmış gibi görünüyordu ama görsel modelin mobilyayı gerçekte mümkün olmayan oranlara küçülttüğü çok belliydi
  Gerçek yatak odasına zar zor sadece bir queen yatak sığıyordu ;(
- Dairenin gerçek halini çarpıtmanın toplumsal olarak da hukuken de kabul edilemez olması gerektiğine %100 katılıyorum. Ama kendi banyo tadilatımda görsel model tasarım seçimlerinde epey yardımcı oldu
  Özellikle belirli yerlere fayans döşendiğinde tüm alanın nasıl görüneceğini kafada canlandırmanın zor olduğu durumlarda faydalıydı
- Yaşadığım NYC'de böyle rötuşlanmış görseller koymak 10 yıldan fazladır zaten yaygındı
  Eskiden sadece bunu yapacak birini tutmanın maliyeti daha yüksekti
  Düzenlenmiş görseller hep aynı parlak duvarları ve gri dergi tarzı mobilyaları gösteriyor
  AI bunu sadece ucuzlattı; sonunda işin buraya varması kaçınılmazdı
  Bu şekilde düzenlenmiş görsellerde, düzenlendiğini belirten küçük bir watermark oluyor
- Sadece iyi bir fotoğrafçı bile muazzam fark yaratıyor. Bir arkadaşım evini satarken ilandaki fotoğraflarda evin ne kadar iyi göründüğüne, ayrıca benim küçük olmadığını bilmeme rağmen ne kadar büyük göründüğüne şaşırmıştım
  AI filtresi çıkmadan önce de olan bir sorundu, yani yeni değil; ama şimdi çok daha ağırlaştı ve maliyeti düştü
Bu modeli test edebilmek için erken erişim aldım. İş aracılığıylaydı; Google'ın kişisel olarak benden hoşlanmaya başlaması hâlâ söz konusu değil lol
Burada reklamı yapıldığı gibi çalışıyor ve iyi text rendering gibi konularda Nano Banana 2'nin damıtılmış bir sürümü gibi görünüyor. Nano Banana 1 bu konuda çok daha zayıf
Tabii ayrıntılı prompt'larda temel Nano Banana 2 seviyesine hiç yaklaşmıyor. En büyük şikâyetim, NB2'de aspect ratio'yu programatik olarak zorlayabiliyorken NB2L'de bunu yapamamam
Yine de görsel başına $0.034 fiyat beklediğimden yüksek. Fiyatlar genelde üretim süresiyle ilişkili oluyor; bu model Nano Banana 1'in yarı süresinde üretiyor ama Nano Banana 1 görsel başına $0.039
Google'ın NB1 pipeline'ını doğrudan NB2L ile değiştirebileceği iddiası makul
Google dün Gemini uygulamasında ücretsiz görsel üretimine izin verdiğini duyurdu(https://blog.google/innovation-and-ai/products/gemini-app/pe...), ama hangi modeli kullandığını belirtmedi. Nano Banana 2 Lite'ın ana motivasyonunun bu olduğunu düşünüyorum
- Vertex üzerinden NB2 Lite'ta da aspect ratio programatik olarak ayarlanabiliyor [1]. GenAI Showdown için görsel üreten programı güncelleyip model ID'sini gemini-3.1-flash-lite-image olarak değiştirdim ve 16:9, 4:3 gibi oranları kullanabildim
  [1] - https://cloud.google.com/developers/vertex-ai
- Ne tür bir iş yapıyorsun da büyük ölçekte otomatik görsel üretimi gerekiyor, merak ettim
Fena değil ama Google'ın bozuk AI Studio'sunun üstünde çalışıyor. Oradaki özelliklerin yarısı Google One hesabı gerektirdiği için kullanamıyorum
Benim hesabım Workspace hesabı, dolayısıyla uygun değilim ve geçiş de yapamıyorum. Çünkü Google One özel alan adlarını desteklemiyor
O zaman hem havalı e-posta adresini hem de Banana'yı kullanmak için iki hesap mı yönetip para ödemem gerekiyor? Bu noktada doğru sayıda ücretli Google hesabının 0 olduğu hissine kapılmaya başlıyorum
- Benzer bir durumdaydım. Google'ın model kullanımı ve ödeme kullanıcı deneyimini gerçekten iyileştirmesi gerekiyor
  Benim çözümüm OpenRouter oldu. Geliştirme/test sohbetlerinde Google modelleriyle görsel üretebiliyor ve aynı prompt'u başka modellerle yan yana da çalıştırabiliyorum. Hafif görsel üretimi için çok kullanışlı
- Ben de neredeyse aynı durumdayım. Kişisel kullanım için hem One'a hem Workspace'e para ödüyorum ama bu tür özelliklerde hangisini kullanmam gerektiği belirsiz
  Genelde daha fazla bağlam barındırdığı için kişisel hesabı varsayılan kullanıyorum, ama bu kez de Workspace Drive gibi kaynakları getirmek için birkaç ek adım gerekiyor
  Ayrıca Project Genie gibi şeyler Workspace'te hiç kullanılamıyor; bu da epey tuhaf hissettiriyor
- Biraz utanmaz bir reklam olacak ama burlap, Gemini Studio veya OpenAI anahtarlarını girip web arayüzüyle uğraşmadan bir şeyleri denemeni sağlıyor. O yüzden yaptım
  https://www.burlap.app/download
Hız kesinlikle etkileyici. Temel NB2 görsel başına yaklaşık 30 saniye sürerken bu 5 saniyenin altında görünüyor
Çocukları karakter olarak kullanan, resimli hikâyeler üreten bir uygulama yaptım. İllüstrasyon stilini korurken çocuklara benzerliği de önceliklendirmek istedim
Birçok modeli test ettim ama stilize edilmiş halde benzerliği koruma konusunda buna yaklaşabilen başka bir model yok gibi. Diğer modeller onları sıradan karakterlere dönüştürüyor
Kullanıcının mümkün olduğunca çabuk “aha” anını yaşamasını istediğim için bu modeli uygulamanın onboarding'ine koyma fikri heyecan verici. 30 saniyeden fazla beklemek ideal değil
Ama gerçek illüstrasyonlarda yine de temel NB2'yi kullanacağım. Bu Lite sürüm, başkalarının da söylediği gibi, nüans ve tutarlılık konusunda hâlâ biraz sorunlu
- Benzer bir şey denedim ama çocuklarla ilgili bir şey yapılamadığına dair hata aldım. Bu değişti mi?
Karşılaştırma tablosuna ChatGPT eklenmemiş. Bu kendi başına çok şey anlatıyor
- Buna değinmek gerekir. Bilmeyenler için söyleyeyim, ChatGPT Image 2'nin ELO'su 1387 ve bu saçma derecede yüksek; 1273 puanlı ikinci modelden 100'den fazla puan önde (https://arena.ai/leaderboard/text-to-image)
  Bunun yerine sorun gecikme süresi; ChatGPT Image 2'nin High ayarı 1024x1024'te yaklaşık 2 dakika sürüyor, yani yavaş
  Her hâlükârda bunu bu tabloya koysalar tabloyu işe yaramaz hâle getirecek şekilde çarpıtırdı
  ChatGPT Image 2 hakkında bir şeyler yazmak istiyorum ama artık insanlar ince ayrıntılı görsel üretimiyle ilgilenmiyor gibi görünüyor. Önceki testlerde ChatGPT Image 2 her şeyi ezip geçmesine rağmen durum böyle
Grok'un görsel modelinin burada öne çıkarılan neredeyse tüm metriklerde Nano Banana'yı geçtiğini görmek biraz şaşırtıcı
- Gerçekten öyle mi? Benim kaçırdığım bir şey mi var? Öncelikle bunun doğru olmadığını düşünüyorum ve Lite olmayan sürümler genel olarak Grok'u geçiyor gibi görünüyor
  İkinci olarak bu zaten en ileri seviye frontier model değil, düşük maliyetli yüksek hacimli bir üretim modeli; dolayısıyla benchmark puanlarının düşük olması doğal
Nano Banana Pro hoşuma gitti. Henüz bir yerel alternatif var mı? Qwen Image, Klein ve son dönemde Krea hakkında bir şeyler duydum; tavsiye edilebilecek bir şey var mı merak ediyorum
- Krea-2 harika. Kısıtlayıcı lisansını, çıktı hızını ve JSON prompting'i kabul edebiliyorsanız, Ideogram 4 muhtemelen frontier modellere en yakın seçenek
  Profilimdeki GenAI Showdown'a bakarsanız yerel ve kapalı kaynak modellerle karşılaştırmalı benchmark'lar var
  Hatta Gemini 2.5 de var; yani orijinal NB'den daha yüksek puan almıştı, bu da oldukça etkileyici
- Krea iyi. Açık frontier modeller hakkında bilgi için r/StableDiffusion'a bakabilirsiniz
Görsel üretim tarafında epey geride kaldım; ara sıra roleplay token'ları, şaka amaçlı şeyler ya da kişisel kullanım için geçici varlıklar üretmek dışında pek kullanmıyorum. Benim ölçütlerime göre bu çılgınlık seviyesinde
Yaklaşık 2 saniyede görsel üretebiliyor. Eskiden ChatGPT ile aynı kalitede bir görsel üretmek 30 saniye ile 1 dakika arasında sürüyordu
Buradaki olumsuz tepkiyi anlamıyorum
- Yine de ChatGPT'nin detay seviyesi çok daha iyi. Nano Banana'nın yetişemediği, karmaşık 6 panelli çizgi romanlar gibi şeyler üretebiliyor
  Ayrıca olumsuz tepkilerin önemli bir kısmı, AI art kavramının kendisinden nefret eden ve başarısız olmasını isteyen insanlardan geliyor
- Kullanım alanları farklı.
  Görselin kendisinin merkezde olduğu işler yapan insanlar, görsel başına daha fazla harcama yapmak ister
  Buna karşılık görsel bir raporun parçasıysa ya da atılacak bir çıktıysa veya bir demoya girecekse, ucuz yaklaşım daha iyidir
Bu sayfadaki “hands on” bölümünde gösterilen gerçek zamanlı prototip gibi bir şeyi nasıl elde ettiklerini merak ediyorum
gemini.g'de canvas ekleyebiliyor ya da görsel üretimi kullanabiliyorum ama “space lift” prompt'unu nereye girmem gerektiğini, demodaki gibi bir sonuç almak için, pek anlayamadım
Vay canına, gecikme süresi inanılmaz derecede düşmüş. Bu seviye birkaç kullanım senaryosunun önünü açacaktır, ancak bağlantı verilen web sayfası modeller arasındaki farkları anlaşılır biçimde açıklamıyor
Yine de genel görsel modellerle kişisel deneyimime dayanarak, kendi iş akışımda Google'ın en iyisi olduğunu düşünüyorum. Tabii Uzak Doğu sağlayıcılarını henüz denemedim
Başkalarının ne düşündüğünü merak ediyorum

Nano Banana 2 Lite

Hızlı üretim ve düşük maliyet odaklı Gemini Image modeli

Hız, maliyet ve kalite dengesi

Görsel üretim hızını temel alan uygulama örnekleri

Karşılaştırma metrikleri ve model kartı

İş ortaklarının gördüğü kullanım potansiyeli

Hâlâ gözden geçirilmesi gereken sınırlamalar

Güvenlik özellikleri ve kullanım uyarıları

İlgili okumalar

1 yorum

Hacker News görüşleri