1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Google DeepMind'in Gemini Image ailesine eklenen Nano Banana 2 Lite, görüntü üretimi ve düzenlemeyi daha hızlı ve daha düşük maliyetle çalıştırmayı hedefleyen bir model; tekrarı yüksek görsel işlerin maliyet yükünü azaltmaya odaklanıyor
  • Ana eksenleri düşük gecikme ve büyük ölçekte maliyet verimliliği; daha ağır prodüksiyon modellerine göre daha düşük maliyetle binlerce görsel üretebiliyor
  • Kalite tarafında Nano Banana ailesinin kontrol gücü ve doğruluğunu korurken karakter tutarlılığı, hassas düzenleme ve gerçek dünya bilgisinden yararlanmayı destekliyor
  • Space Lift, Gridscape, Peek-A-Word ve Anywhere gibi örnekler, görsel üretimin uygulama akışını kesmeyecek kadar hızlandığında mümkün olan kullanıcı deneyimini gösteriyor
  • Küçük yüzler, doğru yazım, ayrıntılı betimleme, veriye dayalı sonuçlar, çeviri ve yerelleştirme, karmaşık düzenleme ve birleştirme işlemlerinde hatalar oluşabileceği için üretilen sonuçların gözden geçirilmesi gerekiyor

Hızlı üretim ve düşük maliyet odaklı Gemini Image modeli

  • Nano Banana 2 Lite, Google DeepMind'in duyurduğu, hızlı görüntü üretimi ve düzenleme ile düşük maliyeti hedefleyen bir Gemini Image modeli
  • Başlıca kullanıcıları üreticiler, işletmeler ve geliştiriciler; çok sayıda görsel fikri hızlıca keşfetmeye yönelik iş akışlarına göre tasarlandı
  • Google DeepMind bu modeli şimdiye kadarki en hızlı ve en verimli Gemini Image modeli olarak tanıtıyor ve en düşük maliyetle yüksek hızlı üretim ile düzenleme sunduğunu belirtiyor
  • Erişim yolları şöyle:

Hız, maliyet ve kalite dengesi

  • Temel nokta gecikmenin azaltılması; hızlı keşif ve yinelemeli çalışmayı destekliyor
  • Büyük ölçekli üretimde, daha ağır prodüksiyon modellerine göre çok daha düşük maliyetle binlerce görsel oluşturabiliyor
  • Kalite tarafında amaç, Nano Banana'dan beklenen kontrol gücü ve doğruluğu daha yüksek hızla sunmak
    • Karakter tutarlılığını koruma
    • Hassas görsel düzenleme
    • Gerçek dünya bilgisinden yararlanma
  • Prompt içinde karakter, arka plan, genel atmosfer gibi istenen unsurlar ne kadar ayrıntılı yazılırsa hedeflenen görsele yaklaşma ihtimali o kadar artıyor
  • Prompt rehberleri View prompt guide ve Learn how to prompt bağlantılarında sunuluyor

Görsel üretim hızını temel alan uygulama örnekleri

  • Space Lift, oda fotoğrafı yüklendiğinde Mid-Century Modern'den Bohemian Chic'e kadar farklı iç mekân konseptlerini anında üreten bir uygulama
  • Gridscape, sonsuz bir tuval üzerinde soru girildiğinde Nano Banana 2 Lite ve Gemini 3.1 Flash Lite'ın ürettiği metin ve görsellerle bilgi düğümleri oluşturuyor
    • Kullanıcılar tıklanabilir yolları izleyerek ilgili kavramları daha derinlemesine keşfedebiliyor
  • Peek-A-Word, seçilen metni yapay zeka tarafından üretilen görsel materyallere dönüştürüyor ve kısa tanım ile bağlamsal görselleri tek bir alanda sunuyor
    • Sekme değiştirmeden öğrenme akışını korumaya odaklanıyor
  • Anywhere, Nano Banana 2 Lite ile yapılmış etkileşimli bir 3D dünya küresi uygulaması
    • Görsel eklendiğinde, dünya çapındaki simge mekânları arka plan yapan kişiselleştirilmiş kartpostal serileri üretiyor
    • Kullanıcılar küreyi döndürüp fotoğraflara tıklayarak sanal seyahat noktaları hakkında bilgi görebiliyor

Karşılaştırma metrikleri ve model kartı

  • Google DeepMind, Nano Banana 2 Lite'ı şimdiye kadarki en verimli modeli olarak tanıtıyor ve kalite ile hız arasında iyi bir denge sunduğunu belirtiyor
  • Karşılaştırma kapsamında amiral gemisi model Nano Banana 2 de yer alıyor
  • Karşılaştırma alanları arasında prompt uyumu, ayrıntı sunumu ve kontrol gücü gibi görüntü üretim kalitesi unsurları bulunuyor
  • Performans bölümünde şu metrikler yer alıyor
    • Image Editing: lmarena.ai ölçümüne göre rakip modellere karşı görüntü düzenleme Elo puanı
    • Image Generation: lmarena.ai ölçümüne göre rakip modellere karşı görüntü üretimi Elo puanı
    • Latency per 1k resolution image: artificialanalysis.ai verilerine dayalı olarak 1k çözünürlüklü görsel başına gecikme
    • Price per 1k resolution image: 1k çözünürlüklü görsel başına fiyat
  • Model kartı View model card bağlantısında sunuluyor

İş ortaklarının gördüğü kullanım potansiyeli

  • Figma Weave, Nano Banana 2 Lite'ın düğüm tabanlı tuval üzerinde tasarımcıların daha fazla fikir keşfetmesine ve benzersiz görseller oluşturmasına yardımcı olduğunu değerlendiriyor
  • Manus AI, otonom iş akışları içinde sunum desteleri ve web sayfaları için gerçek zamanlı görsel üretimini test ediyor
    • Hızın, yapay zeka ajanlarının hızlı görsel yinelemeleri ve birkaç saniye içinde sonuç sunması için uygun olduğu belirtiliyor
    • Görsel kalitesinin tam Nano Banana 2'ye yakın olduğu düşünülüyor
  • Artlist, üretim hızı hayal edilenden daha hızlı olduğunda kullanıcıların aracı beklemek yerine fikrin içinde kalabildiğini söylüyor
  • Weekend, ses kontrollü TV oyunu Wit’s End'de instant-ramen'in 1k görsel üretimi temelinde Gemini 3.1 Flash Image'dan yaklaşık 2.7× daha hızlı olduğunu belirtiyor
    • Metinden görsele üretim, düzenleme ve çoklu görsel birleştirmeyi tek bir drop-in API içinde ele alıyor
  • Latitude, oyuncular keşif yaparken dünyayı üreten motorlarda görsel üretim hızının kritik olduğunu ve instant-ramen'in oyun deneyimine yetişecek kadar hızlı görsel üretimi mümkün kıldığını değerlendiriyor

Hâlâ gözden geçirilmesi gereken sınırlamalar

  • Gemini çok çeşitli görseller üretebilse de bazı işlevler hâlâ geliştiriliyor ve üretilen görsellerin doğrudan kontrol edilmesi gerekiyor
  • Görsel ve metinsel sadakat tarafında küçük yüzler, doğru yazım ve görsel içindeki ayrıntılı betimlemelerde zorluklar yaşanabiliyor
  • Veri ve olgusal doğruluk açısından gerçek dünya bilgisi geniş olsa da tam değil
    • İnfografik üretimi, diyagram açıklamaları ve karmaşık veri temsillerinde bilgileri yanlış yorumlayabilir veya gerçeğe aykırı sonuçlar üretebilir
    • Veriye dayalı çıktılar doğrulanmalı
  • Çeviri ve yerelleştirme tarafında, farklı dillerde metin üretimi ve çeviri mümkün olsa da dil bilgisi, yazım, kültürel nüanslar ve deyimsel ifadelerde zorluklar yaşanabilir
  • Karmaşık düzenleme ve görsel harmanlamada, maske düzenleme, gündüzü geceye çevirme gibi büyük ışık değişiklikleri ve çoklu görsel birleştirmede yapay görünen sonuçlar, görsel artefaktlar veya kopuk sahneler ortaya çıkabilir
  • Karakter tutarlılığı güçlü yanlarından biri olsa da her zaman kusursuz değil; Google DeepMind bunu daha istikrarlı hâle getirmek için geliştirmeye devam ediyor

Güvenlik özellikleri ve kullanım uyarıları

  • Google DeepMind, veri kümelerindeki zararlı içeriği azaltmak ve zararlı çıktı olasılığını düşürmek için kapsamlı filtreleme ve veri etiketleme kullanıyor
  • İçerik güvenliği kapsamında çocuk güvenliği ve temsili de içeren red team çalışmaları ve değerlendirmeler yapılıyor
  • Üretilen görseller en yeni gizlilik ve güvenlik özelliklerini içeriyor; SynthID, yapay zeka tarafından üretilen görselleri tanımlayabilmek için görünmez dijital filigranı doğrudan görselin içine yerleştiriyor
  • SynthID bilgileri Learn more bağlantısında sunuluyor
  • Gemini 3.1 Flash-Lite Image gibi LLM'ler, Google'ın görüşlerini temsil etmeyen hatalı veya rahatsız edici içerikler üretebilir
  • LLM tarafından sağlanan içeriklere güvenilirken, yayımlanırken veya kullanılırken dikkatli olunmalı; tıbbi, hukuki ve finansal gibi uzman tavsiyeleri için bunlara dayanılmamalı

1 yorum

 
GN⁺ 3 시간 전
Hacker News görüşleri
  • Ev iç dekorasyonu üretimine dair ilk örnek tarif etmesi zor derecede itici. Bugünlerde emlakçılar eski ve satılmayan dairelerin hepsini AI filtresinden geçiriyor; böylece gerçekte ne kadar korkunç bir şeyi fahiş bir fiyata satmaya çalıştıklarını görmeden önce, “IKEA tarzında döşense böyle görünebilir” türünden onlarca görseli kaydırmak zorunda kalıyorsun

    • Bunun yasa dışı yanıltıcı tanıtım sayılması gerektiğini düşünüyorum. AI kullanımında fazlasıyla gri alan var
    • Bence neredeyse dolandırıcılık düzeyinde. Streeteasy'de bir daire, sanki masa, şifonyer ve queen yatak sığmış gibi görünüyordu ama görsel modelin mobilyayı gerçekte mümkün olmayan oranlara küçülttüğü çok belliydi
      Gerçek yatak odasına zar zor sadece bir queen yatak sığıyordu ;(
    • Dairenin gerçek halini çarpıtmanın toplumsal olarak da hukuken de kabul edilemez olması gerektiğine %100 katılıyorum. Ama kendi banyo tadilatımda görsel model tasarım seçimlerinde epey yardımcı oldu
      Özellikle belirli yerlere fayans döşendiğinde tüm alanın nasıl görüneceğini kafada canlandırmanın zor olduğu durumlarda faydalıydı
    • Yaşadığım NYC'de böyle rötuşlanmış görseller koymak 10 yıldan fazladır zaten yaygındı
      Eskiden sadece bunu yapacak birini tutmanın maliyeti daha yüksekti
      Düzenlenmiş görseller hep aynı parlak duvarları ve gri dergi tarzı mobilyaları gösteriyor
      AI bunu sadece ucuzlattı; sonunda işin buraya varması kaçınılmazdı
      Bu şekilde düzenlenmiş görsellerde, düzenlendiğini belirten küçük bir watermark oluyor
    • Sadece iyi bir fotoğrafçı bile muazzam fark yaratıyor. Bir arkadaşım evini satarken ilandaki fotoğraflarda evin ne kadar iyi göründüğüne, ayrıca benim küçük olmadığını bilmeme rağmen ne kadar büyük göründüğüne şaşırmıştım
      AI filtresi çıkmadan önce de olan bir sorundu, yani yeni değil; ama şimdi çok daha ağırlaştı ve maliyeti düştü
  • Bu modeli test edebilmek için erken erişim aldım. İş aracılığıylaydı; Google'ın kişisel olarak benden hoşlanmaya başlaması hâlâ söz konusu değil lol
    Burada reklamı yapıldığı gibi çalışıyor ve iyi text rendering gibi konularda Nano Banana 2'nin damıtılmış bir sürümü gibi görünüyor. Nano Banana 1 bu konuda çok daha zayıf
    Tabii ayrıntılı prompt'larda temel Nano Banana 2 seviyesine hiç yaklaşmıyor. En büyük şikâyetim, NB2'de aspect ratio'yu programatik olarak zorlayabiliyorken NB2L'de bunu yapamamam
    Yine de görsel başına $0.034 fiyat beklediğimden yüksek. Fiyatlar genelde üretim süresiyle ilişkili oluyor; bu model Nano Banana 1'in yarı süresinde üretiyor ama Nano Banana 1 görsel başına $0.039
    Google'ın NB1 pipeline'ını doğrudan NB2L ile değiştirebileceği iddiası makul
    Google dün Gemini uygulamasında ücretsiz görsel üretimine izin verdiğini duyurdu(https://blog.google/innovation-and-ai/products/gemini-app/pe...), ama hangi modeli kullandığını belirtmedi. Nano Banana 2 Lite'ın ana motivasyonunun bu olduğunu düşünüyorum

    • Vertex üzerinden NB2 Lite'ta da aspect ratio programatik olarak ayarlanabiliyor [1]. GenAI Showdown için görsel üreten programı güncelleyip model ID'sini gemini-3.1-flash-lite-image olarak değiştirdim ve 16:9, 4:3 gibi oranları kullanabildim
      [1] - https://cloud.google.com/developers/vertex-ai
    • Ne tür bir iş yapıyorsun da büyük ölçekte otomatik görsel üretimi gerekiyor, merak ettim
  • Fena değil ama Google'ın bozuk AI Studio'sunun üstünde çalışıyor. Oradaki özelliklerin yarısı Google One hesabı gerektirdiği için kullanamıyorum
    Benim hesabım Workspace hesabı, dolayısıyla uygun değilim ve geçiş de yapamıyorum. Çünkü Google One özel alan adlarını desteklemiyor
    O zaman hem havalı e-posta adresini hem de Banana'yı kullanmak için iki hesap mı yönetip para ödemem gerekiyor? Bu noktada doğru sayıda ücretli Google hesabının 0 olduğu hissine kapılmaya başlıyorum

    • Benzer bir durumdaydım. Google'ın model kullanımı ve ödeme kullanıcı deneyimini gerçekten iyileştirmesi gerekiyor
      Benim çözümüm OpenRouter oldu. Geliştirme/test sohbetlerinde Google modelleriyle görsel üretebiliyor ve aynı prompt'u başka modellerle yan yana da çalıştırabiliyorum. Hafif görsel üretimi için çok kullanışlı
    • Ben de neredeyse aynı durumdayım. Kişisel kullanım için hem One'a hem Workspace'e para ödüyorum ama bu tür özelliklerde hangisini kullanmam gerektiği belirsiz
      Genelde daha fazla bağlam barındırdığı için kişisel hesabı varsayılan kullanıyorum, ama bu kez de Workspace Drive gibi kaynakları getirmek için birkaç ek adım gerekiyor
      Ayrıca Project Genie gibi şeyler Workspace'te hiç kullanılamıyor; bu da epey tuhaf hissettiriyor
    • Biraz utanmaz bir reklam olacak ama burlap, Gemini Studio veya OpenAI anahtarlarını girip web arayüzüyle uğraşmadan bir şeyleri denemeni sağlıyor. O yüzden yaptım
      https://www.burlap.app/download
  • Hız kesinlikle etkileyici. Temel NB2 görsel başına yaklaşık 30 saniye sürerken bu 5 saniyenin altında görünüyor
    Çocukları karakter olarak kullanan, resimli hikâyeler üreten bir uygulama yaptım. İllüstrasyon stilini korurken çocuklara benzerliği de önceliklendirmek istedim
    Birçok modeli test ettim ama stilize edilmiş halde benzerliği koruma konusunda buna yaklaşabilen başka bir model yok gibi. Diğer modeller onları sıradan karakterlere dönüştürüyor
    Kullanıcının mümkün olduğunca çabuk “aha” anını yaşamasını istediğim için bu modeli uygulamanın onboarding'ine koyma fikri heyecan verici. 30 saniyeden fazla beklemek ideal değil
    Ama gerçek illüstrasyonlarda yine de temel NB2'yi kullanacağım. Bu Lite sürüm, başkalarının da söylediği gibi, nüans ve tutarlılık konusunda hâlâ biraz sorunlu

    • Benzer bir şey denedim ama çocuklarla ilgili bir şey yapılamadığına dair hata aldım. Bu değişti mi?
  • Karşılaştırma tablosuna ChatGPT eklenmemiş. Bu kendi başına çok şey anlatıyor

    • Buna değinmek gerekir. Bilmeyenler için söyleyeyim, ChatGPT Image 2'nin ELO'su 1387 ve bu saçma derecede yüksek; 1273 puanlı ikinci modelden 100'den fazla puan önde (https://arena.ai/leaderboard/text-to-image)
      Bunun yerine sorun gecikme süresi; ChatGPT Image 2'nin High ayarı 1024x1024'te yaklaşık 2 dakika sürüyor, yani yavaş
      Her hâlükârda bunu bu tabloya koysalar tabloyu işe yaramaz hâle getirecek şekilde çarpıtırdı
      ChatGPT Image 2 hakkında bir şeyler yazmak istiyorum ama artık insanlar ince ayrıntılı görsel üretimiyle ilgilenmiyor gibi görünüyor. Önceki testlerde ChatGPT Image 2 her şeyi ezip geçmesine rağmen durum böyle
  • Grok'un görsel modelinin burada öne çıkarılan neredeyse tüm metriklerde Nano Banana'yı geçtiğini görmek biraz şaşırtıcı

    • Gerçekten öyle mi? Benim kaçırdığım bir şey mi var? Öncelikle bunun doğru olmadığını düşünüyorum ve Lite olmayan sürümler genel olarak Grok'u geçiyor gibi görünüyor
      İkinci olarak bu zaten en ileri seviye frontier model değil, düşük maliyetli yüksek hacimli bir üretim modeli; dolayısıyla benchmark puanlarının düşük olması doğal
  • Nano Banana Pro hoşuma gitti. Henüz bir yerel alternatif var mı? Qwen Image, Klein ve son dönemde Krea hakkında bir şeyler duydum; tavsiye edilebilecek bir şey var mı merak ediyorum

    • Krea-2 harika. Kısıtlayıcı lisansını, çıktı hızını ve JSON prompting'i kabul edebiliyorsanız, Ideogram 4 muhtemelen frontier modellere en yakın seçenek
      Profilimdeki GenAI Showdown'a bakarsanız yerel ve kapalı kaynak modellerle karşılaştırmalı benchmark'lar var
      Hatta Gemini 2.5 de var; yani orijinal NB'den daha yüksek puan almıştı, bu da oldukça etkileyici
    • Krea iyi. Açık frontier modeller hakkında bilgi için r/StableDiffusion'a bakabilirsiniz
  • Görsel üretim tarafında epey geride kaldım; ara sıra roleplay token'ları, şaka amaçlı şeyler ya da kişisel kullanım için geçici varlıklar üretmek dışında pek kullanmıyorum. Benim ölçütlerime göre bu çılgınlık seviyesinde
    Yaklaşık 2 saniyede görsel üretebiliyor. Eskiden ChatGPT ile aynı kalitede bir görsel üretmek 30 saniye ile 1 dakika arasında sürüyordu
    Buradaki olumsuz tepkiyi anlamıyorum

    • Yine de ChatGPT'nin detay seviyesi çok daha iyi. Nano Banana'nın yetişemediği, karmaşık 6 panelli çizgi romanlar gibi şeyler üretebiliyor
      Ayrıca olumsuz tepkilerin önemli bir kısmı, AI art kavramının kendisinden nefret eden ve başarısız olmasını isteyen insanlardan geliyor
    • Kullanım alanları farklı.
      Görselin kendisinin merkezde olduğu işler yapan insanlar, görsel başına daha fazla harcama yapmak ister
      Buna karşılık görsel bir raporun parçasıysa ya da atılacak bir çıktıysa veya bir demoya girecekse, ucuz yaklaşım daha iyidir
  • Bu sayfadaki “hands on” bölümünde gösterilen gerçek zamanlı prototip gibi bir şeyi nasıl elde ettiklerini merak ediyorum
    gemini.g'de canvas ekleyebiliyor ya da görsel üretimi kullanabiliyorum ama “space lift” prompt'unu nereye girmem gerektiğini, demodaki gibi bir sonuç almak için, pek anlayamadım

  • Vay canına, gecikme süresi inanılmaz derecede düşmüş. Bu seviye birkaç kullanım senaryosunun önünü açacaktır, ancak bağlantı verilen web sayfası modeller arasındaki farkları anlaşılır biçimde açıklamıyor
    Yine de genel görsel modellerle kişisel deneyimime dayanarak, kendi iş akışımda Google'ın en iyisi olduğunu düşünüyorum. Tabii Uzak Doğu sağlayıcılarını henüz denemedim
    Başkalarının ne düşündüğünü merak ediyorum