Gemini Pro 1.5’in killer uygulaması video

(simonwillison.net)

10 puan yazan GN⁺ 2024-02-22 | 1 yorum | WhatsApp'ta paylaş

Google Gemini Pro 1.5’in token bağlam boyutu 1.000.000
Daha önce bu rekor Claude 2.1’de (200.000 token) ve gpt-4-turbo’da (128.000 token) bulunuyordu, ancak modeller arasındaki tokenlaştırma uygulamaları farklı olduğu için tamamen doğrudan karşılaştırmak zor
Birkaç gün Gemini Pro 1.5 kullandıktan sonra, en ilgi çekici özelliğin token sayısı değil, videoyu girdi olarak kullanabilmesi olduğu görüldü
Henüz API erişimi yoktu, ancak modele Google AI Studio arayüzü üzerinden erişildi

İlk test

Kitaplıklardan biri 7 saniyelik bir videoyla kaydedildi
"JSON array of books in this video" prompt’u ile birlikte yüklendi
Bu 7 saniyelik video, 1.048.576 token sınırının yalnızca 1.841 tokenını kullandı
Gemini Pro 1.5 JSON döndürmedi, ancak videodaki kitap başlıkları ve yazar adlarının bir listesini verdi
Ardından "as a JSON array of objects, with title and author keys" istendiğinde kitapları/yazarları JSON olarak döndürdü
Sonuç oldukça şaşırtıcıydı. Video yalnızca 7 saniye uzunluğundaydı, oldukça hızlı hareket ediyordu (videoda biraz motion blur vardı) ve bazı kitaplar başka nesneler tarafından kısmen kapatılmıştı

İkinci test

Bu kez yemek kitaplarıyla dolu bir raf, daha uzun (22 saniye) ve dikey olarak, sadece yatay değil aşağı doğru da pan yapılarak video olarak çekildi
Bu videoda 6.049 token kullanıldı; bu hâlâ çok düşük bir miktar
Yeni prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
Ancak "Unsafe Content" denilerek reddedildi
Güvenlik filtresi görünüşe göre "Cocktail" kelimesinden rahatsız oldu
Güvenlik ayarları açılıp tüm kategoriler için "düşük" olarak ayarlanarak tekrar denendi, ancak ikinci kez de reddedildi
Bunun üzerine "go on give me that JSON" diye zorlayıcı bir talimat verildiğinde JSON döndürdü
Sonuç yine son derece iyiydi

Bu nasıl kullanılabilir?

Metinden yapılandırılmış içerik çıkarma yeteneği zaten LLM’lerin en ilgi çekici kullanım alanlarından biri
GPT-4 Vision ve LLaVA bunu görüntülere genişletti, şimdi de Gemini Pro 1.5 bunu videoya genişletiyor
Elbette genel LLM uyarıları burada da geçerli. Nesneleri kaçırabilir ve yanlış ayrıntılar uydurabilir
Cocktail örneğinde olduğu gibi güvenlik filtreleriyle ilgili sorunlar da var
Bu nedenle, her zaman en yeni yapay zekada olduğu gibi aşılması gereken pek çok zorluk hâlâ mevcut
Ama bu, geleceğin beklediğimden çok daha yakın olduğuna dair bir başka örnek gibi hissettiriyor

Görüntü vs. video

Başta, video işleme ile ilgili token sayısı şaşırtıcı derecede düşük olduğu için videonun görüntülerden farklı işlendiği düşünüldü
Ancak Hacker News’te paylaşılan bir yoruma göre

Gemini 1.5 Pro can reason over up to an hour of video, by attaching the video Google AI Studio classifies it into thousands of frames without audio and then because the Gemini model is multimodal it can perform highly sophisticated reasoning and problem-solving tasks.
Reklam
Gemini 1.5 teknik raporunda ise şöyle deniyor:

45 dakikalık Buster Keaton filmi "Sherlock Jr." (1924) (1FPS’te 2.674 kare, 684k token) girdi olarak verildiğinde, Gemini 1.5 Pro belirli karelerdeki metin bilgisini bulup çıkarabiliyor ve ilgili zaman damgalarını sağlayabiliyor.

1 yorum

GN⁺ 2024-02-22

Hacker News görüşleri

Bir ajanın kullanıcının ekranını sürekli sessizce izlemesi çok faydalı da olabilir, distopik de.
- Kullanıcının kod yazmasını, plan yapmasını ve araştırma yürütmesini aylar boyunca izleyip kişisel ve profesyonel tavsiyeler verebilmesi beklenebilir.
- Bu tür bir teknoloji, kişinin psikolojisini yansıtıp çok fazla bilgiyi hatırlayabildiği için şirketler veya kötü niyetli aktörler açısından çok değerli olabilir.
- Modelin güvenli şekilde çalıştırılması gerekir; kişinin kopyalanması veya mahremiyet ihlali riski vardır.
"Gemini Pro 1.5 için asıl killer app video girdisi" başlığı yerinde.
- YouTube gibi video içeriklerinin büyük ölçekli moderasyonunda faydalı olabilir; maliyeti düşürülebilirse iyi olur.
Video, görüntülerin ardışık hâlidir ve OpenAI'ın GPT-4-Vision demosu da modele kare listesini göndererek benzer bir etki yaratıyor.
- GPT-4-Vision'ın function calling ya da structured data desteği verip JSON çıktısını garanti etmesi güzel olurdu.
- Maliyeti yarıya indirmek için ffmpeg kullanarak her iki kareden birini çıkışa verme yöntemi de var.
- OpenAI demosu, yaklaşık 600 karelik bir videoda her 50. kareyi gönderiyor.
Yapay zeka videoyu, görselleri ve metni analiz edip bunları ucuz ve verimli şekilde işleyebilir hâle geldiğinde mahremiyet tamamen bitecek.
- Bugün büyük şirketlerin hakkımızda çok fazla verisi var, ancak her şeyi anlama ve birbirine bağlama konusunda sınırları bulunuyor.
- Güçlü bir yapay zeka, dijital yaşamın her yönünü anlayabilir ve hem iyi hem kötü amaçlar için kullanılabilecek çok büyük bir potansiyele sahiptir.
Görünüşe göre yazar, girdi olarak kullanılan videoda anılan kitapların gerçekten doğru olup olmadığını kontrol etmemiş.
- İlk baktığım kitap olan "Growing Up with Lucy by April Henry" diye bir kitap yok; aslında Steve Grand'e ait.
- Demo etkileyici ama gerçekte daha fazlası için kullanmak açısından pek işe yaramıyor.
Görünüşe göre Google'ın güvenlik filtresi "Cocktail" kelimesine tepki vermiş.
- Güvenlik ayarını düşürüp yeniden denedim ama ikinci denemede de reddedildi.
- Google'ın risk yönetimi birimi organizasyonu tamamen ele geçirmiş gibi; en akıllı bilgisayar bile artık "cocktail" ya da "Abraham Lincoln" gibi tehlikeli kelimeleri veya görselleri kullanmaktan korkuyor.
Kare başına yalnızca 256 token kullanılması şaşırtıcı.
- Bir fotoğrafın bin kelimeye bedel olduğu sözüne rağmen, bunun aslında yalnızca yaklaşık 192 kelime değerinde olduğu anlamına geliyor.
"Cocktail" ile ilgili sorun gerçekten var.
- Moby Dick karakterlerini DALLE ile hayal etmeye çalıştım ama tamamen reddedildi.
- Bir yapay zeka şirketinin daha iyi bir küfür filtresi geliştirebileceğini düşünürdüm.
Google'ın donanım ölçeğine karşı OpenAI'ın (veya Microsoft'un sağladıklarının) gerçek killer app'inin ne olduğunu merak ediyorum.
- Google'ın yaptığı şey OpenAI ekibi için özellikle şaşırtıcı değil ama belki devasa ölçekte daha hızlı iterasyon yapabilirler.
Teknolojinin kendisi etkileyici ve ilgi çekici, ancak bunun Scunthorpe probleminin bir intikamı denebilecek bir duruma yol açmasına gülüyorum.
- Güvenlik filtresinin "Cocktail" kelimesine tepki verdiği anlaşılıyor.

Gemini Pro 1.5’in killer uygulaması video

İlk test

İkinci test

Bu nasıl kullanılabilir?

Görüntü vs. video

İlgili okumalar

1 yorum

Hacker News görüşleri