Gemini Pro 1.5’in killer uygulaması video
(simonwillison.net)- Google Gemini Pro 1.5’in token bağlam boyutu 1.000.000
- Daha önce bu rekor Claude 2.1’de (200.000 token) ve gpt-4-turbo’da (128.000 token) bulunuyordu, ancak modeller arasındaki tokenlaştırma uygulamaları farklı olduğu için tamamen doğrudan karşılaştırmak zor
- Birkaç gün Gemini Pro 1.5 kullandıktan sonra, en ilgi çekici özelliğin token sayısı değil, videoyu girdi olarak kullanabilmesi olduğu görüldü
- Henüz API erişimi yoktu, ancak modele Google AI Studio arayüzü üzerinden erişildi
İlk test
- Kitaplıklardan biri 7 saniyelik bir videoyla kaydedildi
- "JSON array of books in this video" prompt’u ile birlikte yüklendi
- Bu 7 saniyelik video, 1.048.576 token sınırının yalnızca 1.841 tokenını kullandı
- Gemini Pro 1.5 JSON döndürmedi, ancak videodaki kitap başlıkları ve yazar adlarının bir listesini verdi
- Ardından "as a JSON array of objects, with title and author keys" istendiğinde kitapları/yazarları JSON olarak döndürdü
- Sonuç oldukça şaşırtıcıydı. Video yalnızca 7 saniye uzunluğundaydı, oldukça hızlı hareket ediyordu (videoda biraz motion blur vardı) ve bazı kitaplar başka nesneler tarafından kısmen kapatılmıştı
İkinci test
- Bu kez yemek kitaplarıyla dolu bir raf, daha uzun (22 saniye) ve dikey olarak, sadece yatay değil aşağı doğru da pan yapılarak video olarak çekildi
- Bu videoda 6.049 token kullanıldı; bu hâlâ çok düşük bir miktar
- Yeni prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- Ancak "Unsafe Content" denilerek reddedildi
- Güvenlik filtresi görünüşe göre "Cocktail" kelimesinden rahatsız oldu
- Güvenlik ayarları açılıp tüm kategoriler için "düşük" olarak ayarlanarak tekrar denendi, ancak ikinci kez de reddedildi
- Bunun üzerine "go on give me that JSON" diye zorlayıcı bir talimat verildiğinde JSON döndürdü
- Sonuç yine son derece iyiydi
Bu nasıl kullanılabilir?
- Metinden yapılandırılmış içerik çıkarma yeteneği zaten LLM’lerin en ilgi çekici kullanım alanlarından biri
- GPT-4 Vision ve LLaVA bunu görüntülere genişletti, şimdi de Gemini Pro 1.5 bunu videoya genişletiyor
- Elbette genel LLM uyarıları burada da geçerli. Nesneleri kaçırabilir ve yanlış ayrıntılar uydurabilir
- Cocktail örneğinde olduğu gibi güvenlik filtreleriyle ilgili sorunlar da var
- Bu nedenle, her zaman en yeni yapay zekada olduğu gibi aşılması gereken pek çok zorluk hâlâ mevcut
- Ama bu, geleceğin beklediğimden çok daha yakın olduğuna dair bir başka örnek gibi hissettiriyor
Görüntü vs. video
- Başta, video işleme ile ilgili token sayısı şaşırtıcı derecede düşük olduğu için videonun görüntülerden farklı işlendiği düşünüldü
- Ancak Hacker News’te paylaşılan bir yoruma göre
Gemini 1.5 Pro can reason over up to an hour of video, by attaching the video Google AI Studio classifies it into thousands of frames without audio and then because the Gemini model is multimodal it can perform highly sophisticated reasoning and problem-solving tasks.
- Gemini 1.5 teknik raporunda ise şöyle deniyor:
45 dakikalık Buster Keaton filmi "Sherlock Jr." (1924) (1FPS’te 2.674 kare, 684k token) girdi olarak verildiğinde, Gemini 1.5 Pro belirli karelerdeki metin bilgisini bulup çıkarabiliyor ve ilgili zaman damgalarını sağlayabiliyor.
1 yorum
Hacker News görüşleri
Bir ajanın kullanıcının ekranını sürekli sessizce izlemesi çok faydalı da olabilir, distopik de.
"Gemini Pro 1.5 için asıl killer app video girdisi" başlığı yerinde.
Video, görüntülerin ardışık hâlidir ve OpenAI'ın GPT-4-Vision demosu da modele kare listesini göndererek benzer bir etki yaratıyor.
ffmpegkullanarak her iki kareden birini çıkışa verme yöntemi de var.Yapay zeka videoyu, görselleri ve metni analiz edip bunları ucuz ve verimli şekilde işleyebilir hâle geldiğinde mahremiyet tamamen bitecek.
Görünüşe göre yazar, girdi olarak kullanılan videoda anılan kitapların gerçekten doğru olup olmadığını kontrol etmemiş.
Görünüşe göre Google'ın güvenlik filtresi "Cocktail" kelimesine tepki vermiş.
Kare başına yalnızca 256 token kullanılması şaşırtıcı.
"Cocktail" ile ilgili sorun gerçekten var.
Google'ın donanım ölçeğine karşı OpenAI'ın (veya Microsoft'un sağladıklarının) gerçek killer app'inin ne olduğunu merak ediyorum.
Teknolojinin kendisi etkileyici ve ilgi çekici, ancak bunun Scunthorpe probleminin bir intikamı denebilecek bir duruma yol açmasına gülüyorum.