- Metin, görsel, video, ses ve belgeleri tek bir embedding alanına eşleyen ilk tam multimodal embedding modeli public preview olarak duyuruldu
- Gemini mimarisi temelinde 100'den fazla dilde semantik niyeti yakalayarak RAG, semantik arama, duygu analizi, veri kümeleme gibi çeşitli downstream görevleri destekliyor
- Matryoshka Representation Learning (MRL) tekniği uygulanarak varsayılan 3072 boyuttan esnek biçimde küçültülebiliyor; performans ile depolama maliyeti arasında denge kurulabiliyor
- Metin, görsel ve video görevlerinde mevcut önde gelen modelleri aşan yeni bir performans standardı belirliyor; ayrıca ses embedding yeteneklerini de yeni olarak sunuyor
- Gemini API ve Vertex AI üzerinden hemen kullanılabiliyor; LangChain, LlamaIndex, Weaviate gibi başlıca üçüncü taraf framework'lerle entegrasyon desteği sunuluyor
Yeni modaliteler ve esnek çıktı boyutları
- Gemini tabanlı multimodal anlama yetenekleri sayesinde farklı girdi türleri için yüksek kaliteli embedding'ler üretiyor
- Metin: En fazla 8192 giriş token'ı ile geniş bağlam desteği
- Görsel: İstek başına en fazla 6 görsel işleme, PNG ve JPEG format desteği
- Video: MP4, MOV formatlarında en fazla 120 saniyelik video girdisi desteği
- Ses: Ara metin dönüşümü olmadan ses verisini yerel olarak embedding'e dönüştürme
- Belge: En fazla 6 sayfalık PDF'leri doğrudan embedding'e dönüştürme
- Yalnızca tekil modaliteler değil, iç içe geçmiş girdiler (ör. görsel + metin) de tek bir istekle gönderilebiliyor; böylece farklı medya türleri arasındaki karmaşık ve nüanslı ilişkiler de yakalanabiliyor
- Matryoshka Representation Learning (MRL) tekniğiyle bilgi katmanlı biçimde iç içe yerleştirilerek boyutlar dinamik olarak küçültülebiliyor
- Varsayılan 3072 boyuttan 1536, 768 gibi değerlere esnek biçimde ölçeklenebiliyor
- En yüksek kalite için 3072, 1536 ve 768 boyutlarının kullanılması öneriliyor
En ileri seviye performans
- Eski modellere göre basit bir iyileştirme değil, multimodal derinlikte yeni bir performans standardı oluşturuyor
- Metin, görsel ve video görevlerinde mevcut önde gelen modelleri geride bırakıyor; ayrıca güçlü ses embedding yetenekleri de sunuyor
- Farklı embedding ihtiyaçlarına yanıt verebilecek ölçülebilir performans artışı ve benzersiz multimodal kapsam sağlıyor
Veriden daha derin anlamlar çıkarma — erken erişim iş ortaklarının örnekleri
- Embedding teknolojisi, birçok Google ürünündeki deneyimlerin arkasındaki temel teknoloji olarak RAG için context engineering süreçlerinden büyük ölçekli veri yönetimine, arama ve analize kadar kullanılıyor
- Everlaw (Max Christoff, CTO): Dava keşfi sürecinde hukuk uzmanlarının kritik bilgileri bulmasına yardımcı olmak için Gemini embedding'i benimsedi; milyonlarca kayıt içinde precision ve recall'ı artırdı, görsel ve videolar için güçlü yeni arama yeteneklerinden yararlandı
- Sparkonomy (Guneet Singh, kurucu ortak): Creator Economic Equality Engine'in temeli olarak kullanıyor; yerel multimodallik sayesinde gecikmeyi %70'e kadar azalttı, metin-görsel ve metin-video çiftlerinin semantik benzerlik puanını 0,4'ten 0,8'e çıkararak neredeyse iki kat iyileştirdi, milyonlarca dakikalık videoyu benzeri görülmemiş bir hassasiyetle indeksledi
- Mindlid (Ertuğrul Çavuşoğlu, kurucu ortak): Mevcut iş akışlarına minimum değişiklikle uygulanabilen üstün API sürekliliği sunduğunu belirtiyor; metin tabanlı konuşma belleğini ses ve görsel embedding'lerle birlikte gömme yaklaşımını test ediyor ve kişisel wellness uygulamasında top-1 recall'da %20 artış gördü
Başlangıç
- Gemini Embedding 2 modeli, Gemini API veya Vertex AI üzerinden kullanılabiliyor
- Python SDK ile metin, görsel ve sesi tek bir çağrıda embedding'e dönüştüren kod örnekleri sunuluyor
- Gemini API ve Vertex AI için etkileşimli Colab notebook'ları sağlanıyor
- LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, Vector Search gibi başlıca üçüncü taraf araçlarla entegrasyon destekleniyor
Henüz yorum yok.