Gemini Embedding 2: İlk yerel multimodal embedding modeli

(blog.google)

14 puan yazan GN⁺ 2026-03-11 | Henüz yorum yok. | WhatsApp'ta paylaş

Metin, görsel, video, ses ve belgeleri tek bir embedding alanına eşleyen ilk tam multimodal embedding modeli public preview olarak duyuruldu
Gemini mimarisi temelinde 100'den fazla dilde semantik niyeti yakalayarak RAG, semantik arama, duygu analizi, veri kümeleme gibi çeşitli downstream görevleri destekliyor
Matryoshka Representation Learning (MRL) tekniği uygulanarak varsayılan 3072 boyuttan esnek biçimde küçültülebiliyor; performans ile depolama maliyeti arasında denge kurulabiliyor
Metin, görsel ve video görevlerinde mevcut önde gelen modelleri aşan yeni bir performans standardı belirliyor; ayrıca ses embedding yeteneklerini de yeni olarak sunuyor
Gemini API ve Vertex AI üzerinden hemen kullanılabiliyor; LangChain, LlamaIndex, Weaviate gibi başlıca üçüncü taraf framework'lerle entegrasyon desteği sunuluyor

Yeni modaliteler ve esnek çıktı boyutları

Gemini tabanlı multimodal anlama yetenekleri sayesinde farklı girdi türleri için yüksek kaliteli embedding'ler üretiyor
- Metin: En fazla 8192 giriş token'ı ile geniş bağlam desteği
- Görsel: İstek başına en fazla 6 görsel işleme, PNG ve JPEG format desteği
- Video: MP4, MOV formatlarında en fazla 120 saniyelik video girdisi desteği
- Ses: Ara metin dönüşümü olmadan ses verisini yerel olarak embedding'e dönüştürme
- Belge: En fazla 6 sayfalık PDF'leri doğrudan embedding'e dönüştürme
Yalnızca tekil modaliteler değil, iç içe geçmiş girdiler (ör. görsel + metin) de tek bir istekle gönderilebiliyor; böylece farklı medya türleri arasındaki karmaşık ve nüanslı ilişkiler de yakalanabiliyor
Matryoshka Representation Learning (MRL) tekniğiyle bilgi katmanlı biçimde iç içe yerleştirilerek boyutlar dinamik olarak küçültülebiliyor
- Varsayılan 3072 boyuttan 1536, 768 gibi değerlere esnek biçimde ölçeklenebiliyor
- En yüksek kalite için 3072, 1536 ve 768 boyutlarının kullanılması öneriliyor

Eski modellere göre basit bir iyileştirme değil, multimodal derinlikte yeni bir performans standardı oluşturuyor
Metin, görsel ve video görevlerinde mevcut önde gelen modelleri geride bırakıyor; ayrıca güçlü ses embedding yetenekleri de sunuyor
Farklı embedding ihtiyaçlarına yanıt verebilecek ölçülebilir performans artışı ve benzersiz multimodal kapsam sağlıyor

Embedding teknolojisi, birçok Google ürünündeki deneyimlerin arkasındaki temel teknoloji olarak RAG için context engineering süreçlerinden büyük ölçekli veri yönetimine, arama ve analize kadar kullanılıyor
Everlaw (Max Christoff, CTO): Dava keşfi sürecinde hukuk uzmanlarının kritik bilgileri bulmasına yardımcı olmak için Gemini embedding'i benimsedi; milyonlarca kayıt içinde precision ve recall'ı artırdı, görsel ve videolar için güçlü yeni arama yeteneklerinden yararlandı
Sparkonomy (Guneet Singh, kurucu ortak): Creator Economic Equality Engine'in temeli olarak kullanıyor; yerel multimodallik sayesinde gecikmeyi %70'e kadar azalttı, metin-görsel ve metin-video çiftlerinin semantik benzerlik puanını 0,4'ten 0,8'e çıkararak neredeyse iki kat iyileştirdi, milyonlarca dakikalık videoyu benzeri görülmemiş bir hassasiyetle indeksledi
Mindlid (Ertuğrul Çavuşoğlu, kurucu ortak): Mevcut iş akışlarına minimum değişiklikle uygulanabilen üstün API sürekliliği sunduğunu belirtiyor; metin tabanlı konuşma belleğini ses ve görsel embedding'lerle birlikte gömme yaklaşımını test ediyor ve kişisel wellness uygulamasında top-1 recall'da %20 artış gördü

Gemini Embedding 2 modeli, Gemini API veya Vertex AI üzerinden kullanılabiliyor
Python SDK ile metin, görsel ve sesi tek bir çağrıda embedding'e dönüştüren kod örnekleri sunuluyor
Gemini API ve Vertex AI için etkileşimli Colab notebook'ları sağlanıyor
LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, Vector Search gibi başlıca üçüncü taraf araçlarla entegrasyon destekleniyor