Jina AI, dünyanın ilk açık kaynaklı 8K metin gömme modelini tanıttı

(jina.ai)

10 puan yazan GN⁺ 2023-10-27 | 1 yorum | WhatsApp'ta paylaş

8192 token uzunluğunu destekleyen metin gömme modeli jina-embeddings-v2
OpenAI'nin text-embedding-ada-002 modeliyle rekabet ediyor ve benchmark testlerinde sınıflandırma/yeniden sıralama/arama/özetleme gibi alanlarda daha iyi performans gösteriyor
Baştan sona yeniden inşa edildi ve 8k bağlamla çeşitli alanlarda kullanılabiliyor: hukuk belgeleri analizi, tıbbi araştırma, edebiyat analizi, finansal tahmin, konuşmalı yapay zeka vb.
HuggingFace üzerinden iki model indirilebiliyor
- Base Model (0.27G): akademik araştırma veya iş analizi gibi yüksek doğruluk gerektiren yoğun işler için uygun olacak şekilde tasarlandı
- Small Model (0.07G): mobil uygulamalar veya cihazlar gibi bilgi işlem kaynaklarının kısıtlı olduğu ortamlardaki hafif uygulamalar için geliştirildi

1 yorum

GN⁺ 2023-10-27

Hacker News görüşleri

Jina AI, açık kaynaklı 8k metin embedding modelini yayımladı.
Bazı kullanıcılar modelin performansını sorguluyor ve liderlik tablosunda OpenAI embedding’leri ile diğer 14 katkının gerisinde kaldığını belirtiyor.
8k bağlam penceresi yeni bir özellik olsa da, özellikle 512 token sınırı dikkate alındığında bazı kullanıcılar bunun faydasını sorguluyor.
Kıyaslamaların çoğu küçük belgeleri ele alırken, modelin daha büyük belgelerdeki performansı konusunda şüpheler var.
Bazı kullanıcılar, açık kaynak topluluğunun "Open"AI ile arasındaki farkı kapatıyor olmasından heyecan duyduklarını ifade ediyor.
Yeni modelin embedding vektörleri, text-embedding-ada-002 modelinin yarısı büyüklüğünde (768’e karşı 1536); bu da veritabanı alanından tasarruf sağlayıp sorgulamaları hızlandırabilir.
8k token embedding için kullanım senaryoları sorgulanıyor; bazı kullanıcılar bunun RAG için çok faydalı olmayabileceğini öne sürüyor.
Bir kullanıcı, onnx ile kullanmak için modeli kuantize ederek transformers.js içinde dosya boyutunu 4 kat azalttı.
Model, OpenAI’ın modeliyle karşılaştırılıyor; çok dilli desteğe sahip olduğu ve farklı dillerde aynı anlam için aynı koordinatları hesapladığı belirtiliyor.
Yeni llm-embed-jina eklentisi LLM aracına dağıtıldı; bu sayede yeni Jina modeline erişilebiliyor.
Bazı kullanıcılar bu çalışmadan etkilense de, 8k embedding’in en iyi nasıl kullanılacağını sorguluyor ve bunun yaklaşık benzerlik eşleştirmesi ya da intihal tespiti için faydalı olabileceğini öne sürüyor.
Çip ihracat kısıtlamaları ve ABD/Çin arasındaki gerilim nedeniyle, Berlin ve Çin’de ofisleri bulunan Jina AI’ın operasyonları hakkında endişeler dile getiriliyor.

Jina AI, dünyanın ilk açık kaynaklı 8K metin gömme modelini tanıttı

İlgili okumalar

1 yorum

Hacker News görüşleri