LEAF: 23M parametreyle OpenAI embedding performansının %97’sine ulaşıyor, yalnızca CPU ile çalışıyor
(aisparkup.com)LEAF (Lightweight Embedding Alignment Framework), MongoDB Research tarafından geliştirilen bir embedding modeli ve bilgi damıtma tekniğini kullanarak RAG (Retrieval-Augmented Generation) sistemlerindeki maliyet ve hız sorunlarını çözen yenilikçi bir çözüm. Mevcut yüksek performanslı embedding modelleri için GPU sunucuları zorunluyken, LEAF 23M parametreli küçük bir modelle OpenAI’nin text-embedding-3-large performansının %97’sine ulaşırken yalnızca CPU ile çalışabiliyor.
Arka plan ve sorunlar
- RAG sistemlerinde belge indeksleme yavaş olabilir, ancak kullanıcı sorgularına yüzlerce milisaniye içinde yanıt verilmesi gerekir.
- Yüksek performanslı model kullanıldığında GPU maliyeti yük oluşturuyor; düşük maliyetli modele geçildiğinde ise performans düşüyordu.
- LEAF bu sorunu "öğretmen-öğrenci model uyumluluğu" ile çözüyor.
- Mevcut damıtma yöntemleri gibi tüm katmanları hizalamak yerine yalnızca son çıktıyı (embedding) eşliyor. Böylece büyük öğretmen modelle belgeler indekslenebiliyor, küçük öğrenci modelle sorgular CPU üzerinde hızlıca işlenebiliyor ve model değiştiğinde mevcut indeks yeniden kullanılabiliyor.
- Eğitim verisini etiketlemeye gerek kalmadan tek bir A100 GPU ile eğitilebildiği için erişilebilirliği yüksek.
Yayınlanan modeller ve performans
MongoDB, iki modeli Apache 2.0 lisansıyla yayınladı:
- mdbr-leaf-ir: Arama/RAG için optimize edilmiş model. BEIR benchmark’ında 53.55 puan (OpenAI small’ın 51.08 puanını geçiyor, large’ın 55.43 puanının %97’si).
- mdbr-leaf-mt: Genel amaçlı model (sınıflandırma/kümeleme). MTEB v2’de 63.97 puan (OpenAI small’ın 64.56 puanına yakın), 30M parametrenin altındaki en yüksek performans.
Bu modeller, 2 çekirdekli CPU üzerinde saniyede 120 sorgu işleyebiliyor ve yalnızca 87MB bellek kullanıyor; bu sayede akıllı telefonlarda veya IoT cihazlarında çevrimdışı çalışabiliyor.
Sonuç ve etkileri
- LEAF, GPU bağımlılığını azaltarak yüksek performanslı embedding’i demokratikleştiriyor ve startup’lar ya da edge computing ortamlarında RAG kullanımını hızlandırıyor.
- Sınırlaması, orijinal modele kıyasla %3 performans kaybı olması; ancak bu, çoğu gerçek kullanım senaryosunda göz ardı edilebilir düzeyde.
- Modeller ve eğitim reçetesi Hugging Face üzerinden indirilebiliyor; alan verileriyle fine-tuning yapmak da kolay.
1 yorum
Zaten bge-m3 ve gemma'nın 300m modeli de iyi iş çıkarıyor ve küçük sayılmazlar, değil mi?