LEAF: 23M parametreyle OpenAI embedding performansının %97’sine ulaşıyor, yalnızca CPU ile çalışıyor

(aisparkup.com)

19 puan yazan davespark 2025-11-27 | 1 yorum | WhatsApp'ta paylaş

LEAF (Lightweight Embedding Alignment Framework), MongoDB Research tarafından geliştirilen bir embedding modeli ve bilgi damıtma tekniğini kullanarak RAG (Retrieval-Augmented Generation) sistemlerindeki maliyet ve hız sorunlarını çözen yenilikçi bir çözüm. Mevcut yüksek performanslı embedding modelleri için GPU sunucuları zorunluyken, LEAF 23M parametreli küçük bir modelle OpenAI’nin text-embedding-3-large performansının %97’sine ulaşırken yalnızca CPU ile çalışabiliyor.

Arka plan ve sorunlar

RAG sistemlerinde belge indeksleme yavaş olabilir, ancak kullanıcı sorgularına yüzlerce milisaniye içinde yanıt verilmesi gerekir.
Yüksek performanslı model kullanıldığında GPU maliyeti yük oluşturuyor; düşük maliyetli modele geçildiğinde ise performans düşüyordu.
LEAF bu sorunu "öğretmen-öğrenci model uyumluluğu" ile çözüyor.
Mevcut damıtma yöntemleri gibi tüm katmanları hizalamak yerine yalnızca son çıktıyı (embedding) eşliyor. Böylece büyük öğretmen modelle belgeler indekslenebiliyor, küçük öğrenci modelle sorgular CPU üzerinde hızlıca işlenebiliyor ve model değiştiğinde mevcut indeks yeniden kullanılabiliyor.
Eğitim verisini etiketlemeye gerek kalmadan tek bir A100 GPU ile eğitilebildiği için erişilebilirliği yüksek.

Yayınlanan modeller ve performans

MongoDB, iki modeli Apache 2.0 lisansıyla yayınladı:

mdbr-leaf-ir: Arama/RAG için optimize edilmiş model. BEIR benchmark’ında 53.55 puan (OpenAI small’ın 51.08 puanını geçiyor, large’ın 55.43 puanının %97’si).
mdbr-leaf-mt: Genel amaçlı model (sınıflandırma/kümeleme). MTEB v2’de 63.97 puan (OpenAI small’ın 64.56 puanına yakın), 30M parametrenin altındaki en yüksek performans.

Bu modeller, 2 çekirdekli CPU üzerinde saniyede 120 sorgu işleyebiliyor ve yalnızca 87MB bellek kullanıyor; bu sayede akıllı telefonlarda veya IoT cihazlarında çevrimdışı çalışabiliyor.

Sonuç ve etkileri

LEAF, GPU bağımlılığını azaltarak yüksek performanslı embedding’i demokratikleştiriyor ve startup’lar ya da edge computing ortamlarında RAG kullanımını hızlandırıyor.
Sınırlaması, orijinal modele kıyasla %3 performans kaybı olması; ancak bu, çoğu gerçek kullanım senaryosunda göz ardı edilebilir düzeyde.
Modeller ve eğitim reçetesi Hugging Face üzerinden indirilebiliyor; alan verileriyle fine-tuning yapmak da kolay.

1 yorum

kaydash 2025-11-28

Zaten bge-m3 ve gemma'nın 300m modeli de iyi iş çıkarıyor ve küçük sayılmazlar, değil mi?