Korece konusunda en başarılı RAG odaklı gömme modeli olan BGE-M3'ün, Huggingface'in sunduğu Python uygulamasının ötesine geçilerek, TensorFlow/Keras kullanımıyla kurumsal ortamlarda büyük ölçekli sunumu mümkün kılacak biçimde yeniden uygulandığını anlatan bir blog yazısı.
- Kurumsal sunum desteği
- Java/Scala tabanlı Hadoop-Spark ortamında büyük ölçekli dağıtık işleme imkanı
- Kotlin/Spring Boot ile yüksek performanslı sunucu geliştirme
- TensorFlow Serving ile büyük ölçekli prodüksiyon ortamı desteği
- TensorFlow Lite ile mobil/gömülü ortam desteği
- Model yapısının sadeleştirilmesi
- Yalnızca Dense Layer ve LayerNorm ile çekirdek yapının uygulanması
- Karmaşık Python bağımlılıklarının kaldırılması
- Hafifletilmiş yapı sayesinde yüksek işlem hacmi
- Uygulama özellikleri
- Word/Position/Token Type gömmelerinin temel Dense Layer ile uygulanması
- 24 Transformer bloğunun saf TensorFlow işlemleriyle oluşturulması
- Multi-Head Self-Attention'ın performans optimizasyonu için özel olarak uygulanması
- Gerçek kullanım örnekleri
- Büyük ölçekli Hadoop ortamında dağıtık gömme işleme
- Spring Boot tabanlı federated learning ve RAG hizmetleri
- Apple Neural Engine kullanan mobil çıkarım
- Kurumsal düzeyde TensorFlow Serving dağıtımı
Yazıda açıklanan uygulama yaklaşımının öne çıkan yanı, Python bağımlılıklarını kaldırıp yalnızca TensorFlow'un yerel yeteneklerini kullanarak büyük ölçekli kurumsal ortamlarda kararlı hizmet sunumunu mümkün kılmasıdır.
4 yorum
https://github.com/sionic-ai/BGE-M3-Model-Converter
Tüm kodu kamuya açtık.
Yazının kendisi o kadar zor değil, ancak açıklamaya eklenen kodlar biraz eksik olduğu için, ilgili yöntemle uygulanmış tam kodun paylaşılması daha iyi olurdu diye düşünüyorum.
https://github.com/sionic-ai/BGE-M3-Model-Converter
Tüm kodu yayımladık.
Teşekkürler
Yavaş yavaş tekrar bakmam gerekecek haha