- Meta AI tarafından geliştirilen Omnilingual Machine Translation (OMT), 1.600'den fazla dili destekleyen ilk makine çevirisi sistemi olup mevcut NLLB projesinin 200 dil sınırını aşıyor
- Açık korpuslar, geri çeviri ve veri madenciliğini birleştirerek düşük kaynaklı ve azınlık dillerini de kapsayan büyük ölçekli çok dilli veri seti oluşturuyor
- BLASER 3, OmniTOX, BOUQuET, Met-BOUQuET gibi çeşitli kalite ve zararlılık değerlendirme araçlarını entegre ederek güvenilir çeviri performansını ölçüyor
- LLaMA3 tabanlı decoder-only model ile encoder-decoder yapısındaki OMT-NLLB'yi birlikte kullanarak düşük hesaplama ortamlarında da yüksek kaliteli çeviri sağlıyor
- 1.600 dil genelinde tutarlı cümle üretimi ve diller arası aktarım iyileşmesi sağlayarak küresel dil kapsayıcılığını genişletmede önemli bir ilerleme olarak değerlendiriliyor
Omnilingual MT'ye genel bakış
- Omnilingual Machine Translation (OMT), Meta AI tarafından geliştirilen ve 1.600'den fazla dili destekleyen ilk makine çevirisi sistemi
- Mevcut No Language Left Behind (NLLB) projesinin 200 dile kadar genişleyen başarısını temel alarak çok daha fazla dili kapsıyor
- Mevcut büyük dil modeli (LLM) tabanlı çeviri sistemleri yüksek kalite sunsa da dil kapsamı sınırlıydı; özellikle düşük kaynaklı ve azınlık dillerinde üretim yeteneğinin yetersizliği önemli bir sorun olarak görülüyordu
- OMT, bu sınırlamaları aşmak için veri stratejisini, model mimarisini ve değerlendirme çerçevesini kapsamlı biçimde genişletiyor
Veri stratejisi ve dil kapsamının genişletilmesi
- OMT, açık çok dilli korpusları ve yeni oluşturulan veri setlerini birleştirerek dil kapsamını büyük ölçüde genişletiyor
- MeDLEY bitext (elle temizlenmiş paralel veri), geri çeviri (synthetic backtranslation) ve veri madenciliği (mining) yöntemlerini bir araya getiriyor
- Böylece az temsil edilen dilleri (long-tail languages) ve farklı alanlar ile dil kayıtlarını (register) da kapsıyor
- Bu veri stratejisi, mevcut sistemlerin ele alamadığı yaklaşık 7.000 dilin önemli bir bölümünde ifade üretme olanağı için temel oluşturuyor
Değerlendirme çerçevesi ve kalite ölçümü
- Güvenilirlik ve ölçeklenebilirlik için standart metrikleri birden fazla değerlendirme aracıyla birleştiriyor
-
BLASER 3: referans cümle olmadan kalite tahmini yapan reference-free değerlendirme modeli
- OmniTOX: çeviri çıktısındaki zararlılığı (toxicity) tespit eden sınıflandırıcı
- BOUQuET: farklı dil ailelerini içeren, elle oluşturulmuş büyük ölçekli çok dilli değerlendirme veri seti
- Met-BOUQuET: büyük ölçekli çok dilli kalite tahmini için genişletilmiş veri seti
- Bu veri setleri, araştırmacıların serbestçe kullanabilmesi için sürekli güncellenen açık liderlik tablosu ile birlikte sunuluyor
Model mimarisi ve eğitim yaklaşımı
- OMT, LLM'leri çeviri için iki farklı yaklaşımla özelleştiriyor
-
OMT-LLaMA
- LLaMA3 tabanlı decoder-only model
- Çok dilli sürekli ön eğitim (multilingual continual pretraining) ve arama destekli çeviri (retrieval-augmented translation) ile çıkarım sırasında uyarlanabilirliği güçlendiriyor
-
OMT-NLLB
- encoder-decoder mimarisi ile OmniSONAR adlı çok dilli hizalama uzayı üzerine kurulmuş
- Paralel olmayan veri (non-parallel data) kullanabilen bir eğitim yöntemi sunuyor
- decoder-only ön eğitim verisini encoder-decoder eğitimine entegre edebiliyor
- 1B~8B parametreli modeller, 70B LLM referans modeliyle eşdeğer veya daha iyi çeviri performansı göstererek düşük hesaplama ortamlarında da yüksek kaliteli çeviri olanağını kanıtlıyor
Performans ve dil üretim yeteneği
- İngilizce → 1.600 dil çeviri değerlendirmesinde, mevcut modeller düşük kaynaklı dilleri anlayabilse de anlamlı cümle üretmede çoğu zaman başarısız oluyordu
- OMT-LLaMA modeli, bu diller için tutarlı cümle üretimini (coherent generation) büyük ölçüde genişletiyor
- Diller arası aktarım (cross-lingual transfer) performansı da iyileşerek 1.600 dilde anlama (understanding) tarafındaki sorunları neredeyse çözüyor
- İnce ayar (finetuning) ve arama artırımlı üretim (RAG) ile belirli dil veya alanlarda ek kalite artışı sağlanabiliyor
Açık kaynaklar ve araştırmanın genişlemesi
- BOUQuET ve Met-BOUQuET veri setleri ücretsiz olarak açık ve Omnilinguality hedefine doğru sürekli genişletiliyor
- Araştırma ekibi, düşük kaynaklı dillere erişimi artırmayı ve çok dilli yapay zeka araştırmaları için temel oluşturmayı hedefliyor
- OMT, büyük ölçekli dil çeşitliliğini kapsayan ilk pratik çeviri sistemi olarak, küresel dil kapsayıcılığı açısından önemli bir ilerleme olarak değerlendiriliyor
1 yorum
Hacker News görüşleri
Meta'nın çeviri kalitesinin diğer hizmetlere kıyasla oldukça düşük olduğunu hissettim
Özellikle daha az bilinen dillerde bu daha da belirgin
Google Translate varsayılan olarak fena değil, ancak LLM tabanlı çeviri bağlamı anlama ve kültürel nüansları aktarmada çok daha başarılı
Kamboçya'da yaşıyorum, bu yüzden Kmerce çeviri kalitesini sık sık karşılaştırıyorum
Benim deneyimime göre Facebook çevirisi, uzun cümlelerde Google'dan daha doğal
Kmerce bağlama bağımlı ve dolambaçlı bir dil, bu yüzden LLM'ler büyük fayda sağlayabilir gibi görünüyor
Tersine, İngilizceden Kmerceye çeviride yereller bunun resmî ve robotik bir tona dönüştüğünü söylüyor; ilginç
Çok dillilik, bence LLM'lerin en havalı avantajlarından biri
Google'ın neden içeride Gemini kullanmadığını merak ediyorum; belki de halüsinasyon sorunları yüzündendir
Çeşitli LLM'ler ve çeviri API'lerini karşılaştıran nicel testler görmek isterim
1600 dili çevirebildiğini söylüyorlar ama İngilizce özette ilk cümlede bile özne-yüklem uyumu yok
NLLB (No Language Left Behind) projesiyle 200 dile genişleyen yüksek kaliteli çeviri sağladığını iddia ediyor
Benzer bir iş yapan bir şirket kurdum — 6k.ai
Düşük kaynaklı dil verisi toplama üzerine yoğunlaşıyoruz
Common Crawl, finepdfs, fineweb gibi veri setlerine bakınca (1) yüksek kaliteli veri neredeyse yok ve (2) işleme yöntemleri fazla kaba
Örneğin finepdfs, her PDF sayfasını tek bir dil olarak sınıflandırıyor ama gerçekte çok sayıda dil çifti verisi var
wikilangs.org, omneitylabs.com, ilgili blog üzerinden materyaller yayımladım
En büyük darboğaz metin toplamak değil, dil tanımlama doğruluğu
Common Crawl veya Fineweb gibi veri setlerinde dil ayrımı belirsizleşiyor
Fineweb 2'de ana dilimle ilgili iyileştirme çalışmaları yaptım; belki ilham verebilir
Benzer sorunlar birçok bölgede tekrar ediyor, ileride işbirliği yapmak isterim
Acaba bu tür kamu veri setlerini inceleyip incelemediğinizi ve hangi dillere öncelik verdiğinizi merak ediyorum
Model ağırlıklarını indirme bağlantısını bulmak uzun sürdü
Açık ağırlıksa neden doğrudan erişilebilir bir bağlantı yok diye merak ediyorum
Bunun yerine liderlik tablosu ve değerlendirme veri seti açık
Makalede yalnızca “çeviri modelimiz serbestçe kullanılabilen modeller üzerine inşa edilmiştir” deniyor
2026 olmuş ama hâlâ neden sesli mesajları otomatik yazıya dökme özelliği yok, anlamıyorum
1600 dili çevirebildiğini söylüyor ama temel paragraf ayrımı bile yok
1600 dil çok, ama buna “Omni” demek için hâlâ erken
Dil sayısının genelde 4 bin ile 8 bin arasında olduğu tahmin ediliyor ve ilk 1000 dili kapsamak en zor kısım
Eski araştırmalarda (Lauscher 2020), dil sayısı arttıkça çeviri kalitesinin düştüğü çok dilliliğin laneti olduğu söyleniyordu
Ama Meta bunu aşmış gibi görünüyor
Özete göre eğitim verisi kalitesini iyileştirmiş ve yeni değerlendirme araçları eklemiş
Ayrıca OMT-LLaMA'nın mevcut modellerden metin üretim kalitesi açısından daha iyi olduğunu iddia ediyor
İlginç bir nokta olarak, Meta'nın tanıttığı BOUQuET benchmark'ı var
Çeviri kalitesini diller üstü biçimde değerlendirmeye yönelik açık bir girişim
huggingface.co/spaces/facebook/bouquet
Yapay zeka patlamasından sonra MS belge çevirileri berbat hale geldi
Örneğin try/catch'i Almancaya “versuchen/fangen” diye çeviriyor
Özellikle kurumsal ortamlarda locale ayarını değiştirmek zor olduğu için daha da can sıkıcı
“shortly”yi “short” diye çevirmek gibi temel hatalar da çok var