Meta'nın 1.600 dil için Omnilingual MT'si

(ai.meta.com)

4 puan yazan GN⁺ 2026-03-22 | 1 yorum | WhatsApp'ta paylaş

Meta AI tarafından geliştirilen Omnilingual Machine Translation (OMT), 1.600'den fazla dili destekleyen ilk makine çevirisi sistemi olup mevcut NLLB projesinin 200 dil sınırını aşıyor
Açık korpuslar, geri çeviri ve veri madenciliğini birleştirerek düşük kaynaklı ve azınlık dillerini de kapsayan büyük ölçekli çok dilli veri seti oluşturuyor
BLASER 3, OmniTOX, BOUQuET, Met-BOUQuET gibi çeşitli kalite ve zararlılık değerlendirme araçlarını entegre ederek güvenilir çeviri performansını ölçüyor
LLaMA3 tabanlı decoder-only model ile encoder-decoder yapısındaki OMT-NLLB'yi birlikte kullanarak düşük hesaplama ortamlarında da yüksek kaliteli çeviri sağlıyor
1.600 dil genelinde tutarlı cümle üretimi ve diller arası aktarım iyileşmesi sağlayarak küresel dil kapsayıcılığını genişletmede önemli bir ilerleme olarak değerlendiriliyor

Omnilingual MT'ye genel bakış

Omnilingual Machine Translation (OMT), Meta AI tarafından geliştirilen ve 1.600'den fazla dili destekleyen ilk makine çevirisi sistemi
Mevcut No Language Left Behind (NLLB) projesinin 200 dile kadar genişleyen başarısını temel alarak çok daha fazla dili kapsıyor
Mevcut büyük dil modeli (LLM) tabanlı çeviri sistemleri yüksek kalite sunsa da dil kapsamı sınırlıydı; özellikle düşük kaynaklı ve azınlık dillerinde üretim yeteneğinin yetersizliği önemli bir sorun olarak görülüyordu
OMT, bu sınırlamaları aşmak için veri stratejisini, model mimarisini ve değerlendirme çerçevesini kapsamlı biçimde genişletiyor

Veri stratejisi ve dil kapsamının genişletilmesi

OMT, açık çok dilli korpusları ve yeni oluşturulan veri setlerini birleştirerek dil kapsamını büyük ölçüde genişletiyor
- MeDLEY bitext (elle temizlenmiş paralel veri), geri çeviri (synthetic backtranslation) ve veri madenciliği (mining) yöntemlerini bir araya getiriyor
- Böylece az temsil edilen dilleri (long-tail languages) ve farklı alanlar ile dil kayıtlarını (register) da kapsıyor
Bu veri stratejisi, mevcut sistemlerin ele alamadığı yaklaşık 7.000 dilin önemli bir bölümünde ifade üretme olanağı için temel oluşturuyor

Değerlendirme çerçevesi ve kalite ölçümü

Güvenilirlik ve ölçeklenebilirlik için standart metrikleri birden fazla değerlendirme aracıyla birleştiriyor
- BLASER 3: referans cümle olmadan kalite tahmini yapan reference-free değerlendirme modeli
  - OmniTOX: çeviri çıktısındaki zararlılığı (toxicity) tespit eden sınıflandırıcı
  - BOUQuET: farklı dil ailelerini içeren, elle oluşturulmuş büyük ölçekli çok dilli değerlendirme veri seti
  - Met-BOUQuET: büyük ölçekli çok dilli kalite tahmini için genişletilmiş veri seti
  - Bu veri setleri, araştırmacıların serbestçe kullanabilmesi için sürekli güncellenen açık liderlik tablosu ile birlikte sunuluyor

Model mimarisi ve eğitim yaklaşımı

OMT, LLM'leri çeviri için iki farklı yaklaşımla özelleştiriyor
- OMT-LLaMA
  - LLaMA3 tabanlı decoder-only model
  - Çok dilli sürekli ön eğitim (multilingual continual pretraining) ve arama destekli çeviri (retrieval-augmented translation) ile çıkarım sırasında uyarlanabilirliği güçlendiriyor
- OMT-NLLB
  - encoder-decoder mimarisi ile OmniSONAR adlı çok dilli hizalama uzayı üzerine kurulmuş
  - Paralel olmayan veri (non-parallel data) kullanabilen bir eğitim yöntemi sunuyor
  - decoder-only ön eğitim verisini encoder-decoder eğitimine entegre edebiliyor
  - 1B~8B parametreli modeller, 70B LLM referans modeliyle eşdeğer veya daha iyi çeviri performansı göstererek düşük hesaplama ortamlarında da yüksek kaliteli çeviri olanağını kanıtlıyor

Performans ve dil üretim yeteneği

İngilizce → 1.600 dil çeviri değerlendirmesinde, mevcut modeller düşük kaynaklı dilleri anlayabilse de anlamlı cümle üretmede çoğu zaman başarısız oluyordu
OMT-LLaMA modeli, bu diller için tutarlı cümle üretimini (coherent generation) büyük ölçüde genişletiyor
Diller arası aktarım (cross-lingual transfer) performansı da iyileşerek 1.600 dilde anlama (understanding) tarafındaki sorunları neredeyse çözüyor
İnce ayar (finetuning) ve arama artırımlı üretim (RAG) ile belirli dil veya alanlarda ek kalite artışı sağlanabiliyor

Açık kaynaklar ve araştırmanın genişlemesi

BOUQuET ve Met-BOUQuET veri setleri ücretsiz olarak açık ve Omnilinguality hedefine doğru sürekli genişletiliyor
Araştırma ekibi, düşük kaynaklı dillere erişimi artırmayı ve çok dilli yapay zeka araştırmaları için temel oluşturmayı hedefliyor
OMT, büyük ölçekli dil çeşitliliğini kapsayan ilk pratik çeviri sistemi olarak, küresel dil kapsayıcılığı açısından önemli bir ilerleme olarak değerlendiriliyor

1 yorum

GN⁺ 2026-03-22

Hacker News görüşleri

Meta'nın çeviri kalitesinin diğer hizmetlere kıyasla oldukça düşük olduğunu hissettim
Özellikle daha az bilinen dillerde bu daha da belirgin
Google Translate varsayılan olarak fena değil, ancak LLM tabanlı çeviri bağlamı anlama ve kültürel nüansları aktarmada çok daha başarılı
Kamboçya'da yaşıyorum, bu yüzden Kmerce çeviri kalitesini sık sık karşılaştırıyorum
- Siem Reap'ten selamlar! Aynı Kamboçyalı teknoloji meraklılarından birine rastlamak güzel
  Benim deneyimime göre Facebook çevirisi, uzun cümlelerde Google'dan daha doğal
  Kmerce bağlama bağımlı ve dolambaçlı bir dil, bu yüzden LLM'ler büyük fayda sağlayabilir gibi görünüyor
  Tersine, İngilizceden Kmerceye çeviride yereller bunun resmî ve robotik bir tona dönüştüğünü söylüyor; ilginç
- Kagi Translate gerçekten harika
  Çok dillilik, bence LLM'lerin en havalı avantajlarından biri
- LLM'lerin Kmerce çeviride Google'dan daha iyi olması ilginç
  Google'ın neden içeride Gemini kullanmadığını merak ediyorum; belki de halüsinasyon sorunları yüzündendir
  Çeşitli LLM'ler ve çeviri API'lerini karşılaştıran nicel testler görmek isterim
- Çince çevirisi de pek iyi değil
- Yazım hatası düzeltmesi (they're)
1600 dili çevirebildiğini söylüyorlar ama İngilizce özette ilk cümlede bile özne-yüklem uyumu yok
NLLB (No Language Left Behind) projesiyle 200 dile genişleyen yüksek kaliteli çeviri sağladığını iddia ediyor
Benzer bir iş yapan bir şirket kurdum — 6k.ai
Düşük kaynaklı dil verisi toplama üzerine yoğunlaşıyoruz
Common Crawl, finepdfs, fineweb gibi veri setlerine bakınca (1) yüksek kaliteli veri neredeyse yok ve (2) işleme yöntemleri fazla kaba
Örneğin finepdfs, her PDF sayfasını tek bir dil olarak sınıflandırıyor ama gerçekte çok sayıda dil çifti verisi var
- Ben de benzer şekilde düşük kaynaklı dillere, özellikle Maya dil ailesine odaklanarak araştırma yapıyorum
  wikilangs.org, omneitylabs.com, ilgili blog üzerinden materyaller yayımladım
  En büyük darboğaz metin toplamak değil, dil tanımlama doğruluğu
  Common Crawl veya Fineweb gibi veri setlerinde dil ayrımı belirsizleşiyor
  Fineweb 2'de ana dilimle ilgili iyileştirme çalışmaları yaptım; belki ilham verebilir
  Benzer sorunlar birçok bölgede tekrar ediyor, ileride işbirliği yapmak isterim
- Common Crawl da bir buçuk yıldır düşük kaynaklı diller projesi yürütüyor; gerçekten zor bir problem
- Çeşitli devlet kurumları da bu problemi araştırıyor
  Acaba bu tür kamu veri setlerini inceleyip incelemediğinizi ve hangi dillere öncelik verdiğinizi merak ediyorum
Model ağırlıklarını indirme bağlantısını bulmak uzun sürdü
Açık ağırlıksa neden doğrudan erişilebilir bir bağlantı yok diye merak ediyorum
- Bu model için açık ağırlık olduğuna dair bir ifade yok (önceki NLLB açıktı)
  Bunun yerine liderlik tablosu ve değerlendirme veri seti açık
  Makalede yalnızca “çeviri modelimiz serbestçe kullanılabilen modeller üzerine inşa edilmiştir” deniyor
2026 olmuş ama hâlâ neden sesli mesajları otomatik yazıya dökme özelliği yok, anlamıyorum
1600 dili çevirebildiğini söylüyor ama temel paragraf ayrımı bile yok
- Makale özeti zaten kural olarak tek paragraf halinde yazılır
1600 dil çok, ama buna “Omni” demek için hâlâ erken
Dil sayısının genelde 4 bin ile 8 bin arasında olduğu tahmin ediliyor ve ilk 1000 dili kapsamak en zor kısım
- Pazarlamada “frontier”, “edge” gibi kelimeler kullanmanız lazım ki profesyonel bir hava versin
Eski araştırmalarda (Lauscher 2020), dil sayısı arttıkça çeviri kalitesinin düştüğü çok dilliliğin laneti olduğu söyleniyordu
Ama Meta bunu aşmış gibi görünüyor
Özete göre eğitim verisi kalitesini iyileştirmiş ve yeni değerlendirme araçları eklemiş
Ayrıca OMT-LLaMA'nın mevcut modellerden metin üretim kalitesi açısından daha iyi olduğunu iddia ediyor
İlginç bir nokta olarak, Meta'nın tanıttığı BOUQuET benchmark'ı var
Çeviri kalitesini diller üstü biçimde değerlendirmeye yönelik açık bir girişim
huggingface.co/spaces/facebook/bouquet
Yapay zeka patlamasından sonra MS belge çevirileri berbat hale geldi
Örneğin try/catch'i Almancaya “versuchen/fangen” diye çeviriyor
- Böyle çeviriler aslında negatif değer üretiyor
  Özellikle kurumsal ortamlarda locale ayarını değiştirmek zor olduğu için daha da can sıkıcı
  “shortly”yi “short” diye çevirmek gibi temel hatalar da çok var

Meta'nın 1.600 dil için Omnilingual MT'si

Omnilingual MT'ye genel bakış

Veri stratejisi ve dil kapsamının genişletilmesi

Değerlendirme çerçevesi ve kalite ölçümü

BLASER 3: referans cümle olmadan kalite tahmini yapan reference-free değerlendirme modeli

Model mimarisi ve eğitim yaklaşımı

OMT-LLaMA

OMT-NLLB

Performans ve dil üretim yeteneği

Açık kaynaklar ve araştırmanın genişlemesi

İlgili okumalar

1 yorum

Hacker News görüşleri