4 puan yazan GN⁺ 2026-03-22 | 1 yorum | WhatsApp'ta paylaş
  • Meta AI tarafından geliştirilen Omnilingual Machine Translation (OMT), 1.600'den fazla dili destekleyen ilk makine çevirisi sistemi olup mevcut NLLB projesinin 200 dil sınırını aşıyor
  • Açık korpuslar, geri çeviri ve veri madenciliğini birleştirerek düşük kaynaklı ve azınlık dillerini de kapsayan büyük ölçekli çok dilli veri seti oluşturuyor
  • BLASER 3, OmniTOX, BOUQuET, Met-BOUQuET gibi çeşitli kalite ve zararlılık değerlendirme araçlarını entegre ederek güvenilir çeviri performansını ölçüyor
  • LLaMA3 tabanlı decoder-only model ile encoder-decoder yapısındaki OMT-NLLB'yi birlikte kullanarak düşük hesaplama ortamlarında da yüksek kaliteli çeviri sağlıyor
  • 1.600 dil genelinde tutarlı cümle üretimi ve diller arası aktarım iyileşmesi sağlayarak küresel dil kapsayıcılığını genişletmede önemli bir ilerleme olarak değerlendiriliyor

Omnilingual MT'ye genel bakış

  • Omnilingual Machine Translation (OMT), Meta AI tarafından geliştirilen ve 1.600'den fazla dili destekleyen ilk makine çevirisi sistemi
  • Mevcut No Language Left Behind (NLLB) projesinin 200 dile kadar genişleyen başarısını temel alarak çok daha fazla dili kapsıyor
  • Mevcut büyük dil modeli (LLM) tabanlı çeviri sistemleri yüksek kalite sunsa da dil kapsamı sınırlıydı; özellikle düşük kaynaklı ve azınlık dillerinde üretim yeteneğinin yetersizliği önemli bir sorun olarak görülüyordu
  • OMT, bu sınırlamaları aşmak için veri stratejisini, model mimarisini ve değerlendirme çerçevesini kapsamlı biçimde genişletiyor

Veri stratejisi ve dil kapsamının genişletilmesi

  • OMT, açık çok dilli korpusları ve yeni oluşturulan veri setlerini birleştirerek dil kapsamını büyük ölçüde genişletiyor
    • MeDLEY bitext (elle temizlenmiş paralel veri), geri çeviri (synthetic backtranslation) ve veri madenciliği (mining) yöntemlerini bir araya getiriyor
    • Böylece az temsil edilen dilleri (long-tail languages) ve farklı alanlar ile dil kayıtlarını (register) da kapsıyor
  • Bu veri stratejisi, mevcut sistemlerin ele alamadığı yaklaşık 7.000 dilin önemli bir bölümünde ifade üretme olanağı için temel oluşturuyor

Değerlendirme çerçevesi ve kalite ölçümü

  • Güvenilirlik ve ölçeklenebilirlik için standart metrikleri birden fazla değerlendirme aracıyla birleştiriyor
    • BLASER 3: referans cümle olmadan kalite tahmini yapan reference-free değerlendirme modeli

      • OmniTOX: çeviri çıktısındaki zararlılığı (toxicity) tespit eden sınıflandırıcı
      • BOUQuET: farklı dil ailelerini içeren, elle oluşturulmuş büyük ölçekli çok dilli değerlendirme veri seti
      • Met-BOUQuET: büyük ölçekli çok dilli kalite tahmini için genişletilmiş veri seti
      • Bu veri setleri, araştırmacıların serbestçe kullanabilmesi için sürekli güncellenen açık liderlik tablosu ile birlikte sunuluyor

Model mimarisi ve eğitim yaklaşımı

  • OMT, LLM'leri çeviri için iki farklı yaklaşımla özelleştiriyor
    • OMT-LLaMA

      • LLaMA3 tabanlı decoder-only model
      • Çok dilli sürekli ön eğitim (multilingual continual pretraining) ve arama destekli çeviri (retrieval-augmented translation) ile çıkarım sırasında uyarlanabilirliği güçlendiriyor
    • OMT-NLLB

      • encoder-decoder mimarisi ile OmniSONAR adlı çok dilli hizalama uzayı üzerine kurulmuş
      • Paralel olmayan veri (non-parallel data) kullanabilen bir eğitim yöntemi sunuyor
      • decoder-only ön eğitim verisini encoder-decoder eğitimine entegre edebiliyor
      • 1B~8B parametreli modeller, 70B LLM referans modeliyle eşdeğer veya daha iyi çeviri performansı göstererek düşük hesaplama ortamlarında da yüksek kaliteli çeviri olanağını kanıtlıyor

Performans ve dil üretim yeteneği

  • İngilizce → 1.600 dil çeviri değerlendirmesinde, mevcut modeller düşük kaynaklı dilleri anlayabilse de anlamlı cümle üretmede çoğu zaman başarısız oluyordu
  • OMT-LLaMA modeli, bu diller için tutarlı cümle üretimini (coherent generation) büyük ölçüde genişletiyor
  • Diller arası aktarım (cross-lingual transfer) performansı da iyileşerek 1.600 dilde anlama (understanding) tarafındaki sorunları neredeyse çözüyor
  • İnce ayar (finetuning) ve arama artırımlı üretim (RAG) ile belirli dil veya alanlarda ek kalite artışı sağlanabiliyor

Açık kaynaklar ve araştırmanın genişlemesi

  • BOUQuET ve Met-BOUQuET veri setleri ücretsiz olarak açık ve Omnilinguality hedefine doğru sürekli genişletiliyor
  • Araştırma ekibi, düşük kaynaklı dillere erişimi artırmayı ve çok dilli yapay zeka araştırmaları için temel oluşturmayı hedefliyor
  • OMT, büyük ölçekli dil çeşitliliğini kapsayan ilk pratik çeviri sistemi olarak, küresel dil kapsayıcılığı açısından önemli bir ilerleme olarak değerlendiriliyor

1 yorum

 
GN⁺ 2026-03-22
Hacker News görüşleri
  • Meta'nın çeviri kalitesinin diğer hizmetlere kıyasla oldukça düşük olduğunu hissettim
    Özellikle daha az bilinen dillerde bu daha da belirgin
    Google Translate varsayılan olarak fena değil, ancak LLM tabanlı çeviri bağlamı anlama ve kültürel nüansları aktarmada çok daha başarılı
    Kamboçya'da yaşıyorum, bu yüzden Kmerce çeviri kalitesini sık sık karşılaştırıyorum

    • Siem Reap'ten selamlar! Aynı Kamboçyalı teknoloji meraklılarından birine rastlamak güzel
      Benim deneyimime göre Facebook çevirisi, uzun cümlelerde Google'dan daha doğal
      Kmerce bağlama bağımlı ve dolambaçlı bir dil, bu yüzden LLM'ler büyük fayda sağlayabilir gibi görünüyor
      Tersine, İngilizceden Kmerceye çeviride yereller bunun resmî ve robotik bir tona dönüştüğünü söylüyor; ilginç
    • Kagi Translate gerçekten harika
      Çok dillilik, bence LLM'lerin en havalı avantajlarından biri
    • LLM'lerin Kmerce çeviride Google'dan daha iyi olması ilginç
      Google'ın neden içeride Gemini kullanmadığını merak ediyorum; belki de halüsinasyon sorunları yüzündendir
      Çeşitli LLM'ler ve çeviri API'lerini karşılaştıran nicel testler görmek isterim
    • Çince çevirisi de pek iyi değil
    • Yazım hatası düzeltmesi (they're)
  • 1600 dili çevirebildiğini söylüyorlar ama İngilizce özette ilk cümlede bile özne-yüklem uyumu yok
    NLLB (No Language Left Behind) projesiyle 200 dile genişleyen yüksek kaliteli çeviri sağladığını iddia ediyor

  • Benzer bir iş yapan bir şirket kurdum — 6k.ai
    Düşük kaynaklı dil verisi toplama üzerine yoğunlaşıyoruz
    Common Crawl, finepdfs, fineweb gibi veri setlerine bakınca (1) yüksek kaliteli veri neredeyse yok ve (2) işleme yöntemleri fazla kaba
    Örneğin finepdfs, her PDF sayfasını tek bir dil olarak sınıflandırıyor ama gerçekte çok sayıda dil çifti verisi var

    • Ben de benzer şekilde düşük kaynaklı dillere, özellikle Maya dil ailesine odaklanarak araştırma yapıyorum
      wikilangs.org, omneitylabs.com, ilgili blog üzerinden materyaller yayımladım
      En büyük darboğaz metin toplamak değil, dil tanımlama doğruluğu
      Common Crawl veya Fineweb gibi veri setlerinde dil ayrımı belirsizleşiyor
      Fineweb 2'de ana dilimle ilgili iyileştirme çalışmaları yaptım; belki ilham verebilir
      Benzer sorunlar birçok bölgede tekrar ediyor, ileride işbirliği yapmak isterim
    • Common Crawl da bir buçuk yıldır düşük kaynaklı diller projesi yürütüyor; gerçekten zor bir problem
    • Çeşitli devlet kurumları da bu problemi araştırıyor
      Acaba bu tür kamu veri setlerini inceleyip incelemediğinizi ve hangi dillere öncelik verdiğinizi merak ediyorum
  • Model ağırlıklarını indirme bağlantısını bulmak uzun sürdü
    Açık ağırlıksa neden doğrudan erişilebilir bir bağlantı yok diye merak ediyorum

    • Bu model için açık ağırlık olduğuna dair bir ifade yok (önceki NLLB açıktı)
      Bunun yerine liderlik tablosu ve değerlendirme veri seti açık
      Makalede yalnızca “çeviri modelimiz serbestçe kullanılabilen modeller üzerine inşa edilmiştir” deniyor
  • 2026 olmuş ama hâlâ neden sesli mesajları otomatik yazıya dökme özelliği yok, anlamıyorum

  • 1600 dili çevirebildiğini söylüyor ama temel paragraf ayrımı bile yok

    • Makale özeti zaten kural olarak tek paragraf halinde yazılır
  • 1600 dil çok, ama buna “Omni” demek için hâlâ erken
    Dil sayısının genelde 4 bin ile 8 bin arasında olduğu tahmin ediliyor ve ilk 1000 dili kapsamak en zor kısım

    • Pazarlamada “frontier”, “edge” gibi kelimeler kullanmanız lazım ki profesyonel bir hava versin
  • Eski araştırmalarda (Lauscher 2020), dil sayısı arttıkça çeviri kalitesinin düştüğü çok dilliliğin laneti olduğu söyleniyordu
    Ama Meta bunu aşmış gibi görünüyor
    Özete göre eğitim verisi kalitesini iyileştirmiş ve yeni değerlendirme araçları eklemiş
    Ayrıca OMT-LLaMA'nın mevcut modellerden metin üretim kalitesi açısından daha iyi olduğunu iddia ediyor

  • İlginç bir nokta olarak, Meta'nın tanıttığı BOUQuET benchmark'ı var
    Çeviri kalitesini diller üstü biçimde değerlendirmeye yönelik açık bir girişim
    huggingface.co/spaces/facebook/bouquet

  • Yapay zeka patlamasından sonra MS belge çevirileri berbat hale geldi
    Örneğin try/catch'i Almancaya “versuchen/fangen” diye çeviriyor

    • Böyle çeviriler aslında negatif değer üretiyor
      Özellikle kurumsal ortamlarda locale ayarını değiştirmek zor olduğu için daha da can sıkıcı
      “shortly”yi “short” diye çevirmek gibi temel hatalar da çok var