4 puan yazan GN⁺ 2023-12-02 | 1 yorum | WhatsApp'ta paylaş
  • Diller arasındaki engelleri kaldırmayı ve birden çok dil arasında daha doğal iletişimi mümkün kılmayı amaçlayan yapay zeka araştırma model ailesi
    • SeamlessExpressive: Diller arasında ifade ve dilin nüanslarını korur
    • SeamlessStreaming: Yaklaşık 2 saniyelik gecikmeyle ses ve metin çevirisi sunar
    • SeamlessM4T v2: Ses ve metin üzerinden iletişimi destekleyen çok dilli ve çok görevli bir temel modeldir
    • Seamless: SeamlessExpressive, SeamlessStreaming ve SeamlessM4T v2'nin yeteneklerini tek bir yapıda birleştirir

İfade nüanslarının korunması

  • SeamlessExpressive, insan ifadesindeki nüansları yakalayan çeviriyi hedefliyor
  • Mevcut çeviri araçları konuşma içeriğini yakalamakta başarılı olsa da, genellikle tekdüze ve robotik bir ses üretir
  • SeamlessExpressive, ses stili ve duygusal tonun yanı sıra konuşma hızı ve duraklamalar gibi dilin inceliklerini de korumayı amaçlar

Neredeyse gerçek zamanlı çeviri

  • SeamlessStreaming, yaklaşık 2 saniyelik gecikmeyle çeviri sunan ilk büyük ölçekli çok dilli modeldir
  • SeamlessM4T v2'yi temel alır ve otomatik konuşma tanımanın yanı sıra yaklaşık 100 giriş ve çıkış dili için konuşmadan metne çeviriyi destekler
  • Ayrıca yaklaşık 100 giriş dili ve 36 çıkış dili için konuşmadan konuşmaya çeviriyi de destekler

Genel amaçlı çeviri için temel model

  • Ağustos 2023'te Meta, ses ve metin genelinde çeviri ve transkripsiyonda son teknoloji sonuçlar sunan SeamlessM4T'nin ilk sürümünü tanıttı
  • Bunun üzerine geliştirilen iyileştirilmiş model SeamlessM4T v2, yeni SeamlessExpressive ve SeamlessStreaming modellerinin temeli oldu
  • Yeni mimari ve non-autoregressive text-to-unit decoder ile metin ve ses çıktıları arasındaki tutarlılığı artırır

Araştırma yaklaşımı

  • İş birliği ve açık araştırmanın gücüne inanan Meta, araştırmacıların bu çalışmayı temel alarak ilerleyebilmesi için Seamless Communication model ailesinin tamamını yayımladı
  • Güvenli ve sorumlu bir yapay zeka ekosistemini teşvik etmek için çeviride halüsinasyon kaynaklı toksisite etkisini önemli ölçüde azalttı ve ifade odaklı modelin ses çıktısı için özelleştirilmiş bir watermarking yaklaşımı uyguladı

GN⁺ görüşü

Bu haberde en önemli nokta, Meta'nın dil engellerini yıkmak için geliştirdiği Seamless Communication yapay zeka modellerini tanıtması. Bu modeller, ifadenin nüanslarını korurken neredeyse gerçek zamanlı çeviri sunuyor ve çok sayıda dili destekleyen güçlü yeteneklere sahip. Bu tür teknolojik ilerlemeler, dünya çapında insanların daha doğal ve daha sahici biçimde iletişim kurmasının önünü açtığı için birçok kişi açısından ilgi çekici ve dikkat çekici bir gelişme niteliğinde.

1 yorum

 
GN⁺ 2023-12-02
Hacker News görüşleri
  • Geleceğin umut verici teknolojilerine dair heyecan

    Yurt dışındayken kulaklık takıp etraftaki konuşmaları kendi dilinde duyabileceği günü bekliyor. Çocukken bilim kurguda gördüğü "evrensel çevirmen" fikrine hayran kalmıştı; babasının Fransızca-İngilizce simultane tercüman olarak yoğun çalıştığını görünce kendisi de doğrudan bir çevirmen yapmaya çalışmış. Çevirinin önemli bir iş olduğunu ve çok insana yardımcı olabileceğini umuyor.

  • Teknolojiyi kullanan dil öğrenme araçlarına dair beklenti

    Bu teknolojiyi kullanan bir dil öğretmeni geliştirilmesini bekliyor. Herkesin günde birkaç saat kişisel öğretmeni olabilir. Çin'de ya da Meksika'da çalışırken VR oyunları üzerinden dil öğrenmek çok çekici geliyor.

  • Gerçek zamanlı akış teknolojisinin potansiyeli

    Şirketi, işitme engelli yeni bir çalışan için gerçek zamanlı çalışmayan Dragon benzeri çözümler önermişti; ancak çalışan, doğrudan Whisper kullanarak gerçek zamana yakın bir metne dönüştürme çözümü geliştirmiş. Yeni modeli kullanarak neler yapacağını merak ediyor.

  • Çeviri doğruluğuna dair endişe

    Çevirmenin zaman zaman hatalı kelimeler kullanmasından çok, yanlış anlaşılmaya yol açan çeviriler yapması daha kaygı verici geliyor. Örneğin, "what the fuck" ifadesi İspanyolcaya çevrilirken anlamı yumuşatılmış "qué diablos" çıktısının verilmesi, asıl niyeti tam olarak bilmek isteyen kullanıcılar için sorun olabilir.

  • Yapay zekanın sektörleri dönüştürmesine dair farkındalık

    Eşi, birden fazla dilde dublaj yapan profesyonel bir seslendirme sanatçısı olmaya çalışırken, yapay zekanın sektörü nasıl değiştireceğini öngörüp yönünü değiştirmiş. Yapay zekanın gelişiminin etkileyici sonuçlar verdiğini düşünüyor.

  • Metinden konuşmaya teknolojisindeki ilerleme ve geleceğe dair beklenti

    Metinden konuşmaya teknolojisinin son birkaç yılda çok ilerlediğini, ancak bunun işletim sistemine gömülü TTS motorlarına (örneğin ekran okuyucular) ne zaman entegre edileceğini merak ediyor.

  • Belirli dillere destek eksikliğine dair şikayet

    Hintçe gibi büyük bir dilin örneklerde yer almamasından dolayı hayal kırıklığı yaşıyor. Hindistan, Facebook'un en büyük kullanıcı tabanı olsa da Facebook'un Hindistan'a yeterince katkı sunmadığını düşünüyor.

  • Dil verisi eksikliği sorununa dikkat çekme

    İngilizce-Svahili çeviri denemelerinin sonucu iyi olmamış. Huggingface M4T V2 kullanmış, ancak çoğu durumda düzgün çalışmak yerine yalnızca İngilizceyi farklı bir sesle geri vermiş. Bir dilin düzgün çalışmamasına hangi verinin eksik olduğuna dair daha net bir açıklamaya ihtiyaç olduğunu düşünüyor. Belki veri sağlayarak yardımcı olunabilir.

  • Çevirmen hatalarına dair bir ifade

    "toxic word hallucinations" ifadesinin siberpunk havası verdiğini düşünüyor.

  • Yapay zeka çeviri teknolojisindeki gelişmeye hayranlık

    Son 30 yılda kaydedilen ilerlemeden etkilenmiş. 90'ların ortasında öğrenciyken Alman Yapay Zeka Araştırma Merkezi'nin Verbmobil sistemi üzerinde çalışmış; bu sistem çok sınırlı bir kapsamda İngilizce, Almanca ve Japonca arasında konuşmadan konuşmaya çeviri yapıyordu. O dönemde alan modelleme, cümle ayrıştırma, anlamsal motor ve 3 dil için özel konuşmadan metne dönüşüm gibi "geleneksel" NLP yaklaşımları kullanılıyordu; ancak sonunda bu yaklaşımın çıkmaz sokak olduğu anlaşılmış.