10 puan yazan GN⁺ 2024-01-19 | 1 yorum | WhatsApp'ta paylaş

WhisperSpeech’e Genel Bakış

  • WhisperSpeech, Whisper’ın tersine mühendislikle kurulmasıyla oluşturulmuş açık kaynaklı bir text-to-speech sistemidir.
  • Bu model, güçlü olmasının yanı sıra kolayca özelleştirilebilecek şekilde tasarlanmıştır ve ticari amaçlarla güvenle kullanılabilir.
  • Mevcut model İngilizce LibreLight veri kümesi temelinde eğitilmiştir; bir sonraki sürümde farklı dilleri desteklemesi planlanmaktadır.

Durum güncellemesi [2024-01-18]

  • Son bir haftada çıkarım performansını optimize etmeye odaklanıldı.
  • torch.compile entegrasyonu, kv-cache eklenmesi ve bazı katman ayarlamaları sayesinde tüketici sınıfı 4090 üzerinde gerçek zamanın 12 katı hızla çalışmaktadır.
  • Tek bir cümle içinde birden fazla dili karıştırma özelliği eklendi.
  • Ses klonlamayı kolayca test edebilmek için bir yöntem de eklendi.

Durum güncellemesi [2024-01-10]

  • Daha hızlı ve aynı zamanda yüksek kaliteli ses üreten yeni SD S2A modeli yayımlandı.
  • Referans ses dosyasına dayalı bir ses klonlama örneği de eklendi.

Durum güncellemesi [2023-12-10]

  • İngilizce ve Lehçeyi destekleyen 3 yeni model eklendi.
  • Yeni örnek sesler sunuluyor ve bunlar doğrudan Colab üzerinde denenebiliyor.

İndirme

  • Başlangıç noktası olarak Google Colab bağlantısının kullanılması veya sağlanan notebook’un yerelde çalıştırılması önerilmektedir.
  • Manuel indirme yapmak ya da modeli sıfırdan eğitmek istiyorsanız, HuggingFace üzerinden WhisperSpeech önceden eğitilmiş modellerine ve dönüştürülmüş veri kümelerine erişebilirsiniz.

Yol haritası

  • Daha büyük, duygusal ses veri kümeleri toplamak
  • Duygu ve tonlamaya göre üretimi kontrol etmenin yollarını bulmak
  • Farklı dillerde serbestçe kullanılabilecek sesleri toplamak için topluluk çabası oluşturmak
  • Nihai çok dilli modeli eğitmek

Mimari

  • AudioLM, SPEAR TTS ve MusicGen’e benzer genel bir mimariye sahiptir.
  • Güçlü açık kaynak modeller üzerine kurulmuştur: semantik token üretimi ve transkripsiyon için OpenAI’nin Whisper’ı, akustik modelleme için Meta’nın EnCodec’i ve yüksek kaliteli vocoder olarak Charactr Inc’in Vocos’u.

Teşekkür

  • Bu çalışma, Collabora, LAION, Jülich Supercomputing Centre’ın sponsorluğu ve bireysel katkıcıların desteği sayesinde mümkün oldu.

Danışmanlık

  • Açık kaynak ve tescilli yapay zeka projeleri için destek sağlanabilir.

Alıntı

  • Çeşitli mükemmel açık kaynak projelere ve araştırma makalelerine dayanır.

GN⁺ görüşü

  • WhisperSpeech, ses sentezi alanında yenilikçi bir açık kaynak proje olarak, farklı dilleri destekleyen ve ticari kullanım için güvenli güçlü bir text-to-speech modeli sunmaktadır.
  • En güncel teknolojileri kullanarak gerçek zamanın çok ötesinde performans elde ediyor ve ses klonlama gibi gelişmiş özellikleri kolayca test etmeyi mümkün kılan erişilebilirlik sunuyor.
  • Bu proje topluluk temelli olarak gelişiyor; farklı dillere genişlemeyi ve duygusal unsurlar içeren ses üretimini hedeflediği için, ses teknolojilerinin geleceğinde önemli bir rol oynaması bekleniyor.

1 yorum

 
GN⁺ 2024-01-19
Hacker News görüşleri
  • Whisper çok dilli ASR modeli projesi

    • Whisper çok dilli ASR modeli, çok büyük bir veri kümesiyle eğitildiği için konuşmanın anlamsal içeriğini iyi yansıtan encoder çıktıları üretir.
    • Bu encoder, SPEAR-TTS/VALL-E gibi model mimarilerinde anlamsal encoder için açık kaynak bir alternatif olarak kullanılabilir.
    • Tahmin edilen akustik token’lar, Vocos vocoder ile upsample edilir, gürültüden arındırılır ve iyileştirilir.
    • Şu anda temel darboğaz, uygun veri setlerini elde etmek ve temizlemek için gereken insan gücünün yetersizliği.
  • WhisperSpeech geliştiricisinin görüşü

    • Modeli iyileştirmek için aylarca yoğun şekilde çalışıldı, ancak hâlâ geliştirme alanı oldukça fazla.
    • Collabora’nın desteğiyle bunun gerçekten açık kaynak bir proje olduğu, geliştirmek veya entegre etmek isteyenlere yardımcı olmak istendiği belirtiliyor.
    • Ticari amaçla kullanmak isteyenler mühendislik desteği satın alabilir.
  • Çince konuşma sentezine ilgi

    • Özellikle tonlama ve duygu ifadesi açısından Çince konuşma sentezindeki performans merak ediliyor.
    • EmotiVoice’un şimdiye kadar görülen en yüksek kaliteli açık kaynak model olduğu, bunun için bir CLI wrapper yazılıp flashcard sesleri üretmekte kullanıldığı söyleniyor.
    • EmotiVoice ile GPU kullanarak kendi sesinizi klonlayabilirsiniz, ancak bu henüz test edilmemiş.
  • Mycroft’un Mimic 3’üne değinilmesi

    • Mycroft’un Mimic 3’ü en güncel teknikleri kullanmasa da hâlâ etkileyici ve Raspberry Pi üzerinde gerçek zamanlı konuşma üretebilecek kadar küçük.
    • Bazı sesler diğerlerinden daha iyi ve WhisperSpeech örnekleriyle aynı seviyede.
  • Uluslararası Fonetik Alfabe (IPA) tabanlı model hakkında soru

    • IPA tabanlı bir modelin geliştirilmesi/ilerleme durumu soruluyor.
    • Bu yaklaşım, sesi farklı aksanlara dönüştürmek veya çok dilli desteği sağlamak için faydalı olabilir.
    • MBROLA sesleri gibi modellerde, bir dildeki fonemleri başka bir dilin fonemlerine eşleyerek bu sınırlı ölçüde yapılabilir.
    • IPA yaklaşımı, konuşma kalitesi ve tınıdaki değişimleri daha iyi öğrenmeyi mümkün kılabilir.
  • Piper ile özel ses eğitimi üzerine gözlem

    • Piper ile özel bir sesi eğitmeyi anlatan bir videoda, veri kümesi için gereken metadata’nın kaynak ses dosyalarındaki metinle ilgili olduğu görülüyor.
    • Collabora’nın eğitim yöntemi bu süreci otomatikleştiriyor ve eğitim için yalnızca ses dosyaları gerektiriyor.
  • Lehçe örneklerin değerlendirilmesi

    • Lehçe örnekler çok iyi ve bir sesli kitap kaydı gibi duyuluyor.
  • Sesin kontrol edilebilirliği hakkında soru

    • TTS’yi bir sohbet sistemine uygularken sesin ne kadar kontrol edilebilir olduğu merak ediliyor.
    • Her kullanıcının kendine özgü bir sese sahip olabilmesi için mümkün olduğunca çok farklı sese ihtiyaç var.
  • Winston Churchill’in düşük kaliteli klipleriyle eğitilen demo hakkındaki şüphe

    • Düşük kaliteli ses klipleriyle eğitilmiş bir demo için “çöp girerse çöp çıkar” şüphesi dile getiriliyor.
  • TTS hakkında olumlu değerlendirme

    • Şimdiye kadar duyulan en iyi TTS olduğu, sesin insan gibi modüle edildiği söyleniyor.