2 puan yazan GN⁺ 2024-11-04 | 1 yorum | WhatsApp'ta paylaş
  • Standard Intelligence, ölçeklenebilir çapraz modalite öğrenimini araştırıyor ve yalnızca sese odaklanan transformer tabanlı temel model hertz-dev'i açık kaynak olarak yayımladı.

  • hertz-dev, 8,5 milyar parametreye sahip ve ses modellemeye özelleştirilmiş durumda.

  • hertz-codec

    • Mono, 16kHz konuşmayı 8Hz gizil temsile dönüştüren konvolüsyonel bir ses otokodlayıcısıdır.
    • 1kbps bit hızında Soundstream ve Encodec'ten daha iyi, DAC ile benzer performans gösterir.
    • 5 milyon kodlayıcı parametresi ve 95 milyon kod çözücü parametresine sahiptir.
  • hertz-vae

    • 1,8 milyar parametreli bir transformer decoder olup, ses VAE'sinin öğrenilmiş öncülü olarak işlev görür.
    • Örneklenmiş 8192 gizil temsili kullanarak bir sonraki kodlanmış ses karesini tahmin eder.
  • hertz-dev

    • 6,6 milyar parametreli bir transformer yığınıdır.
    • Önceden eğitilmiş dil modelinin ağırlıklarının bir kısmı ile başlatılarak 500 milyar token üzerinde tek epoch boyunca eğitildi.
    • Bu model, araştırmacıların farklı görevlere uygun şekilde ince ayar yapması için elverişli bir başlangıç noktasıdır.
    • RTX 4090 üzerinde teorik gecikme süresi 65ms, gerçek ortalama gecikme süresi ise 120ms'dir.
  • Gelecek görünümü

    • Hertz-dev, gerçek zamanlı sesli etkileşimin geleceğine dair bir fikir veriyor ve araştırmacıların kolayca ince ayar yapıp ölçekleyebileceği bir model sunuyor.
    • Hertz'in daha büyük bir sürümü geliştiriliyor; bunun, pekiştirmeli öğrenme ayarıyla modelin ham yeteneklerini ve nihai tutarlılığını önemli ölçüde artırması bekleniyor.
  • Örnek üretimler

    • hertz-dev'in ses modelleme yeteneklerini göstermek için tek kanallı ve çift kanallı üretimler ile model ve insan arasındaki gerçek zamanlı konuşma örnekleri sunuluyor.
  • Standard Intelligence'ın hedefi

    • Amaç, genel yapay zeka inşa etmek ve ekip şu anda 4 kişiden oluşuyor.
    • AGI inşa etmekle ilgilenen kişileri işe alıyorlar; yatırıma ilgi duyanların da iletişime geçmesi memnuniyetle karşılanıyor.

1 yorum

 
GN⁺ 2024-11-04
Hacker News görüşleri
  • Ses modelleri üzerinde çalışan kişiler, sistemden çıkan sesin fizyolojik etkiler yaratıp yaratmadığını merak ediyor

    • Mevcut açık kaynak TTS motorlarından çok daha üstün bir model
    • Multimodal yetenekler eklenip metni de kabul edebilse iyi olurdu
    • Piper benzeri çıktılar, daha doğal tonlamayla oynatılacak şekilde ince ayar yapılabilir
    • Metin LLM'inin Piper'a, Piper'ın da Hertz-dev'e bağlanması faydalı olurdu
  • Hertz'in ilk model olduğu söyleniyor ama Moshi adında benzer bir model var

  • Tesla'nın tamamen görmeye dayalı otonom sürüş yaklaşımı, teknolojiyi daha erişilebilir ve ölçeklenebilir hale getiriyor

    • Büyük ölçekli veri setleri toplayarak hızlı iterasyonu mümkün kılıyor
    • Olgunluk aşamasına ulaştığında ek sensör verilerini yeniden entegre etme ihtimali olabilir
  • Sesli etkileşim sistemlerine dair fikirler araştırılıyor

    • Şu anda çoğu sesli etkileşim, sesi metne çevirip ardından tekrar sese dönüştürüyor
    • Metin aşamasından geçmeden doğrudan sesle yanıt veren bir sistem geliştirilebilirse, doğal ve doğaçlama yanıtlar üretilebilir
    • Sesli etkileşim modelinin standart ses-metin-ses sürecini mi izlediği, yoksa ses-ses işlemeyi mi araştırdığı merak ediliyor
  • Model ağırlıklarının lisansının ne olduğu merak ediliyor

  • Ses örnekleri sık sık anlamsız sesler çıkarıyor ama akustik olarak çok iyi

    • SD ve LLMs ile küçük değişikliklere verilen tepkiler incelenerek hata ayıklama yapılabiliyor
    • Hertz-dev sesi girdi olarak kullandığı için hangi token'ların ayarlanması gerektiğini ayırt etmek zor
    • Gerçek zamanlı kullanım için ince ayar denemeleri yapmak mümkün değil
    • Hertz-dev'in davranışını sistematik olarak incelemenin yolları merak ediliyor
  • VUI (Voice User Interface) araştırılıyor ve faydalı görünüyor

    • VUI'nin bilgisayar etkileşiminin geleceği olduğu düşünülüyor
    • Çocuklar ve yaşlılar yeni kullanıcı grupları olarak eklenebilir
  • Codec parametreleri, 2010'daki askeri bir ses codec'ini hatırlatıyor

  • Ses biraz bozulmuş geliyor ve arka plan gürültüsü var

    • Bunun modelin sınırı mı yoksa eğitim verisinin kalitesiyle ilgili bir sorun mu olduğu merak ediliyor
  • Hertz-dev deposu bağlantısı