-
Standard Intelligence, ölçeklenebilir çapraz modalite öğrenimini araştırıyor ve yalnızca sese odaklanan transformer tabanlı temel model
hertz-dev'i açık kaynak olarak yayımladı. -
hertz-dev, 8,5 milyar parametreye sahip ve ses modellemeye özelleştirilmiş durumda. -
hertz-codec
- Mono, 16kHz konuşmayı 8Hz gizil temsile dönüştüren konvolüsyonel bir ses otokodlayıcısıdır.
- 1kbps bit hızında Soundstream ve Encodec'ten daha iyi, DAC ile benzer performans gösterir.
- 5 milyon kodlayıcı parametresi ve 95 milyon kod çözücü parametresine sahiptir.
-
hertz-vae
- 1,8 milyar parametreli bir transformer decoder olup, ses VAE'sinin öğrenilmiş öncülü olarak işlev görür.
- Örneklenmiş 8192 gizil temsili kullanarak bir sonraki kodlanmış ses karesini tahmin eder.
-
hertz-dev
- 6,6 milyar parametreli bir transformer yığınıdır.
- Önceden eğitilmiş dil modelinin ağırlıklarının bir kısmı ile başlatılarak 500 milyar token üzerinde tek epoch boyunca eğitildi.
- Bu model, araştırmacıların farklı görevlere uygun şekilde ince ayar yapması için elverişli bir başlangıç noktasıdır.
- RTX 4090 üzerinde teorik gecikme süresi 65ms, gerçek ortalama gecikme süresi ise 120ms'dir.
-
Gelecek görünümü
- Hertz-dev, gerçek zamanlı sesli etkileşimin geleceğine dair bir fikir veriyor ve araştırmacıların kolayca ince ayar yapıp ölçekleyebileceği bir model sunuyor.
- Hertz'in daha büyük bir sürümü geliştiriliyor; bunun, pekiştirmeli öğrenme ayarıyla modelin ham yeteneklerini ve nihai tutarlılığını önemli ölçüde artırması bekleniyor.
-
Örnek üretimler
hertz-dev'in ses modelleme yeteneklerini göstermek için tek kanallı ve çift kanallı üretimler ile model ve insan arasındaki gerçek zamanlı konuşma örnekleri sunuluyor.
-
Standard Intelligence'ın hedefi
- Amaç, genel yapay zeka inşa etmek ve ekip şu anda 4 kişiden oluşuyor.
- AGI inşa etmekle ilgilenen kişileri işe alıyorlar; yatırıma ilgi duyanların da iletişime geçmesi memnuniyetle karşılanıyor.
1 yorum
Hacker News görüşleri
Ses modelleri üzerinde çalışan kişiler, sistemden çıkan sesin fizyolojik etkiler yaratıp yaratmadığını merak ediyor
Hertz'in ilk model olduğu söyleniyor ama Moshi adında benzer bir model var
Tesla'nın tamamen görmeye dayalı otonom sürüş yaklaşımı, teknolojiyi daha erişilebilir ve ölçeklenebilir hale getiriyor
Sesli etkileşim sistemlerine dair fikirler araştırılıyor
Model ağırlıklarının lisansının ne olduğu merak ediliyor
Ses örnekleri sık sık anlamsız sesler çıkarıyor ama akustik olarak çok iyi
VUI (Voice User Interface) araştırılıyor ve faydalı görünüyor
Codec parametreleri, 2010'daki askeri bir ses codec'ini hatırlatıyor
Ses biraz bozulmuş geliyor ve arka plan gürültüsü var
Hertz-dev deposu bağlantısı