9 puan yazan xguru 2024-03-29 | 1 yorum | WhatsApp'ta paylaş
  • Ses tanıma ile doğal dil komutlarını birleştiren, ses tabanlı bir belge editörü
  • Kullanıcı "bunu listeye dönüştür" veya "bu kitabın 86. sayfasına satır içi alıntı ekle" gibi bir şey söylediğinde ilgili komutu yerine getirir
  • Ses tanıma yazılımları hâlâ kullanışsız ve kırılgan bir deneyim sunuyor
    • Yazılımlar doğrulukta yarışıyor, ancak üretilen metnin kırılgan doğasını ele almıyor
    • Özel komutlar öğrenmek gerekiyor ve klavyenin yerini almak için yetersiz kalıyor
  • Aqua Voice'un çözüm yaklaşımı
    • Aqua, kullanıcının söylediklerini olduğu gibi yazıya dökebilir, komutları çalıştırabilir veya söylenenleri amaçlanan metne akıcı biçimde dönüştürebilir
    • Kekeleme ya da bir cümleyi birkaç kez söyleme durumunda Aqua yalnızca son sürümü seçip metne dönüştürür
  • Aqua Voice'un vizyonu ve teknolojisi
    • Daha doğal bir ses tanıma deneyimi ve işbirlikçi bir yapay zeka yazım deneyimi sunmayı hedefliyor
    • Modelle gerçek zamanlı olarak sürekli bağlı kalan, akış temelli bir hizmet sunuyor
    • 6 model, niyete göre belgeyi dönüştürmek, yorumlamak ve yeniden yazmak için birlikte çalışıyor
    • Gerçek zamanlı doğruluğu artırmak için MoE(Mixture of Experts) transkripsiyonu kullanıyor

1 yorum

 
xguru 2024-03-29

Hacker News görüşleri

  • Harika! Birkaç geri bildirim:
    • '1000 token' terimi teknik olmayan kullanıcılar için hiçbir şey ifade etmiyor; bana da pek bir şey ifade etmiyor. Sadece kaç kelime konuşabileceğimi söylemeniz yeterli
    • O serif yazı tipli LaTeX hata oranı tablosu da fazla sıkıcı. İnsanlar 'macOS diktesine göre 7 kata kadar daha az hata' gibi çarpıcı bir şey ister. Karşılaştırma tablosu değil.
    • '0,05 kelime hata oranı' da kaldırılmalı. Bunun ne anlama geldiğini açıklamanız ve yüzde kullanmanız gerekir.
    • 'İsimleri, kelimeleri, gerçekleri, sayıları unuttunuz mu? Aqua'dan doldurmasını isteyin.' Bu özelliği kapatabilmek güzel olurdu; en azından benim söylemediğim bir şey belgeye eklendiğinde bunun açıkça işaretlenmesini isterim. Dikte yaptığımda genelde sayfada sadece söylediğim kelimelerin olmasını isterim.
  • Başkalarının da dediği gibi, elinize sağlık.
    • Bu özellikle telefon ya da saat üzerinde çok iyi olabilir. Klavye deneyiminin zayıf olduğu yerlerde not alabilme açısından gerçekten oyunun kurallarını değiştirebilir.
    • Bunu kod yazmak için denediniz mi? Bu, bir IDE/metin editörü eklentisi olarak şaşırtıcı derecede iyi olabilir.
    • Yapay zekayla pişman olunacak bir şey yapmamanızı görmek güzel. Gördüğümüz birçok uygulama korkunç. Yaptığınız şey mükemmel ve lanetli bir çikolata fabrikası deneyiminden çok uzak.
  • 94/95'te RSI ile ilgili bir sakatlık yaşadım ve o zamandan beri ses tanıma kullanıyorum. Windows'tan çıkmamı sağlayacak bir çözüm istiyorum. Firefox, Thunderbird ve VS Code'da kolayca dikte yapabileceğim bir çözüm istiyorum. En önemlisi, Nuance'ın 'Select-and-Say' dediği metin düzenleme/manipülasyon işlevi. Küçük düzenlemeler, yeni diktelerle cümle değiştirme vb. mümkün oluyor ve bu da sesi, çoğu Whisper uygulamasındaki gibi sadece yakalanmış dikteye kıyasla çok daha kolay kullanılabilir hale getiriyor. Bunu yapabilirseniz ömür boyu müşteriniz olurum.
    • Bundan sonra en önemli şey, dil bilgisi için eylem rutinleri yazabilme yeteneği. Benim tercihim Python, çünkü chatGPT ile kod yazarken hedef olarak en kolayı o. Ama başka dilleri de öğrenebilirim (JavaScript hariç, ondan nefret ediyorum). Joel Gould'un 'natPython' paketini referans veriyorum. İşte orijinal sunum ve insanların bununla inşa ettikleri şeyler.
    • Geçmişten çıkarılacak dersler var. DragonDictate/NaturallySpeaking'in ilk dönemlerinde, Baker Dragon Systems'ı yönetirken, çalışanlarını düzenli olarak yerel ses tanıma kullanıcı grubu toplantılarına gönderirlerdi; bize neyin işe yarayıp neyin yaramadığını anlatırlardı. Biz engellileri gözlemlemenin, iyi bir ses tanıma ortamının nasıl kurulacağına dair onlara diğer herhangi bir kullanıcı topluluğundan daha fazla bilgi vereceğini biliyorlardı. Uç durumları herkesten önce biz buluyorduk. Birkaç iyi şey yaptılar. Örneğin, bazı ses tanıma kullanıcı grubu toplantılarını mekan ve personel zamanı sağlayarak desteklediler.
    • Nuance bu dersi unutmuş gibi görünüyor.
    • Her neyse, bugün çalışmayı planlıyordum ama sizin sunumunuz bunu kafamdan vurdu. :-)
    • [Kullandıktan sonra ekleme] Gerçekten etkileyici. Buna daha fazla zaman ayırmam gerektiği açık. Naturally Speaking deneyimimin görüş alanımı sınırladığını fark ediyorum; siz ise kullanıcı arayüzünün ne olabileceğine dair çok daha geniş bir bakışa sahipsiniz.
  • Veri girişi için bunun gibi bir şey istiyordum. Sık sık bir şeyleri ölçerken ellerim dolu oluyor ve not almam gerekiyor. Bu, verileri tablo halinde çıktılayabiliyor/biçimlendirebiliyor mu?
  • Bu gerçekten harika. Birinin bunu yapmasını umuyordum:
    • Buna ayda 10 dolar ödemeye razıyım. Ama gerçekten istediğim şey şu ikisinden biri:
      • Bunun, bir Raycast eklentisi ya da masaüstü uygulaması olarak ortamımdaki tüm düzenlenebilir metin alanlarıyla etkileşime girebilmesini sağlamak
      • Mevcut metni/bağlamı + ses akışını iletip, karşılığında tüm belge güncellemelerinin heartbeat'ini alabileceğimiz bir API. Böylece topluluk, metin girişinin çok geniş bir alanı için Obsidian/VSCode/tarayıcı eklentileri geliştirebilir
    • Bugün öğleden sonra zaten 10 dolar ödeyeceğim, tebrikler!
  • Dikte yazılımı sağlık sektöründe çok önemli. Tüm doktorlar bunu kullanıyor ve sizin çözümünüz gibi bir şey onların işini çok daha verimli hale getirebilir. Bu pazar segmentini hiç araştırdınız mı?
  • Bu inanılmaz! Kullanması çok tatmin edici ve transkripsiyon + niyet birleşimi muazzam bir potansiyel taşıyor gibi görünüyor.
    Bunu hasta mektupları vb. dikte etmek için kullanmak isterim. Yerel model/HIPAA uyumluluğu hâlâ uzak mı?
  • Lansmanı tebrik ederim!
    Ses yerine metinle çalışmakta çok daha iyi olan nöroçeşitliliğe sahip bir meslektaşınız olarak bu fikre kesinlikle bayıldım. Tek geri bildirimim şu... bunu daha fazla kontrolle çalıştırmak isterim. Ben zaten LLM'leri yerelde çalıştırıyorum (ör. LM Studio) ve whisper benzeri şeyleri de çalıştırabilirim. Açık kaynak yapmanın (veya kaynak kodunu erişilebilir kılmanın) ticarileştirme girişimleriyle çelişebileceğini anlıyorum. Ancak Red Hat benzeri bazı seçenekler olabilir; burada kurumsal kullanım için ücret alıp bireysel kullanım için yerelde çalıştırmayı ücretsiz bırakabilirsiniz.
    Bir yandan, birçok insanın fayda görebileceği ve kullanabileceği bir alanda sağlam bir ilk hareket eden avantajınız var; ama biri birden fazla LLM çıktısının birkaç katmanını bir araya getirerek rekabet oluşturabilir (bu tür projeler genellikle açık kaynak olur ama bazen daha az 'sofistike'dir). İyi bir teklif sunarsanız büyük bir başarı şansınız olabilir. Bol şans!
  • Bu harika, muhtemelen abone olurum -- sadece diğer aboneliklerimi azaltmam gerekecek -- son zamanlarda çok fazla cezbedici yapay zeka ürünü var.
  • Açıkça söylenmiyor ama buluta hangi verilerin gittiğini bilmek istiyorum - her şeyi içeren ses kaydı olduğunu varsayıyorum. Yoksa STT cihaz üzerinde mi yapılıyor? Ayrıca bu veriler için gizlilik/saklama politikanız nedir? Harika bir demo ve harika bir ürün!