Voice AI yol haritası: konuşma tabanlı yapay zekanın geleceği

xguru · 2024-11-28T11:10:01+09:00

Voice AI, basit bir UI yükseltmesi değil; işletmelerle müşteriler arasındaki bağlantı kurma biçimini dönüştüren bir yenilik Havayolu müşteri hizmetlerinde olduğu gibi uzun bekleme süreleri, tekrarlayan menü seçimleri ve müşterinin durumunu anlayamama; sorun çözmeden gereksiz stres ve zaman kaybı yaratıyor Voice AI sayesinde, mevcut katı IVR sistemlerinden (otomatik sesli yanıt) farklı olarak insan gibi konuşan ve müşteri deneyimini kişiselleştiren bir deneyim 24 saat sunulabilir Müşterinin durumunu anında anlayıp en uygun alternatifi sunabilir Örnek: iptal edilen uçuşu otomatik olarak yeniden rezerve etme, müşteri tercihine göre alternatif önerme Bazı durumlarda müşteriler, insan yerine AI ajanını tercih edebilir Voice AI, yüksek talep ve müşteri beklentilerini karşılarken operasyonel verimliliği de artırır Voice AI, ses-doğal AI modelleri ile multimodal teknolojilerin birleşimidir İnsan iletişiminin önemli olduğu sektörlerde kökten bir yenilik sağlar Müşteri beklentilerini karşılar, operasyonları verimli şekilde ölçeklendirir ve yeni nesil iş iletişimi çağının temelini oluşturur NotebookLM’in oluşturduğu podcast ile bu yazının temel içgörülerini dinleyin Sesli iletişimin dev pazarı İnsanlar konuşmayı tercih eder: Her gün milyarlarca telefon görüşmesi yapılıyor Metin, e-posta ve sosyal medya yaygınlaşmış olsa da telefon, birçok işletmede hâlâ başlıca iletişim aracı Sağlık, hukuk hizmetleri, ev hizmetleri, sigorta ve lojistik gibi farklı sektörlerde karmaşık bilgi aktarımı, kişiselleştirilmiş hizmet sunumu ve acil durumların çözümü için vazgeçilmezdir Mevcut telefon iletişiminin sorunları Düşük cevaplama oranı: SMB’lerin (KOBİ) %62’si çağrıları kaçırdığı için müşteri taleplerini karşılayamıyor ve iş fırsatlarını kaybediyor Yaygın sorunlar: Mesai saatleri dışında sesli mesaja düşme Aynı anda yalnızca tek çağrı işleyebilme Destek kalitesinde tutarsızlık Teknik kısıtlar: IVR sistemleri (1970’lerde kullanıma girdi): Yalnızca önceden tanımlanmış komutları işler, esnekliği düşüktür: "Rezervasyon yapmak için 1’e basın" "Yardım almak istediğiniz konuyu kısa bir kelimeyle söyleyin" Müşteri niyetini veya aciliyetini anlayamaz Müşteri deneyiminde bozulma: Uzun bekleme süreleri Verimsiz menü dolaşımı Sorunu çözememe Yüksek talebe rağmen: Mevcut teknoloji, müşteri sorunlarını verimli ve sorunsuz şekilde çözmede sınırlı kalıyor Daha gelişmiş ses otomasyonu teknolojilerine ihtiyaç var [Voice teknolojisi geliştirmenin tam zamanı olmasının nedeni] Ses teknolojisinin evrimi İlk IVR sistemleri: 1970’lerde kullanıma giren IVR (Interactive Voice Response) teknolojisi: Yalnızca önceden tanımlanmış komutları işleyebiliyordu Kullanıcının niyetini ve aciliyetini anlayamıyordu Sevilmeyen bir teknoloji olmasına rağmen hâlâ 5 milyar dolarlık bir pazar ASR/STT teknolojilerinin ortaya çıkışı: Otomatik konuşma tanıma (ASR) ve konuşmadan metne (STT) modelleri: Sesi gerçek zamanlı olarak metne çeviren teknoloji Gong, Rev, DeepL gibi girişimlerin ortaya çıkışı OpenAI’nin Whisper modeli (2022) ve Rev’in Reverb’ü (2024): Aksan, arka plan gürültüsü ve duygular gibi unsurları işleyebilen doğal konuşma sistemlerini destekledi Son yenilikler: sesli yapay zekadaki ilerleme: Duygusal açıdan zengin ses üreten Text-To-Speech (TTS) modellerinin geliştirilmesi: Eleven Labs gibi öncü şirketler Multimodal yetenekler: Google Gemini 1.5: ses, metin ve görsel girdiyi birleştiriyor OpenAI’nin Voice Engine’i: insan konuşmasını taklit eden ses üretimi GPT-4o’nun çıkışı: Gerçek zamanlı ses, görme ve metnin yerel olarak entegre edilmesi Karmaşık konuşmaları işleyebilme ve akıllı yanıt verebilme Son yeniliklerin tetiklediği iki temel ilerleme Yüksek kaliteli modellerin yaygınlaşması ve uygulama geliştirme: Mevcut "cascading" mimarinin sınırları: STT → LLM → TTS dönüşüm sürecinde gecikme ve metin dışı bilgi kaybı Yüksek yanıt gecikmesi (latency) nedeniyle olumsuz kullanıcı deneyimi Yeni modeller: GPT-4 Turbo: gecikmeyi azaltıyor Kullanım senaryosuna göre model seçimi mümkün Speech-to-Speech (STS) modellerinin yükselişi: Sesi metne dönüştürmeden doğrudan işleme: Ultra düşük gecikme: yaklaşık 300 ms yanıt süresiyle doğal konuşma Bağlam anlayışı: önceki konuşma bilgisini koruma, niyet ve duygu kavrama Duygu ve ton tanımada iyileşme: duyguları yansıtan yanıtlar sunma Gerçek zamanlı ses etkinliği tespiti: kullanıcının sözünü kesmeden konuşma imkânı Ses-doğal modeller: konuşma tabanlı sesin geleceği Cascading mimarinin sınırlarını aşmak: Sese özel STS modelleri: Kyutai Moshi: açık kaynak model Alibaba SenseVoice & CosyVoice: sese odaklı modeller Hume Empathetic Voice Interface: duygusal yanıt işleme OpenAI’nin Realtime API’si: GPT-4o tabanlı Speech-to-Speech etkileşimini destekliyor Sektörel benimsemedeki temel zorluklar Sesli ajanların benimsenmesini engelleyen üç ana unsur Kalite (Quality): Birçok sesli yapay zeka ajanı, hâlâ pek çok kullanım senaryosunda güvenilir olacak kadar istikrarlı değil. Şirketler genelde sesli ajanları düşük riskli ortamlarda pilot olarak kullanıyor: Örnek: küçük bir çatı tamir şirketinin mesai dışı çağrıları karşılamak için ajan kullanması Daha yüksek değerli kullanım alanlarına geçildikçe kalite çıtası daha da yükseliyor Örnek: tek bir müşteri aramasının 30 bin dolarlık projeye dönüşebildiği durumda, başarısız çağrıya tolerans çok düşük olur Güven (Trust): Müşteriler, mevcut IVR teknolojisi nedeniyle zaten çok sayıda olumsuz deneyim yaşadı: Yavaş yanıtlar, verimsiz menü yapısı, doğal konuşma eksikliği Şirketlerin, AI’ın müşteri taleplerini doğru ve hızlı biçimde işleyebileceğine dair güven oluşturması gerekiyor Güvenilirlik (Reliability): Başlıca şikâyet örnekleri: Çağrının düşmesi: görüşmenin kesilmesi müşteride hayal kırıklığı yaratır Halüsinasyon (Hallucination): AI’ın hatalı veya alakasız cevaplar vermesi Yanıt gecikmesi (latency): işlem süresinin uzaması müşteri kaybına yol açar Sorunları çözmek için ilerleme yönleri Gecikme ve güvenilirliği optimize etme: Daha güvenilir altyapı sunan geliştirici platformları artıyor; odak noktası gecikmeyi azaltmak ve konuşma kesintilerini önlemek Başarısızlık durumunda zarif toparlanma (Fail Gracefully): Çağrı başarısız olduğunda konuşma akışını doğal biçimde geri kazanma: müşteri deneyimindeki kesintiyi en aza indirir Konuşma orkestrasyonu: AI ajanlarının öngörülebilir akışları takip edecek şekilde tasarlanması: halüsinasyonları en aza indirme, müşteriye verilebilecek bilgi ve konuşma kapsamı için guardrail belirleme Sesli yapay zeka pazar haritası Sesli yapay zeka pazarında temel modellerden ses altyapısına, geliştirici platformlarına ve uygulamalara kadar farklı katmanlarda yenilik yaşanıyor Özellikle aşağıdaki üç temel alanda dikkat çekici fırsatlar öne çıkıyor 1. Modeller (Models) İşlev: ses tabanlı kullanım senaryolarını destekleyen teknolojiler inşa eder; SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech) gibi belirli teknolojilere odaklanır Gelecek yönü: Multimodal ve ses-doğal modeller liderlik edecek Metin ile ses arasında dönüşüm yapmadan sesi doğrudan işleyebilen teknolojiler kritik olacak Yeni nesil modeller: Cartesia gibi şirketler, State Space Models (SSMs) kullanan yeni mimarilere öncülük ediyor Basit konuşma işlemlerini küçük modellere, karmaşık görevleri güçlü modellere ayırarak gecikme (latency) ve maliyetin düşmesi bekleniyor 2. Geliştirici platformları (Developer Platforms) Sesli yapay zeka ajanı oluşturmak ve gerçek zamanlı ses altyapısını yönetmek, geliştiriciler için hâlâ büyük bir teknik zorluk. Yeni platformlar bu karmaşıklığı çözerken geliştiricilere çeşitli destekler sunuyor Gecikme ve güvenilirliği optimize etme: Yüksek performanslı gerçek zamanlı sesli ajanları ölçeklenebilir şekilde yönetme Konuşma sinyalleri ve sözsüz bağlamı yönetme: Kullanıcının konuşmasını bitirip bitirmediğini anlamaya yönelik "endpointing" tespiti Arka plan gürültüsünü filtreleme ve duygu/emosyon tespitini iyileştirme Verimli hata yönetimi: Başarısız API çağrılarını tespit edip anında yeniden deneme Konuşmanın kesilmesini önlemek için yedek yanıt ekleme Üçüncü taraf sistem entegrasyonu ve RAG desteği: Bilgi tabanları ve üçüncü taraf sistemlerle düşük gecikmeli entegrasyon ihtiyacı Konuşma akışı kontrolü: Hassas veya regülasyona tabi konuşmaları işlemek için öngörülebilir konuşma akışları tasarlama Gözlemlenebilirlik, analiz ve test: Konuşma kalitesi ve performansını büyük ölçekte izlemeyi sağlayan araç eksikliği sorununu çözme Platform örneği Vapi: ses altyapısının karmaşıklığını azaltıp yüksek kaliteli sesli ajanların hızlıca geliştirilmesini destekler 3. Uygulamalar (Applications) Sesi kullanan otomasyon ürünleri farklı alanlarda geliştiriliyor En çok dikkat çeken uygulamaların özellikleri: Müşterinin işini tamamen üstlenip değerli sonuç üretmeleri Talep patlaması olduğunda aynı anda binlerce çağrıyı işleyebilecek ölçeklenebilirlik Belirli sektörlere özelleştirilmiş çözümler sunmaları İşlev bazında başlıca fırsatlar Transkripsiyon (Transcription): görüşme notları oluşturma, sonraki adımları önerme Inbound Calling: rezervasyon yönetimi, potansiyel müşteri dönüşümü, müşteri başarı yönetimi Outbound Calling: aday eleme, randevu teyidi Eğitim (Training): satış veya mülakat eğitimi Müzakere (Negotiation): satın alma pazarlıkları, sigorta anlaşmazlıkları, sözleşme ayarlamaları Yatırım örnekleri Abridge: sağlık görüşmelerinin dokümantasyonu Rilla: saha satış koçluğu Rev: sektörler genelinde AI ve insan iş birliğine dayalı transkripsiyon Somut uygulama örnekleri Sektöre özel çözüm Sameday AI: ev hizmetleri sektörü için AI satış ajanı. Müşteri çağrısını alma → soruna göre fiyat teklifi verme → takvim planlama → ödemenin tamamlanmasına kadar otomasyon Outbound Calling Wayfaster: işe alım sürecini otomatikleştirir. Aday eleme aramalarını otomatik yürüterek en iyi adaylara odaklanılmasını sağlar Sağlık sigorta pazarlığı: LLM kullanarak binlerce sigorta belgesi ve hasta kaydını analiz etme, gerçek zamanlı pazarlık desteği sağlama Voice AI teknolojisine yatırım ilkeleri Voice AI ekosisteminde en büyük girişim fırsatları geliştirici platformları ile uygulama katmanında bulunuyor Modellerdeki hızlı gelişim sayesinde girişimciler, düşük başlangıç yatırımıyla etkili bir MVP’yi (minimum uygulanabilir ürün) hızla geliştirip test edebiliyor 1. Sektörel iş akışlarına ve çoklu modaliteye derin entegrasyon sağlayan çözümler En etkili sesli yapay zeka uygulamaları, belirli sektörlerin iş akışlarına derinlemesine entegre olur Her sektörün kendine özgü dili ve konuşma biçimine göre uyarlanır Örnek: Otomobil bayileri için bir sesli ajanın CRM ile entegre olup geçmiş müşteri etkileşim verilerini kullanarak hizmet kalitesini iyileştirmesi ve dağıtım hızını artırması Ses, metin ve görsel gibi farklı modaliteleri birleştirerek daha karmaşık, çok aşamalı insan süreçlerini çözmesi 2. Sağlam mühendislikle yüksek kaliteli ürün sunma Hackathon demosu üretmek görece kolay olsa da gerçek ürünler yüksek güvenilirlik, ölçeklenebilirlik ve gerçek kullanım senaryolarını işleme yeteneği gerektirir Kurumsal gereksinimler: tutarlı performans sunma, düşük gecikme (latency) garantisi, mevcut sistemlerle sorunsuz entegrasyon Temel tasarım unsurları: öngörülemeyen ses girdilerini işleme, güvenliği güçlendirme, yüksek çalışma süresi (uptime) sağlama 3. Büyüme, müşteri tutma ve ürün kalitesi KPI’ları arasında denge Sesli ajanlar, gelir odaklı işlevlerde (ör. satış) güçlü büyüme potansiyeline sahip Müşteriler çekirdek iş akışlarını insandan ajana kaydırdığında kalite düşüşü, yüksek iptal oranına (churn) yol açabilir Önemli KPI’lar ve kalite göstergeleri Churn (müşteri kayıp oranı): Erken aşamada birçok ses uygulaması yüksek kayıp oranı nedeniyle zorlanıyor Güvenilir olmayan hizmetler yüzünden müşterilerin rakiplere geçmesiyle ortaya çıkar Self-Serve Resolution (kendi kendine çözüm oranı): Sesli ajanın, insan müdahalesi olmadan kullanıcının sorununu ne kadar etkili çözdüğünü gösterir Customer Satisfaction Score (müşteri memnuniyeti puanı): Sesli ajanla etkileşen müşterilerin genel memnuniyetini ölçer ve kalite içgörüsü sağlar Call Termination Rates (çağrı sonlandırma oranı): Yüksek sonlandırma oranı, kullanıcı deneyimindeki sorunlara ve çözülmemiş meselelere işaret eder Cohort Call Volume Expansion (kohort çağrı hacmi genişlemesi): Müşterilerin zaman içinde sesli ajan kullanımını artırıp artırmadığını ölçer; ürün değeri ve kullanıcı etkileşiminin göstergesidir Voice AI’ın geleceği Son birkaç yıldaki teknolojik gelişmeler, karmaşık sorunları çözen yenilikçi ürünler geliştirme imkânı açtı Gelecekte multimodal ve gerçek zamanlı konuşma sistemlerinin farklı sektörlerde daha fazla sorunu çözmesi bekleniyor

(bvp.com)

13 puan yazan xguru 2024-11-28 | 1 yorum | WhatsApp'ta paylaş

Voice AI, basit bir UI yükseltmesi değil; işletmelerle müşteriler arasındaki bağlantı kurma biçimini dönüştüren bir yenilik
- Havayolu müşteri hizmetlerinde olduğu gibi uzun bekleme süreleri, tekrarlayan menü seçimleri ve müşterinin durumunu anlayamama; sorun çözmeden gereksiz stres ve zaman kaybı yaratıyor
- Voice AI sayesinde, mevcut katı IVR sistemlerinden (otomatik sesli yanıt) farklı olarak insan gibi konuşan ve müşteri deneyimini kişiselleştiren bir deneyim 24 saat sunulabilir
  - Müşterinin durumunu anında anlayıp en uygun alternatifi sunabilir
  - Örnek: iptal edilen uçuşu otomatik olarak yeniden rezerve etme, müşteri tercihine göre alternatif önerme
  - Bazı durumlarda müşteriler, insan yerine AI ajanını tercih edebilir
- Voice AI, yüksek talep ve müşteri beklentilerini karşılarken operasyonel verimliliği de artırır
Voice AI, ses-doğal AI modelleri ile multimodal teknolojilerin birleşimidir
- İnsan iletişiminin önemli olduğu sektörlerde kökten bir yenilik sağlar
- Müşteri beklentilerini karşılar, operasyonları verimli şekilde ölçeklendirir ve yeni nesil iş iletişimi çağının temelini oluşturur
- NotebookLM’in oluşturduğu podcast ile bu yazının temel içgörülerini dinleyin

Sesli iletişimin dev pazarı

İnsanlar konuşmayı tercih eder:
- Her gün milyarlarca telefon görüşmesi yapılıyor
- Metin, e-posta ve sosyal medya yaygınlaşmış olsa da telefon, birçok işletmede hâlâ başlıca iletişim aracı
- Sağlık, hukuk hizmetleri, ev hizmetleri, sigorta ve lojistik gibi farklı sektörlerde karmaşık bilgi aktarımı, kişiselleştirilmiş hizmet sunumu ve acil durumların çözümü için vazgeçilmezdir
Mevcut telefon iletişiminin sorunları
- Düşük cevaplama oranı:
  - SMB’lerin (KOBİ) %62’si çağrıları kaçırdığı için müşteri taleplerini karşılayamıyor ve iş fırsatlarını kaybediyor
  - Yaygın sorunlar:
    - Mesai saatleri dışında sesli mesaja düşme
    - Aynı anda yalnızca tek çağrı işleyebilme
    - Destek kalitesinde tutarsızlık
- Teknik kısıtlar:
  - IVR sistemleri (1970’lerde kullanıma girdi):
    - Yalnızca önceden tanımlanmış komutları işler, esnekliği düşüktür: "Rezervasyon yapmak için 1’e basın" "Yardım almak istediğiniz konuyu kısa bir kelimeyle söyleyin"
    - Müşteri niyetini veya aciliyetini anlayamaz
  - Müşteri deneyiminde bozulma:
    - Uzun bekleme süreleri
    - Verimsiz menü dolaşımı
    - Sorunu çözememe
Yüksek talebe rağmen:
- Mevcut teknoloji, müşteri sorunlarını verimli ve sorunsuz şekilde çözmede sınırlı kalıyor
- Daha gelişmiş ses otomasyonu teknolojilerine ihtiyaç var

[Voice teknolojisi geliştirmenin tam zamanı olmasının nedeni]

Ses teknolojisinin evrimi

İlk IVR sistemleri:

1970’lerde kullanıma giren IVR (Interactive Voice Response) teknolojisi:
- Yalnızca önceden tanımlanmış komutları işleyebiliyordu
- Kullanıcının niyetini ve aciliyetini anlayamıyordu
Sevilmeyen bir teknoloji olmasına rağmen hâlâ 5 milyar dolarlık bir pazar

ASR/STT teknolojilerinin ortaya çıkışı:

Otomatik konuşma tanıma (ASR) ve konuşmadan metne (STT) modelleri:
- Sesi gerçek zamanlı olarak metne çeviren teknoloji
- Gong, Rev, DeepL gibi girişimlerin ortaya çıkışı
- OpenAI’nin Whisper modeli (2022) ve Rev’in Reverb’ü (2024):
  - Aksan, arka plan gürültüsü ve duygular gibi unsurları işleyebilen doğal konuşma sistemlerini destekledi

Son yenilikler: sesli yapay zekadaki ilerleme:

Duygusal açıdan zengin ses üreten Text-To-Speech (TTS) modellerinin geliştirilmesi:
- Eleven Labs gibi öncü şirketler
Multimodal yetenekler:
- Google Gemini 1.5: ses, metin ve görsel girdiyi birleştiriyor
- OpenAI’nin Voice Engine’i: insan konuşmasını taklit eden ses üretimi
GPT-4o’nun çıkışı:
- Gerçek zamanlı ses, görme ve metnin yerel olarak entegre edilmesi
- Karmaşık konuşmaları işleyebilme ve akıllı yanıt verebilme

Son yeniliklerin tetiklediği iki temel ilerleme

Yüksek kaliteli modellerin yaygınlaşması ve uygulama geliştirme:
- Mevcut "cascading" mimarinin sınırları:
  - STT → LLM → TTS dönüşüm sürecinde gecikme ve metin dışı bilgi kaybı
  - Yüksek yanıt gecikmesi (latency) nedeniyle olumsuz kullanıcı deneyimi
- Yeni modeller:
  - GPT-4 Turbo: gecikmeyi azaltıyor
  - Kullanım senaryosuna göre model seçimi mümkün
Speech-to-Speech (STS) modellerinin yükselişi:
- Sesi metne dönüştürmeden doğrudan işleme:
  - Ultra düşük gecikme: yaklaşık 300 ms yanıt süresiyle doğal konuşma
  - Bağlam anlayışı: önceki konuşma bilgisini koruma, niyet ve duygu kavrama
  - Duygu ve ton tanımada iyileşme: duyguları yansıtan yanıtlar sunma
  - Gerçek zamanlı ses etkinliği tespiti: kullanıcının sözünü kesmeden konuşma imkânı

Ses-doğal modeller: konuşma tabanlı sesin geleceği

Cascading mimarinin sınırlarını aşmak:
- Sese özel STS modelleri:
  - Kyutai Moshi: açık kaynak model
  - Alibaba SenseVoice & CosyVoice: sese odaklı modeller
  - Hume Empathetic Voice Interface: duygusal yanıt işleme
OpenAI’nin Realtime API’si:
- GPT-4o tabanlı Speech-to-Speech etkileşimini destekliyor

Sektörel benimsemedeki temel zorluklar

Sesli ajanların benimsenmesini engelleyen üç ana unsur

Kalite (Quality):
- Birçok sesli yapay zeka ajanı, hâlâ pek çok kullanım senaryosunda güvenilir olacak kadar istikrarlı değil.
- Şirketler genelde sesli ajanları düşük riskli ortamlarda pilot olarak kullanıyor:
  - Örnek: küçük bir çatı tamir şirketinin mesai dışı çağrıları karşılamak için ajan kullanması
  - Daha yüksek değerli kullanım alanlarına geçildikçe kalite çıtası daha da yükseliyor
  - Örnek: tek bir müşteri aramasının 30 bin dolarlık projeye dönüşebildiği durumda, başarısız çağrıya tolerans çok düşük olur
Güven (Trust):
- Müşteriler, mevcut IVR teknolojisi nedeniyle zaten çok sayıda olumsuz deneyim yaşadı:
  - Yavaş yanıtlar, verimsiz menü yapısı, doğal konuşma eksikliği
- Şirketlerin, AI’ın müşteri taleplerini doğru ve hızlı biçimde işleyebileceğine dair güven oluşturması gerekiyor
Güvenilirlik (Reliability):
- Başlıca şikâyet örnekleri:
  - Çağrının düşmesi: görüşmenin kesilmesi müşteride hayal kırıklığı yaratır
  - Halüsinasyon (Hallucination): AI’ın hatalı veya alakasız cevaplar vermesi
  - Yanıt gecikmesi (latency): işlem süresinin uzaması müşteri kaybına yol açar

Sorunları çözmek için ilerleme yönleri

Gecikme ve güvenilirliği optimize etme:
- Daha güvenilir altyapı sunan geliştirici platformları artıyor; odak noktası gecikmeyi azaltmak ve konuşma kesintilerini önlemek
Başarısızlık durumunda zarif toparlanma (Fail Gracefully):
- Çağrı başarısız olduğunda konuşma akışını doğal biçimde geri kazanma: müşteri deneyimindeki kesintiyi en aza indirir
Konuşma orkestrasyonu:
- AI ajanlarının öngörülebilir akışları takip edecek şekilde tasarlanması: halüsinasyonları en aza indirme, müşteriye verilebilecek bilgi ve konuşma kapsamı için guardrail belirleme

Sesli yapay zeka pazar haritası

Sesli yapay zeka pazarında temel modellerden ses altyapısına, geliştirici platformlarına ve uygulamalara kadar farklı katmanlarda yenilik yaşanıyor
Özellikle aşağıdaki üç temel alanda dikkat çekici fırsatlar öne çıkıyor

1. Modeller (Models)

İşlev: ses tabanlı kullanım senaryolarını destekleyen teknolojiler inşa eder; SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech) gibi belirli teknolojilere odaklanır
Gelecek yönü:
- Multimodal ve ses-doğal modeller liderlik edecek
- Metin ile ses arasında dönüşüm yapmadan sesi doğrudan işleyebilen teknolojiler kritik olacak
Yeni nesil modeller:
- Cartesia gibi şirketler, State Space Models (SSMs) kullanan yeni mimarilere öncülük ediyor
- Basit konuşma işlemlerini küçük modellere, karmaşık görevleri güçlü modellere ayırarak gecikme (latency) ve maliyetin düşmesi bekleniyor

2. Geliştirici platformları (Developer Platforms)

Sesli yapay zeka ajanı oluşturmak ve gerçek zamanlı ses altyapısını yönetmek, geliştiriciler için hâlâ büyük bir teknik zorluk. Yeni platformlar bu karmaşıklığı çözerken geliştiricilere çeşitli destekler sunuyor
Gecikme ve güvenilirliği optimize etme:
- Yüksek performanslı gerçek zamanlı sesli ajanları ölçeklenebilir şekilde yönetme
Konuşma sinyalleri ve sözsüz bağlamı yönetme:
- Kullanıcının konuşmasını bitirip bitirmediğini anlamaya yönelik "endpointing" tespiti
- Arka plan gürültüsünü filtreleme ve duygu/emosyon tespitini iyileştirme
Verimli hata yönetimi:
- Başarısız API çağrılarını tespit edip anında yeniden deneme
- Konuşmanın kesilmesini önlemek için yedek yanıt ekleme
Üçüncü taraf sistem entegrasyonu ve RAG desteği:
- Bilgi tabanları ve üçüncü taraf sistemlerle düşük gecikmeli entegrasyon ihtiyacı
Konuşma akışı kontrolü:
- Hassas veya regülasyona tabi konuşmaları işlemek için öngörülebilir konuşma akışları tasarlama
Gözlemlenebilirlik, analiz ve test:
- Konuşma kalitesi ve performansını büyük ölçekte izlemeyi sağlayan araç eksikliği sorununu çözme
Platform örneği Vapi: ses altyapısının karmaşıklığını azaltıp yüksek kaliteli sesli ajanların hızlıca geliştirilmesini destekler

3. Uygulamalar (Applications)

Sesi kullanan otomasyon ürünleri farklı alanlarda geliştiriliyor
En çok dikkat çeken uygulamaların özellikleri:
- Müşterinin işini tamamen üstlenip değerli sonuç üretmeleri
- Talep patlaması olduğunda aynı anda binlerce çağrıyı işleyebilecek ölçeklenebilirlik
- Belirli sektörlere özelleştirilmiş çözümler sunmaları
İşlev bazında başlıca fırsatlar
- Transkripsiyon (Transcription): görüşme notları oluşturma, sonraki adımları önerme
- Inbound Calling: rezervasyon yönetimi, potansiyel müşteri dönüşümü, müşteri başarı yönetimi
- Outbound Calling: aday eleme, randevu teyidi
- Eğitim (Training): satış veya mülakat eğitimi
- Müzakere (Negotiation): satın alma pazarlıkları, sigorta anlaşmazlıkları, sözleşme ayarlamaları
Yatırım örnekleri
- Abridge: sağlık görüşmelerinin dokümantasyonu
- Rilla: saha satış koçluğu
- Rev: sektörler genelinde AI ve insan iş birliğine dayalı transkripsiyon

Somut uygulama örnekleri

Sektöre özel çözüm Sameday AI: ev hizmetleri sektörü için AI satış ajanı. Müşteri çağrısını alma → soruna göre fiyat teklifi verme → takvim planlama → ödemenin tamamlanmasına kadar otomasyon
Outbound Calling Wayfaster: işe alım sürecini otomatikleştirir. Aday eleme aramalarını otomatik yürüterek en iyi adaylara odaklanılmasını sağlar
Sağlık sigorta pazarlığı: LLM kullanarak binlerce sigorta belgesi ve hasta kaydını analiz etme, gerçek zamanlı pazarlık desteği sağlama

Voice AI teknolojisine yatırım ilkeleri

Voice AI ekosisteminde en büyük girişim fırsatları geliştirici platformları ile uygulama katmanında bulunuyor
Modellerdeki hızlı gelişim sayesinde girişimciler, düşük başlangıç yatırımıyla etkili bir MVP’yi (minimum uygulanabilir ürün) hızla geliştirip test edebiliyor
1. Sektörel iş akışlarına ve çoklu modaliteye derin entegrasyon sağlayan çözümler
- En etkili sesli yapay zeka uygulamaları, belirli sektörlerin iş akışlarına derinlemesine entegre olur
- Her sektörün kendine özgü dili ve konuşma biçimine göre uyarlanır
- Örnek:
  - Otomobil bayileri için bir sesli ajanın CRM ile entegre olup geçmiş müşteri etkileşim verilerini kullanarak hizmet kalitesini iyileştirmesi ve dağıtım hızını artırması
  - Ses, metin ve görsel gibi farklı modaliteleri birleştirerek daha karmaşık, çok aşamalı insan süreçlerini çözmesi
2. Sağlam mühendislikle yüksek kaliteli ürün sunma
- Hackathon demosu üretmek görece kolay olsa da gerçek ürünler yüksek güvenilirlik, ölçeklenebilirlik ve gerçek kullanım senaryolarını işleme yeteneği gerektirir
- Kurumsal gereksinimler: tutarlı performans sunma, düşük gecikme (latency) garantisi, mevcut sistemlerle sorunsuz entegrasyon
- Temel tasarım unsurları: öngörülemeyen ses girdilerini işleme, güvenliği güçlendirme, yüksek çalışma süresi (uptime) sağlama
3. Büyüme, müşteri tutma ve ürün kalitesi KPI’ları arasında denge
- Sesli ajanlar, gelir odaklı işlevlerde (ör. satış) güçlü büyüme potansiyeline sahip
- Müşteriler çekirdek iş akışlarını insandan ajana kaydırdığında kalite düşüşü, yüksek iptal oranına (churn) yol açabilir

Önemli KPI’lar ve kalite göstergeleri

Churn (müşteri kayıp oranı):
- Erken aşamada birçok ses uygulaması yüksek kayıp oranı nedeniyle zorlanıyor
- Güvenilir olmayan hizmetler yüzünden müşterilerin rakiplere geçmesiyle ortaya çıkar
Self-Serve Resolution (kendi kendine çözüm oranı):
- Sesli ajanın, insan müdahalesi olmadan kullanıcının sorununu ne kadar etkili çözdüğünü gösterir
Customer Satisfaction Score (müşteri memnuniyeti puanı):
- Sesli ajanla etkileşen müşterilerin genel memnuniyetini ölçer ve kalite içgörüsü sağlar
Call Termination Rates (çağrı sonlandırma oranı):
- Yüksek sonlandırma oranı, kullanıcı deneyimindeki sorunlara ve çözülmemiş meselelere işaret eder
Cohort Call Volume Expansion (kohort çağrı hacmi genişlemesi):
- Müşterilerin zaman içinde sesli ajan kullanımını artırıp artırmadığını ölçer; ürün değeri ve kullanıcı etkileşiminin göstergesidir

Voice AI’ın geleceği

Son birkaç yıldaki teknolojik gelişmeler, karmaşık sorunları çözen yenilikçi ürünler geliştirme imkânı açtı
Gelecekte multimodal ve gerçek zamanlı konuşma sistemlerinin farklı sektörlerde daha fazla sorunu çözmesi bekleniyor

1 yorum

xguru 2024-11-28

Eskiden IVR tarafında çalıştığım için sanırım bu alana çok ilgim var :)

a16z’nin derlediği AI Voice agent’larıyla ilgili her şey yazısına da göz atın