- Voice AI, basit bir UI yükseltmesi değil; işletmelerle müşteriler arasındaki bağlantı kurma biçimini dönüştüren bir yenilik
- Havayolu müşteri hizmetlerinde olduğu gibi uzun bekleme süreleri, tekrarlayan menü seçimleri ve müşterinin durumunu anlayamama; sorun çözmeden gereksiz stres ve zaman kaybı yaratıyor
- Voice AI sayesinde, mevcut katı IVR sistemlerinden (otomatik sesli yanıt) farklı olarak insan gibi konuşan ve müşteri deneyimini kişiselleştiren bir deneyim 24 saat sunulabilir
- Müşterinin durumunu anında anlayıp en uygun alternatifi sunabilir
- Örnek: iptal edilen uçuşu otomatik olarak yeniden rezerve etme, müşteri tercihine göre alternatif önerme
- Bazı durumlarda müşteriler, insan yerine AI ajanını tercih edebilir
- Voice AI, yüksek talep ve müşteri beklentilerini karşılarken operasyonel verimliliği de artırır
- Voice AI, ses-doğal AI modelleri ile multimodal teknolojilerin birleşimidir
Sesli iletişimin dev pazarı
- İnsanlar konuşmayı tercih eder:
- Her gün milyarlarca telefon görüşmesi yapılıyor
- Metin, e-posta ve sosyal medya yaygınlaşmış olsa da telefon, birçok işletmede hâlâ başlıca iletişim aracı
- Sağlık, hukuk hizmetleri, ev hizmetleri, sigorta ve lojistik gibi farklı sektörlerde karmaşık bilgi aktarımı, kişiselleştirilmiş hizmet sunumu ve acil durumların çözümü için vazgeçilmezdir
- Mevcut telefon iletişiminin sorunları
- Düşük cevaplama oranı:
- SMB’lerin (KOBİ) %62’si çağrıları kaçırdığı için müşteri taleplerini karşılayamıyor ve iş fırsatlarını kaybediyor
- Yaygın sorunlar:
- Mesai saatleri dışında sesli mesaja düşme
- Aynı anda yalnızca tek çağrı işleyebilme
- Destek kalitesinde tutarsızlık
- Teknik kısıtlar:
- IVR sistemleri (1970’lerde kullanıma girdi):
- Yalnızca önceden tanımlanmış komutları işler, esnekliği düşüktür: "Rezervasyon yapmak için 1’e basın" "Yardım almak istediğiniz konuyu kısa bir kelimeyle söyleyin"
- Müşteri niyetini veya aciliyetini anlayamaz
- Müşteri deneyiminde bozulma:
- Uzun bekleme süreleri
- Verimsiz menü dolaşımı
- Sorunu çözememe
- Yüksek talebe rağmen:
- Mevcut teknoloji, müşteri sorunlarını verimli ve sorunsuz şekilde çözmede sınırlı kalıyor
- Daha gelişmiş ses otomasyonu teknolojilerine ihtiyaç var
[Voice teknolojisi geliştirmenin tam zamanı olmasının nedeni]
Ses teknolojisinin evrimi
- İlk IVR sistemleri:
- 1970’lerde kullanıma giren IVR (Interactive Voice Response) teknolojisi:
- Yalnızca önceden tanımlanmış komutları işleyebiliyordu
- Kullanıcının niyetini ve aciliyetini anlayamıyordu
- Sevilmeyen bir teknoloji olmasına rağmen hâlâ 5 milyar dolarlık bir pazar
- ASR/STT teknolojilerinin ortaya çıkışı:
- Otomatik konuşma tanıma (ASR) ve konuşmadan metne (STT) modelleri:
- Sesi gerçek zamanlı olarak metne çeviren teknoloji
- Gong, Rev, DeepL gibi girişimlerin ortaya çıkışı
- OpenAI’nin Whisper modeli (2022) ve Rev’in Reverb’ü (2024):
- Aksan, arka plan gürültüsü ve duygular gibi unsurları işleyebilen doğal konuşma sistemlerini destekledi
- Son yenilikler: sesli yapay zekadaki ilerleme:
- Duygusal açıdan zengin ses üreten Text-To-Speech (TTS) modellerinin geliştirilmesi:
- Multimodal yetenekler:
- Google Gemini 1.5: ses, metin ve görsel girdiyi birleştiriyor
- OpenAI’nin Voice Engine’i: insan konuşmasını taklit eden ses üretimi
- GPT-4o’nun çıkışı:
- Gerçek zamanlı ses, görme ve metnin yerel olarak entegre edilmesi
- Karmaşık konuşmaları işleyebilme ve akıllı yanıt verebilme
Son yeniliklerin tetiklediği iki temel ilerleme
- Yüksek kaliteli modellerin yaygınlaşması ve uygulama geliştirme:
- Mevcut "cascading" mimarinin sınırları:
- STT → LLM → TTS dönüşüm sürecinde gecikme ve metin dışı bilgi kaybı
- Yüksek yanıt gecikmesi (latency) nedeniyle olumsuz kullanıcı deneyimi
- Yeni modeller:
- GPT-4 Turbo: gecikmeyi azaltıyor
- Kullanım senaryosuna göre model seçimi mümkün
- Speech-to-Speech (STS) modellerinin yükselişi:
- Sesi metne dönüştürmeden doğrudan işleme:
- Ultra düşük gecikme: yaklaşık 300 ms yanıt süresiyle doğal konuşma
- Bağlam anlayışı: önceki konuşma bilgisini koruma, niyet ve duygu kavrama
- Duygu ve ton tanımada iyileşme: duyguları yansıtan yanıtlar sunma
- Gerçek zamanlı ses etkinliği tespiti: kullanıcının sözünü kesmeden konuşma imkânı
Ses-doğal modeller: konuşma tabanlı sesin geleceği
- Cascading mimarinin sınırlarını aşmak:
- Sese özel STS modelleri:
- Kyutai Moshi: açık kaynak model
- Alibaba SenseVoice & CosyVoice: sese odaklı modeller
- Hume Empathetic Voice Interface: duygusal yanıt işleme
- OpenAI’nin Realtime API’si:
- GPT-4o tabanlı Speech-to-Speech etkileşimini destekliyor
Sektörel benimsemedeki temel zorluklar
Sesli ajanların benimsenmesini engelleyen üç ana unsur
- Kalite (Quality):
- Birçok sesli yapay zeka ajanı, hâlâ pek çok kullanım senaryosunda güvenilir olacak kadar istikrarlı değil.
- Şirketler genelde sesli ajanları düşük riskli ortamlarda pilot olarak kullanıyor:
- Örnek: küçük bir çatı tamir şirketinin mesai dışı çağrıları karşılamak için ajan kullanması
- Daha yüksek değerli kullanım alanlarına geçildikçe kalite çıtası daha da yükseliyor
- Örnek: tek bir müşteri aramasının 30 bin dolarlık projeye dönüşebildiği durumda, başarısız çağrıya tolerans çok düşük olur
- Güven (Trust):
- Müşteriler, mevcut IVR teknolojisi nedeniyle zaten çok sayıda olumsuz deneyim yaşadı:
- Yavaş yanıtlar, verimsiz menü yapısı, doğal konuşma eksikliği
- Şirketlerin, AI’ın müşteri taleplerini doğru ve hızlı biçimde işleyebileceğine dair güven oluşturması gerekiyor
- Güvenilirlik (Reliability):
- Başlıca şikâyet örnekleri:
- Çağrının düşmesi: görüşmenin kesilmesi müşteride hayal kırıklığı yaratır
- Halüsinasyon (Hallucination): AI’ın hatalı veya alakasız cevaplar vermesi
- Yanıt gecikmesi (latency): işlem süresinin uzaması müşteri kaybına yol açar
Sorunları çözmek için ilerleme yönleri
- Gecikme ve güvenilirliği optimize etme:
- Daha güvenilir altyapı sunan geliştirici platformları artıyor; odak noktası gecikmeyi azaltmak ve konuşma kesintilerini önlemek
- Başarısızlık durumunda zarif toparlanma (Fail Gracefully):
- Çağrı başarısız olduğunda konuşma akışını doğal biçimde geri kazanma: müşteri deneyimindeki kesintiyi en aza indirir
- Konuşma orkestrasyonu:
- AI ajanlarının öngörülebilir akışları takip edecek şekilde tasarlanması: halüsinasyonları en aza indirme, müşteriye verilebilecek bilgi ve konuşma kapsamı için guardrail belirleme
Sesli yapay zeka pazar haritası
- Sesli yapay zeka pazarında temel modellerden ses altyapısına, geliştirici platformlarına ve uygulamalara kadar farklı katmanlarda yenilik yaşanıyor
- Özellikle aşağıdaki üç temel alanda dikkat çekici fırsatlar öne çıkıyor
1. Modeller (Models)
- İşlev: ses tabanlı kullanım senaryolarını destekleyen teknolojiler inşa eder; SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech) gibi belirli teknolojilere odaklanır
- Gelecek yönü:
- Multimodal ve ses-doğal modeller liderlik edecek
- Metin ile ses arasında dönüşüm yapmadan sesi doğrudan işleyebilen teknolojiler kritik olacak
- Yeni nesil modeller:
- Cartesia gibi şirketler, State Space Models (SSMs) kullanan yeni mimarilere öncülük ediyor
- Basit konuşma işlemlerini küçük modellere, karmaşık görevleri güçlü modellere ayırarak gecikme (latency) ve maliyetin düşmesi bekleniyor
2. Geliştirici platformları (Developer Platforms)
- Sesli yapay zeka ajanı oluşturmak ve gerçek zamanlı ses altyapısını yönetmek, geliştiriciler için hâlâ büyük bir teknik zorluk. Yeni platformlar bu karmaşıklığı çözerken geliştiricilere çeşitli destekler sunuyor
- Gecikme ve güvenilirliği optimize etme:
- Yüksek performanslı gerçek zamanlı sesli ajanları ölçeklenebilir şekilde yönetme
- Konuşma sinyalleri ve sözsüz bağlamı yönetme:
- Kullanıcının konuşmasını bitirip bitirmediğini anlamaya yönelik "endpointing" tespiti
- Arka plan gürültüsünü filtreleme ve duygu/emosyon tespitini iyileştirme
- Verimli hata yönetimi:
- Başarısız API çağrılarını tespit edip anında yeniden deneme
- Konuşmanın kesilmesini önlemek için yedek yanıt ekleme
- Üçüncü taraf sistem entegrasyonu ve RAG desteği:
- Bilgi tabanları ve üçüncü taraf sistemlerle düşük gecikmeli entegrasyon ihtiyacı
- Konuşma akışı kontrolü:
- Hassas veya regülasyona tabi konuşmaları işlemek için öngörülebilir konuşma akışları tasarlama
- Gözlemlenebilirlik, analiz ve test:
- Konuşma kalitesi ve performansını büyük ölçekte izlemeyi sağlayan araç eksikliği sorununu çözme
- Platform örneği Vapi: ses altyapısının karmaşıklığını azaltıp yüksek kaliteli sesli ajanların hızlıca geliştirilmesini destekler
3. Uygulamalar (Applications)
- Sesi kullanan otomasyon ürünleri farklı alanlarda geliştiriliyor
- En çok dikkat çeken uygulamaların özellikleri:
- Müşterinin işini tamamen üstlenip değerli sonuç üretmeleri
- Talep patlaması olduğunda aynı anda binlerce çağrıyı işleyebilecek ölçeklenebilirlik
- Belirli sektörlere özelleştirilmiş çözümler sunmaları
- İşlev bazında başlıca fırsatlar
- Transkripsiyon (Transcription): görüşme notları oluşturma, sonraki adımları önerme
- Inbound Calling: rezervasyon yönetimi, potansiyel müşteri dönüşümü, müşteri başarı yönetimi
- Outbound Calling: aday eleme, randevu teyidi
- Eğitim (Training): satış veya mülakat eğitimi
- Müzakere (Negotiation): satın alma pazarlıkları, sigorta anlaşmazlıkları, sözleşme ayarlamaları
- Yatırım örnekleri
- Abridge: sağlık görüşmelerinin dokümantasyonu
- Rilla: saha satış koçluğu
- Rev: sektörler genelinde AI ve insan iş birliğine dayalı transkripsiyon
Somut uygulama örnekleri
- Sektöre özel çözüm Sameday AI: ev hizmetleri sektörü için AI satış ajanı. Müşteri çağrısını alma → soruna göre fiyat teklifi verme → takvim planlama → ödemenin tamamlanmasına kadar otomasyon
- Outbound Calling Wayfaster: işe alım sürecini otomatikleştirir. Aday eleme aramalarını otomatik yürüterek en iyi adaylara odaklanılmasını sağlar
- Sağlık sigorta pazarlığı: LLM kullanarak binlerce sigorta belgesi ve hasta kaydını analiz etme, gerçek zamanlı pazarlık desteği sağlama
Voice AI teknolojisine yatırım ilkeleri
- Voice AI ekosisteminde en büyük girişim fırsatları geliştirici platformları ile uygulama katmanında bulunuyor
- Modellerdeki hızlı gelişim sayesinde girişimciler, düşük başlangıç yatırımıyla etkili bir MVP’yi (minimum uygulanabilir ürün) hızla geliştirip test edebiliyor
- 1. Sektörel iş akışlarına ve çoklu modaliteye derin entegrasyon sağlayan çözümler
- En etkili sesli yapay zeka uygulamaları, belirli sektörlerin iş akışlarına derinlemesine entegre olur
- Her sektörün kendine özgü dili ve konuşma biçimine göre uyarlanır
- Örnek:
- Otomobil bayileri için bir sesli ajanın CRM ile entegre olup geçmiş müşteri etkileşim verilerini kullanarak hizmet kalitesini iyileştirmesi ve dağıtım hızını artırması
- Ses, metin ve görsel gibi farklı modaliteleri birleştirerek daha karmaşık, çok aşamalı insan süreçlerini çözmesi
- 2. Sağlam mühendislikle yüksek kaliteli ürün sunma
- Hackathon demosu üretmek görece kolay olsa da gerçek ürünler yüksek güvenilirlik, ölçeklenebilirlik ve gerçek kullanım senaryolarını işleme yeteneği gerektirir
- Kurumsal gereksinimler: tutarlı performans sunma, düşük gecikme (latency) garantisi, mevcut sistemlerle sorunsuz entegrasyon
- Temel tasarım unsurları: öngörülemeyen ses girdilerini işleme, güvenliği güçlendirme, yüksek çalışma süresi (uptime) sağlama
- 3. Büyüme, müşteri tutma ve ürün kalitesi KPI’ları arasında denge
- Sesli ajanlar, gelir odaklı işlevlerde (ör. satış) güçlü büyüme potansiyeline sahip
- Müşteriler çekirdek iş akışlarını insandan ajana kaydırdığında kalite düşüşü, yüksek iptal oranına (churn) yol açabilir
Önemli KPI’lar ve kalite göstergeleri
- Churn (müşteri kayıp oranı):
- Erken aşamada birçok ses uygulaması yüksek kayıp oranı nedeniyle zorlanıyor
- Güvenilir olmayan hizmetler yüzünden müşterilerin rakiplere geçmesiyle ortaya çıkar
- Self-Serve Resolution (kendi kendine çözüm oranı):
- Sesli ajanın, insan müdahalesi olmadan kullanıcının sorununu ne kadar etkili çözdüğünü gösterir
- Customer Satisfaction Score (müşteri memnuniyeti puanı):
- Sesli ajanla etkileşen müşterilerin genel memnuniyetini ölçer ve kalite içgörüsü sağlar
- Call Termination Rates (çağrı sonlandırma oranı):
- Yüksek sonlandırma oranı, kullanıcı deneyimindeki sorunlara ve çözülmemiş meselelere işaret eder
- Cohort Call Volume Expansion (kohort çağrı hacmi genişlemesi):
- Müşterilerin zaman içinde sesli ajan kullanımını artırıp artırmadığını ölçer; ürün değeri ve kullanıcı etkileşiminin göstergesidir
Voice AI’ın geleceği
- Son birkaç yıldaki teknolojik gelişmeler, karmaşık sorunları çözen yenilikçi ürünler geliştirme imkânı açtı
- Gelecekte multimodal ve gerçek zamanlı konuşma sistemlerinin farklı sektörlerde daha fazla sorunu çözmesi bekleniyor
1 yorum
Eskiden IVR tarafında çalıştığım için sanırım bu alana çok ilgim var :)
a16z’nin derlediği AI Voice agent’larıyla ilgili her şey yazısına da göz atın