13 puan yazan xguru 2024-11-28 | 1 yorum | WhatsApp'ta paylaş
  • Voice AI, basit bir UI yükseltmesi değil; işletmelerle müşteriler arasındaki bağlantı kurma biçimini dönüştüren bir yenilik
    • Havayolu müşteri hizmetlerinde olduğu gibi uzun bekleme süreleri, tekrarlayan menü seçimleri ve müşterinin durumunu anlayamama; sorun çözmeden gereksiz stres ve zaman kaybı yaratıyor
    • Voice AI sayesinde, mevcut katı IVR sistemlerinden (otomatik sesli yanıt) farklı olarak insan gibi konuşan ve müşteri deneyimini kişiselleştiren bir deneyim 24 saat sunulabilir
      • Müşterinin durumunu anında anlayıp en uygun alternatifi sunabilir
      • Örnek: iptal edilen uçuşu otomatik olarak yeniden rezerve etme, müşteri tercihine göre alternatif önerme
      • Bazı durumlarda müşteriler, insan yerine AI ajanını tercih edebilir
    • Voice AI, yüksek talep ve müşteri beklentilerini karşılarken operasyonel verimliliği de artırır
  • Voice AI, ses-doğal AI modelleri ile multimodal teknolojilerin birleşimidir

Sesli iletişimin dev pazarı

  • İnsanlar konuşmayı tercih eder:
    • Her gün milyarlarca telefon görüşmesi yapılıyor
    • Metin, e-posta ve sosyal medya yaygınlaşmış olsa da telefon, birçok işletmede hâlâ başlıca iletişim aracı
    • Sağlık, hukuk hizmetleri, ev hizmetleri, sigorta ve lojistik gibi farklı sektörlerde karmaşık bilgi aktarımı, kişiselleştirilmiş hizmet sunumu ve acil durumların çözümü için vazgeçilmezdir
  • Mevcut telefon iletişiminin sorunları
    • Düşük cevaplama oranı:
      • SMB’lerin (KOBİ) %62’si çağrıları kaçırdığı için müşteri taleplerini karşılayamıyor ve iş fırsatlarını kaybediyor
      • Yaygın sorunlar:
        • Mesai saatleri dışında sesli mesaja düşme
        • Aynı anda yalnızca tek çağrı işleyebilme
        • Destek kalitesinde tutarsızlık
    • Teknik kısıtlar:
      • IVR sistemleri (1970’lerde kullanıma girdi):
        • Yalnızca önceden tanımlanmış komutları işler, esnekliği düşüktür: "Rezervasyon yapmak için 1’e basın" "Yardım almak istediğiniz konuyu kısa bir kelimeyle söyleyin"
        • Müşteri niyetini veya aciliyetini anlayamaz
      • Müşteri deneyiminde bozulma:
        • Uzun bekleme süreleri
        • Verimsiz menü dolaşımı
        • Sorunu çözememe
  • Yüksek talebe rağmen:
    • Mevcut teknoloji, müşteri sorunlarını verimli ve sorunsuz şekilde çözmede sınırlı kalıyor
    • Daha gelişmiş ses otomasyonu teknolojilerine ihtiyaç var

[Voice teknolojisi geliştirmenin tam zamanı olmasının nedeni]

Ses teknolojisinin evrimi

  1. İlk IVR sistemleri:
  • 1970’lerde kullanıma giren IVR (Interactive Voice Response) teknolojisi:
    • Yalnızca önceden tanımlanmış komutları işleyebiliyordu
    • Kullanıcının niyetini ve aciliyetini anlayamıyordu
  • Sevilmeyen bir teknoloji olmasına rağmen hâlâ 5 milyar dolarlık bir pazar
  1. ASR/STT teknolojilerinin ortaya çıkışı:
  • Otomatik konuşma tanıma (ASR) ve konuşmadan metne (STT) modelleri:
    • Sesi gerçek zamanlı olarak metne çeviren teknoloji
    • Gong, Rev, DeepL gibi girişimlerin ortaya çıkışı
    • OpenAI’nin Whisper modeli (2022) ve Rev’in Reverb’ü (2024):
      • Aksan, arka plan gürültüsü ve duygular gibi unsurları işleyebilen doğal konuşma sistemlerini destekledi
  1. Son yenilikler: sesli yapay zekadaki ilerleme:
  • Duygusal açıdan zengin ses üreten Text-To-Speech (TTS) modellerinin geliştirilmesi:
  • Multimodal yetenekler:
    • Google Gemini 1.5: ses, metin ve görsel girdiyi birleştiriyor
    • OpenAI’nin Voice Engine’i: insan konuşmasını taklit eden ses üretimi
  • GPT-4o’nun çıkışı:
    • Gerçek zamanlı ses, görme ve metnin yerel olarak entegre edilmesi
    • Karmaşık konuşmaları işleyebilme ve akıllı yanıt verebilme

Son yeniliklerin tetiklediği iki temel ilerleme

  • Yüksek kaliteli modellerin yaygınlaşması ve uygulama geliştirme:
    • Mevcut "cascading" mimarinin sınırları:
      • STT → LLM → TTS dönüşüm sürecinde gecikme ve metin dışı bilgi kaybı
      • Yüksek yanıt gecikmesi (latency) nedeniyle olumsuz kullanıcı deneyimi
    • Yeni modeller:
      • GPT-4 Turbo: gecikmeyi azaltıyor
      • Kullanım senaryosuna göre model seçimi mümkün
  • Speech-to-Speech (STS) modellerinin yükselişi:
    • Sesi metne dönüştürmeden doğrudan işleme:
      • Ultra düşük gecikme: yaklaşık 300 ms yanıt süresiyle doğal konuşma
      • Bağlam anlayışı: önceki konuşma bilgisini koruma, niyet ve duygu kavrama
      • Duygu ve ton tanımada iyileşme: duyguları yansıtan yanıtlar sunma
      • Gerçek zamanlı ses etkinliği tespiti: kullanıcının sözünü kesmeden konuşma imkânı

Ses-doğal modeller: konuşma tabanlı sesin geleceği

  • Cascading mimarinin sınırlarını aşmak:
    • Sese özel STS modelleri:
      • Kyutai Moshi: açık kaynak model
      • Alibaba SenseVoice & CosyVoice: sese odaklı modeller
      • Hume Empathetic Voice Interface: duygusal yanıt işleme
  • OpenAI’nin Realtime API’si:
    • GPT-4o tabanlı Speech-to-Speech etkileşimini destekliyor

Sektörel benimsemedeki temel zorluklar

Sesli ajanların benimsenmesini engelleyen üç ana unsur

  • Kalite (Quality):
    • Birçok sesli yapay zeka ajanı, hâlâ pek çok kullanım senaryosunda güvenilir olacak kadar istikrarlı değil.
    • Şirketler genelde sesli ajanları düşük riskli ortamlarda pilot olarak kullanıyor:
      • Örnek: küçük bir çatı tamir şirketinin mesai dışı çağrıları karşılamak için ajan kullanması
      • Daha yüksek değerli kullanım alanlarına geçildikçe kalite çıtası daha da yükseliyor
      • Örnek: tek bir müşteri aramasının 30 bin dolarlık projeye dönüşebildiği durumda, başarısız çağrıya tolerans çok düşük olur
  • Güven (Trust):
    • Müşteriler, mevcut IVR teknolojisi nedeniyle zaten çok sayıda olumsuz deneyim yaşadı:
      • Yavaş yanıtlar, verimsiz menü yapısı, doğal konuşma eksikliği
    • Şirketlerin, AI’ın müşteri taleplerini doğru ve hızlı biçimde işleyebileceğine dair güven oluşturması gerekiyor
  • Güvenilirlik (Reliability):
    • Başlıca şikâyet örnekleri:
      • Çağrının düşmesi: görüşmenin kesilmesi müşteride hayal kırıklığı yaratır
      • Halüsinasyon (Hallucination): AI’ın hatalı veya alakasız cevaplar vermesi
      • Yanıt gecikmesi (latency): işlem süresinin uzaması müşteri kaybına yol açar

Sorunları çözmek için ilerleme yönleri

  • Gecikme ve güvenilirliği optimize etme:
    • Daha güvenilir altyapı sunan geliştirici platformları artıyor; odak noktası gecikmeyi azaltmak ve konuşma kesintilerini önlemek
  • Başarısızlık durumunda zarif toparlanma (Fail Gracefully):
    • Çağrı başarısız olduğunda konuşma akışını doğal biçimde geri kazanma: müşteri deneyimindeki kesintiyi en aza indirir
  • Konuşma orkestrasyonu:
    • AI ajanlarının öngörülebilir akışları takip edecek şekilde tasarlanması: halüsinasyonları en aza indirme, müşteriye verilebilecek bilgi ve konuşma kapsamı için guardrail belirleme

Sesli yapay zeka pazar haritası

  • Sesli yapay zeka pazarında temel modellerden ses altyapısına, geliştirici platformlarına ve uygulamalara kadar farklı katmanlarda yenilik yaşanıyor
  • Özellikle aşağıdaki üç temel alanda dikkat çekici fırsatlar öne çıkıyor

1. Modeller (Models)

  • İşlev: ses tabanlı kullanım senaryolarını destekleyen teknolojiler inşa eder; SST (Speech-to-Speech), LLS (Large Language Models), TTS (Text-to-Speech) gibi belirli teknolojilere odaklanır
  • Gelecek yönü:
    • Multimodal ve ses-doğal modeller liderlik edecek
    • Metin ile ses arasında dönüşüm yapmadan sesi doğrudan işleyebilen teknolojiler kritik olacak
  • Yeni nesil modeller:
    • Cartesia gibi şirketler, State Space Models (SSMs) kullanan yeni mimarilere öncülük ediyor
    • Basit konuşma işlemlerini küçük modellere, karmaşık görevleri güçlü modellere ayırarak gecikme (latency) ve maliyetin düşmesi bekleniyor

2. Geliştirici platformları (Developer Platforms)

  • Sesli yapay zeka ajanı oluşturmak ve gerçek zamanlı ses altyapısını yönetmek, geliştiriciler için hâlâ büyük bir teknik zorluk. Yeni platformlar bu karmaşıklığı çözerken geliştiricilere çeşitli destekler sunuyor
  • Gecikme ve güvenilirliği optimize etme:
    • Yüksek performanslı gerçek zamanlı sesli ajanları ölçeklenebilir şekilde yönetme
  • Konuşma sinyalleri ve sözsüz bağlamı yönetme:
    • Kullanıcının konuşmasını bitirip bitirmediğini anlamaya yönelik "endpointing" tespiti
    • Arka plan gürültüsünü filtreleme ve duygu/emosyon tespitini iyileştirme
  • Verimli hata yönetimi:
    • Başarısız API çağrılarını tespit edip anında yeniden deneme
    • Konuşmanın kesilmesini önlemek için yedek yanıt ekleme
  • Üçüncü taraf sistem entegrasyonu ve RAG desteği:
    • Bilgi tabanları ve üçüncü taraf sistemlerle düşük gecikmeli entegrasyon ihtiyacı
  • Konuşma akışı kontrolü:
    • Hassas veya regülasyona tabi konuşmaları işlemek için öngörülebilir konuşma akışları tasarlama
  • Gözlemlenebilirlik, analiz ve test:
    • Konuşma kalitesi ve performansını büyük ölçekte izlemeyi sağlayan araç eksikliği sorununu çözme
  • Platform örneği Vapi: ses altyapısının karmaşıklığını azaltıp yüksek kaliteli sesli ajanların hızlıca geliştirilmesini destekler

3. Uygulamalar (Applications)

  • Sesi kullanan otomasyon ürünleri farklı alanlarda geliştiriliyor
  • En çok dikkat çeken uygulamaların özellikleri:
    • Müşterinin işini tamamen üstlenip değerli sonuç üretmeleri
    • Talep patlaması olduğunda aynı anda binlerce çağrıyı işleyebilecek ölçeklenebilirlik
    • Belirli sektörlere özelleştirilmiş çözümler sunmaları
  • İşlev bazında başlıca fırsatlar
    • Transkripsiyon (Transcription): görüşme notları oluşturma, sonraki adımları önerme
    • Inbound Calling: rezervasyon yönetimi, potansiyel müşteri dönüşümü, müşteri başarı yönetimi
    • Outbound Calling: aday eleme, randevu teyidi
    • Eğitim (Training): satış veya mülakat eğitimi
    • Müzakere (Negotiation): satın alma pazarlıkları, sigorta anlaşmazlıkları, sözleşme ayarlamaları
  • Yatırım örnekleri
    • Abridge: sağlık görüşmelerinin dokümantasyonu
    • Rilla: saha satış koçluğu
    • Rev: sektörler genelinde AI ve insan iş birliğine dayalı transkripsiyon

Somut uygulama örnekleri

  • Sektöre özel çözüm Sameday AI: ev hizmetleri sektörü için AI satış ajanı. Müşteri çağrısını alma → soruna göre fiyat teklifi verme → takvim planlama → ödemenin tamamlanmasına kadar otomasyon
  • Outbound Calling Wayfaster: işe alım sürecini otomatikleştirir. Aday eleme aramalarını otomatik yürüterek en iyi adaylara odaklanılmasını sağlar
  • Sağlık sigorta pazarlığı: LLM kullanarak binlerce sigorta belgesi ve hasta kaydını analiz etme, gerçek zamanlı pazarlık desteği sağlama

Voice AI teknolojisine yatırım ilkeleri

  • Voice AI ekosisteminde en büyük girişim fırsatları geliştirici platformları ile uygulama katmanında bulunuyor
  • Modellerdeki hızlı gelişim sayesinde girişimciler, düşük başlangıç yatırımıyla etkili bir MVP’yi (minimum uygulanabilir ürün) hızla geliştirip test edebiliyor
  • 1. Sektörel iş akışlarına ve çoklu modaliteye derin entegrasyon sağlayan çözümler
    • En etkili sesli yapay zeka uygulamaları, belirli sektörlerin iş akışlarına derinlemesine entegre olur
    • Her sektörün kendine özgü dili ve konuşma biçimine göre uyarlanır
    • Örnek:
      • Otomobil bayileri için bir sesli ajanın CRM ile entegre olup geçmiş müşteri etkileşim verilerini kullanarak hizmet kalitesini iyileştirmesi ve dağıtım hızını artırması
      • Ses, metin ve görsel gibi farklı modaliteleri birleştirerek daha karmaşık, çok aşamalı insan süreçlerini çözmesi
  • 2. Sağlam mühendislikle yüksek kaliteli ürün sunma
    • Hackathon demosu üretmek görece kolay olsa da gerçek ürünler yüksek güvenilirlik, ölçeklenebilirlik ve gerçek kullanım senaryolarını işleme yeteneği gerektirir
    • Kurumsal gereksinimler: tutarlı performans sunma, düşük gecikme (latency) garantisi, mevcut sistemlerle sorunsuz entegrasyon
    • Temel tasarım unsurları: öngörülemeyen ses girdilerini işleme, güvenliği güçlendirme, yüksek çalışma süresi (uptime) sağlama
  • 3. Büyüme, müşteri tutma ve ürün kalitesi KPI’ları arasında denge
    • Sesli ajanlar, gelir odaklı işlevlerde (ör. satış) güçlü büyüme potansiyeline sahip
    • Müşteriler çekirdek iş akışlarını insandan ajana kaydırdığında kalite düşüşü, yüksek iptal oranına (churn) yol açabilir

Önemli KPI’lar ve kalite göstergeleri

  • Churn (müşteri kayıp oranı):
    • Erken aşamada birçok ses uygulaması yüksek kayıp oranı nedeniyle zorlanıyor
    • Güvenilir olmayan hizmetler yüzünden müşterilerin rakiplere geçmesiyle ortaya çıkar
  • Self-Serve Resolution (kendi kendine çözüm oranı):
    • Sesli ajanın, insan müdahalesi olmadan kullanıcının sorununu ne kadar etkili çözdüğünü gösterir
  • Customer Satisfaction Score (müşteri memnuniyeti puanı):
    • Sesli ajanla etkileşen müşterilerin genel memnuniyetini ölçer ve kalite içgörüsü sağlar
  • Call Termination Rates (çağrı sonlandırma oranı):
    • Yüksek sonlandırma oranı, kullanıcı deneyimindeki sorunlara ve çözülmemiş meselelere işaret eder
  • Cohort Call Volume Expansion (kohort çağrı hacmi genişlemesi):
    • Müşterilerin zaman içinde sesli ajan kullanımını artırıp artırmadığını ölçer; ürün değeri ve kullanıcı etkileşiminin göstergesidir

Voice AI’ın geleceği

  • Son birkaç yıldaki teknolojik gelişmeler, karmaşık sorunları çözen yenilikçi ürünler geliştirme imkânı açtı
  • Gelecekte multimodal ve gerçek zamanlı konuşma sistemlerinin farklı sektörlerde daha fazla sorunu çözmesi bekleniyor

1 yorum

 
xguru 2024-11-28

Eskiden IVR tarafında çalıştığım için sanırım bu alana çok ilgim var :)

a16z’nin derlediği AI Voice agent’larıyla ilgili her şey yazısına da göz atın