Tezimiz - "Neden ses?"
- Ses, yapay zekanın kullanım alanları açısından güçlü bir atılım işlevi görüyor
- Şirketler açısından yapay zeka sayesinde iş gücü ikame edilebilir ve 24 saat müşteri yanıtı mümkün hale gelir
- Tüketiciler açısından da sesin başlıca yapay zeka arayüzü olacağına dair bir beklenti var
- Şu anda, yapay zeka ses altyapısının belli ölçüde yerleştiği ve farklı uygulamalarda sesin ciddi biçimde kullanılmaya başlandığı bir noktadayız
- Model performansı geliştikçe, sesin başlı başına ürün olmaktan çıkıp pazara giriş için bir "wedge" işlevi göreceğine dair bir görüş bulunuyor
Şimdiye kadar duyurulan yenilikler
- Mayıs 2024: OpenAI, gerçek zamanlı sesli etkileşim yeteneğini sunan GPT-4o voice’u yayınladı; Cartesia da Sonic’i duyurdu
- Haziran 2024: Character, sesli arama özelliğini beta olarak sundu; Apple, Siri’ye ChatGPT entegrasyonunu açıkladı
- Temmuz 2024: OpenAI, Advanced Voice’u kademeli olarak kullanıma sundu; Speechmatics, Flow modelini tanıttı
- Ağustos 2024: Amazon, Claude’u Alexa’ya entegre etti; Meta, ünlü seslerini kullanan yapay zeka arkadaşlar sundu
- Eylül 2024: NotebookLM, Audio Overview ile dikkat çekti; PlayHT, 2.0 modelini tanıttı
- Ekim 2024: OpenAI, gerçek zamanlı API’yi yayınladı; Kyutai, Moshi modelini duyurdu
- Kasım 2024: ElevenLabs, Conversational AI’ı yayınladı; NVIDIA, Fugatto modelini duyurdu; Gemini Live, gerçek zamanlı uygulamasını sundu
- Aralık 2024: ChatGPT Advanced Voice Mode’a internet araması eklendi; 1-800-CHATGPT’nin çıkışı büyük ilgi gördü
Ne değişti?
- Model altyapısı sadeleşti ve düşük gecikme ile yüksek performans sunan ses ajanları ortaya çıktı
- Son 6 aydaki yeni nesil konuşma modelleri, bu performans artışının başlıca itici gücü oldu
- Maliyetler de düşüyor; Aralık 2024’te OpenAI, GPT-4o gerçek zamanlı API fiyatlarını ciddi biçimde indirdi
- GPT-4o mini de gerçek zamanlı sürüm olarak sunuluyor
Mevcut durum
-
Model kalitesi
- Konuşma kalitesiyle ilgili sorunların çoğu (gecikme, araya girebilme, duygu ifadesi vb.) büyük ölçüde çözülmüş durumda
- OpenAI’nin gerçek zamanlı ses modeli ve diğer modellerdeki ilerlemeler sayesinde, çağrı merkezi/BPO’dan daha yüksek performans gösteren örnekler de var
-
GTM (go-to-market)
- Ajan ürünleri, insan iş gücünü doğrudan ikame ederek hızla yayılabilir
- Ancak giriş engeli düşüktür ve muhafazakâr büyük kurumlarda benimseme bariyeri yüksektir
- Başarının temel unsurları GTM uygulama gücü ve sonraki ürün aşamasıdır (act 2)
-
Gelir yaratma
- Başlangıçta model, dakika başı ücretlendirmeye dayanıyordu; ancak model maliyetleri hızla düştükçe fiyat baskısı arttı
- Gelecekte platform ücreti + kullanıma dayalı hibrit fiyatlandırma modellerinin ortaya çıkması bekleniyor
-
Rekabet dinamikleri
- Kurumsal ses ajanları alanında, geliştirici odaklı platformlar, no-code türü genel amaçlı platformlar ve belirli sektörlere özel çözümler birbiriyle rekabet ediyor
- Rekabetin daha da sertleşmesi bekleniyor
Pazarın evrimi
- 2024’ün ikinci yarısında ses ajanı pazarı hızla büyüdü
- Çok sayıda ürün, ses özellikleri ekleme eğiliminde
- Konuşma odaklı ses yığınının farklı katmanlarında hem yeni yatırımlar hem de gerçek müşteri kazanımları yoğun biçimde yaşanıyor
- Özellikle büyük şirketlerde, insan çağrı işlerini tamamen yapay zekaya devretmek yerine önce belirli çağrı türleriyle başlayıp zamanla kapsamı genişletme eğilimi görülüyor
- Gece ve aşırı yük çağrıları: Normalde sesli mesaja düşecek aramalar, yapay zeka tarafından karşılanarak belli düzeyde bilgi toplama ve işlem tamamlama mümkün oluyor
- Yeni outbound çağrılar: Ekonomik olmadığı için daha önce yapılmayan aramalar mümkün hale geliyor; bu da ek gelir veya maliyet tasarrufu sağlayabiliyor
- "Back-office" çağrıları: Başka şirketleri veya kurumları aramayı gerektiren işlerin otomasyonu, verimliliği artırabiliyor
Pazarın evrimi - yatırım örnekleri
-
Model şirketleri
- ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI gibi şirketlerde seed ve Series B turları boyunca büyük yatırım haberleri gelmeye devam etti
-
Genel amaçlı platformlar
- Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland gibi şirketler Series A-C yatırım turları aldı
- Belirli sektörlere odaklanan 11x, Decagon, Sierra, Artisan gibi girişimler de dikkat çekiyor; bunlar satış ve müşteri desteği gibi alanlara yoğunlaşıyor
- Vapi ve Retell AI gibi geliştirici platformları da ortaya çıktı
-
Dikey platformlar
- Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad gibi girişimler; sağlık, insan kaynakları ve acil durum müdahalesi gibi uzmanlaşmış alanlarda yatırım aldı
- Wayfaster ve HappyRobot da lojistik ve mülakat gibi alanlarda yatırım toplamayı başardı
Önemli dikey pazarlar
- Ses ajanlarının ilk benimsenmesinin en olası olduğu alanlar, çağrı merkezi/BPO harcamalarının yüksek olduğu sektörlerdir
- Finans, sigorta, B2C, B2B, kamu ve sağlık gibi başlıca sektörlerin her birinin kendine özgü ses çözümleri edinmesi muhtemeldir
- Aşağıdaki alanlarda kurucuların yoğun girişimlerde bulunması bekleniyor
- Financial services (ör. borç tahsilatı)
- Insurance (müşteri etkileşimi ve back-office)
- Government
- Support services (uzman bilgi gerektiren IT desteği gibi karmaşık müşteri hizmetleri)
- Çağrı merkezi kategorisinin ötesindeki alanlarda da, yüksek maaşlı rollere yönelik koçluk/eğitim amaçlı yapay zeka ses ajanlarına ödeme isteği olduğu görülüyor
- Gerçekçi ses ajanları birer "simülatör" gibi çalışarak iş yetkinliğini büyük ölçüde artırabilir
- Böylece satış koçu gibi insan maliyetleri ya da mevcut düşük verimli yazılımların yerini alabilirler
İzlenmesi gereken dikeyler - YC şirket eğilimleri
- YC’ye katılan ses ajanı şirketlerinin sayısı hızla artıyor
- B2B (~69%) ve sağlık (~18%) başı çekiyor; B2B alt alanlarında fintech ve müşteri desteği odaklı çok sayıda girişim bulunuyor
- Sağlık alanı, front-office (hasta odaklı) ve back-office (eczaneler, sigorta şirketleri vb. odaklı) olarak ayrılıyor
- Genel olarak startup’lar, ses ajanlarıyla farklı sektörlerdeki sorunları çözmeye çalışıyor
Aradığımız şeyler
- Telefonun temel kanal olduğu ya da regülasyon/verimlilik açısından telefonun en uygun olduğu sektörler
- Telefonun müşteri demosu için birincil araç olduğu durumlar (ör. lojistik)
- Regülasyon nedeniyle görüşmenin daha etkili olduğu alanlar (ör. borç tahsilatı)
- Diğer yaklaşımlara göre başarı oranının daha yüksek olduğu alanlar (ör. sağlık)
- Çağrı yapısının net ve ölçülebilir olması gerekir
- Toplanması gereken veri noktaları veya iletilmesi gereken bilgiler açık olmalıdır
- Sonuçlar kolay ölçülebilmelidir; böylece şirketler yapay zeka ses ajanı kullanımını rahatça değerlendirebilir
- İnsan iş gücü maliyetlerinde %50’den fazla tasarruf sağlarken insan benzeri sonuçlar üretmelidir
- Yerine geçen iş gücünün net olduğu veya yeniden konumlandırılabildiği senaryolarda benimseme daha kolaydır
- Kurum içinde yapay zeka şüpheciliği olabileceği için ROI’nin çok yüksek olması gerekir
- Çağrı, müşteri için "hayati" bir mesele olsa da arayan ya da aranan tarafın başarısızlığı tolere edebildiği bir ortam olmalıdır
- Çoğu zaman gece/aşırı yük aramaları ya da "subprime" aramalarla başlanır
- Performans çıtasının düşük olduğu alanlarda yapay zekanın giriş yapması daha kolaydır
- Doğrudan gelir üretimi (ör. yeni rezervasyonlar, ödemeler) veya yüksek maliyetli alanlarda (ör. drive-thru) çağrı verimliliği etkisi büyüktür
- SMB/mid-market’e girmek için basit VoIP entegrasyonu veya self-setup mümkün olmalıdır
- Enterprise tarafında, ilk entegrasyon ne kadar karmaşıksa giriş engeli de o kadar yükselir; ancak iyi kurulursa rekabet avantajına dönüşür
- Ya da düşük entegrasyon karmaşıklığıyla kolay başlayıp zaman içinde genişlemek mümkün olabilir
- Genel olarak, hem yüksek başarı oranı hem de büyük maliyet tasarrufu sağlayan çözümlere pazarda yoğun ilgi var
Vaka çalışması - yapay zeka sesli mülakatlar
- İlk bakışta, karmaşıklığı ve hassasiyeti yüksek işe alım mülakatlarında yapay zeka sesi kullanmak şaşırtıcı görünebilir
- Ancak staffing sektöründe büyük hacimli ve tekrarlayan mülakatları yönetmede çok etkili olduğu görüldü
- Aday deneyimini bozmadan daha hızlı ve daha tutarlı mülakatlar yapmak mümkün hale geldi
- Yapay zeka gerektiğinde anında mülakat gerçekleştirebilir veya dil/aksan engelleri olmadan adayları değerlendirebilir
- Özellikle teknik roller için, yapay zekanın sıradan bir İK çalışanından daha doğru değerlendirme yapabildiğine dair geri bildirimler var
- Şirketler, mülakatı geçen aday oranının yükseldiğini ve aday eşleştirme sürecinin hızlandığını gözlemliyor
1 yorum
a16z'nin derlediği AI Voice agent’ları hakkında bilmeniz gereken her şey