15 puan yazan xguru 2025-02-06 | 1 yorum | WhatsApp'ta paylaş

Tezimiz - "Neden ses?"

  • Ses, yapay zekanın kullanım alanları açısından güçlü bir atılım işlevi görüyor
  • Şirketler açısından yapay zeka sayesinde iş gücü ikame edilebilir ve 24 saat müşteri yanıtı mümkün hale gelir
  • Tüketiciler açısından da sesin başlıca yapay zeka arayüzü olacağına dair bir beklenti var
  • Şu anda, yapay zeka ses altyapısının belli ölçüde yerleştiği ve farklı uygulamalarda sesin ciddi biçimde kullanılmaya başlandığı bir noktadayız
  • Model performansı geliştikçe, sesin başlı başına ürün olmaktan çıkıp pazara giriş için bir "wedge" işlevi göreceğine dair bir görüş bulunuyor

Şimdiye kadar duyurulan yenilikler

  • Mayıs 2024: OpenAI, gerçek zamanlı sesli etkileşim yeteneğini sunan GPT-4o voice’u yayınladı; Cartesia da Sonic’i duyurdu
  • Haziran 2024: Character, sesli arama özelliğini beta olarak sundu; Apple, Siri’ye ChatGPT entegrasyonunu açıkladı
  • Temmuz 2024: OpenAI, Advanced Voice’u kademeli olarak kullanıma sundu; Speechmatics, Flow modelini tanıttı
  • Ağustos 2024: Amazon, Claude’u Alexa’ya entegre etti; Meta, ünlü seslerini kullanan yapay zeka arkadaşlar sundu
  • Eylül 2024: NotebookLM, Audio Overview ile dikkat çekti; PlayHT, 2.0 modelini tanıttı
  • Ekim 2024: OpenAI, gerçek zamanlı API’yi yayınladı; Kyutai, Moshi modelini duyurdu
  • Kasım 2024: ElevenLabs, Conversational AI’ı yayınladı; NVIDIA, Fugatto modelini duyurdu; Gemini Live, gerçek zamanlı uygulamasını sundu
  • Aralık 2024: ChatGPT Advanced Voice Mode’a internet araması eklendi; 1-800-CHATGPT’nin çıkışı büyük ilgi gördü

Ne değişti?

  • Model altyapısı sadeleşti ve düşük gecikme ile yüksek performans sunan ses ajanları ortaya çıktı
  • Son 6 aydaki yeni nesil konuşma modelleri, bu performans artışının başlıca itici gücü oldu
  • Maliyetler de düşüyor; Aralık 2024’te OpenAI, GPT-4o gerçek zamanlı API fiyatlarını ciddi biçimde indirdi
  • GPT-4o mini de gerçek zamanlı sürüm olarak sunuluyor

Mevcut durum

  • Model kalitesi

    • Konuşma kalitesiyle ilgili sorunların çoğu (gecikme, araya girebilme, duygu ifadesi vb.) büyük ölçüde çözülmüş durumda
    • OpenAI’nin gerçek zamanlı ses modeli ve diğer modellerdeki ilerlemeler sayesinde, çağrı merkezi/BPO’dan daha yüksek performans gösteren örnekler de var
  • GTM (go-to-market)

    • Ajan ürünleri, insan iş gücünü doğrudan ikame ederek hızla yayılabilir
    • Ancak giriş engeli düşüktür ve muhafazakâr büyük kurumlarda benimseme bariyeri yüksektir
    • Başarının temel unsurları GTM uygulama gücü ve sonraki ürün aşamasıdır (act 2)
  • Gelir yaratma

    • Başlangıçta model, dakika başı ücretlendirmeye dayanıyordu; ancak model maliyetleri hızla düştükçe fiyat baskısı arttı
    • Gelecekte platform ücreti + kullanıma dayalı hibrit fiyatlandırma modellerinin ortaya çıkması bekleniyor
  • Rekabet dinamikleri

    • Kurumsal ses ajanları alanında, geliştirici odaklı platformlar, no-code türü genel amaçlı platformlar ve belirli sektörlere özel çözümler birbiriyle rekabet ediyor
    • Rekabetin daha da sertleşmesi bekleniyor

Pazarın evrimi

  • 2024’ün ikinci yarısında ses ajanı pazarı hızla büyüdü
  • Çok sayıda ürün, ses özellikleri ekleme eğiliminde
  • Konuşma odaklı ses yığınının farklı katmanlarında hem yeni yatırımlar hem de gerçek müşteri kazanımları yoğun biçimde yaşanıyor
  • Özellikle büyük şirketlerde, insan çağrı işlerini tamamen yapay zekaya devretmek yerine önce belirli çağrı türleriyle başlayıp zamanla kapsamı genişletme eğilimi görülüyor
    • Gece ve aşırı yük çağrıları: Normalde sesli mesaja düşecek aramalar, yapay zeka tarafından karşılanarak belli düzeyde bilgi toplama ve işlem tamamlama mümkün oluyor
    • Yeni outbound çağrılar: Ekonomik olmadığı için daha önce yapılmayan aramalar mümkün hale geliyor; bu da ek gelir veya maliyet tasarrufu sağlayabiliyor
      • "Back-office" çağrıları: Başka şirketleri veya kurumları aramayı gerektiren işlerin otomasyonu, verimliliği artırabiliyor

Pazarın evrimi - yatırım örnekleri

  • Model şirketleri

    • ElevenLabs, Hume, PlayAI, Cartesia, WaveForms AI gibi şirketlerde seed ve Series B turları boyunca büyük yatırım haberleri gelmeye devam etti
  • Genel amaçlı platformlar

    • Kore, Rasa, Parloa, PolyAI, Synthflow, Thoughtly, Bland gibi şirketler Series A-C yatırım turları aldı
    • Belirli sektörlere odaklanan 11x, Decagon, Sierra, Artisan gibi girişimler de dikkat çekiyor; bunlar satış ve müşteri desteği gibi alanlara yoğunlaşıyor
    • Vapi ve Retell AI gibi geliştirici platformları da ortaya çıktı
  • Dikey platformlar

    • Hippocratic AI, Assort Health, Voicepanel, Letter, Solidroad gibi girişimler; sağlık, insan kaynakları ve acil durum müdahalesi gibi uzmanlaşmış alanlarda yatırım aldı
    • Wayfaster ve HappyRobot da lojistik ve mülakat gibi alanlarda yatırım toplamayı başardı

Önemli dikey pazarlar

  • Ses ajanlarının ilk benimsenmesinin en olası olduğu alanlar, çağrı merkezi/BPO harcamalarının yüksek olduğu sektörlerdir
  • Finans, sigorta, B2C, B2B, kamu ve sağlık gibi başlıca sektörlerin her birinin kendine özgü ses çözümleri edinmesi muhtemeldir
  • Aşağıdaki alanlarda kurucuların yoğun girişimlerde bulunması bekleniyor
    • Financial services (ör. borç tahsilatı)
    • Insurance (müşteri etkileşimi ve back-office)
    • Government
    • Support services (uzman bilgi gerektiren IT desteği gibi karmaşık müşteri hizmetleri)
  • Çağrı merkezi kategorisinin ötesindeki alanlarda da, yüksek maaşlı rollere yönelik koçluk/eğitim amaçlı yapay zeka ses ajanlarına ödeme isteği olduğu görülüyor
    • Gerçekçi ses ajanları birer "simülatör" gibi çalışarak iş yetkinliğini büyük ölçüde artırabilir
    • Böylece satış koçu gibi insan maliyetleri ya da mevcut düşük verimli yazılımların yerini alabilirler

İzlenmesi gereken dikeyler - YC şirket eğilimleri

  • YC’ye katılan ses ajanı şirketlerinin sayısı hızla artıyor
  • B2B (~69%) ve sağlık (~18%) başı çekiyor; B2B alt alanlarında fintech ve müşteri desteği odaklı çok sayıda girişim bulunuyor
  • Sağlık alanı, front-office (hasta odaklı) ve back-office (eczaneler, sigorta şirketleri vb. odaklı) olarak ayrılıyor
  • Genel olarak startup’lar, ses ajanlarıyla farklı sektörlerdeki sorunları çözmeye çalışıyor

Aradığımız şeyler

  • Telefonun temel kanal olduğu ya da regülasyon/verimlilik açısından telefonun en uygun olduğu sektörler
    • Telefonun müşteri demosu için birincil araç olduğu durumlar (ör. lojistik)
    • Regülasyon nedeniyle görüşmenin daha etkili olduğu alanlar (ör. borç tahsilatı)
    • Diğer yaklaşımlara göre başarı oranının daha yüksek olduğu alanlar (ör. sağlık)
  • Çağrı yapısının net ve ölçülebilir olması gerekir
    • Toplanması gereken veri noktaları veya iletilmesi gereken bilgiler açık olmalıdır
    • Sonuçlar kolay ölçülebilmelidir; böylece şirketler yapay zeka ses ajanı kullanımını rahatça değerlendirebilir
  • İnsan iş gücü maliyetlerinde %50’den fazla tasarruf sağlarken insan benzeri sonuçlar üretmelidir
    • Yerine geçen iş gücünün net olduğu veya yeniden konumlandırılabildiği senaryolarda benimseme daha kolaydır
    • Kurum içinde yapay zeka şüpheciliği olabileceği için ROI’nin çok yüksek olması gerekir
  • Çağrı, müşteri için "hayati" bir mesele olsa da arayan ya da aranan tarafın başarısızlığı tolere edebildiği bir ortam olmalıdır
    • Çoğu zaman gece/aşırı yük aramaları ya da "subprime" aramalarla başlanır
    • Performans çıtasının düşük olduğu alanlarda yapay zekanın giriş yapması daha kolaydır
  • Doğrudan gelir üretimi (ör. yeni rezervasyonlar, ödemeler) veya yüksek maliyetli alanlarda (ör. drive-thru) çağrı verimliliği etkisi büyüktür
  • SMB/mid-market’e girmek için basit VoIP entegrasyonu veya self-setup mümkün olmalıdır
  • Enterprise tarafında, ilk entegrasyon ne kadar karmaşıksa giriş engeli de o kadar yükselir; ancak iyi kurulursa rekabet avantajına dönüşür
    • Ya da düşük entegrasyon karmaşıklığıyla kolay başlayıp zaman içinde genişlemek mümkün olabilir
  • Genel olarak, hem yüksek başarı oranı hem de büyük maliyet tasarrufu sağlayan çözümlere pazarda yoğun ilgi var

Vaka çalışması - yapay zeka sesli mülakatlar

  • İlk bakışta, karmaşıklığı ve hassasiyeti yüksek işe alım mülakatlarında yapay zeka sesi kullanmak şaşırtıcı görünebilir
  • Ancak staffing sektöründe büyük hacimli ve tekrarlayan mülakatları yönetmede çok etkili olduğu görüldü
  • Aday deneyimini bozmadan daha hızlı ve daha tutarlı mülakatlar yapmak mümkün hale geldi
  • Yapay zeka gerektiğinde anında mülakat gerçekleştirebilir veya dil/aksan engelleri olmadan adayları değerlendirebilir
  • Özellikle teknik roller için, yapay zekanın sıradan bir İK çalışanından daha doğru değerlendirme yapabildiğine dair geri bildirimler var
  • Şirketler, mülakatı geçen aday oranının yükseldiğini ve aday eşleştirme sürecinin hızlandığını gözlemliyor