12 puan yazan xguru 2024-06-12 | 1 yorum | WhatsApp'ta paylaş
  • Üretken yapay zeka sayesinde gelecekte insanların telefon görüşmesi yapmasına gerek kalmayacak
  • İnsanlar yalnızca telefon görüşmesinin gerçekten değer taşıdığı durumlarda buna zaman ayıracak

Şirketlere sağladığı faydalar

  1. İnsan arayanların yarattığı zaman ve iş gücü maliyetinde tasarruf
  2. Gelir artışı sağlamak için kaynakları yeniden tahsis etme imkanı
  3. Daha standartlaştırılmış ve tutarlı bir müşteri deneyimiyle riskin azaltılması

Tüketicilere sağladığı faydalar

  • Ses ajanları, gerçek insanlara ödeme yapmadan veya onlarla "eşleştirme" gerektirmeden insan seviyesinde hizmet sunabilir
    • Buna bugün terapist, koç, arkadaşlık gibi alanlar dahil
    • Gelecekte ses merkezli olarak inşa edilen çok daha geniş bir deneyim yelpazesini kapsaması muhtemel
  • Diğer tüketici yazılımlarının çoğunda olduğu gibi, "kazananı" öngörmek zor olacak

> Telefon görüşmeleri dünyayla iletişim kurmanın API’sidir ve AI bunu bir adım öteye taşıyor

Fırsat görülen alanlar

  • Altyapı oyuncuları, tüketici arayüzleri ve kurumsal ajanlar gibi her katmanda büyük fırsatlar var
  • B2C ve B2B ses ajanları için, en ilginç yeni ürünlerle ilgili bazı hipotezler var:

B2B ve B2C ses ajanlarının temel özellikleri

  • Built to scale (ölçeklenebilir şekilde tasarlanmış)
    • Gecikme ve konuşma deneyimi henüz tamamen çözülmüş değil
    • Ajan inşası konusunda güçlü görüşleri olan kurucular aranıyor
    • Ajanın en önemli özelliklerini (hız, doğruluk, ton/duygu vb.) en üst düzeye çıkarmaya çalışılıyor
  • Vertically focused (dikey odaklı)
    • Bu, belirli kullanım senaryolarına göre ayarlanmış özgün modeller ve sıkı entegrasyonlara dayanan bir uygulayıcı ajan olabilir
    • Bunu inşa etmek, pazara sunmak ve başarılı şekilde büyütmek daha kolaydır
  • Realistic in scope (kapsam açısından gerçekçi)
    • Yapay zekaya kritik çağrıları tamamen devretmek büyük bir zorluk
    • Kısa vadede ses ajanı şirketlerinin henüz "ölçeklenemeyen" işleri yapmasını bekliyoruz
    • Buna müşteri bazında ince ayar yapılması veya son aşama için çağrının bir insan ajana aktarılması da dahil olabilir

Ses ajanı oluşturmak için yığın

  • Bir ses ajanının çalışması için şunlar gerekir:
    • İnsan sesini toplamak (ASR)
    • Bu girdiyi bir LLM ile işleyip çıktı üretmek
    • İnsana yeniden sesli yanıt vermek (TTS)
  • GPT-4o gibi yeni çok modlu modeller, bu katmanların birkaçını tek model üzerinden aynı anda "çalıştırarak" yığının yapısını değiştirebilir
    • Bu, gecikmeyi ve maliyeti azaltabilir, ayrıca daha doğal bir konuşma arayüzü sağlayabilir
    • Birçok ajan, aşağıdaki bileşik yığınla gerçekten insana benzer kaliteye ulaşamadı
  • Bazı şirketlerde/yaklaşımlarda konuşma akışı ve duyguyu bir LLM veya birden fazla LLM yönetir. Diğerlerinde ise duygu eklemek, araya girmeleri yönetmek gibi işlevler için özel motorlar bulunur
    • "Full stack" ses sağlayıcıları bunların hepsini tek yerde sunar.
  • Tüketici (B2C) ve kurumsal (B2B) uygulamalar bu yığının üzerinde yer alır.
  • Üçüncü taraf sağlayıcılar kullanılsa bile uygulamalar genellikle özel bir LLM bağlar; bu da çoğu zaman konuşma motoru rolünü üstlenir.

Full stack vs. kendin birleştir: temel unsurların karşılaştırması

  • Ses ajanı kurucuları, ajanlarını bir full stack platformunda (ör. Retell, Vapi, Bland) çalıştırmak ile yığını kendilerinin kurması arasında seçim yapabilir.
  • Bu kararı verirken öne çıkan bazı temel unsurlar vardır:
    • Complexity (karmaşıklık)
      • Full stack oyuncuları, altyapı tarafındaki karmaşıklığı soyutlayarak ses ajanı geliştirmeyi daha kolay hale getirir
      • Bu yine de prompt veya bilgi dokümanlarını (RAG) LLM’e bağlamak gibi özelleştirme ve ince ayar alanı bırakır
    • Flexibility (esneklik)
      • Belirli dikey pazarlar ve kullanım senaryoları inşa eden kurucular, yığının her katmanının nasıl çalıştığı/yürütüldüğü konusunda mümkün olan en yüksek esnekliği isteyebilir
      • Bu, gecikmeyi olabildiğince azaltma avantajını da beraberinde getirebilir
    • Cost (maliyet)
      • Full stack sağlayıcılar çağrı başına ek maliyet getirebilir, ancak hacim sayesinde daha iyi fiyat da pazarlayabilir
      • Büyük ölçekte çalışan ses ajanlarında çağrı başına birkaç sentlik fark önemli olabilir
    • Control (kontrol)
      • Bir sorun çıktığında ses ajanı kurucularının problemi hızla izleyip çözebilmesi gerekir. Özellikle hassas kullanım senaryolarında bu daha da önemlidir
      • Ayrıca her katmanın nasıl çalıştığına dair mümkün olan en yüksek görünürlüğe ihtiyaç duyulabilir
      • Bunu kendin kurduğun bir yığınla yapmak daha kolay olabilir
  • Yığındaki başlıca oyuncular
    • Full Stack : hume, Retell AI, VAPI, vocode, sindarin., BLAND.AI
    • Emotion (duygu) : hume
    • Text to Speech (metinden konuşmaya) : ElevenLabs, Azure
    • Speech to Text (konuşmadan metne) : Deepgram, Whisper, AssemblyAI, Azure
    • Streaming (akış) : LiveKit, daily

B2B ajanlara bakışımız

Yapay zeka sesinin evrimi

  • 1.0 yapay zeka sesinden (telefon ağaçları) 2.0 yapay zeka sesine (LLM tabanlı) geçiyoruz
  • 2.0 şirketleri son yaklaşık 6 ay içinde ortaya çıkmaya başladı
  • 1.0 şirketleri bugün daha doğru olabilir, ancak uzun vadede 2.0 yaklaşımı çok daha ölçeklenebilir ve doğru olacaktır

Dikey pazara özel modellere duyulan ihtiyaç

  • Her tür kurumsal ses ajanına uygulanabilecek tek bir yatay model veya platform olmayacak
  • Dikey pazarlar arasında birkaç temel fark var:
    1. Çağrı türü, ton ve yapı
    2. Entegrasyonlar ve süreçler
    3. GTM ve "killer feature"
  • Bu da arayüz tarafında güçlü görüşlere sahip dikey ajanların patlayıcı biçimde artmasına yol açabilir
  • Bunun için alan uzmanlığı olan veya o alana güçlü ilgisi bulunan kurucu ekipler gerekir

En yakın fırsatlar

  • İş gücü yoğun şirketler için TAM büyük
  • En kısa vadeli fırsatlar şu sektörlerde olabilir:
    • Telefonla randevuya bağımlı olanlar
    • Ciddi iş gücü açığı yaşayanlar
    • Çağrı karmaşıklığının düşük olduğu alanlar
  • Ajanlar daha sofistike hale geldikçe daha karmaşık çağrıları da yönetebilir hale gelecek

B2B ajanların evrimi

  • Evrim süreci
    • IVR (Interactive Voice Response) : Geleneksel tuşlu model; ajan tüketiciye bir dizi seçenek sunar (1 satış, 2 müşteri desteği vb.) ve buna göre yönlendirir
    • AI 1.0 (Phone Trees) : IVR’nin daha esnek ve sezgisel versiyonu; tüketici doğal dille konuşur ve ajan onu çeşitli konuşma akışları üzerinden yönlendirmeye çalışır
    • AI 2.0 (LLMs) : Serbest biçimli konuşma; yapay zeka, insanın söylediğini önceden tanımlı belirli seçeneklerle eşleştirmeye çalışmaz
  • Birçok ses ajanı şirketi belirli bir sektöre (ör. otomotiv servisi) veya belirli bir görev türüne (ör. randevu planlama) yönelik dikey pazar yaklaşımı benimsiyor. Bunun birkaç nedeni var:
    • Uygulama zorluğu
      • Aramaları yapay zekaya emanet etmek için kalite çıtası yüksek ve konuşma akışı (ve müşteri tarafındaki backend iş akışları) hızla karmaşıklaşabiliyor veya özelleşebiliyor
      • Bu dikey pazarlardaki "istisna vakaları"nı inşa eden şirketlerin başarılı olma ihtimali daha yüksek (ör. genel modellerin yanlış anlayabileceği özgün terminoloji)
    • Düzenleme ve lisanslama
      • Bazı ses ajanı şirketleri özel kısıtlamalar, gerekli sertifikalar vb. ile karşı karşıya
      • En tipik örnek sağlık alanı (ör. HIPAA uyumluluğu), ancak ülke bazlı AI cold calling düzenlemeleri olan satış gibi kategorilerde de görülüyor
    • Entegrasyonlar
      • Bazı kategorilerde kullanıcı deneyimini (hem şirket hem tüketici tarafında) doğru kurmak için long-tail veya özel entegrasyonlar gerekebilir. Bunlar, belirli bir kullanım senaryosunu çözmüyorsan inşa etmeye değmeyebilir
    • Diğer yazılımlara giriş noktası
      • Ses; rezervasyon, yenileme, teklif gibi temel müşteri aksiyonlarına doğal bir giriş sağlayabilir
      • Bazı durumlarda bu, özellikle müşteri kitlesi hâlâ offline çalışıyorsa, bu şirketlere yönelik daha geniş bir dikey SaaS platformuna açılmanın kapısı olabilir

B2B ajanlar: fırsat görülen alanlar

LLM tabanlı olmalı, ancak ilk günden %100 otomasyon şart değil

  • Yapay zeka ses ajanlarının "güçlü formu", IVR veya phone tree yaklaşımı değil, tamamen LLM yönlendirmeli konuşmalar olacaktır
  • Ancak LLM’ler tüm süreç boyunca %100 güvenilir olmadığı için daha hassas veya büyük işlemlerde (geçici olarak) "insan müdahalesi" olması muhtemeldir
  • Bu aynı zamanda dikey pazara özgü iş akışlarını özellikle önemli hale getirir; çünkü bunlar edge case’leri en aza indirirken başarı olasılığını artırır ve insan müdahalesini azaltır

Özel model ince ayarı vs. LLM yaklaşımında prompt kullanımı

  • B2B ses ajanlarının, genel amaçlı LLM’lerin yetersiz kalabileceği uzmanlaşmış (veya dikey pazara özgü) konuşmaları yönetmesi gerekir
  • Birçok şirket müşteri bazında modelleri ince ayarlıyor (birkaç yüz veya düşük binler seviyesinde veri noktasıyla) ve bunu zamanla şirket genelindeki temel modele genelleme potansiyeli bulunuyor
  • Kurumsal müşteriler için özel ince ayar devam da edebilir
    • Not: Bazı şirketler, belirli kullanım senaryoları için "genel" bir modeli (tüm müşterilerde kullanılacak) ince ayarlayıp ardından müşteri bazında prompt ile yönlendirebilir

Alan uzmanlığına sahip teknik ekipler

  • Karmaşıklık göz önüne alındığında, yüksek kaliteli B2B ses ajanları inşa edip ölçeklemek için önceden yapay zeka geçmişine sahip olmak faydalı olacaktır
  • Ancak ürünü paketlemeyi ve dikey pazarda nasıl bir giriş noktası oluşturulacağını anlamak da alan uzmanlığı veya güçlü bir ilgi gerektirdiğinden en az bunun kadar önemli olabilir
  • Kurumsal ses ajanı inşa edip piyasaya sürmek için yapay zeka alanında doktora yapmak şart değil!

Entegrasyonlar + ekosisteme dair keskin bir bakış

  • Yukarıdakine benzer şekilde, her dikey pazardaki alıcıların satın almadan önce görmeyi beklediği bazı belirli özellikler veya entegrasyonlar vardır
  • Hatta bu, ürünü "işe yarar" olmaktan çıkarıp "büyüleyici" seviyeye taşıyan kanıt olabilir
  • Bu da neden başlangıçta oldukça dikey odaklı olmanın mantıklı olduğunun bir başka nedenidir

"Kurumsal düzeyde" ya da güçlü bir ürün odaklı büyüme (PLG) hareketi

  • Gelirin büyük kısmının üst düzey şirketlerde/sağlayıcılarda yoğunlaştığı dikey pazarlarda, ses ajanı şirketleri büyük işletmelerden başlayıp zamanla self-service ürünle KOBİ’lere doğru "aşağı yayılabilir"
  • KOBİ müşterileri bu çözümü gerçekten istiyor ve çeşitli seçenekleri test etmeye istekli olabilir, ancak startup’ın modeli kurumsal seviyeye ayarlamasına yetecek ölçek ve kalitede veri sunamayabilir

B2C ajanlara bakışımız

B2B’den farkları

  • B2B’de ses ajanları temel olarak belirli görevleri tamamlamak için mevcut telefon görüşmelerinin yerini alır
  • Tüketici ajanlarında ise kullanıcının etkileşime devam etmeyi seçmesi gerekir; sesle etkileşim her zaman pratik olmadığından bu zordur
  • Bu da ürün çıtasının "daha yüksek" olduğu anlamına gelir

İlk uygulama alanları

  • Tüketici ses ajanlarının ilk ve en bariz kullanım alanı, pahalı veya erişimi zor insan hizmetlerini yapay zekayla ikame etmektir
  • Buna terapi, koçluk, özel ders gibi uzaktan yürütülebilen konuşma temelli her şey dahildir

Gelecekteki olasılıklar

  • Ancak B2C ses ajanlarının asıl sihrinin henüz gelmediğine inanıyoruz!
  • Sesin gücünü kullanarak daha önce var olmayan yeni türde "konuşmalar" mümkün kılan ürünler arıyoruz
  • Bu, mevcut hizmet biçimlerini yeniden icat edebilir veya tamamen yeni hizmetler ortaya çıkarabilir

İnsani bağın taklit edilmesi

  • UX’i doğru kurgulayan ürünlerde ses ajanları, tüketiciyi yazılımda daha önce görülmemiş düzeyde içine çekme fırsatı sunar
  • Bu, gerçekten insani bir bağı taklit etmek anlamına gelir
  • Bu, doğrudan bir ajan ürünü olarak ya da daha geniş bir ürünün ses modu olarak ortaya çıkabilir

B2C ajanların evrimi

  • Şu ana kadar baskın tüketici yapay zeka ses ajanları, ChatGPT Voice ve Inflection’ın Pi uygulaması gibi büyük şirketlerden geldi.
  • Tüketici sesinin yavaş ortaya çıkmasının birkaç nedeni var:

Büyük şirketlerin avantajı

  • Büyük şirketler hâlihazırda tüketici dağıtım kanallarına ve doğruluk, gecikme gibi alanlarda en üst düzey modellere sahip
  • Sesi büyük ölçekte sunmak kolay değil; özellikle de GPT-4o’nun yakın zamanda çıkmış olduğu düşünülürse

Yeni davranış benimsemenin zorluğu

  • B2B ses ajanları mevcut süreçlere AI’ı "eklerken", B2C ses ajanlarında kullanıcının yeni bir davranış benimsemesi gerekir
  • Bu da daha yavaş ya da daha büyüleyici bir ürün gerektirebilir

Mevcut sesli yapay zekaya yönelik olumsuz algı

  • Tüketiciler Siri gibi ürün deneyimleri nedeniyle sesli yapay zekaya karşı olumsuz etkilenmiş olduklarından, yeni uygulamaları denemek için yeterince motive olmayabilir

Geniş tabanlı ürünlerin temel kullanım alanlarını karşılaması

  • Geniş tabanlı ürünler genellikle sesli yapay zekanın temel kullanım alanlarını (özel ders, arkadaşlık vb.) karşılayabilir
  • B2C ses startup’ları ise ChatGPT, Pi vb.’nin ele almayacağı kullanım alanları veya deneyimler üretmeye yeni başlıyor

B2C ajanlar: fırsat görülen alanlar

Sesin neden gerekli olduğuna dair güçlü bir bakış açısı

  • Sesin ürüne nasıl özgün değer kattığı konusunda net görüşleri olan ürünler ve kurucular bizi heyecanlandırıyor
  • Yani sadece "ses olsun diye ses" değil
  • Çoğu durumda ses arayüzü, bilgi tüketmek ve bilgi çıkarmak açısından metin arayüzünden daha kullanışsız olduğu için aslında dezavantaj olabilir

Gerçek zamanlı sesin neden gerekli olduğuna dair güçlü bir bakış açısı

  • Sesin tüketilmesi zaten zorken, gerçek zamanlı ses daha da zordur (asenkron sesli mesaja kıyasla)
  • Bu yüzden ürünün neden gerçek zamanlı konuşma etrafında kurulması gerektiğine dair net bir görüşü olan kurucular bizi heyecanlandırıyor
  • Muhtemelen insan benzeri arkadaşlık, pratik ortamları vb. için olabilir

Yapay zeka öncesi "ürün" ile benzeşmeme

  • Güçlü formdaki ürünün, yapay zeka ses ajanlarının yalnızca insan sağlayıcıların yerini aldığı eski insan-insana konuşmaların doğrudan taşınmış hali olmayacağından şüpheleniyoruz
  • Öncelikle, o çıtayı karşılamak zor
  • Daha da önemlisi, yapay zekayı kullanarak aynı değeri daha iyi (daha verimli, daha keyifli) sunma fırsatı var

Kazananı model kalitesinin belirlemediği dikeyleşme

  • Başlıca genel tüketici yapay zeka ürünleri (ChatGPT, Pi, Claude) yüksek kaliteli ses modlarına sahip
  • Birçok konuşma ve etkileşim türüne anlamlı biçimde katılabiliyorlar
  • Kendi modellerini ve yığınlarını barındırdıkları için kısa vadede gecikme ve konuşma akışında kazanma ihtimalleri yüksek

Startup’ların şu şekillerde başarılı olmasını bekliyoruz:

  • Belirli konuşma türlerine göre ayarlama veya ince ayar yapmaları ya da
  • Ses ajanı deneyimine daha fazla bağlam ve değer katan UI’lar inşa etmeleri
    • (ör. zaman içindeki ilerlemeyi takip etmek, konuşmayı/deneyimi belirgin bir yaklaşımla yönlendirmek)

1 yorum

 
bus710 2024-06-13

Bir kurumsal şirketin entegrasyon ekibini yakından görme fırsatım olmuştu; metindeki içeriğe benzer bir projenin yürütüldüğünü gerçek zamanlı olarak izleyebilmiştim.

Başlangıçtaki hedef, AWS Connect üzerinden müşteri hizmetlerini otomatikleştirmekti; sonra trafik yükünü dağıtma, VVIP müşterilere yönelik özel hizmetler planlama gibi işler de eklendi... İşin kapsamının giderek büyüdüğünü görmek de ilginç oluyor.

Böyle olunca, açıkçası çok gelir getirmeyen müşterilere otomatik yanıt botlarının mümkün olduğunca yanıt vermesi; yüksek miktarda teminatı olan müşterilerle ise insan temsilcilerin mümkün olduğunca hızlı şekilde doğrudan iletişime geçmesi hizmet yaklaşımı haline geliyor. Kaçınılmaz bir durum sanırım haha