Pipecat - Açık kaynak framework tabanlı sesli asistan

(github.com/pipecat-ai)

2 puan yazan GN⁺ 2024-05-14 | 1 yorum | WhatsApp'ta paylaş

Pipecat, gerçek zamanlı sesli ve multimodal konuşma ajanları oluşturmak için açık kaynaklı bir Python framework’üdür; tek bir ses ajanından, birden fazla uzman ajanın handoff, paralel yürütme ve paylaşımlı bus üzerinden koordine edildiği sistemlere kadar destekler
Temel tasarımı, konuşma tanıma, metinden sese dönüştürme, konuşma işleme, yapay zeka servisleri ve taşıma katmanını birleştirilebilir pipeline’lar halinde paketleyerek geliştiricilerin ajana özgü mantığa odaklanmasını sağlamaktır
Oluşturulabilecek şeyler arasında Voice Assistants, çok ajanlı sistemler, AI companion’lar, ses·video·görüntü tabanlı multimodal arayüzler, interaktif hikâye anlatımı, müşteri kabul·destek botları ve yapılandırılmış diyalog sistemleri yer alır
Resmî istemci SDK’ları JavaScript, React, React Native, Swift, Kotlin, C++, ESP32’yi destekler; sunucu tarafı servisleri ise STT, LLM, TTS, Speech-to-Speech, WebRTC/WebSocket taşıma, video, bellek, vision·image, ses işleme ve analiz araçlarıyla genişler
Hızlı başlangıç pipecat init quickstart veya pipecat init ile mümkündür; temel kurulum hafif tutulur ve üçüncü taraf yapay zeka servisleri desteği, gerekli extras eklenerek yapılandırılır

Pipecat’in rolü

Pipecat, gerçek zamanlı sesli ve multimodal konuşma ajanları oluşturmak için açık kaynaklı bir Python framework’üdür
Yalnızca tek bir ses ajanı değil; uzman ajanların birbirlerine handoff yaptığı, paralel fan-out gerçekleştirdiği, sidecar olarak çalıştığı ve paylaşımlı bus tabanlı koordinasyon yürüttüğü çok ajanlı sistemler de oluşturulabilir
Ses, video, yapay zeka servisleri, taşıma katmanı ve konuşma pipeline’larını birlikte orkestre ederek ajanın kendine özgü davranışının uygulanmasına odaklanılacak şekilde tasarlanmıştır
Hızlı başlamak için pipecat init quickstart komutunu çalıştırabilir veya quickstart guide’ı izleyebilirsiniz

Oluşturabilecekleriniz

Voice Assistants: Yapay zeka ile doğal biçimde streaming sohbet yapan sesli asistanlar
Multi-Agent Systems: Uzman ajanların handoff yaptığı, paralel olarak fan-out edildiği veya paylaşımlı bus üzerinde sidecar olarak çalıştığı yapılar
AI Companions: Koçlar, toplantı asistanları, karakterler
Multimodal Interfaces: Ses, video, görüntü vb. ile çalışan arayüzler
Interactive Storytelling: Üretken medya tabanlı yaratım araçları
Business Agents: Müşteri kabul, destek botları, yönlendirmeli akışlar
Complex Dialog Systems: Mantığın yapılandırılmış diyaloglarla tasarlandığı sistemler

Tasarım özellikleri

Voice-first yapısıyla konuşma tanıma, metinden sese dönüştürme ve konuşma işlemeyi entegre eder
Çeşitli yapay zeka servisleri ve araçlarına bağlanabilen tak-çıkar bir yapı sunar
Modüler bileşenlerle karmaşık davranışlar oluşturan birleştirilebilir pipeline’ları destekler
Her pipeline’ı bir ajan olarak ele alır; handoff, paralel fan-out, sidecar worker’lar ve dağıtık dağıtımla birleştirilebilir
WebSockets veya WebRTC gibi taşıma katmanları üzerinden ultra düşük gecikmeli gerçek zamanlı etkileşimi hedefler

Ekosistem ve araçlar

Resmî istemci SDK’ları, farklı platformlardan Pipecat’e bağlanmak için sunulur
- JavaScript, React, React Native
- Swift, Kotlin, C++, ESP32
Pipecat Flows, durum yönetimi içeren önceden tanımlı veya dinamik konuşma yollarını Pipecat içinde yapılandırmayı sağlar
- Çalışma örnekleri flows examples üzerinden görülebilir
Voice UI Kit, sesli yapay zeka uygulamalarını hızlıca oluşturmak için bileşenler, hook’lar ve şablonlardan oluşan bir koleksiyondur
Pipecat CLI, pipecat-ai ile birlikte gelir ve uv tool install "pipecat-ai[cli]" ile kurulur
- pipecat init, yeni bir proje başlatır ve Claude Code veya Codex gibi yapay zeka kodlama asistanlarının projeyi oluşturabilmesi için ayarları yapar
- Çalıştırılabilir bir botu 1 dakikadan kısa sürede scaffold edebilir; ardından CLI ile ajanları izleyip production’a dağıtabilirsiniz
Whisker, Pipecat pipeline’ları ve processor’ları için gerçek zamanlı bir debugger’dır
Tail, Pipecat için terminal dashboard’udur
Pipecat Skills, Claude Code ile birlikte proje scaffolding’i, Pipecat Cloud dağıtımı vb. destekler
- Kurulum komutu: claude plugin marketplace add pipecat-ai/skills

Desteklenen servis kapsamı

Speech-to-Text, AssemblyAI, AWS, Azure, Deepgram, Google, Groq Whisper, Mistral, NVIDIA, OpenAI Whisper, Whisper, xAI gibi birçok servisi destekler
LLM, Anthropic, AWS, Azure, Cerebras, DeepSeek, Gemini, Grok, Groq, Mistral, NVIDIA NIM, Ollama, OpenAI, OpenAI Responses, OpenRouter, Perplexity, Qwen, Together AI gibi servisleri içerir
Text-to-Speech, AWS, Azure, Cartesia, Deepgram, ElevenLabs, Google, Groq, Hume, Kokoro, Mistral, NVIDIA, OpenAI, Piper, Resemble, Rime, Together, XTTS gibi servislerle bağlanır
Speech-to-Speech, AWS Nova Sonic, Gemini Multimodal Live, Grok Voice Agent, OpenAI Realtime, Ultravox’u destekler
Taşıma katmanı Daily WebRTC, FastAPI Websocket, LiveKit WebRTC, SmallWebRTCTransport, Vonage WebRTC, WebSocket Server, WhatsApp, Local’ı içerir
Bunun dışında Twilio·Telnyx·Vonage gibi serializer’lar, HeyGen·Tavus·Simli gibi video servisleri, mem0 belleği, fal·Google Imagen·Moondream tabanlı vision·image, Silero VAD·Krisp Viva·RNNoise gibi ses işleme ve OpenTelemetry·Sentry analiz araçlarını destekler
Tam liste full services documentation içinde görülebilir

Kurulum ve başlangıç

Pipecat’i yerel makinede çalıştırdıktan sonra hazır olduğunda ajan process’ini buluta taşıyabilirsiniz
Başlamadan önce uv kurulumu gerekir

curl -LsSf https://astral.sh/uv/install.sh | sh

CLI tabanlı hızlı başlangıçta Pipecat CLI kurulur ve yeni bir phone veya web/mobile botu etkileşimli olarak scaffold edilir

uv tool install "pipecat-ai[cli]"
pipecat init

Manuel kurulumda yeni bir projede uv init ve uv add pipecat-ai kullanılır veya mevcut projeye uv add pipecat-ai eklenir

uv init my-pipecat-app
cd my-pipecat-app
uv add pipecat-ai

uv add pipecat-ai

Ortam dosyası cp env.example .env ile ayarlanır
Temel paket yalnızca core framework içerir; üçüncü taraf yapay zeka servisleri gerekiyorsa extras eklenir

uv add "pipecat-ai[option,...]"

pip kullanıcıları pip install pipecat-ai ve pip install "pipecat-ai[option,...]" ile kurabilir

Örnekler ve geliştirme

Focused examples, belirli bir servisi veya 1-2 kavramı gösteren küçük ajan örnekleridir
Example apps, geliştirmeye başlangıç noktası olarak kullanılabilecek tamamlanmış uygulamalardır
Pipecat geliştirmek için en az Python 3.11 gerekir; önerilen sürüm Python 3.12 veya üzeridir
Depo geliştirme ortamı uv sync --group dev --all-extras --no-extra gstreamer --no-extra local ile ayarlanır
- local, gstreamer gibi bazı extras sistem bağımlılıkları gerektirebilir
Testler depo kökünde uv run pytest ile çalıştırılır; belirli bir test uv run pytest tests/test_name.py ile çalıştırılır

Katkı ve yardım

Hatalar GitHub issue olarak açılır; özellik fikirleri Discord discussion’da başlatılır
Kod katkıları CONTRIBUTING.md rehberini izler; dokümantasyon iyileştirmeleri Docs PR’ı olarak kabul edilir
Yardım alınabilecek kanallar Discord, docs, X’tir

1 yorum

GN⁺ 2024-05-14

Hacker News yorumları

Açık kaynak bir uygulamanın çıkmasına sevindim; https://www.retellai.com/, https://fixie.ai/ gibi startup'ların bu alana sıkça girdiğini görüyorum.
Sonunda her zaman ses-ses modeli gerekiyor; mevcut yaklaşım genelde ses→metin→metin→ses şeklinde ve birkaç ajanın 1 dinleme + 1 konuşma görevini üstlenmesi gibi görünüyor.
Yakın zamanda duyurulan gpt-4o ile nasıl örtüşeceğini merakla bekliyorum.
- Listeye https://vapi.ai de eklenebilir. Araçları oldukça iyi.
  Bu alandaki çeşitli katmanları ve oyuncuları takip etmeye çalışıyorum.
- fixie.ai'de SLM, yani konuşma dili modeli üzerinde çalışıyorlar ve yakında deneyebileceğiniz bir şey yayımlayacaklar.
- Ses-ses modeli nasıl çalışıyor merak ediyorum. Konuşmanın nüanslarını yakalamak için çok daha fazla token kullanan bir yöntem mi?
Harika, ama açık kaynak tarafında da demoda gördüğümüz türden bir audio-audio modeline gerçekten ihtiyaç var. Benzer bir şey bilen var mı merak ediyorum.
Düzenleme: Biri bir tane bulmuş: https://news.ycombinator.com/item?id=40346992
- Şu anda üzerinde çalışılan Pipecat örneklerinin çoğu ses-sese odaklanıyor. Örnekler bunun nasıl uygulanacağını gösteriyor; barındırılan hikâye anlatımı örneğini de hemen deneyebilirsiniz: https://storytelling-chatbot.fly.dev/
  README'deki örneklerin bunu daha iyi gösterecek şekilde güncellenmesi iyi olur.
- Audio-audio modeli kesinlikle bir adım ileri ve genel olarak gidişatın o yönde olacağını düşünüyorum.
  Gerçek zamanlı sesli yapay zeka bağlamında gecikme yaklaşık 800 ms'nin altına indiğinde, çoğu insan ve kullanım senaryosu için doğal tepki veriyormuş gibi hissettiriyor.
  GPT-4o duyuru sayfası, sesli prompt'tan ilk token'a kadar ortalama yaklaşık 320 ms olduğunu söylüyor; bu kesinlikle bir sonraki aşama ve çok heyecan verici. Şu anda GPT-4 Turbo içeren herhangi bir pipeline ile 800 ms'ye ulaşmak zor olduğundan bunun büyük bir anlamı var.
  Mevcut en hızlı transkripsiyon, çıkarım ve ses sentezi modellerini bir pipeline'da birleştirirseniz ilk token'a kadar yaklaşık 500 ms mümkün. Örneğin Deepgram transkripsiyon, Groq Llama-3 ve Deepgram Aura ses kombinasyonu.
Siri Ekim 2011'de, Amazon Alexa Kasım 2014'te, Google Assistant sesli hoparlörleri Mayıs 2016'da çıktı.
Bana kalırsa Siri hâlâ kimsenin kullanmak istemediği berbat bir durumda; Alexa'yı bizzat kullanmadığım için yorum yapmak zor, ama Google Home hoparlörlerde ve Android telefonlarda yıllardır büyük bir iyileşme görmedim. Hatta kötüleşti; artık eskisi gibi AnyList[0]'e doğrudan öğe ekleyemiyorsunuz, yalnızca Google Keep mümkün.
Çok eskiden yapılabilir olacağını sandığım çok basit örneklerde bile “az önce söylediğini daha yüksek sesle tekrar et” veya “mutfak ve yemek odası ışıklarını kapat” gibi iki aşamalı istekleri hâlâ yorumlayamıyor.
Araba kullanırken, yatakta uzanırken, yemek yaparken veya başka bir işle meşgulken sesli asistanlar oldukça kullanışlı olsa da ilk çıkış dönemlerinden beri neredeyse yerinde sayıyor gibi. Muhtemelen kimse bunu paraya çevirebilecek bir yol bulamadı.
Tüketiciler için daha iyi bir sesli asistana kavuşmak için ne gerekiyor? Willow[1] da pek tutmamış gibi görünüyor.
[0] https://help.anylist.com/articles/google-assistant-overview/
[1] https://heywillow.io/
Ek olarak, son zamanlarda aklımda olanları döktüğüm için konuyu ele geçirmiş gibi oldum. Pipecat gerçekten harika görünüyor ve başarılı olmasını diliyorum; umarım hafta sonu denemek için zaman bulurum.
- Çoğunlukla Google Home kullanıyorum ama Echo Frames'im de olduğu için Alexa'yı da oldukça düzenli kullanıyorum. Ana kullanımım ev otomasyonu; bu senaryoda Alexa, Google Home'dan çok daha hızlı tepki veriyor.
  Google Home'un birçok açıdan kötüleştiğine katılıyorum. AnyList'i iyi kullanan biri olarak bu değişiklik özellikle sinir bozucuydu.
- Bazı işlerde Siri de fena değil. Örneğin “x'e mesaj gönder”, “eve vardığımda x yapmamı hatırlat” gibi şeyler.
  İnternet bağlantısı olmasa da oldukça iyi yapıyor. Yalnız dikte bunun istisnası; internet varken çok daha iyi.
- Sesli asistanların aşması gereken bir niteliksel sıçrama var; son 18 ay öncesine kadar bunun mümkün olmadığını düşünüyorum. Bu yüzden ürünlerin kendisinin durgunlaşmış olması da doğru.
  Ancak Amazon açısından bakarsak, son bir yılın hangi noktasındaki teknoloji seviyesine çizgi çekip onun üzerine ürün yinelemeye başladıklarını söylemek zor.
- Hem Siri hem Alexa kullanıyorum, ama sınırlı işlevler kullanma ölçütüyle Alexa'yı daha çok kullanmama rağmen Alexa'nın Siri'den kötü olduğunu düşünüyorum.
  Yine de Alexa, “X'i aç ve Y'yi kapat”, “X'i Y saniye boyunca açık tut” gibi iki şeyi aynı anda işleyebiliyor.
  Zamanla daha kötüleştiğini hissediyorum; mikrofonda toz birikip ses yakalamayı bozabileceğine dair bir yazı okuyunca toz temizleyici denedim ama çözülmedi.
  Uygulamada Alexa'nın gerçekte yakaladığı sesi dinleyince hem Echo'nun hem de 4. nesil Echo Dot'un mikrofon kalitesinin gerçekten kötü olduğunu gördüm. Geçen ay düşük kaliteli seslerle Whisper'ı çok test ettim; Amazon'un kullandığından böyle bir modelin sesimi çok daha iyi yorumlayacağını düşünüyorum.
- Alexa, yani Amazon Echo Show kullanıyorum; kullanımım haber brifingi, hava durumunu kontrol etme, müzik çalma ve zamanlayıcı ayarlama civarında.
  Alexa berbat ve giderek daha aptal hâle geliyor. Ayarları tamamen yok sayıp kapattığım ayarları tekrar açtığı bile oluyor.
  Sorulara cevap vermek yerine sık sık başka yeni bir özelliği denemek isteyip istemediğimi soruyor; Flash Briefing listesinden açıkça kaldırdığım haber kanallarını keyfi olarak yeniden eklediği de oluyor.
  Bu kadar kötü olmasını hâlâ anlayamıyorum.
https://feycher.com adresini de az önce yaptım; benzer, ama gerçek zamanlı dudak senkronizasyonu da destekliyor. İlgilenirseniz konuşabiliriz.
Açık kaynaklı ses orkestrasyonu olan bolna da geliştiriliyor: https://github.com/bolna-ai/bolna
OpenAI’nin ses modunda kullandığı LiveKit Agents da açık kaynak:
https://github.com/livekit/agents
Genel olarak ses etkinliği algılama (VAD) çok ilginç; özellikle birden fazla konuşmacı olduğunda nasıl çalıştığını daha fazla öğrenmek istiyorum
Bunu kullanarak telefon görüşmelerinde gerçek zamanlı çeviri yapmak için nereden başlamak gerekir?
- Daily artık giden ve gelen aramaları destekliyor: https://docs.daily.co/guides/products/dial-in-dial-out#main
  Yani botu görüşmeye bağlayıp bir telefon numarasını aramasını söyleyebilirsiniz; gerçekten de bu şekilde çalışıyor
- Telefon görüşmelerini neden gerçek zamanlı çevirmek istediğinizi merak ediyorum. Bir de Whisper var
Az önce duyurulan GPT-4o’nun gerçek zamanlı ses özelliğinin bu tür projeleri nasıl etkileyeceğini merak ediyorum
Gerçek zamanlı çok dilli çeviri sohbet demosu gerçekten şaşırtıcıydı
- Pipecat’te, artık antik ve artritli bir modele dönüşmüş GPT-4 Turbo kullanılan bir çeviri demosu var :-) https://github.com/pipecat-ai/pipecat/tree/main/examples/tra...
  GPT-4o ses girdisi API üzerinden sunulur sunulmaz Pipecat’e 4o desteği eklemeyi planlıyoruz. Çift yönlü gerçek zamanlı ses için yeni bir WebSocket veya WebRTC endpoint’i gerekecek gibi görünüyor
- Ben de aynı şeyi merak ediyorum
  Büyük dil modellerini ses sentezi ve konuşma tanıma modellerine düşük gecikmeyle bağlayan bir pipeline oluşturmak fena değil, ancak GPT-4o gibi yerel multimodal modellerle karşılaştırıldığında açıkça dezavantajlı görünüyor
  Gelecek, ses ve konuşma tarzındaki nüansları anlayabilen ses-yerel modellerde; üstelik o gelecek o kadar da uzak değil

Pipecat - Açık kaynak framework tabanlı sesli asistan

Pipecat’in rolü

Oluşturabilecekleriniz

Tasarım özellikleri

Ekosistem ve araçlar

Desteklenen servis kapsamı

Kurulum ve başlangıç

Örnekler ve geliştirme

Katkı ve yardım

İlgili okumalar

1 yorum

Hacker News yorumları