OpenAI Realtime API tabanlı ses kontrollü React bileşeni
(github.com/openai)- Realtime API üzerine inşa edilmiş React/tarayıcı için ses kontrollü bileşen
- Sesle form girişi yapmaktan çeşitli eylemleri yönlendirmeye kadar, buna tepki veren widget'lar geliştirmek mümkün
- Asistanın yalnızca uygulamanın izin verdiği eylemleri gerçekleştirmesini sınırlayan tool-constrained UI deseni sunuyor
- Oturum bağlantısı, ses işleme, araç çalıştırma ve transkript birleştirme işlemlerinin tek bir denetleyici tarafından topluca yönetilmesi sayesinde geliştiricilerin WebRTC veya Realtime protokolünü doğrudan ele alması gerekmiyor
- Mevcut bir uygulamaya eklerken, uygulamanın durumun tek gerçek kaynağı (source of truth) olarak kalmasını; ses katmanının ise yalnızca sınırlı uygulama işleyicilerini çağırmasını sağlayan bir yapı benimsiyor
- Genel amaçlı bir orkestrasyon çatısı değil, tarayıcı UI akışlarına özel opinionated bir paket; React dışı çalışma zamanları veya ajan orkestrasyonu gerekiyorsa Raw Realtime ya da
openai-agents-jskullanılması öneriliyor - Mevcut uygulamaya entegrasyon için
/sessionuç noktası proxy'si → voice adapter sarmalayıcısı oluşturma → araç kaydı → denetleyiciyi hoist etme → widget mount etme şeklinde 9 adımlı rehber sunuyor - Denetleyici varsayılan olarak
server_vadkullanıyor; tool-only oturumlarda iseinterruptResponse: falseayarıyla, sürmekte olan araç çağrılarının yeni ses girdisiyle iptal edilmemesi sağlanıyor - Demo uygulamada tema değiştirme, çok adımlı form, paylaşılan durumlu satranç akışı, wake-word denemeleri gibi çeşitli entegrasyon senaryoları görülebiliyor
- Apache-2.0 lisansı
1 yorum
Kullanım videosunu https://x.com/OpenAIDevs/status/2048871260512473385 adresinde görebilirsiniz.
Oldukça hızlı ve iyi çalışıyor gibi görünüyor. Yine de API maliyeti yüksek olduğu için kullanım alanı sınırlı olacaktır..
Bunun gibi şeyler yerel modellerde uygulanabilir hale gelirse kullanışlı olur.