OpenAI Realtime API tabanlı ses kontrollü React bileşeni

xguru · 2026-04-29T09:31:01+09:00

Realtime API üzerine inşa edilmiş React/tarayıcı için ses kontrollü bileşen Sesle form girişi yapmaktan çeşitli eylemleri yönlendirmeye kadar, buna tepki veren widget'lar geliştirmek mümkün Asistanın yalnızca uygulamanın izin verdiği eylemleri gerçekleştirmesini sınırlayan tool-constrained UI deseni sunuyor Oturum bağlantısı, ses işleme, araç çalıştırma ve transkript birleştirme işlemlerinin tek bir denetleyici tarafından topluca yönetilmesi sayesinde geliştiricilerin WebRTC veya Realtime protokolünü doğrudan ele alması gerekmiyor Mevcut bir uygulamaya eklerken, uygulamanın durumun tek gerçek kaynağı (source of truth) olarak kalmasını; ses katmanının ise yalnızca sınırlı uygulama işleyicilerini çağırmasını sağlayan bir yapı benimsiyor Genel amaçlı bir orkestrasyon çatısı değil, tarayıcı UI akışlarına özel opinionated bir paket; React dışı çalışma zamanları veya ajan orkestrasyonu gerekiyorsa Raw Realtime ya da openai-agents-js kullanılması öneriliyor Mevcut uygulamaya entegrasyon için /session uç noktası proxy'si → voice adapter sarmalayıcısı oluşturma → araç kaydı → denetleyiciyi hoist etme → widget mount etme şeklinde 9 adımlı rehber sunuyor Denetleyici varsayılan olarak server_vad kullanıyor; tool-only oturumlarda ise interruptResponse: false ayarıyla, sürmekte olan araç çağrılarının yeni ses girdisiyle iptal edilmemesi sağlanıyor Demo uygulamada tema değiştirme, çok adımlı form, paylaşılan durumlu satranç akışı, wake-word denemeleri gibi çeşitli entegrasyon senaryoları görülebiliyor Apache-2.0 lisansı

(github.com/openai)

5 puan yazan xguru 2026-04-29 | 1 yorum | WhatsApp'ta paylaş

Realtime API üzerine inşa edilmiş React/tarayıcı için ses kontrollü bileşen
Sesle form girişi yapmaktan çeşitli eylemleri yönlendirmeye kadar, buna tepki veren widget'lar geliştirmek mümkün
Asistanın yalnızca uygulamanın izin verdiği eylemleri gerçekleştirmesini sınırlayan tool-constrained UI deseni sunuyor
Oturum bağlantısı, ses işleme, araç çalıştırma ve transkript birleştirme işlemlerinin tek bir denetleyici tarafından topluca yönetilmesi sayesinde geliştiricilerin WebRTC veya Realtime protokolünü doğrudan ele alması gerekmiyor
Mevcut bir uygulamaya eklerken, uygulamanın durumun tek gerçek kaynağı (source of truth) olarak kalmasını; ses katmanının ise yalnızca sınırlı uygulama işleyicilerini çağırmasını sağlayan bir yapı benimsiyor
Genel amaçlı bir orkestrasyon çatısı değil, tarayıcı UI akışlarına özel opinionated bir paket; React dışı çalışma zamanları veya ajan orkestrasyonu gerekiyorsa Raw Realtime ya da openai-agents-js kullanılması öneriliyor
Mevcut uygulamaya entegrasyon için /session uç noktası proxy'si → voice adapter sarmalayıcısı oluşturma → araç kaydı → denetleyiciyi hoist etme → widget mount etme şeklinde 9 adımlı rehber sunuyor
Denetleyici varsayılan olarak server_vad kullanıyor; tool-only oturumlarda ise interruptResponse: false ayarıyla, sürmekte olan araç çağrılarının yeni ses girdisiyle iptal edilmemesi sağlanıyor
Demo uygulamada tema değiştirme, çok adımlı form, paylaşılan durumlu satranç akışı, wake-word denemeleri gibi çeşitli entegrasyon senaryoları görülebiliyor
Apache-2.0 lisansı

1 yorum

xguru 2026-04-29

Kullanım videosunu https://x.com/OpenAIDevs/status/2048871260512473385 adresinde görebilirsiniz.
Oldukça hızlı ve iyi çalışıyor gibi görünüyor. Yine de API maliyeti yüksek olduğu için kullanım alanı sınırlı olacaktır..
Bunun gibi şeyler yerel modellerde uygulanabilir hale gelirse kullanışlı olur.

OpenAI Realtime API tabanlı ses kontrollü React bileşeni

İlgili okumalar

1 yorum