ChatGPT artık görebiliyor, duyabiliyor ve konuşabiliyor

kuroneko · 2023-09-26T10:09:40+09:00

ChatGPT’ye yeni ses ve görüntü özellikleri sunuldu. Ses aracılığıyla doğal şekilde sohbet etmek ve görsel ekleyerek soru sormak artık mümkün. Ses, Whisper aracılığıyla metne dönüştürülüyor; yanıtlar ise yeni bir TTS modeli temel alınarak profesyonel seslendirme sanatçılarının sesiyle oluşturuluyor. Yeni TTS modeli, yalnızca birkaç saniyelik bir ses örneğiyle o kişinin sesini olduğu gibi yeniden üretebiliyor. Bu model, Spotify’ın podcast çeviri özelliğinde de kullanılıyor; podcaster’ın kendi sesini koruyarak çok dilli çeviri yapıyor. Görseller bir seferde birden fazla eklenebiliyor ve görsel içindeki metnin yanı sıra nesneleri de ayrıntılı biçimde algılıyor. Araçların veya cihazların nasıl kullanılacağını sorabilir ya da buzdolabındaki malzemelere göre tarif hakkında sohbet edebilirsiniz. Ayrıca grafikleri analiz etmek veya matematik problemlerini çözmek de mümkün hale geldi. Mobil uygulamada çizim aracıyla görselin belirli bir bölümüne odaklanması sağlanabiliyor. Güvenlik ve gizliliği korumak için insanlar hakkında analiz yapma veya konuşma özellikleri büyük ölçüde sınırlandırılmış durumda. Önümüzdeki 2 hafta içinde önce Plus ve Enterprise kullanıcılarına sunulması planlanıyor. Ses özelliği yalnızca iOS ve Android’de çalışıyor; görsel ekleme özelliği ise tüm platformlarda kullanılabiliyor.

(openai.com)

22 puan yazan kuroneko 2023-09-26 | 4 yorum | WhatsApp'ta paylaş

ChatGPT’ye yeni ses ve görüntü özellikleri sunuldu.
Ses aracılığıyla doğal şekilde sohbet etmek ve görsel ekleyerek soru sormak artık mümkün.
Ses, Whisper aracılığıyla metne dönüştürülüyor; yanıtlar ise yeni bir TTS modeli temel alınarak profesyonel seslendirme sanatçılarının sesiyle oluşturuluyor.
- Yeni TTS modeli, yalnızca birkaç saniyelik bir ses örneğiyle o kişinin sesini olduğu gibi yeniden üretebiliyor.
- Bu model, Spotify’ın podcast çeviri özelliğinde de kullanılıyor; podcaster’ın kendi sesini koruyarak çok dilli çeviri yapıyor.
Görseller bir seferde birden fazla eklenebiliyor ve görsel içindeki metnin yanı sıra nesneleri de ayrıntılı biçimde algılıyor.
- Araçların veya cihazların nasıl kullanılacağını sorabilir ya da buzdolabındaki malzemelere göre tarif hakkında sohbet edebilirsiniz.
- Ayrıca grafikleri analiz etmek veya matematik problemlerini çözmek de mümkün hale geldi.
- Mobil uygulamada çizim aracıyla görselin belirli bir bölümüne odaklanması sağlanabiliyor.
- Güvenlik ve gizliliği korumak için insanlar hakkında analiz yapma veya konuşma özellikleri büyük ölçüde sınırlandırılmış durumda.
Önümüzdeki 2 hafta içinde önce Plus ve Enterprise kullanıcılarına sunulması planlanıyor.
Ses özelliği yalnızca iOS ve Android’de çalışıyor; görsel ekleme özelliği ise tüm platformlarda kullanılabiliyor.

4 yorum

alstjr7375 2023-09-26

Skynet geliyor...

ciber27 2023-09-26

Her filmindeki işletim sistemi artık mümkün hale gelebilir gibi görünüyor.

kuroneko 2023-09-26

GPT-4 ilk çıktığında kısa bir süreliğine görülmüştü ama görselleri sadece tanımanın ötesine geçip anlayabilmesi gerçekten çok etkileyici.

Örneklere bakınca, bisiklet selesinin nasıl ayarlanacağını sorduğu bir bölüm var;
bu, basit bir görüntü tanımadan ziyade kılavuza bakıp uygun aracı buluyormuş gibi görünüyor...

Plus aboneliği gerekir mi diye düşünmüştüm ama durum böyleyse mesele biraz değişiyor... çok merak ediyorum.

kuroneko 2023-09-26

HN dizisinin yapay zeka özeti

modeless: Gecikmenin şu anda sesli asistanların en büyük sorunu olduğunu ve sesli diyalog için sıra alma modelinin kurulmasının daha doğal konuşmaları mümkün kılacağına inandığını söylüyor.
TheEzEzz: Llama ve diğer araçları kullanarak doğal konuşmaya yakın, düşük gecikmeli bir sesli komut sistemi kurduğunu söylüyor. Bu alandaki sürekli araştırmaların yeni uygulamaların geliştirilmesini mümkün kılabileceğini düşünüyor.
cyrux004: Özellikle karmaşık sistemlerde, yerelde çalışan modellerin bulut tabanlı modellerle aynı performansa ulaşıp ulaşamayacağını sorguluyor.
TheEzEzz: Bunun uygulamaya bağlı olduğu konusunda hemfikir olduğunu ve yerel modellerin ilk işlemeyi üstlenip yalnızca gerektiğinde büyük bulut modellerine istek göndereceği hibrit yaklaşımın yaygınlaşacağını öngördüğünü söylüyor.
simian1983: Sisteme anlamsız ya da kötü niyetli istekler yapılırsa ne olacağını soruyor.
TheEzEzz: Arka plan gürültüsünün istekleri bozmasını önlemek için sistemin ilgisiz cümleleri yok sayacak şekilde eğitildiğini söylüyor.
furyofantares: İnsanlarla konuşurken olduğu gibi, sesli asistanın yanıtını yarıda kesebilme özelliğinin önemini vurguluyor.
dotancohen: Söz kesmenin, yapay zeka sistemlerinin henüz ustalaşamadığı insaniliğin bir işareti olabileceğini öne sürüyor.
jonplackett: Gerçek anlamda insan seviyesinde bir sesli asistanın, metinde bulunmayan önemli bilgileri aktaran tonlamayı anlayabilmesi gerektiğine inanıyor.

ChatGPT artık görebiliyor, duyabiliyor ve konuşabiliyor

İlgili okumalar

4 yorum