AI ile çalınan sesim
(jeffgeerling.com)- Jeff Geerling, Elecrow’un YouTube tanıtım eğitimlerinden birinde kendi sesine çok benzeyen bir anlatım fark etti, ancak söz konusu cümleleri kendisi hiç söylemedi
- Söz konusu sesin ESP32 ve RP2040 ile ilgili birden fazla video serisinde kullanıldığı görülüyor; Jeff, kendi YouTube videolarının bir AI ses klonlama aracı için kullanılmış olabileceğinden şüpheleniyor
- Elecrow, geçmişte Jeff’in CrowPi 2’yi incelemiş olduğu ve Raspberry Pi aksesuarları ile elektronik ürünler üreten bir şirket olduğu için, mesele basit bir dış tedarikçi anlaşmazlığından daha karmaşık bir ilişki bağlamına sahip
- İzinsiz AI ses klonlamasının kendisine dair hukuki emsal net olmasa da, ticari işlerde rıza olmadan başkasının sesini kullanma sorunu Midler vs. Ford davasıyla bağlantılı
- Jeff, kaldırma talebi ya da hukuki adımlardan önce Elecrow’a e-postayla açıklama ve videoların kaldırılmasını istedi; şirketlerin çözüm olarak seslendirme sanatçısı tutması ya da resmi iş birliği yapması gerektiğini düşünüyor
Elecrow videosunda duyulan Jeff Geerling’e benzer ses
- Jeff Geerling, Elecrow’un bir YouTube klibini dinledikten sonra, anlatımın kendi sesine oldukça tanıdık geldiğini düşündü
- Video, Jeff Geerling channel değil, Elecrow kanalına ait ve Jeff bu videodaki cümleleri hiç söylemedi
- Birisi Elecrow video bağlantısını e-postayla gönderip sesin tuhaf olduğunu bildirdi; Jeff ise aynı konuyu kendi kanalında da ele aldığı için bazı izleyicilerin, Elecrow videosunda sesinin kullanılmasına onay verdiğini düşünmüş olabileceğini belirtti
- Elecrow, elektronik ürünler ve Raspberry Pi aksesuarları üreten bir şirket; Jeff de geçmişte Elecrow’un CrowPi 2 ürününü incelemişti
- Jeff daha önce Elecrow ile kötü bir ilişki yaşamadığını, bu yüzden bunun kasıtlı olup olmadığından hâlâ %100 emin olmadığını söylüyor
- Bu yazının video versiyonunda, Elecrow klibi ile Jeff’in doğal sesini doğrudan karşılaştırmak mümkün
AI ses klonlama şüphesi ve verilen yanıt
- Jeff, bunu kanıtlamanın zor olduğunu baştan kabul etmekle birlikte, Elecrow’un kendi YouTube videolarını bir AI ses klonlama aracına verip o sesle birden fazla tanıtım eğitimini seslendirmiş olma ihtimalinin yüksek olduğunu düşünüyor
- Örnek olarak ESP32 serisini ve RP2040 serisini veriyor
- OpenAI’nin Scarlett Johansson’ın sesini fiilen kopyaladığı iddia edilen olayın ardından, şirketlerin ürün demosu ya da eğitim videolarında kullanılan AI sesleri konusunda daha dikkatli olacağı umuluyordu; bu olay ise bu beklentiyle çelişiyor
- Jeff’in bildiği kadarıyla izinsiz AI ses klonlamasına ilişkin açık bir hukuki emsal yok; ancak ticari işlerde rıza olmadan başkasının sesinin kullanılmaması gerektiğine dair emsal olarak Midler vs. Ford davasını anıyor
- Avukat üzerinden ilerlemek masraflı ve rıza dışı ses klonlamasının YouTube hizmet şartlarını ihlal edip etmediği de kesin değil
- Jeff’in talepleri net:
- Başkasının sesini ya da suretini çalıp ürünlere veya videolara eklememek gerekir
- Markalar seslendirme sanatçısı tutmalı ya da içerik üreticilerine ödeme yaparak iş birliği kurmalı
- Jeff, Elecrow’a e-posta göndererek, kendisine benzeyen AI sesi içeren en az iki serinin kaldırılmasını istedi
- Bu sesin kasıtlı olarak kendisine benzeyecek şekilde üretilip üretilmediğini sordu
- Sesin, kendi videoları ya da ses içerikleriyle eğitilip eğitilmediğinin de doğrulanmasını istedi
- YouTube kaldırma talebi ya da hukuki süreçten önce işe e-postayla başlamak istedi ve geçmişte sorun yaşanmadığı için bunun dürüst bir hata olma ihtimalini de dışlamadı
- Yine de Elecrow’un Jeff’in kanalını bildiği açık
- 2020’den bugüne kadar Elecrow’un 5 pazarlama çalışanıyla arasında 43’ten fazla e-posta alışverişi oldu
- Bunların 22’si bu yıl gönderildi
- 2 Nisan 2024’te Elecrow’dan bir pazarlama çalışanı, ücretli iş ortaklığını görüşmek istediğini belirten bir e-posta gönderdi
- 23 Eylül güncellemesinde Elecrow CEO’su yanıt verdi; Jeff de bu yanıtı ve AI ses klonlaması hakkındaki düşüncelerini içeren bir takip yazısı yayımladı
1 yorum
Hacker News görüşleri
Yapay zekâya dair korkular herkes için farklıdır, ama özellikle ürkütücü olan, yapay zekâyla birini dine küfretmiş gibi sahte şekilde göstermek.
Benim ülkemde, zaten çok küçük bir hakaret gibi görünse bile, gerçek ya da hayalî fark etmeksizin dine küfür linç güruhları oluşuyor. Üzerine çullanıp linç ediyorlar, cesedi yakıyorlar; ailesi saklanıp kurbanı reddettiğini ve güruhu affettiğini söyleyen bir video mesaj yayımlarken güruh tatlı dağıtıp yiyor.
Yapay zekâ kolay erişilebilir hâle gelmeden önce de böyleydi. “Geri kalmış ülke meselesi” denebilir, ama orada durmayıp yayılacak. Bir bebeğin eline bıçak verip sonra bıçakladı diye onu suçlayamazsınız.
İtibar, güvenlik, telif hakkı fark etmeksizin bu insanları öldürebilir ve bunu kontrol edecek bir araç yok.
https://x.com/search?q=blasphemy
Gelecekten korkuyorum.
Bunlar kısıtlı, regüle edilmiş ya da erişmesi zor kaldıkça insanlar video ve ses kayıtlarının manipüle edilemez olduğunu düşünmeye devam edecek. Ama 1 dolarlık bir uygulamayla ses klonlama kolay ve eğlenceli bir şakaya dönüşür, gençlerin şaka aramaları yapmasına izin verilirse bu kısa sürede kamuoyu algısına yerleşebilir.
Geçen hafta 70 yaşındaki annem sesli posta karşılama mesajını silmesi gerekip gerekmediğini sordu. Birinin bununla sesini çalabileceğini söylemişti; muhtemelen Fox gibi bir yayında duymuş olmasına şaşırdım.
Birkaç yıl zor geçecek, ama umarım çabuk atlatılır.
Şu anda yeterince yorumu olan bir kullanıcı için korelasyon analiziyle anonimliğin kaldırılması büyük olasılıkla mümkün. %100 doğru olmasa bile üslubu çalınabilir. Bu ihtiyatlılık olabilir, ama karanlık bir ormana girmeyeceğimizin garantisi yok ve o yöne doğru gittiğimizi düşünmek için sebepler de var.
Aynı zamanda, gölgeye çekilmemek pes etmemek anlamına mı geliyor diye de düşünüyorum.
Reddit gibi sosyal medyada birkaç yıl boyunca “suçluyu bulma” ya da “kimlik ifşa etme” yapıldıktan sonra, çevrimiçi kalabalıkların sık sık yanıldığını moderatörlerin fark edip genelde bunu yasaklamasına benziyor.
Ama yasalar geçene ya da videoların gerçek olmaktansa sahte olma ihtimalinin daha yüksek olduğu algısı sağduyu hâline gelene kadar çok insan zarar görecek. 5 yıldan uzun da sürebilir; ayrıca yasalar genellikle ancak birine verilen zarar kanıtlandıktan sonra çıkıyor, bu da sorun.
Yapay zekâ kullanıldı diye Midler vs. Ford içtihadından nasıl kaçılabileceğini anlamıyorum.
Hatta başka bir seslendirme sanatçısına sesi taklit ettirmek yerine yapay zekâyla sesi kopyaladılarsa savunma gerekçesi daha zayıf görünüyor.
Diğer birçok eyalette sözde tanıtım hakkına ilişkin yasalar ve içtihatlar dağınık ve birbirinden farklı. Böyle bir kavramın tanınıp sınırlarının çizilmesi gerekip gerekmediği, gerekiyorsa nasıl yapılacağı konusunda eyaletler arasında yaygın bir uzlaşıdan oldukça uzak durumdayız.
“...bu gözlem şarkıya, özellikle de ünlü bir şarkıcının şarkısına uygulanır. Bir şarkıcı şarkıda kendini ortaya koyar. Onun sesini taklit etmek, kimliğini korsanlamaktır...”
“Ürün reklamı için yapılan her ses taklidinin dava konusu olabileceğine karar vermemiz gerekmiyor ve vermiyoruz. Yalnızca, yaygın olarak bilinen profesyonel bir şarkıcının ayırt edici sesi bir ürünü satmak için kasıtlı olarak taklit edildiğinde, satıcının kendisine ait olmayan bir şeyi kendine mal etmiş olduğuna karar veriyoruz...”
İçtihada işaret ettiğin için teşekkürler, ama içtihat yalnızca başlangıç noktası; sonunda içtihadın ötesine geçen ilkeler koymamız gerekiyor.
Teknoloji eşi görülmemiş kabiliyetler getirdiğinde, toplumun insanlar aleyhine değil lehine işlemesini sağlayacak sınırlar çizebiliriz; ya da güçlülerin istediğini yaptığı, zayıfların veya ancak bir Camry yürütebilen insanların da buna katlanmak zorunda kaldığı bir dünyaya daha da yaklaşmasına izin veririz.
Henüz Temsilciler Meclisi’nde geliştirilme aşamasında, ama iki partiden de destek alıyor. Kendi seçim bölgesi temsilcinizle iletişime geçip ortak sponsor olmasını ya da lehte oy vermesini isteyebilirsiniz.
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
Temyiz süreçlerinin masraflarını karşılayacak ACLU gibi siyasi bir kâr amacı gütmeyen kuruluş bulmanız gerekir; bu arada olumsuz basın haberlerine ve ilgiye katlanmanız gerekir.
Camry sınıfının savunuculara ihtiyacı olduğuna tamamen katılıyorum, ama modern pratiğin temel ilkelerinden biri insanların kendi kaldırabilecekleri katkı düzeyini seçmesine izin vermek olmalı. Teşvik etmeli, öne çıkarmalı, cesaret vermeli; ama utandırmamalıyız.
Her hâlükârda bu blog yazısı tek başına bile yeterli olabilir. İnsan sesini çalan tarafta duran pek az kişi vardır; NYT ya da deviantart arşivlerini eğitim verisi olarak kazımaktan farklı olarak bu sezgisel açıdan çok daha rahatsız edici. Kamuoyu önünde utandırma büyük tazminatlar getirmez, ama zaten bunu istiyormuş gibi de görünmüyor.
Büyük dil modelleri nihai remix makinesiyse, arama destekli üretime (RAG) sahip herkes dijital DJ mi oluyor diye düşünüyorum.
Dijital bilgide artık hırsızlığın ne olduğunu bile anlamak zor. Hukuki içtihat eksikliği yüzünden fikri mülkiyet ve telif hukuku için Vahşi Batı dönemindeymişiz gibi geliyor.
Scarlett Johansson gibi bir süperstar bile OpenAI’ın “Her” personasını taklit etmeye çalışmasına karşı acı dolu bir mektup yazmaktan fazlasını yapamıyorsa, nispeten sıradan, niş bir geek ne yapabilir?
Geerling gibi aynı ölçüde üzgün, öfkeli ve hayal kırıklığına uğramış halde “lütfen iyi niyetle onur kurallarına uyun” demekle yetinebilir gibi.
Böyle durumlarda o ünü misilleme için de kullanabilirsiniz. Örneğin bunun sonunda Elecrow’un itibarına iyi geleceğini hayal etmek zor. Bir dahaki sefere bu şirketin adını gördüğümde “aa, insanları kandıran şirket” diye düşüneceğim; bu da onlar için iyi değil.
Daha endişe verici olan, bunun sevmediğiniz birini ortadan kaldırmak için kullanılması. Örneğin bir üniversite öğretim görevlisi hiçbir yanlış yapmamışken, notundan memnun olmayan bir öğrencinin ses klonlama kullanarak onu işten attıracak bir şey söylemiş gibi göstermesini hayal edebiliriz. Ses klonlama çok iyi hale geldiğinde böyle biri kendini nasıl savunabilir? Kayıtların artık güvenilir görülmeyecek kadar yaygınlaşmasına kadar bu zor.
Hırsızlıkta, mağdurun çalınan şeyin faydasını kaybetmiş olması şartı gerekir. Kopyala-yapıştır ise yalnızca, iddia edilen memleri kullanıp ödeme yapmadığınızda insanları hapis ve yoksullukla tehdit eden iskambil kâğıdından sistemi uçurur.
Sanığın şirket değil insan olduğu bir telif ihlali davasında jüri üyesi olursam hepsinde jüri hükümsüzlüğüne giderdim.
Eric Schmidt yakın zamanda, başarılı olursanız avukatlar sonra halleder diyerek önce çalın dememiş miydi?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] Tam olarak yasal şekilde çalın demek istedi; ama bunun ne anlama geldiğini bilmiyorum.
Dünya sürekli aşağıdan zıplayıp tekmeleyerek sizi düşürmeye çalışıyorsa, durduğunuz yer yanlış olabilir.
.copy()arayüzü olan nesnelerde hırsızlık tanımlı değildir. Yine de yakından bakarsanız hâlâ vardır.İnsanların hukuku değil, beklentilerini ayarlaması gerekiyor. Bilgisayar kasiyerin yerini aldı; şimdi de ses oyunculuğu seslendirme sanatçısının yerini alıyor. Popülerlik aslında pek bir şey ifade etmiyor; yalnızca popüler insanlar işlerini koruyabiliyorsa bu da haksızlık değil mi?
Yapay zeka kısmını bir kenara bıraksak bile, Jeff’in görüşlerini ciddi biçimde çarpıtmak ya da imajını izinsiz kullanmak değil mi bu diye düşünüyorum.
Sesini kullanarak ürün için örtük ve manipüle edilmiş bir onay yaratıyorlar; bu çok yanlış geliyor. Yapay zekadan çok önce de bu tür durumlarla ilgilenen yasalar var olmalıydı.
Eskiden beri sesleri iyi taklit edebilen insanlar vardı ve genellikle bu yeteneklerini komedi ya da hiciv için kullanırlardı; başkalarının görüşlerini çarpıtmak için değil. Hukukçu değilim ama bunun oldukça sağlam bir hukuki zeminde durduğunu ve birini yanlış temsil etmenin hukuken nispeten kolay ele alınabileceğini düşünüyorum.
Fark demokratikleşme. Bu beceriye sahip çok az insanın olduğu durumdan, bilgisayarı olan neredeyse herkesin benzer bir şey yapabildiği duruma geçtik. Bu yüzden denetlemek çok daha zorlaşıyor; çözüm hukuki işlem gerektiriyorsa Jeff Geerling gibi biri için bunun altından kalkmak muhtemelen zor.
Garip olan ben olabilirim ama o sesin ona o kadar benzediğini düşünmüyorum.
Biraz benziyor ama farklı; perdesi biraz daha yüksek, daha nazal ve vurgusu da biraz farklı.
https://www.youtube.com/watch?v=UMofZIT9FcQ
Söylediğin vurgu ve perde farkları, bunun sadece yapay zeka üretimi ses olmasından ve insan konuşması olmamasından kaynaklanıyor.
Muhtemelen onların anlatacağı şey, daha hoş duyulan sesleri de karıştırıp yeterli bir ayırt edicilik yarattıkları yönünde olur.
Sorun, görüntü/ses benzerliğinin izinsiz kullanımı kapsamından çıkmak için ne kadar farklı olması gerektiğine kimin karar vereceği. “Genel geek sesinin kralı” aşırı benzerlik iddiasında bulunacak, şüphe altındaki taraf da tüm süreci açıklamayacak.
Yapay zeka sesini kulakla ayarlamak da yakında mümkün olacak; bu yüzden belirli bir alanın temsilî sesi olduğunuzu söyleyip eğitimden çıkarılmayı talep etmek de sizi güvende tutmayacak. Ses otoritesi gibi bir şey kulağa kasvetli geliyor.
Küçük bir teknoloji YouTuber’ı olarak Elecrow ile benim de temasım oldu.
Bildiğim kadarıyla yalnızca Elecrow değil, birçok şirkette çalışanlar YouTuber’larla uzun vadeli ortaklıklar ya da video işbirlikleri bağladıklarında ödül, terfi veya komisyon alıyor. Birileri bu alanda Jeff’in kanalının oldukça ünlü olduğunu düşünüp Jeff’in sesini klonlamanın akıllıca olacağını sanmış olabilir.
Şu anda Elecrow açısından kesinlikle iyi bir PR değil; bunun kasıtlı olduğunu kabul edip etmeyeceklerini de merak ediyorum.
Çalınan ses tonunun önemli olacağı fikri, AI yatırımları içinde bile en dar görüşlü kısımlardan biri. Hollywood tarzı “asla yeni bir şey yapmayalım” düşüncesinden güç alıyor denebilir
Yaklaşık 5 yıl sonra AI sesleri kişiye özel olacak ve gerçek insanlardan daha iyi dinlenecek. Ses teli yorgunluğuyla sınırlanmayacak, istenildiği gibi değiştirilebilecek ve kullanıcı etkileşimi ölçülerek kolayca ayarlanabilecek
İleride esas mesele ses çıktısını ince ayarlamak ve etkileşimi gözlemlemek olacak
Onların özellikle onun sesini seçmesinin nedeni tam da bu
AI sesi estetik olarak ayırt edilemez hâle gelebilir ya da daha çok tercih edilebilir, ama itibar veya samimiyet taşıyamaz. Bunlar doğası gereği nadir olduğu için değerlidir. Aksine, genelleşmiş düşük kaliteli içerik denizinde kendine özgü marka değeri olan kişilere talebin düşmek yerine artması muhtemel. Günümüzde reklamlarda influencer’ların büyük paralar kazanmasının nedeni de bu
“Eğitim” demek
Şu anda bile 30 saniyelik ses girdisinden başlayan çeşitli ses klonlama yöntemleri sunuyor. 30 saniyelik olan, klonlanan sese bir ölçüde benziyor ama tamamen aynı değil; birkaç saatlik ses verirseniz gerçek bir insan gibi duyuluyor. Üstelik sesi birkaç parametreyle ayarlayabiliyor ya da yalnızca parametre tanımlarıyla sıfırdan oluşturabiliyorsunuz
Videodaki ses, kalitesine bakılırsa birkaç saniyelik girdiden yapılmış “anlık klon” sesi olabilir. Daha gelişmiş klonlama için sesin size ait olduğuna dair kanıt gerekiyor
[1] https://elevenlabs.io
Böyle bir durumda şirketler onların seslerini satın almak isteyebilir. Mesele sadece kulağa hoş gelmesi değil, aşinalığın değeri de büyük. Örneğin ElevenLabs, vefat etmiş kişilerin ses haklarını ailelerinden satın aldı
Ama bu tür nostalji içeren özel bağlamlar dışında, baştan sentetik ses oluşturmamak için bir neden göremiyorum
Birileri, başka bir kişinin suç itiraf ediyormuş gibi göründüğü bir kayıt üretip bu mahkemede kullanılana kadar herkes bunu eğlence olarak görecek
AI’da sevmediğim taraf tam da bu
Peki video ve ses delilleri kabul edilemez olursa ne yapacağız
Yine de her iki durumda da asıl mahkemeden çok kamuoyu mahkemesinde daha önemli görünüyor
Yeni ve faydalı bir teknolojiyi değerlendirirken kanıt biçimlerini korumanın başlıca mesele olduğunu söylemek zor
Yüzlerce ses klonlama aracı olduğuna göre klon ses içeriklerinin ortaya çıkması kaçınılmaz
Birinin görselinin izinsiz kullanılması durumuna benziyor. Platformlar ve operasyon ekipleri için bildirme ve kaldırma süreçleri zaten var. Ses için de benzer bir şeye ihtiyaç var gibi görünüyor