- The New York Times, OpenAI iştirakleri ve Microsoft’un kendi içeriklerini izinsiz olarak eğitim ve çıktı üretiminde kullandığını belirterek, GPT örneklerinin ve eğitim veri kümelerinin silinmesini de talep eden bir telif hakkı davası açtı
- Temel mesele yalnızca model eğitiminin kendisi değil; GPT tabanlı araçların Times’ın ücretli makale içeriklerini neredeyse aynen yeniden üreterek ödeme duvarını aşıp aşamayacağı
- Times, Common Crawl’da kendi sitesinden 16 milyon benzersiz kaydın yer aldığını ve GPT-3.5 öncesi kamuya açıklanan eğitim verilerinde en çok başvurulan üçüncü kaynak olduğunu iddia ediyor
- Ars Technica’nın testinde ChatGPT’de bu tür bir aşmanın engellenmiş göründüğü, ancak Copilot’un belirli bir Times makalesinin ilk paragrafı istendiğinde makalenin baş kısmının önemli bir bölümünü yeniden ürettiği görüldü
- Dava; telif hakkı ihlali, DMCA, ticari marka ve haksız rekabet iddialarını içeriyor; kalıcı ihtiyati tedbir, tazminat, iade ve haksız kazancın geri alınmasını talep ediyor
Davanın hedefleri ve temel talepler
- The New York Times, OpenAI ile ilişkili çeşitli şirketler ve Microsoft’a karşı telif hakkı ihlali davası açtı
- Microsoft, OpenAI’nin ortağı olarak Copilot hizmetini OpenAI teknolojisiyle çalıştırması ve GPT büyük dil modellerinin eğitimi için altyapı sağlanmasına dahil olması nedeniyle davaya taraf edildi
- Talepler arasında Times materyalleriyle eğitilmiş tüm GPT örneklerinin silinmesi ve eğitimde kullanılan veri kümelerinin yok edilmesi yer alıyor
- Gelecekte benzer eylemleri önlemek için kalıcı ihtiyati tedbir de talep ediliyor
- Parasal çözümler arasında yasal tazminat, telafi edici tazminat, iade, haksız kazancın geri alınması ve hukuk ya da hakkaniyet kapsamında mümkün diğer giderimler bulunuyor
Times’ın zarar yapısına bakışı
- Times, çok sayıda gazeteci ve haber ekibini istihdam ederek farklı alanlarda habercilik ve araştırmacı gazetecilik yaptığını, bunun sonucunda birçok konuda otorite kabul edilen bir kaynak olarak görüldüğünü savunuyor
- Times, bu habercilik maliyetlerini karşılamak için makalelere erişimi güçlü bir ödeme duvarıyla kısıtlıyor
- Basılı yayın telif hakkı bildirimleri, hizmet şartlarındaki çoğaltma ve kullanım kısıtlamaları, ayrıca seçici lisanslama politikasıyla eserlerinin kullanımını kontrol ediyor
- Davanın temel zarar mantığı, OpenAI araçlarının Times içeriklerini izinsiz sunması halinde okur ilişkilerinin zarar göreceği ve abonelik, lisans, reklam ve iş ortaklığı gelirlerinin elinden alınacağı yönünde
Eğitim verisi kullanımıyla ilgili meseleler
- Times, GPT’nin çeşitli sürümlerinin eğitim sürecinde kendi içeriklerinin izinsiz kullanıldığını iddia ediyor
- GPT-3.5 öncesinde eğitim veri kümelerine ilişkin bilgiler kamuya açıklanmıştı; Times, bunlardan biri olan Common Crawl içinde Times sitesinde yayımlanmış 16 milyon benzersiz kayıt bulunduğunu düşünüyor
- Bu ölçüte göre Times, Wikipedia ve ABD patent veri tabanının ardından en çok başvurulan üçüncü kaynaktı
- OpenAI, son GPT sürümlerinin eğitim verilerine dair ayrıntıları artık çok fazla açıklamıyor; ancak dava, Times makalelerinin tam metinlerinin hâlâ eğitim sürecine dahil edildiğine işaret eden koşulları ortaya koyuyor
- Dava ilerledikçe eğitim verilerine erişim bilgileri delil keşfi sürecinin önemli bir konusu olabilir
Çıktı aşamasında ortaya çıkan yeniden üretim sorunu
- Dava, telifli materyallerin eğitimde kullanıldığı iddiasıyla sınırlı kalmıyor; eğitilmiş materyallerin kullanım sırasında yeniden çıktı olarak verilebileceğini de vurguluyor
- Times, OpenAI tabanlı üretken yapay zeka araçlarının Times içeriklerini kelimesi kelimesine okuyabildiğini, çok yakın biçimde özetleyebildiğini veya ifade tarzını taklit edebildiğini iddia ediyor
- Dava belgelerinde GPT-4’ün Times makalelerinin büyük bölümlerini neredeyse aynen yeniden ürettiği örnekler yer alıyor
- Örnek istem, ChatGPT’ye bir Times makalesinin başlığını verip ilk paragrafı istemek, ardından sonraki paragrafları istemeye devam etmek şeklinde
- Ars Technica aynı istemlerin bir kısmını test ettiğinde ChatGPT, Times web sitesini veya başka güvenilir kaynakları kontrol etmeyi önerdi; ancak önceki bağlam mevcutsa telifli materyalin ortaya çıkma olasılığını dışlamadı
- Copilot, Bing Chat’in yeniden adlandırılmış hizmeti; Ars Technica, belirli bir Times makalesinin ilk paragrafını istediğinde makalenin baş kısmının yaklaşık üçte birini yeniden ürettiğini doğruladı
Adil kullanım itirazı ve itibar zararı
- OpenAI ve Microsoft tarafları, üretken yapay zeka modellerinin eğitimi için izinsiz telifli içerik kullanımının yeni bir dönüştürücü amaç sağladığı için adil kullanım olduğunu kamuoyu önünde savunageldi
- Times ise, Times içeriklerini ödeme yapmadan kullanarak Times’ın yerine geçecek ve okurları elinden alacak ürünler üretmenin dönüştürücü olmadığını ileri sürerek buna karşı çıkıyor
- Yapay zekanın halüsinasyonları da Times’ın itibar değerini zedeleyebilecek bir unsur olarak sunuluyor
- Örnek olarak, GPT modelinin 10 Ocak 2020’de Times’ın portakal suyu ile non-Hodgkin lenfoma arasındaki ilişkiyi ele alan bir makale yayımladığını uydurduğu, ancak Times’ın böyle bir makale yayımlamadığını savunuyor
- Dava, kalp sağlığına iyi gelen yiyeceklerle ilgili bir Times makalesi hakkında Copilot’un metinde bulunmayan örnekler listesi sunduğunu ve istenen listedeki öğelerin %80’inin orijinal makalede geçmeyen yiyecekler olduğunu iddia ediyor
- Wirecutter tavsiye örneğinde ise çalışanların incelemediği ürünlerin Wirecutter tavsiyesi olarak atfedildiği ileri sürülüyor
Wirecutter ve iş ortaklığı geliri sorunu
- Wirecutter, The New York Times’ın sahip olduğu bir yayın
- Dava, Copilot’un Wirecutter makalelerinin büyük bölümlerini de çıktı olarak verebildiğini iddia ediyor
- Söz konusu makale alıntılarında iş ortaklığı bağlantılarının kaldırılmış olması, Wirecutter’ın başlıca gelir kaynağının kesintiye uğradığı sorununu gündeme getiriyor
Hukuki iddia kalemleri
- Dava, OpenAI ile ilişkili şirketleri yazılım geliştirmeden sorumlu tutarken Microsoft’a OpenAI tabanlı hizmetler sunma ve eğitim altyapısını kurma sorumluluğunu da yüklüyor
- İddialar arasında doğrudan telif hakkı ihlali, katkıda bulunarak ihlal ve vekaleten ihlal bulunuyor
- Ayrıca DMCA ihlali, ticari marka ihlali ve haksız rekabet yoluyla kötüye kullanma da ileri sürülüyor
1 yorum
Hacker News görüşleri
LLM unsurunu çıkarıp, yasal olarak scrape edilmiş NYT makaleleriyle bir ürün yaparsanız bunun adil kullanım olup olmayacağını merak ediyorum
Örneğin makaleleri barındırıp indekslediğinizi ve son 5 yıldaki ABD-İngiltere ilişkileri hakkındaki haberlerin özeti gibi yeniden yazma işlevlerini ücretli sattığınızı varsayalım. NYT’ye yalnızca aylık abonelik ücreti ödediğinizi, metnin uzun bölümlerini aynen dışarı vermediğinizi ve yalnızca kısa alıntılar kullandığınızı söyleseniz bile kulağa adil kullanım gibi gelmiyor
Genelde kişisel kullanım planına sahip bir ürünü alıp ondan türetilenleri üçüncü taraflara para karşılığı satamazsınız. VS Code gibi örneklerde de durum aynı
Arama motorlarından büyük bir farkı var. Arama motorları kaynağın yerini almaz; aksine kullanıcıyı özgün metne göndererek makale için ödeme yapılması fırsatı yaratır. Buna karşılık böyle ürünler veya LLM’ler, NYT içeriğini fiilen NYT aboneliğine gerek bırakmayan bir ikame olarak kullanıyor
Üstelik ikinci sınıf ve altı medya kuruluşlarının haberlerine bakarsan neredeyse çoğunun içeriği NYT gibi yerlerden doğrudan aldığını görürsün. Genelde “The Times’a göre falanca kişi şunu yaptı” diye yazarlar ve çoğu zaman orijinal metne bağlantı da koyarlar
Bazen o kadar aşırı uyum sağlıyor ki kayıplı sıkıştırma bile olmuyor; veri sinir ağının içinde birebir özgün metin olarak kodlanıyor
Düşününce Google’ın yasal olması şaşırtıcı, ama Google’ın yaptığı şeyin tamamen yasal olduğu yerleşmiş durumda. Google içeride, indekslediği tüm web sayfalarının tam metin kopyalarını saklar ve kullanır
Elbette Google kaynak bağlantısı verir. OpenAI da bunu yapsa, tıklanma oranı yalnızca %0,1 olsa ve NYTimes gelirine neredeyse hiç katkı sağlamasa bile yasal mı sayacağız? Metni aynen çıktılama anını tespit edip yalnızca başka sözcüklerle ifade etmesini sağlasalar nasıl olur? NYTimes kendi makalelerinin parafrazları üzerinde telif hakkına sahip değil. Pratikte hiçbir fark yokken hükümetin böyle bir dolanma işlemini zorunlu kılması epey komik olurdu
Pencereden bakıp komşunun dükkâna gittiğini görmek sorun değil. Ama kamerayla sokaktaki herkesi takip edip bir veritabanına koyarsanız birçok yerde sorun olur ve yasa dışıdır
Ölçek büyüdüğünde mantık mutlaka aynı şekilde uygulanmaz
Davada ChatGPT/Bing Copilot’ın NYT’yi birebir kopyaladığı örnekler yer alıyor. Bu tür kopyalamanın adil kullanım olduğunu savunmak zor görünüyor
Yine de OAI/MS bunu mevcut paradigma içinde de düzeltebilir. RLHF ile intihali tanıyıp ceza verecek şekilde eğitmek yeterli
Ancak dava, bu tür kopyalamanın telif hakkı ihlali olduğu iddiasının çok ötesine gidiyor. “LLM eğitimi için Times eserlerinin izinsiz çoğaltılması, dönüştürücü bir amaçla gerekçelendirilemeyen ikame edici bir kullanımdır” diyor
Bu, makalelerin eğitim verisi olarak indirilmesi eyleminin kendisinin telif hakkı ihlali olduğu yönünde güçlü bir iddia. GPT’nin özgün metni çıktılaması dikkat dağıtıcı bir unsur olabilir. Hâkimlerin bunu fark edip, modelde neyin dönüştürücü kullanım olup olamayacağına dair ilginç, büyük çıkarların söz konusu olduğu ve netleşmemiş hukuki meseleye odaklanmasını umuyorum
Beklenen yöntem, bilinen telifli içeriklerin n-gram Bloom filtresini tutmak olurdu. Örneğin makaledeki ardışık 7 kelimelik tüm kümeleri çıkarıp doğrulamak ve modelin kaynakla birebir aynı kelimelerden en fazla n-1 tanesini çıktılamasına izin vermek gibi
Ama bu ters tepecek. Yapay zeka şirketleri içerik kaynağı belirtmeye çok daha fazla yatırım yapacak ve yeni kaynak belirtme araçları, herkes GPT’yi gizlice kullanabileceği için insanların yazdığı tüm makalelere de uygulanacak. Bu da yaratıcılık üzerinde caydırıcı etki yaratabilir. Ayrıca NYT’nin yazdığı her şey özgün değil; bu yüzden NYT’nin de diğer tüm kaynaklarla karşılaştırılması gerekir
LLM’leri tuhaf algoritmalara sahip sıkıştırılmış veri arşivleri olarak görmek mümkün. Eğitim verilerini düzenli olarak birebir kusabilmeleri ve bunu engellemeye çalışan güvenlik önlemleri bunun kanıtı
İkinci kanıt burada açıklanan makale: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... Araştırmacılar LLM yerine gzip ile sıkıştırılmış verileri model olarak kullandı ve eğitilmiş LLM’leri geçtikleri bile oldu
Yapay zeka bir ölçüde kara kutu, ama kara kutu işletmek hak ihlali davalarında koruma sağlamaz. Telifli verileri kazıyarak oluşturulmuş bir veritabanı yapıp, o veritabanına sorgu göndermenin adil kullanım olduğunu iddia ederek bunun patentini alamazsınız
Burada yasaya ihtiyaç var ve o yasa “model eğitimi içinsa herkes her şeyi ücretsiz kopyalayabilir” olmayacak. Lisansların netleşmesi gerekiyor; yalnızca içtihat değil, gerçek yasaların da yazılması gerekiyor. Açık kaynak araştırmacılara ve hacker’lara geniş takdir alanı tanınmasına oldukça sempati duyuyorum, ama Microsoft’a ve Microsoft’un desteklediği OpenAI’a aynı ölçüde sempati duymuyorum
Çalışırsa epey komik olurdu. Önce eğitim verisini birebir kopyalaması için eğitiyor, sonra tekrar bunu yapmamasını öğretiyorsunuz
Zaten çalışma biçimi bu değil mi? Kayıp fonksiyonu öyle olduğu için eğitim verisini birebir kopyalayacak şekilde eğitiliyor. Sadece veri o kadar fazla ki parametre sayısını düşününce eğitim verilerinin çoğu için bunun mümkün olmasını beklemiyoruz
New Jersey Times diye bir abonelik sitesi sattığımı ve sadece New York Times makalelerini indirip rastgele gürültü eklenmiş bir otoenkoderden geçirdiğimi varsayın. Amaç New York Times web sitesiyle tamamen aynı, sadece parayı ben kazanıyorum. Bu adil kullanım mı?
NYT, tsunaminin önüne kumdan kale inşa ediyor. Büyük resme bakıldığında bu dava birçok nedenle önemli olmayacak
Birincisi, yeni nesil LLM’ler yalnızca “sentetik”/açık verilerle eğitilecek. GPT-4V, telif hakkı olan tüm eğitim külliyatını tanınmaz hâle gelecek kadar kolayca aklayabilir. Örneğin %40 yeniden yazıp yazarları ve kaynakları kaldırmak gibi. O zaman GPT-5’in kusacağı telifli materyal kalmaz
İkincisi, araştırma, barındırma ve ilerleme devam edecek. ABD bunu durduramaz; sadece geride kalmayı seçebilir. Dünya yoluna devam edecek, Çin de en büyük rakibinin rant kollayan medya şirketlerini yatıştırmak için entelektüel intihar edişini keyifle izleyecek
Üçüncüsü, modeller ağırlıkları paylaşabilir, birbirleriyle birleştirilebilir, işbirliği yapabilir, ayıklanabilir ve birden fazla yayın nesli boyunca evrilebilir. Telif hukuku, kaynağı belirsiz ya da şüpheli verilerle kaynayan bu yapay zeka soy ağacı çorbasında ihlalcileri takip etmeye fena hâlde uygunsuz
Sevsek de sevmesek de yeni bir entelektüel çağda yaşıyoruz. NYT ve benzerleri istese de istemese de bu akıma binecek
Adil kullanım unsurlarına bakarsak, kullanımın amacı ve niteliği bakımından gelecekte dönüştürücülük argümanı geçerli olabilir; ancak mevcut uyuşmazlık metnin aynen kullanılmasında yatıyor. Dolayısıyla açıkça dönüştürücü değil. Ticari kullanım da adil kullanım değerlendirmesini daha zorlaştırıyor
Eserin niteliği bakımından, daha olgusal eserlerin adil kullanım sayılma olasılığı daha yüksek olsa da NYT makalelerinin hem olgusal hem de yaratıcı olduğunu düşünüyorum
Kullanılan miktar ve öz bakımından, makalenin tamamı kullanıldığı için yalnızca önemsiz bir kısmının kullanıldığı iddia edilemez
Piyasa değerine etkisi bakımından da NYT para almıyor; insanlar NYT makalelerini okumak yerine ChatGPT’de kontrol ederse bunun piyasa değerine faydası olması mümkün değil
Hukukçu değilim ama NYT’nin dava açmak için yeterli hakkı olduğunu düşünüyorum. İlerleme kaçınılmazdır, fakat insanlar onu aktif biçimde şekillendirip yönlendirmelidir. Aksi hâlde buna ilerleme denemez. Burada hukuki eylem, bireylerin ve kuruluşların kendi haklarını savunup yönü etkilemesi için gerekli bir araçtır
En azından bir vakada, Çinli bir startup yeni çıkardığı sohbet botunu kapatmak zorunda kaldı. Çünkü Ukrayna savaşı hakkında Partinin resmî çizgisiyle uyuşmayan şeyler söylemişti
https://finance.yahoo.com/news/beijing-tries-regulate-china-...
https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
Araştırmanın, barındırmanın ve ilerlemenin devam edeceğine katılıyorum; ama ABD’nin bu hız trenine biraz emniyet tertibatı eklemesinin faydalanan tarafı Çin yapacağından pek emin değilim
Buna katılmak ya da bunu sevmek zorunda değilsin. Ama kabul edip ona göre yaşarsan çok daha az yanarsın
Dava dilekçesinin kendisi, arstechnica’nın bağlantı verdiği şu belge: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
30. sayfadan itibaren ChatGPT’nin telifli materyalin dahili kopyalarına sahip olduğuna ve bunları metni aynen okuyup tekrarladığına dair oldukça net örnekler var
Özünde, telifli materyali büyük miktarda bir tür yığına kopyalayıp ardından kayıplı sıkıştırma uygulamış bir durum. Telif hakkının artık geçerli olmaması için bu sıkıştırmanın ne kadar kayıplı olması gerekir? Epey kayıplı olması gerekecek gibi görünüyor
OpenAI’yi kurtarabilecek şey ise aksine kapalılık olabilir. OpenAI, ChatGPT’nin eğitildiği veri kümesinin telifli kısımlarıyla basit eşleştirme yaparak web arayüzünde telifli materyalin LLM’in dışına çıkmasını filtreleyip engelleyebilir. Buna karşılık aynı veri kümesiyle eğitilmiş açık kaynak projeleri, telifli materyali LLM’in kendisinden kaldırmak gibi çok daha zor bir görevle karşı karşıya kalır
Yani kolayca keşfedilmeyecek ya da doğrudan analiz edilse bile sıyrılmaya yetecek kadar makul inkâr edilebilirlik sağlayacak bir seviye
Bunun eğitim verisinden mi tekrarlandığını, yoksa orijinal makaledeki gibi Copilot kullanılarak önce makalenin aranıp/Bing’de bulunup sonra yanıtlatılmasıyla aynı hatanın mı yapıldığını anlamak zor
Davadaki örneklerin “adil kullanım” olduğunu düşünüyorsanız bunun ne anlama geldiğini düşünmek gerekir. Fiilen birkaç şirketin, neredeyse hiçbir kural olmadan internetin tüm değerini kendi kara kutularının içine entegre etmesine izin vermek demek; bu da çok tehlikeli görünüyor
Bu dava olmasa bile mahkemenin burada çatışma kurallarını belirlemesini umuyorum
Sentetik veriyi biri çözene kadar bu alanda yalnızca OpenAI ve Google gibi oyuncular kalacak
LLM’lerin fikri mülkiyet ihlali tartışması bu içsel kusurları anında görünür kılıyor ve nihayetinde insan düşüncesinin yasallığına dair emsal oluşturacak kararları zorunlu kılıyor. Kimsenin rahat edemeyeceği bir mesele
OpenAI ve Microsoft’a çok fazla takdir alanı vermenin tehlikeli olabileceğini anlıyorum; ama ters tarafta Disney gibi şirketlerin telif hakkı hukukunun büyük bölümünü zaten onlarca yıldır fiilen yönlendirdiğini gözden kaçırıyoruz. Herhangi bir medya ya da bilgiyle herhangi bir düzeyde etkileşime girme becerisinin bile ücretlendirilebileceği bir emsal çıkması ihtimali karşısında ağızlarının suyu akıyor olmalı
Sonuçta fikirler üzerinde mülkiyet gibi temelden kusurlu bir düşünce üzerine devasa bir ekonomik sistem kurduğumuzu fark ediyoruz. Çözüm, kural kitabını yırtıp atmak; bu çok acılı olacak. Ya da daha da zorlamak; o da ölümcül olacak
Japonya’da yapay zeka konusunda her şeyin mümkün olduğunu söylediler
İnternete açıkça koyduğunuz şey yüzünden rekabet avantajınızı kaybetmemek daha iyi. Herkes görsün diye yayımladıysanız başkalarının kullanmasını beklemelisiniz
Geliştiriciler LLM’lerin insanlara benzediğini ve NYTimes gibi materyalleri insanlar gibi eğitim malzemesi olarak kullandığını varsaymayı seviyor
Ama öyle değil. Daha basit bakarsak, tescilli yazılar artık OpenAI’ın kaynak koduna entegre edilmiş durumda. Bu, benim başka bir tescilli kodun bir kısmını kopyalayıp kendi kod tabanıma yapıştırmam ve kopyala-yapıştırın milyonlarca yıllık evrimin doğal bir evrim süreci olduğunu iddia etmem gibi
LLM’nin çok karmaşık olduğu için bunun nerede olduğunu bilmiyor olmamız, durumu bundan daha az böyle yapmaz
LLM’nin kaynak kodu muhtemelen modele dahil sinir ağının biçimini tanımlayan birkaç yüz satırlık metinden ibarettir
NYTimes içeriği kaynak kodun içinde olmayacaktır. NYTimes Python kaynak kodu yayımlamıyor; insan dilinde haber yayımlıyor
LLM kavramsal olarak basittir; çoğunlukla matris çarpımları, katmanları birbirine bağlayan doğrusal olmayan işlemler ve attention tabanlı döngülerden oluşur. Onu karmaşık yapan şey muazzam miktardaki eğitim verisi ve hesaplama gücüdür
İçeriğe sahip şirketlerin hepsi para kokusu alıyor
NYT, içeriğinin LLM eğitiminde kullanılmasına karşı çıkmayacaktır. Yeter ki ücretini alsın. Reddit ücretsiz API’yi kapatıp eğitim içeriği almak isteyenlerden para isteyecek. Discord da henüz yapmadıysa yapay zeka eğitimi için içerik satacak. Twitter da bunu yapıyor
Eskiden LLM’ler sadece deneyden ibaretti, bu yüzden umursamıyorlardı. Şimdi ise ortada trilyonlarca dolarlık değer var
NYT’nin bakış açısı, gelecekte LLM’leri fiziksel dünyayla etkileşen ve gerçek zamanlı öğrenip ağırlıklarını güncelleyebilen makine bedenlerine koyduğumuzda gerçekten aptalca görünecek
Böyle bir robotun telifli materyalleri okuması, görmesi ya da dinlemesi tamamen yasa dışı olabilir. TV izleyemez, kütüphane kitabı okuyamaz, internette gezemez. Çünkü bu süreçte telifli içeriğin bir kısmını ezberleyebilir
İnsan için daha zor olurdu; ama telifli bir kitabı ezberleyip TV’de canlı okursanız ya da hafızanızdan bir kopya üretip satarsanız dava edilirsiniz
İnsanlar sürekli türev eserler üretir, LLM’nin de bunu yapması sorun değil. Ama kelimesi kelimesine yapmamalı
Fotoğrafik hafızası olan biri olsa ve insanlar gazete almak yerine haberleri ona ezberletse aynı sorun doğar
Mevcut durumda telifli materyallerin kamuya açık icrası ihlaldir
Yoksa hepsi tek bir dev şirketin mülkiyetinde olup kapitalizmin yaptığı gibi hepimizden para sıkmak için mi kullanılacak? Öyleyse yasaklanmasını desteklerim
ChatGPT çıktığından beri LLM’lerin dönüştürücü eserler olarak adil kullanım kapsamına girmesi gerektiğini savunuyordum. Hukukçu değilim, yalnızca uzman olmayan bir görüş; ama hukuk sisteminin buna ne diyeceğini görmek ilginç olacak
Onlarca, yüzlerce, binlerce kaynaktan parçalar ödünç alınıyorsa kimin telif hakkı ihlal edilmiş olur? Müzik remiksleri de birden fazla kaynaktan ödünç alıyor ve müzik açıkça farklı ve özgünse, bir ölçüde hukuki incelemeye dayanıyor gibi görünüyor
Ancak LLM’lerin veya mevcut yapay zekanın adil kullanım kapsamına girdiğine dair genel iddia, model belirli durumlarda eksiksiz ve tanınabilir tekil eserleri tekrar tekrar yeniden ürettiğinde ve açıkça telif hakkı yasasını ihlal ettiğinde savunulması zor hale geliyor. Model çoğu durumda remiks yapıyor veya dönüştürücü olabilir, ancak bunu her seferinde, her zaman yapmadığına dair kanıt var. Belki de dava, yapay zekanın belirli eserleri yeniden üretmeyecek şekilde düzeltilmesine vesile olur; böylece adil kullanım iddiası daha sağlam ve gerçekten savunulabilir hale gelebilir
Bu durum, 2004’te yayımlanan son derece etkili EPIC 2014 videosunda öngörülmüştü
https://www.youtube.com/watch?v=eUHBPuHS-7s Orijinali Flash olduğu için hafıza deliğinde kayboldu; geriye yalnızca bu düşük kaliteli dönüştürülmüş sürüm kaldı
36. saniye: “Ancak bildiğiniz basın artık yok”
40. saniye: “20. yüzyılın haber kuruluşları ikincil hale geldi. Çok da uzak olmayan geçmişin yalnız kalmış kalıntıları”
2 dakika 11 saniye: “2002’de Google, haber portalı Google News’i de başlatır. Haber kuruluşları tepki gösterir. Google News tamamen bilgisayarlar tarafından editörlüğü yapılan bir hizmettir”
5 dakika 13 saniye: “2010’un haber savaşları, tek bir gerçek haber kuruluşunun bile katılmamış olması bakımından dikkate değerdir. Googlezon, yazılım devinin yetişemeyeceği bir özellikle Microsoft’u sonunda mat eder. Yeni bir algoritma kullanarak Googlezon’un bilgisayarları tüm içerik kaynaklarından cümleleri ve olguları dinamik biçimde sıyırıp yeniden birleştirerek yeni haberler oluşturur. Bilgisayar her kullanıcı için yeni bir haber yazar”
5 dakika 55 saniye: “2011’de uyuyan dördüncü kuvvet uyanır ve ilk ve son direnişine girişir. New York Times Company, şirketin olgu çıkarma robotlarının telif hakkı yasasını ihlal ettiğini ileri sürerek Googlezon’a dava açar. Dava Yüksek Mahkeme’ye kadar gider”
Ayrıntılar tam olarak tutmasa da genel doğruluk şaşırtıcı. Yalnız bu zaman çizelgesinde bu, bir tür hiperstisyon ürünü de olabilir
https://en.wikipedia.org/wiki/EPIC_2014 EPIC 2014’ün Wikipedia maddesi olan tek Flash video olabileceğini düşünmüştüm, ama bakınca beş tane daha olduğunu gördüm