NY Times telif hakkı davasında OpenAI’den tüm GPT örneklerini silmesini istiyor

(arstechnica.com)

1 puan yazan GN⁺ 2023-12-29 | 1 yorum | WhatsApp'ta paylaş

The New York Times, OpenAI iştirakleri ve Microsoft’un kendi içeriklerini izinsiz olarak eğitim ve çıktı üretiminde kullandığını belirterek, GPT örneklerinin ve eğitim veri kümelerinin silinmesini de talep eden bir telif hakkı davası açtı
Temel mesele yalnızca model eğitiminin kendisi değil; GPT tabanlı araçların Times’ın ücretli makale içeriklerini neredeyse aynen yeniden üreterek ödeme duvarını aşıp aşamayacağı
Times, Common Crawl’da kendi sitesinden 16 milyon benzersiz kaydın yer aldığını ve GPT-3.5 öncesi kamuya açıklanan eğitim verilerinde en çok başvurulan üçüncü kaynak olduğunu iddia ediyor
Ars Technica’nın testinde ChatGPT’de bu tür bir aşmanın engellenmiş göründüğü, ancak Copilot’un belirli bir Times makalesinin ilk paragrafı istendiğinde makalenin baş kısmının önemli bir bölümünü yeniden ürettiği görüldü
Dava; telif hakkı ihlali, DMCA, ticari marka ve haksız rekabet iddialarını içeriyor; kalıcı ihtiyati tedbir, tazminat, iade ve haksız kazancın geri alınmasını talep ediyor

Davanın hedefleri ve temel talepler

The New York Times, OpenAI ile ilişkili çeşitli şirketler ve Microsoft’a karşı telif hakkı ihlali davası açtı
Microsoft, OpenAI’nin ortağı olarak Copilot hizmetini OpenAI teknolojisiyle çalıştırması ve GPT büyük dil modellerinin eğitimi için altyapı sağlanmasına dahil olması nedeniyle davaya taraf edildi
Talepler arasında Times materyalleriyle eğitilmiş tüm GPT örneklerinin silinmesi ve eğitimde kullanılan veri kümelerinin yok edilmesi yer alıyor
Gelecekte benzer eylemleri önlemek için kalıcı ihtiyati tedbir de talep ediliyor
Parasal çözümler arasında yasal tazminat, telafi edici tazminat, iade, haksız kazancın geri alınması ve hukuk ya da hakkaniyet kapsamında mümkün diğer giderimler bulunuyor

Times’ın zarar yapısına bakışı

Times, çok sayıda gazeteci ve haber ekibini istihdam ederek farklı alanlarda habercilik ve araştırmacı gazetecilik yaptığını, bunun sonucunda birçok konuda otorite kabul edilen bir kaynak olarak görüldüğünü savunuyor
Times, bu habercilik maliyetlerini karşılamak için makalelere erişimi güçlü bir ödeme duvarıyla kısıtlıyor
Basılı yayın telif hakkı bildirimleri, hizmet şartlarındaki çoğaltma ve kullanım kısıtlamaları, ayrıca seçici lisanslama politikasıyla eserlerinin kullanımını kontrol ediyor
Davanın temel zarar mantığı, OpenAI araçlarının Times içeriklerini izinsiz sunması halinde okur ilişkilerinin zarar göreceği ve abonelik, lisans, reklam ve iş ortaklığı gelirlerinin elinden alınacağı yönünde

Eğitim verisi kullanımıyla ilgili meseleler

Times, GPT’nin çeşitli sürümlerinin eğitim sürecinde kendi içeriklerinin izinsiz kullanıldığını iddia ediyor
GPT-3.5 öncesinde eğitim veri kümelerine ilişkin bilgiler kamuya açıklanmıştı; Times, bunlardan biri olan Common Crawl içinde Times sitesinde yayımlanmış 16 milyon benzersiz kayıt bulunduğunu düşünüyor
Bu ölçüte göre Times, Wikipedia ve ABD patent veri tabanının ardından en çok başvurulan üçüncü kaynaktı
OpenAI, son GPT sürümlerinin eğitim verilerine dair ayrıntıları artık çok fazla açıklamıyor; ancak dava, Times makalelerinin tam metinlerinin hâlâ eğitim sürecine dahil edildiğine işaret eden koşulları ortaya koyuyor
Dava ilerledikçe eğitim verilerine erişim bilgileri delil keşfi sürecinin önemli bir konusu olabilir

Çıktı aşamasında ortaya çıkan yeniden üretim sorunu

Dava, telifli materyallerin eğitimde kullanıldığı iddiasıyla sınırlı kalmıyor; eğitilmiş materyallerin kullanım sırasında yeniden çıktı olarak verilebileceğini de vurguluyor
Times, OpenAI tabanlı üretken yapay zeka araçlarının Times içeriklerini kelimesi kelimesine okuyabildiğini, çok yakın biçimde özetleyebildiğini veya ifade tarzını taklit edebildiğini iddia ediyor
Dava belgelerinde GPT-4’ün Times makalelerinin büyük bölümlerini neredeyse aynen yeniden ürettiği örnekler yer alıyor
Örnek istem, ChatGPT’ye bir Times makalesinin başlığını verip ilk paragrafı istemek, ardından sonraki paragrafları istemeye devam etmek şeklinde
Ars Technica aynı istemlerin bir kısmını test ettiğinde ChatGPT, Times web sitesini veya başka güvenilir kaynakları kontrol etmeyi önerdi; ancak önceki bağlam mevcutsa telifli materyalin ortaya çıkma olasılığını dışlamadı
Copilot, Bing Chat’in yeniden adlandırılmış hizmeti; Ars Technica, belirli bir Times makalesinin ilk paragrafını istediğinde makalenin baş kısmının yaklaşık üçte birini yeniden ürettiğini doğruladı

Adil kullanım itirazı ve itibar zararı

OpenAI ve Microsoft tarafları, üretken yapay zeka modellerinin eğitimi için izinsiz telifli içerik kullanımının yeni bir dönüştürücü amaç sağladığı için adil kullanım olduğunu kamuoyu önünde savunageldi
Times ise, Times içeriklerini ödeme yapmadan kullanarak Times’ın yerine geçecek ve okurları elinden alacak ürünler üretmenin dönüştürücü olmadığını ileri sürerek buna karşı çıkıyor
Yapay zekanın halüsinasyonları da Times’ın itibar değerini zedeleyebilecek bir unsur olarak sunuluyor
Örnek olarak, GPT modelinin 10 Ocak 2020’de Times’ın portakal suyu ile non-Hodgkin lenfoma arasındaki ilişkiyi ele alan bir makale yayımladığını uydurduğu, ancak Times’ın böyle bir makale yayımlamadığını savunuyor
Dava, kalp sağlığına iyi gelen yiyeceklerle ilgili bir Times makalesi hakkında Copilot’un metinde bulunmayan örnekler listesi sunduğunu ve istenen listedeki öğelerin %80’inin orijinal makalede geçmeyen yiyecekler olduğunu iddia ediyor
Wirecutter tavsiye örneğinde ise çalışanların incelemediği ürünlerin Wirecutter tavsiyesi olarak atfedildiği ileri sürülüyor

Wirecutter ve iş ortaklığı geliri sorunu

Wirecutter, The New York Times’ın sahip olduğu bir yayın
Dava, Copilot’un Wirecutter makalelerinin büyük bölümlerini de çıktı olarak verebildiğini iddia ediyor
Söz konusu makale alıntılarında iş ortaklığı bağlantılarının kaldırılmış olması, Wirecutter’ın başlıca gelir kaynağının kesintiye uğradığı sorununu gündeme getiriyor

Hukuki iddia kalemleri

Dava, OpenAI ile ilişkili şirketleri yazılım geliştirmeden sorumlu tutarken Microsoft’a OpenAI tabanlı hizmetler sunma ve eğitim altyapısını kurma sorumluluğunu da yüklüyor
İddialar arasında doğrudan telif hakkı ihlali, katkıda bulunarak ihlal ve vekaleten ihlal bulunuyor
Ayrıca DMCA ihlali, ticari marka ihlali ve haksız rekabet yoluyla kötüye kullanma da ileri sürülüyor

1 yorum

GN⁺ 2023-12-29

Hacker News görüşleri

LLM unsurunu çıkarıp, yasal olarak scrape edilmiş NYT makaleleriyle bir ürün yaparsanız bunun adil kullanım olup olmayacağını merak ediyorum
Örneğin makaleleri barındırıp indekslediğinizi ve son 5 yıldaki ABD-İngiltere ilişkileri hakkındaki haberlerin özeti gibi yeniden yazma işlevlerini ücretli sattığınızı varsayalım. NYT’ye yalnızca aylık abonelik ücreti ödediğinizi, metnin uzun bölümlerini aynen dışarı vermediğinizi ve yalnızca kısa alıntılar kullandığınızı söyleseniz bile kulağa adil kullanım gibi gelmiyor
Genelde kişisel kullanım planına sahip bir ürünü alıp ondan türetilenleri üçüncü taraflara para karşılığı satamazsınız. VS Code gibi örneklerde de durum aynı
Arama motorlarından büyük bir farkı var. Arama motorları kaynağın yerini almaz; aksine kullanıcıyı özgün metne göndererek makale için ödeme yapılması fırsatı yaratır. Buna karşılık böyle ürünler veya LLM’ler, NYT içeriğini fiilen NYT aboneliğine gerek bırakmayan bir ikame olarak kullanıyor
- Anlattığın şey aslında tamamen adil kullanım kapsamına giriyor
  Üstelik ikinci sınıf ve altı medya kuruluşlarının haberlerine bakarsan neredeyse çoğunun içeriği NYT gibi yerlerden doğrudan aldığını görürsün. Genelde “The Times’a göre falanca kişi şunu yaptı” diye yazarlar ve çoğu zaman orijinal metne bağlantı da koyarlar
- Dikkate alınması gereken bir başka unsur da sinir ağlarının kayıplı sıkıştırma gibi davranabilmesi; aşırı uyum sağlamış modellerde bu çok belirginleşiyor
  Bazen o kadar aşırı uyum sağlıyor ki kayıplı sıkıştırma bile olmuyor; veri sinir ağının içinde birebir özgün metin olarak kodlanıyor
- “NYT makalelerinin büyük parçalarını aynen kusmuyor, yalnızca çok kısa alıntılar kullanıyor” ifadesi aslında Google’ı tarif ediyor
  Düşününce Google’ın yasal olması şaşırtıcı, ama Google’ın yaptığı şeyin tamamen yasal olduğu yerleşmiş durumda. Google içeride, indekslediği tüm web sayfalarının tam metin kopyalarını saklar ve kullanır
  Elbette Google kaynak bağlantısı verir. OpenAI da bunu yapsa, tıklanma oranı yalnızca %0,1 olsa ve NYTimes gelirine neredeyse hiç katkı sağlamasa bile yasal mı sayacağız? Metni aynen çıktılama anını tespit edip yalnızca başka sözcüklerle ifade etmesini sağlasalar nasıl olur? NYTimes kendi makalelerinin parafrazları üzerinde telif hakkına sahip değil. Pratikte hiçbir fark yokken hükümetin böyle bir dolanma işlemini zorunlu kılması epey komik olurdu
- Haber makalelerini fiilen özetleyen ve zaman zaman haberlerden alıntı yapan makale ya da blog yazıları yazmak tamamen yaygın bir şey değil mi?
- “Yasal olarak scrape edilmiş NYT makaleleriyle ürün yapmak adil kullanım mı?” sorusu iyi bir soru değil
  Pencereden bakıp komşunun dükkâna gittiğini görmek sorun değil. Ama kamerayla sokaktaki herkesi takip edip bir veritabanına koyarsanız birçok yerde sorun olur ve yasa dışıdır
  Ölçek büyüdüğünde mantık mutlaka aynı şekilde uygulanmaz
Davada ChatGPT/Bing Copilot’ın NYT’yi birebir kopyaladığı örnekler yer alıyor. Bu tür kopyalamanın adil kullanım olduğunu savunmak zor görünüyor
Yine de OAI/MS bunu mevcut paradigma içinde de düzeltebilir. RLHF ile intihali tanıyıp ceza verecek şekilde eğitmek yeterli
Ancak dava, bu tür kopyalamanın telif hakkı ihlali olduğu iddiasının çok ötesine gidiyor. “LLM eğitimi için Times eserlerinin izinsiz çoğaltılması, dönüştürücü bir amaçla gerekçelendirilemeyen ikame edici bir kullanımdır” diyor
Bu, makalelerin eğitim verisi olarak indirilmesi eyleminin kendisinin telif hakkı ihlali olduğu yönünde güçlü bir iddia. GPT’nin özgün metni çıktılaması dikkat dağıtıcı bir unsur olabilir. Hâkimlerin bunu fark edip, modelde neyin dönüştürücü kullanım olup olamayacağına dair ilginç, büyük çıkarların söz konusu olduğu ve netleşmemiş hukuki meseleye odaklanmasını umuyorum
- “RLHF ile intihali tanıyıp ceza verin” demek bir RLHF meselesi değil
  Beklenen yöntem, bilinen telifli içeriklerin n-gram Bloom filtresini tutmak olurdu. Örneğin makaledeki ardışık 7 kelimelik tüm kümeleri çıkarıp doğrulamak ve modelin kaynakla birebir aynı kelimelerden en fazla n-1 tanesini çıktılamasına izin vermek gibi
  Ama bu ters tepecek. Yapay zeka şirketleri içerik kaynağı belirtmeye çok daha fazla yatırım yapacak ve yeni kaynak belirtme araçları, herkes GPT’yi gizlice kullanabileceği için insanların yazdığı tüm makalelere de uygulanacak. Bu da yaratıcılık üzerinde caydırıcı etki yaratabilir. Ayrıca NYT’nin yazdığı her şey özgün değil; bu yüzden NYT’nin de diğer tüm kaynaklarla karşılaştırılması gerekir
- NYT kazanacak gibi geliyor
  LLM’leri tuhaf algoritmalara sahip sıkıştırılmış veri arşivleri olarak görmek mümkün. Eğitim verilerini düzenli olarak birebir kusabilmeleri ve bunu engellemeye çalışan güvenlik önlemleri bunun kanıtı
  İkinci kanıt burada açıklanan makale: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... Araştırmacılar LLM yerine gzip ile sıkıştırılmış verileri model olarak kullandı ve eğitilmiş LLM’leri geçtikleri bile oldu
  Yapay zeka bir ölçüde kara kutu, ama kara kutu işletmek hak ihlali davalarında koruma sağlamaz. Telifli verileri kazıyarak oluşturulmuş bir veritabanı yapıp, o veritabanına sorgu göndermenin adil kullanım olduğunu iddia ederek bunun patentini alamazsınız
  Burada yasaya ihtiyaç var ve o yasa “model eğitimi içinsa herkes her şeyi ücretsiz kopyalayabilir” olmayacak. Lisansların netleşmesi gerekiyor; yalnızca içtihat değil, gerçek yasaların da yazılması gerekiyor. Açık kaynak araştırmacılara ve hacker’lara geniş takdir alanı tanınmasına oldukça sempati duyuyorum, ama Microsoft’a ve Microsoft’un desteklediği OpenAI’a aynı ölçüde sempati duymuyorum
- Adil kullanımın birçok örneği birebir kopyalamayı içerir. Önemli soru kopyalamanın kendisinden çok, bu kopyalamanın gerçekleştiği bağlamdır. NYT henüz keşfedilmemiş bir alana girmiş durumda
- “RLHF ile intihali tanıyıp ceza verin” önerisinin pratikte nasıl işleyeceğini bilmiyorum. Çıkarım sırasında intihali tanımak için aksine daha güçlü ezberlemesi gerekir
  Çalışırsa epey komik olurdu. Önce eğitim verisini birebir kopyalaması için eğitiyor, sonra tekrar bunu yapmamasını öğretiyorsunuz
  Zaten çalışma biçimi bu değil mi? Kayıp fonksiyonu öyle olduğu için eğitim verisini birebir kopyalayacak şekilde eğitiliyor. Sadece veri o kadar fazla ki parametre sayısını düşününce eğitim verilerinin çoğu için bunun mümkün olmasını beklemiyoruz
- Telifli bir eseri kopyalayıp özgün ifade amacıyla aynı şekilde kullanmak adil kullanım değil, değil mi? Dönüştürücü amaçla kullanılması gerekir
  New Jersey Times diye bir abonelik sitesi sattığımı ve sadece New York Times makalelerini indirip rastgele gürültü eklenmiş bir otoenkoderden geçirdiğimi varsayın. Amaç New York Times web sitesiyle tamamen aynı, sadece parayı ben kazanıyorum. Bu adil kullanım mı?
NYT, tsunaminin önüne kumdan kale inşa ediyor. Büyük resme bakıldığında bu dava birçok nedenle önemli olmayacak
Birincisi, yeni nesil LLM’ler yalnızca “sentetik”/açık verilerle eğitilecek. GPT-4V, telif hakkı olan tüm eğitim külliyatını tanınmaz hâle gelecek kadar kolayca aklayabilir. Örneğin %40 yeniden yazıp yazarları ve kaynakları kaldırmak gibi. O zaman GPT-5’in kusacağı telifli materyal kalmaz
İkincisi, araştırma, barındırma ve ilerleme devam edecek. ABD bunu durduramaz; sadece geride kalmayı seçebilir. Dünya yoluna devam edecek, Çin de en büyük rakibinin rant kollayan medya şirketlerini yatıştırmak için entelektüel intihar edişini keyifle izleyecek
Üçüncüsü, modeller ağırlıkları paylaşabilir, birbirleriyle birleştirilebilir, işbirliği yapabilir, ayıklanabilir ve birden fazla yayın nesli boyunca evrilebilir. Telif hukuku, kaynağı belirsiz ya da şüpheli verilerle kaynayan bu yapay zeka soy ağacı çorbasında ihlalcileri takip etmeye fena hâlde uygunsuz
Sevsek de sevmesek de yeni bir entelektüel çağda yaşıyoruz. NYT ve benzerleri istese de istemese de bu akıma binecek
- Bu gerçekten kötü bir yorum. Sonuca başvuran bir mantık. New York Times’ın hukuki yola başvurmasının tamamen meşru olduğunu düşünüyorum. İçerik üretmek için zaman ve emek harcadılar, bu da izin alınmadan parasal çıkar için kullanıldı. Açık bir ihlal
  Adil kullanım unsurlarına bakarsak, kullanımın amacı ve niteliği bakımından gelecekte dönüştürücülük argümanı geçerli olabilir; ancak mevcut uyuşmazlık metnin aynen kullanılmasında yatıyor. Dolayısıyla açıkça dönüştürücü değil. Ticari kullanım da adil kullanım değerlendirmesini daha zorlaştırıyor
  Eserin niteliği bakımından, daha olgusal eserlerin adil kullanım sayılma olasılığı daha yüksek olsa da NYT makalelerinin hem olgusal hem de yaratıcı olduğunu düşünüyorum
  Kullanılan miktar ve öz bakımından, makalenin tamamı kullanıldığı için yalnızca önemsiz bir kısmının kullanıldığı iddia edilemez
  Piyasa değerine etkisi bakımından da NYT para almıyor; insanlar NYT makalelerini okumak yerine ChatGPT’de kontrol ederse bunun piyasa değerine faydası olması mümkün değil
  Hukukçu değilim ama NYT’nin dava açmak için yeterli hakkı olduğunu düşünüyorum. İlerleme kaçınılmazdır, fakat insanlar onu aktif biçimde şekillendirip yönlendirmelidir. Aksi hâlde buna ilerleme denemez. Burada hukuki eylem, bireylerin ve kuruluşların kendi haklarını savunup yönü etkilemesi için gerekli bir araçtır
- “Rant kollayan medya şirketi” mi? Gerçekten içerik üreten bir medya şirketi rant kollayan mı? Yapay zekanın ürettiği çöp halüsinasyonlarla karşılaştırınca?
- “Çin, ABD’nin entelektüel intihar etmesini keyifle izliyor” derken, yapay zekaya zaten kapsamlı düzenlemeler getirmiş olan o Çin’den mi bahsediyoruz?
  En azından bir vakada, Çinli bir startup yeni çıkardığı sohbet botunu kapatmak zorunda kaldı. Çünkü Ukrayna savaşı hakkında Partinin resmî çizgisiyle uyuşmayan şeyler söylemişti
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  Araştırmanın, barındırmanın ve ilerlemenin devam edeceğine katılıyorum; ama ABD’nin bu hız trenine biraz emniyet tertibatı eklemesinin faydalanan tarafı Çin yapacağından pek emin değilim
- Medya gerçekten rant mı kolluyor? Onlar yeni içerik ve analiz üretiyor ve bunun karşılığında ödeme almak istiyor. Bu, doğal kaynakları ya da araziyi istiflemekten oldukça farklı görünüyor
- İnternetin birinci yasası şudur: “İnternete koyarsan artık senin değildir”
  Buna katılmak ya da bunu sevmek zorunda değilsin. Ama kabul edip ona göre yaşarsan çok daha az yanarsın
Dava dilekçesinin kendisi, arstechnica’nın bağlantı verdiği şu belge: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
30. sayfadan itibaren ChatGPT’nin telifli materyalin dahili kopyalarına sahip olduğuna ve bunları metni aynen okuyup tekrarladığına dair oldukça net örnekler var
Özünde, telifli materyali büyük miktarda bir tür yığına kopyalayıp ardından kayıplı sıkıştırma uygulamış bir durum. Telif hakkının artık geçerli olmaması için bu sıkıştırmanın ne kadar kayıplı olması gerekir? Epey kayıplı olması gerekecek gibi görünüyor
OpenAI’yi kurtarabilecek şey ise aksine kapalılık olabilir. OpenAI, ChatGPT’nin eğitildiği veri kümesinin telifli kısımlarıyla basit eşleştirme yaparak web arayüzünde telifli materyalin LLM’in dışına çıkmasını filtreleyip engelleyebilir. Buna karşılık aynı veri kümesiyle eğitilmiş açık kaynak projeleri, telifli materyali LLM’in kendisinden kaldırmak gibi çok daha zor bir görevle karşı karşıya kalır
- “Telifli materyalin çoğunu kopyalayıp bir yığına koymak ve kayıplı sıkıştırma uygulamak” kısmının hedefi muhtemelen “çalındığının kimsenin fark etmeyeceği kadar” bir noktaya yakındır
  Yani kolayca keşfedilmeyecek ya da doğrudan analiz edilse bile sıyrılmaya yetecek kadar makul inkâr edilebilirlik sağlayacak bir seviye
- Bu sonucun nasıl elde edildiğini merak ediyorum. Çünkü tipik UI’ı, yani ChatGPT ya da Copilot ekranını göstermiyor
  Bunun eğitim verisinden mi tekrarlandığını, yoksa orijinal makaledeki gibi Copilot kullanılarak önce makalenin aranıp/Bing’de bulunup sonra yanıtlatılmasıyla aynı hatanın mı yapıldığını anlamak zor
- “Kapalılık” için cevap, dışarıdan kontrol edilen denetimdir
Davadaki örneklerin “adil kullanım” olduğunu düşünüyorsanız bunun ne anlama geldiğini düşünmek gerekir. Fiilen birkaç şirketin, neredeyse hiçbir kural olmadan internetin tüm değerini kendi kara kutularının içine entegre etmesine izin vermek demek; bu da çok tehlikeli görünüyor
Bu dava olmasa bile mahkemenin burada çatışma kurallarını belirlemesini umuyorum
- Ben tam tersini düşünüyorum. Yüksek kaliteli verinin maliyeti milyarlarca dolar olursa hiçbir açık kaynak model eğitim maliyetini karşılamakta zorlanır
  Sentetik veriyi biri çözene kadar bu alanda yalnızca OpenAI ve Google gibi oyuncular kalacak
- Scraping yasaldır ve bu da dönüştürücü bir eser gibi görünüyor
- Diğer taraf da endişe verici. Fikri mülkiyet hukuku her zaman karmaşık, dağınık, çelişkili ve ahlaken muğlak olmuştur
  LLM’lerin fikri mülkiyet ihlali tartışması bu içsel kusurları anında görünür kılıyor ve nihayetinde insan düşüncesinin yasallığına dair emsal oluşturacak kararları zorunlu kılıyor. Kimsenin rahat edemeyeceği bir mesele
  OpenAI ve Microsoft’a çok fazla takdir alanı vermenin tehlikeli olabileceğini anlıyorum; ama ters tarafta Disney gibi şirketlerin telif hakkı hukukunun büyük bölümünü zaten onlarca yıldır fiilen yönlendirdiğini gözden kaçırıyoruz. Herhangi bir medya ya da bilgiyle herhangi bir düzeyde etkileşime girme becerisinin bile ücretlendirilebileceği bir emsal çıkması ihtimali karşısında ağızlarının suyu akıyor olmalı
  Sonuçta fikirler üzerinde mülkiyet gibi temelden kusurlu bir düşünce üzerine devasa bir ekonomik sistem kurduğumuzu fark ediyoruz. Çözüm, kural kitabını yırtıp atmak; bu çok acılı olacak. Ya da daha da zorlamak; o da ölümcül olacak
- Mahkemeler bunu zaten karara bağladı
  Japonya’da yapay zeka konusunda her şeyin mümkün olduğunu söylediler
  İnternete açıkça koyduğunuz şey yüzünden rekabet avantajınızı kaybetmemek daha iyi. Herkes görsün diye yayımladıysanız başkalarının kullanmasını beklemelisiniz
Geliştiriciler LLM’lerin insanlara benzediğini ve NYTimes gibi materyalleri insanlar gibi eğitim malzemesi olarak kullandığını varsaymayı seviyor
Ama öyle değil. Daha basit bakarsak, tescilli yazılar artık OpenAI’ın kaynak koduna entegre edilmiş durumda. Bu, benim başka bir tescilli kodun bir kısmını kopyalayıp kendi kod tabanıma yapıştırmam ve kopyala-yapıştırın milyonlarca yıllık evrimin doğal bir evrim süreci olduğunu iddia etmem gibi
LLM’nin çok karmaşık olduğu için bunun nerede olduğunu bilmiyor olmamız, durumu bundan daha az böyle yapmaz
- Bu kopyala-yapıştır değil, kayıplı biçimde sıkıştırılmış olmasıdır. GPT-4’ün bile tüm eğitim verisini kayıpsız sıkıştırma formatında depolayacak belleği kesinlikle yok. İnsanların okudukları bilgiyi sıkıştırmasına benziyor
- LLM’lerin insanlara benzediğini düşünen geliştiriciler pek zeki sayılmaz ve genelde alay konusu olurlar
- “Tescilli yazılar OpenAI’ın kaynak koduna entegre edildi” ifadesi doğru değil
  LLM’nin kaynak kodu muhtemelen modele dahil sinir ağının biçimini tanımlayan birkaç yüz satırlık metinden ibarettir
  NYTimes içeriği kaynak kodun içinde olmayacaktır. NYTimes Python kaynak kodu yayımlamıyor; insan dilinde haber yayımlıyor
  LLM kavramsal olarak basittir; çoğunlukla matris çarpımları, katmanları birbirine bağlayan doğrusal olmayan işlemler ve attention tabanlı döngülerden oluşur. Onu karmaşık yapan şey muazzam miktardaki eğitim verisi ve hesaplama gücüdür
İçeriğe sahip şirketlerin hepsi para kokusu alıyor
NYT, içeriğinin LLM eğitiminde kullanılmasına karşı çıkmayacaktır. Yeter ki ücretini alsın. Reddit ücretsiz API’yi kapatıp eğitim içeriği almak isteyenlerden para isteyecek. Discord da henüz yapmadıysa yapay zeka eğitimi için içerik satacak. Twitter da bunu yapıyor
Eskiden LLM’ler sadece deneyden ibaretti, bu yüzden umursamıyorlardı. Şimdi ise ortada trilyonlarca dolarlık değer var
- NYT içeriğe “sahip” değil, içerik üretir. Varoluş nedeni bu
- “Onlar”ın içinde orada çalışan insanlar da var. Birileri tam zamanlı olarak makale yazıyorsa, neden bu emeğini ücretsiz verip birilerinin bunu eğitmesine ve sonucunda para kazanmasına izin versin?
- LLM’ler deneyken umursamayıp şimdi trilyonlarca dolarlık değer görünce harekete geçtilerse, geleceği göremeyip uyuyan ve OpenAI gibi şirketlere kendi içeriklerine ücretsiz, açık ve sınırsız erişimi “geriye dönüp bakınca yanlışlıkla” tanıyan NYT’nin hatası olduğu ileri sürülebilir mi?
NYT’nin bakış açısı, gelecekte LLM’leri fiziksel dünyayla etkileşen ve gerçek zamanlı öğrenip ağırlıklarını güncelleyebilen makine bedenlerine koyduğumuzda gerçekten aptalca görünecek
Böyle bir robotun telifli materyalleri okuması, görmesi ya da dinlemesi tamamen yasa dışı olabilir. TV izleyemez, kütüphane kitabı okuyamaz, internette gezemez. Çünkü bu süreçte telifli içeriğin bir kısmını ezberleyebilir
- Katılmıyorum. Sorun kelimesi kelimesine olan kısım. İnsanların çalışma biçimiyle karşılaştırıyorsunuz ama insanların da bunu yapmasına izin verilmez
  İnsan için daha zor olurdu; ama telifli bir kitabı ezberleyip TV’de canlı okursanız ya da hafızanızdan bir kopya üretip satarsanız dava edilirsiniz
  İnsanlar sürekli türev eserler üretir, LLM’nin de bunu yapması sorun değil. Ama kelimesi kelimesine yapmamalı
- Sorun ezberleme değil. Sorun bunu kelimesi kelimesine geri vermesi ya da kaynağa erişimi ikame etmesi
  Fotoğrafik hafızası olan biri olsa ve insanlar gazete almak yerine haberleri ona ezberletse aynı sorun doğar
  Mevcut durumda telifli materyallerin kamuya açık icrası ihlaldir
- Böyle LLM’ler haklara sahip bağımsız yurttaşlar mı olacak? Öyleyse sorun yok
  Yoksa hepsi tek bir dev şirketin mülkiyetinde olup kapitalizmin yaptığı gibi hepimizden para sıkmak için mi kullanılacak? Öyleyse yasaklanmasını desteklerim
- Bedene yerleştirilmiş bir LLM’nin tablet üzerinden nytimes okumasına izin verilirse NYT’nin de bunu umursayacağını sanmıyorum
ChatGPT çıktığından beri LLM’lerin dönüştürücü eserler olarak adil kullanım kapsamına girmesi gerektiğini savunuyordum. Hukukçu değilim, yalnızca uzman olmayan bir görüş; ama hukuk sisteminin buna ne diyeceğini görmek ilginç olacak
- Dava, GPT’nin NYT paragraflarını neredeyse birebir yeniden ürettiğini iddia ediyor
- Eğitim verisinin boyutunu düşündüğümüzde ve herhangi bir çıktının farklı kişilere ait sayısız eğitim örneğinin enterpolasyonu sonucu olduğunu hayal ettiğimizde, bu görüş makul görünüyor
  Onlarca, yüzlerce, binlerce kaynaktan parçalar ödünç alınıyorsa kimin telif hakkı ihlal edilmiş olur? Müzik remiksleri de birden fazla kaynaktan ödünç alıyor ve müzik açıkça farklı ve özgünse, bir ölçüde hukuki incelemeye dayanıyor gibi görünüyor
  Ancak LLM’lerin veya mevcut yapay zekanın adil kullanım kapsamına girdiğine dair genel iddia, model belirli durumlarda eksiksiz ve tanınabilir tekil eserleri tekrar tekrar yeniden ürettiğinde ve açıkça telif hakkı yasasını ihlal ettiğinde savunulması zor hale geliyor. Model çoğu durumda remiks yapıyor veya dönüştürücü olabilir, ancak bunu her seferinde, her zaman yapmadığına dair kanıt var. Belki de dava, yapay zekanın belirli eserleri yeniden üretmeyecek şekilde düzeltilmesine vesile olur; böylece adil kullanım iddiası daha sağlam ve gerçekten savunulabilir hale gelebilir
- Bu soru eninde sonunda Yüksek Mahkemeye gitmek zorunda. Ne kadar erken olursa o kadar iyi bence. Açıkça adil kullanım. Üretken ajanlar hukuken, bir insan sanatçının kendi üzerindeki tüm etkilerin toplamını kullanarak yeni bir eser üretmesinden farklı görülmeyecek
- ChatGPT’den kendi veri kümesinden gelen bir makaleyi kaynağındaki haliyle aynen çıktı olarak vermesini isterseniz ne olur?
- Ödeme duvarının arkasındaki içerik de dahil mi?
Bu durum, 2004’te yayımlanan son derece etkili EPIC 2014 videosunda öngörülmüştü
https://www.youtube.com/watch?v=eUHBPuHS-7s Orijinali Flash olduğu için hafıza deliğinde kayboldu; geriye yalnızca bu düşük kaliteli dönüştürülmüş sürüm kaldı
36. saniye: “Ancak bildiğiniz basın artık yok”
40. saniye: “20. yüzyılın haber kuruluşları ikincil hale geldi. Çok da uzak olmayan geçmişin yalnız kalmış kalıntıları”
2 dakika 11 saniye: “2002’de Google, haber portalı Google News’i de başlatır. Haber kuruluşları tepki gösterir. Google News tamamen bilgisayarlar tarafından editörlüğü yapılan bir hizmettir”
5 dakika 13 saniye: “2010’un haber savaşları, tek bir gerçek haber kuruluşunun bile katılmamış olması bakımından dikkate değerdir. Googlezon, yazılım devinin yetişemeyeceği bir özellikle Microsoft’u sonunda mat eder. Yeni bir algoritma kullanarak Googlezon’un bilgisayarları tüm içerik kaynaklarından cümleleri ve olguları dinamik biçimde sıyırıp yeniden birleştirerek yeni haberler oluşturur. Bilgisayar her kullanıcı için yeni bir haber yazar”
5 dakika 55 saniye: “2011’de uyuyan dördüncü kuvvet uyanır ve ilk ve son direnişine girişir. New York Times Company, şirketin olgu çıkarma robotlarının telif hakkı yasasını ihlal ettiğini ileri sürerek Googlezon’a dava açar. Dava Yüksek Mahkeme’ye kadar gider”
Ayrıntılar tam olarak tutmasa da genel doğruluk şaşırtıcı. Yalnız bu zaman çizelgesinde bu, bir tür hiperstisyon ürünü de olabilir
https://en.wikipedia.org/wiki/EPIC_2014 EPIC 2014’ün Wikipedia maddesi olan tek Flash video olabileceğini düşünmüştüm, ama bakınca beş tane daha olduğunu gördüm

NY Times telif hakkı davasında OpenAI’den tüm GPT örneklerini silmesini istiyor

Davanın hedefleri ve temel talepler

Times’ın zarar yapısına bakışı

Eğitim verisi kullanımıyla ilgili meseleler

Çıktı aşamasında ortaya çıkan yeniden üretim sorunu

Adil kullanım itirazı ve itibar zararı

Wirecutter ve iş ortaklığı geliri sorunu

Hukuki iddia kalemleri

İlgili okumalar

1 yorum

Hacker News görüşleri