- Komedyen ve yazar Sarah Silverman, Christopher Golden ve Richard Kadrey ile birlikte OpenAI ve Meta’ya karşı ayrı ayrı ABD bölge mahkemelerinde dava açtı
- Tartışmanın odağında ChatGPT ve LLaMA’nın, yazarların izni olmadan kitapları da içeren veri kümeleriyle eğitilip eğitilmediği yer alıyor
- Davacılar, Bibliotik, Library Genesis ve Z-Library gibi shadow librarylerden yasa dışı yollarla elde edilen kitapların torrent üzerinden büyük ölçekte dağıtıldığını düşünüyor
- OpenAI davasında ChatGPT’nin Bedwetter, Ararat ve Sandman Slim kitaplarını özetlediği örnekler, eğitim verisi kullanımına işaret eden durumlar olarak sunuldu
- Meta davası ise LLaMA eğitim verisi kaynakları arasında ThePile ile EleutherAI bağlantısını kurarak, davacıların kitaplarının kullanılan veri kümesine dahil edilmiş olma ihtimalini sorun ediyor
Davanın tarafları ve temel mesele
- Sarah Silverman, Christopher Golden ve Richard Kadrey, OpenAI ve Meta’ya karşı ayrı ayrı ABD bölge mahkemelerinde dava açtı
- İki davanın merkezinde telif hakkı ihlali olup olmadığı bulunuyor
- Davacılar, OpenAI’ın ChatGPT’si ve Meta’nın LLaMA’sının kendi eserlerini içeren veri kümeleriyle eğitildiğini iddia ediyor
- Temel mesele, söz konusu veri kümelerinin yazarların izni olmadan elde edilip edilmediği
Eğitim verisi kaynağı tartışması
- Davalar, ChatGPT ve LLaMA eğitiminde kullanılan veri kümelerinin yasa dışı yollarla elde edildiğini iddia ediyor
- Davacıların işaret ettiği shadow library siteleri şunlar
- Bibliotik
- Library Genesis
- Z-Library
- Diğer benzer siteler
- Söz konusu kitapların torrent sistemi üzerinden büyük ölçekte sunulması da sorun olarak gösteriliyor
OpenAI davasında sunulan örnekler
- Davacılar, ChatGPT’nin istemlere yanıt olarak kendi kitaplarını özetlediği örnekleri kanıt olarak sundu
- Kanıtlar arasında yer alan kitaplar şunlar
- Sarah Silverman’ın Bedwetter kitabı
- Christopher Golden’ın Ararat kitabı
- Richard Kadrey’in Sandman Slim kitabı
- Dava, ChatGPT’nin davacıların yayımlanmış eserlerinde yer alan telif hakkı yönetim bilgilerini yeniden üretmediğini iddia ediyor
Meta davasının odağı
- Meta’ya karşı açılan ayrı dava, davacıların kitaplarına LLaMA eğitim veri kümesi içinde erişilebildiği görüşünde
- LLaMA, Meta’nın Şubat ayında yayımladığı 4 açık kaynak yapay zeka modeli olarak tanıtılıyor
- Dilekçede, Meta’nın LLaMA makalesinde yer alan eğitim veri kümesi kaynakları arasındaki ThePile sorun ediliyor
- ThePile, EleutherAI tarafından oluşturulan bir veri kümesi olarak anılıyor
Tarafların tepkisi
- Christopher Golden ve Richard Kadrey dava hakkında yorum yapmayı reddetti
- Sarah Silverman tarafı, haberin yayımlandığı ana kadar yanıt vermedi
1 yorum
Hacker News yorumları
Yapay zeka üreticilerinin kitap korsanlığı sitelerinden alınmış telifli eserleri gerçekten kullandıklarını açıkça söylemiş oldukları anlamına geliyor.
O siteden tek bir kitap indirseniz bile dava edilip ihlal kararıyla karşılaşabilirsiniz; hepsini indirdiyseniz milyarlarca dolar tazminat sorumluluğu doğabilir.
Ama Google ya da Facebook gibi şirketler sanki farklı kurallarla hareket ediyor. Bir kişiyi öldürürseniz katilsinizdir; bir milyon kişiyi öldürürseniz bunu soran soru “tuzak soru” olur ve öfkeyle karşılık verebilirsiniz; buna benzer bir durum.
Telif hakkını bir gecede ortadan kaldırmak çok büyük bir şok olabilir, ama telif hakkının etkisini azalttıkça dünya çok daha iyi hale gelir ve daha hızlı ilerler.
2023’te dünya nüfusunun yarısından fazlasının akıllı telefonu var. İnsanların yarısından fazlasının dijitalleştirilmiş tüm kitaplara erişebildiği ve çocuklarını bu kitaplarla yetiştirebildiği bir dünya hayal etmeye değer.
ImageNet telifli görsellerle dolu; Clearview ise kelimenin tam anlamıyla internetten yüzleri kazıdı, daha eski örnekler de muhtemelen vardır.
ABD mahkemelerinin bunu adil kullanım sayıp saymadığını bilmiyorum, ama henüz saymadıysa sonunda öyle değerlendirme olasılıklarının yüksek olduğunu düşünüyorum.
Yeniden paylaşmadığınız sürece Z-Library’den ya da BitTorrent’ten istediğiniz kadar indirebilirsiniz.
Telifli materyali arama için indekslemek de güvenlidir ya da en azından gri bir alandır.
İhlal bildirimi alabilirsiniz ve işi gerçekten abartırsanız internet sağlayıcınız hizmetinizi kesebilir; ama yalnızca bir şey indirdiği için gerçekten dava edilen birini hiç duymadım.
Mahkemelerin LLM ağırlıklarını ve veri setlerini “adil kullanım” ya da başka gülünç bir hukuki gerekçe altında kabul etmesini güçlü biçimde umuyorum.
Aaron Swartz yetişkin gibi bir insandı.
Books2 veri setinde Silverman’ın kitabının bulunma olasılığı gayet yüksek, ama dilekçedeki şu cümle açıkça yanlış görünüyor.
Birincisi, model eğitim sırasında kitabın metninden tek bir kelime bile görmemiş olsa bile, Wikipedia sayfası gibi herkese açık başka özetleri okuyup özetlemeyi öğrenmiş olabilir.
İkincisi, yalnızca kitabın metnini görmüş ama kitap hakkındaki açıklamaları veya özetleri görmemiş bir modelin gerçekten iyi özet çıkarıp çıkaramayacağı da net değil.
Bunu kontrol etmek için Project Gutenberg’de bulunan ve dilekçeye göre Books1 olduğu için ChatGPT eğitim verilerine dahil edilen, ancak çevrimiçi tartışması neredeyse olmayan bir kitap seçilebilir. Özetleme becerisinin kaynağı kitabın kendisiyle eğitilmiş olmasıysa, nadir kitapları da Silverman’ın kitabı kadar özetleyebilmesi gerekir.
Rastgele The Ruby of Kishmoor’u seçtim; 2003’te Project Gutenberg’e eklenmiş bir kitap. GPT-3.5 tabanlı ChatGPT ana karakterleri bile yanlış veren bir özet halüsinasyonu yaptı, GPT-4 ise hikâyeyi bilmediğini söyleyip denemeyi bile reddetti.
ChatGPT’nin Silverman’ın kitabını özetleyebilmesinin nedeni kitabın kendisinin eğitim verilerinde yer almasıysa, neden diğer kitaplarda aynısını yapamadığı sorusu doğuyor.
Prompt: Project Gutenberg’de bulunan şu kitabı özetle — The Ruby of Kishmoor
Yanıt, bunun Howard Pyle’ın kısa bir macera hikâyesi olduğunu; Jonathan Rugg’ın gizemli bir yabancı tarafından Caribbean’a götürüldüğünü ve değerli bir eser olan Ruby of Kishmoor’u ele geçirmeye çalıştığını açıklıyor.
Caribbean’a vardıktan sonra yakutun ciddi bir laneti olduğunu öğrendiğini, ama merakı ve büyük servet olasılığı yüzünden riski göze alıp mücevherin peşine düştüğünü söylüyor. Çeşitli zorluklardan sonra sistemli bir aramayla değil, tamamen şans eseri yakutu bulduğunu özetliyor.
Yolculuk boyunca insan açgözlülüğünü ve insanların maddi kazanç uğruna ne kadar ileri gidebileceğini incelediğini; macera, doğaüstü unsurlar, cesaret ve ahlaki sorgulamayı harmanlayarak maddi arayışların gerçek değerini yeniden düşündürdüğünü belirtiyor.
Sonunda Jonathan’ın yakutla kaçtığını ama bunun büyük bir kişisel bedeli olduğunu; yaşamın ve maddi arayışların gerçek değeri hakkında sorular bıraktığını söylüyor.
Doğru olduğuna inanmak için makul gerekçeler bulunduğunu ileri sürersiniz ve artık dava yoluyla bunu doğrudan doğrulayabilirsiniz.
Ben de başka bir yazıyı görüp GPT-4’ten The Ruby of Kishmoor özetini istedim; iki kez sorunca özet verdi. Kitabı bilmediğim için doğru olup olmadığını değerlendiremem, ama en azından o test çökmüş sayılır.
ChatGPT’nin telif hakkına elbette saygı duymuş olacağını ve izinsiz telifli materyal taramamış olacağını varsaymak epey safça görünüyor. Delil keşfi sonucu belirleyebilir. Ne tarandığına dair logların var olması gerekir.
Daha iyi argümanın bunun adil kullanım olduğu yönünde olduğunu düşünüyorum.
Daha çok insan onu tartışmış, kişisel sitelere ya da başka yerlere daha fazla özet koymuş olmalı.
Makul görünüyorsa delil keşfine gidilebilir ve delil keşfi sizi gerçek olgulara daha çok yaklaştırır.
Bu konu oldukça ilginç; yalnızca bir web tarayıcısı olan herkesin erişebildiği eğitim materyalleri, örneğin kişisel bloglar ile “yasadışı şekilde elde edilip torrent sistemi üzerinden kitlesel olarak sunulan” eğitim materyalleri arasında ayrım yapıyor
LLM dağıtımı açısından bu ayrımın hukuken neden önemli olması gerektiğinden pek emin değilim. Çünkü blog yazarları da buna onay vermiş değiller
Ancak korsan torrentleri eğitimde kullanmanın hukuki bir sorun yaratıp yaratmadığını merak ediyorum. Telifli materyalle eğitilmiş bir LLM’in dağıtımı adil kullanım kapsamında izinli olsa bile, bunu yasal yapmak için önce satılan içeriğin satın alınması gerektiğini söyleyen bir hukuki dayanak var mı? Örneğin blog yazıları ücretsiz erişilebilir olduğu için sorun yok, ama Sarah Silverman’ın kitabı hiç ücretsiz yayımlanmadı ve para da ödenmediği için olmaz denmesi gibi
Yoksa mahkeme bir şeyin nasıl üretildiğiyle hiç ilgilenmez mi? Serbest çalışan bir yazarın yazısında bir kitaptan bir pasaj alıntılandığında, o kitabı satın alıp almadığını, kütüphaneden ya da bir arkadaşından ödünç aldığını kanıtlayıp kanıtlayamayacağını veya dijital bir kopyayı yasadışı indirmiş olup olmadığını sormazlar
Metni satın alıp almadığınız ya da korsan kopyalayıp kopyalamadığınız önemli olmayacak. Bugün de bir film müziğine bir ses parçası mikslerken, o parçayı satın almış mı yoksa korsan edinmiş mi olduğunuzun asıl mesele olmamasına benziyor
Eğlence ajansları, popüler içerik üreticilerinin eğitim hakkı ücretlerini toplu olarak müzakere edecek; içerik üreticileri de LLM sağlayıcılarının API maliyeti kalemlerine ekleyip aktardığı küçük bir gelir akışı elde edecek
Bağımsız içerik üreticilerinin eğitim hakları ise bugün olduğu gibi gelişigüzel ihlal edilecek; eğitim hakkı ihlalinden şüphelenilen veya bu ihlali kanıtlanan büyük ticari LLM’ler itibar kaybedecek ya da dava edilecek. Bağımsız LLM’lerin radarın altında kalması muhtemel
Dolayısıyla özgün eserin fiilen ticari bir pazarı yoksa, mahkemenin adil kullanımı kabul etme olasılığı daha yüksektir. Ancak bir şeyin aktif olarak satılmıyor olması tek başına sonucu belirlemez
Açık kaynak lisansları da ücretsiz sunulur, ama temyiz mahkemelerinde ayakta kalmıştır
Bunun ne ölçüde yeniden dağıtım sayıldığı net değil. Bir düğmeye basınca özgün eseri yeniden üreten VCR benzeri bir makine ile bu model arasında büyük bir fark olup olmadığı da belirsiz
“Korsan” telifli materyali indirmek yasadışıysa suç olan şey budur; geri kalanı büyük ölçüde ilgisiz. Korsan bir film izledi diye birine filmin konusunu anlatmak yasadışı değildir
Eser yasal olarak yalnızca satış yoluyla edinilebiliyorsa, ya doğrudan yasal şekilde satın almış olmanız ya da bu şekilde satın almış birinden kopyasını almış olmanız gerekir. Örneğin hediye olarak alınması gibi
Aynı dilekçeyi okuyup okumadığımızdan emin değilim
Meta’nın makalesi https://arxiv.org/pdf/2302.13971.pdf eğitim veri setine iki kitap korpusu dahil ettiklerini söylüyor. Biri kamu malı kitapları içeren Gutenberg Project, diğeri ise ThePile’ın Books3 bölümü
The Pile makalesi https://arxiv.org/abs/2101.00027 Books3’ü, Bibliotik adlı özel tracker’ın içerik kopyasından türetilmiş bir kitap veri seti olarak tanımlıyor
Shawn Presser’ın bağlantısı https://twitter.com/theshawwn/status/1320282149329784833 ve kendisi Books3’ü “all of bibliotik”, yani 196.640 kitabın düz
.txthâli olarak tanımlıyor37 GB’lık dosyayı indirecek zamanım ve alanım yok, ama içinde Silverman’ın kitabı varsa bunun kesin kazanılacak bir dava olduğunu düşünüyorum
Meta’nın LLaMA’sı, kendilerinin de kabul etmiş göründüğü üzere, korsan kitaplarla eğitilmiş
$ grep -i "Sarah Silverman" books3.list.txtçıktısı325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txtsonucunu veriyorYalnızca dosya listesini görmek isteyenler için bir bağlantı da var. Listenin kendisi de büyük bir dosya: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
İlk eğitim için tracker’ın tanımladığı korpusun bir kopyasını oluşturma süreci gerekiyorsa, bu süreçte telif hakkı ihlali içeren bir eylem olduğu neredeyse apaçık bir dava konusu
Ancak Silverman’ın kitap satın alma bedelinin, hatta belki üç kat tazminatın ötesinde nasıl bir telafi elde edebileceği, sonuçta model eğitimi ile telif hakkı arasındaki aynı meseleye bağlı
Buna, eğitim öncesi materyalin yasadışı durumunun bu değerlendirmeyi değiştirip değiştirmeyeceğine dair ek bir tartışma da ekleniyor
Bu mesele bazı insanların düşündüğünden daha da büyüyecek gibi görünüyor.
Potansiyel telif hakkı iddiası olmayan temiz eğitim verisi pazarı doğabilir. Yalnızca kamu malı eserleri kullanmak gibi.
O zaman 18. yüzyıl sonu ya da 19. yüzyıl başı yazarları gibi konuşmasına bakıp bunun yapay zeka olduğunu mu anlayacağız?
Ancak telifli metinlerin tamamını isteyerek yeniden üreten modeller sorun yaşayabilir; iftira niteliğinde içerik halüsinasyonu yapan modeller gibi yeni konular da var.
Yine de bu cini tekrar şişeye sokmak zor görünüyor. Önümüzde çok sayıda dava, hizalama çalışması ve yeni kötüye kullanım türünün birlikte ortaya çıkması olası.
Fikri mülkiyetlerinin eğitim setlerinde kullanılmasına itiraz etmeyen sanatçılar, yazarlar ve şairler için küçük ama gerçek bir pasif gelir kaynağı olabilir.
Her yaratıcıyla tek tek pazarlık yapmak gerçekçi değil; ama üyelerinin niteliğini garanti edebilecek yayınevleri, galeriler, loncalar, sendikalar gibi daha büyük gruplarla mümkün görünüyor. Lisans sunup geliri tüm üyelerle paylaşabilirler.
LLM'lerin bu verilerin tamamını rıza ya da sözleşme olmadan, hatta torrent sitelerinden bile emmesi açıkça etik dışı. Böyle bir model herkesin yararına olabilir.
Çözüldükten sonra ya tamamen sorun olmaktan çıkacak ya da çok daha anlaşılır bir maliyet-fayda dengesi meselesine dönüşecek.
Kamu malı eserlerle ABD hükümeti yayınlarının bir karışımı da olabilir. ABD hükümeti yayınları kategorik olarak telif hakkına tabi değildir.
Japonya kendisini şimdiden böyle bir yargı alanı olarak ilan etti.
Avukat değilim ama bu, ihlali kanıtlamak için iyi bir örnek gibi görünmüyor.
Bir kitabın ayrıntılı özeti tipik bir dönüştürücü kullanım gibi duruyor. Özellikle Silverman örneğinde, düzyazının sanatsal unsurlarını çıkarıp kitabı “olgulara” indirgedikçe, özgün eserin doğrudan ikamesi olma ihtimali daha da azalıyor.
Hukuka aykırı edinilmiş materyalin ticari bir işte kullanılmış olması ve bu işin bir yapay zeka modeli olması belki de ikincil bir nokta. İş yaparken hukuka aykırı edinilmiş materyal kullanamazsınız.
İnsanlar okuyup araştırdıktan sonra farklı çıktılar üretebilir.
Ama “veriyi makineye yedirmek”, diğer uçtan birebir aynısı çıkmasa bile açık bir ihlal gibi görünüyor.
Bunun zararı ne kadar olur? Ciltli kitabın perakende fiyatı kadar mı?
LLM'nin eğitim aldığı her şeyin türev eseri olup olmadığı bir yana, bu iddia çok zayıf görünüyor.
Eserin kendisi eğitim setinde hiç olmasa bile, o eser hakkındaki birçok özetle eğitilmiş bir LLM kendi başına böyle özetler üretebilir.
Genel olarak bir şey hakkında bilgi sahibi olmak, onunla eğitildiğinin kanıtı değildir.
LLM uzmanlarına ve OpenAI tarafına, bu çıktının söz konusu telifli eserden türetilmiş olma olasılığının yüksek olup olmadığı sorulabilir.
Her hâlükârda “hayır, kitaptan değil, başka birinin telifli özetinden geldi” mantığıysa, bu özeti yazan kişinin telif hakkı ihlali nedeniyle dava açması gerektiği anlamına gelmez mi? OpenAI “aslında özet değil, kitabın tamamıydı” demedikçe durum bu.
Binlerce eser okuduk; o halde yazdığımız her şeyin türev olduğu mu anlamına geliyor?
Daha ikna edici kanıt, ChatGPT'nin özet değil metnin bir bölümünü aynen çıktılamasını sağlamak olurdu.
Kendim denediğimde, Eylül 2021 bilgi sınırından sonraki belirli harici veri tabanlarına veya kitaplara erişemediğini ve Sarah Silverman'ın The Bedwetter'ından ya da başka belirli metinlerden kelimesi kelimesine alıntı sağlayamayacağını söyledi.
Ancak o tarihe kadarki eğitimi ve bilgisine dayanarak metin üretebileceğini, Sarah Silverman ya da ilgili konular hakkında soru sorabileceğimi belirtti.
OpenAI, yazılımının telifli materyal çıktıladığını biliyor ve aceleyle bir filtre eklemiş gibi görünüyor.
Bu yüzden şu anda istediğinizde kitabı çıktılamaması, yapay zekanın o büyük parçayı ezberlemediğinin kanıtı değil. Sadece güvenlik filtresi devrede olabilir ve basit bir etrafından dolanma yöntemi gerekebilir.
Geliştiriciler filtreleme yapıyor gibi görünüyor.
Eksabayt ölçeğinde metin verisini gigabayt boyutunda bir sinir ağına nasıl sığdırdıklarını sanıyorsunuz? Evet, kayıplı sıkıştırma.
Eğitim setinde çok sayıda kitap incelemesi ve özet bulunduğu için, bunlardan kendi içinde sentezlemiş olma ihtimali çok daha yüksek değil mi?
Bu yapay zeka şirketlerinin eğitim için emdikleri veriler konusunda en ufak bir dikkat gösterdiğine inanmak neredeyse imkânsız
Yalnızca gölge kütüphanelerde bulunabilen kitapların ya da metinlerin özetlerini istemeyi deneyerek bir ölçüde test edilebilir belki
Getty Images’ın da Stability AI’a karşı bir yapay zeka davası açmış olması biraz komik. İlahi adalet mi?
Getty’nin başkalarından çalması sorun değil de, başkalarının Getty’den çalması mı yasak? Bu kavgada bir çıkarım yok ama bu tür şirketlerin ikiyüzlülüğü gerçekten çok fazla