Sarah Silverman, OpenAI ve Meta’ya telif hakkı ihlali davası açtı

(theverge.com)

1 puan yazan GN⁺ 2023-07-10 | 1 yorum | WhatsApp'ta paylaş

Komedyen ve yazar Sarah Silverman, Christopher Golden ve Richard Kadrey ile birlikte OpenAI ve Meta’ya karşı ayrı ayrı ABD bölge mahkemelerinde dava açtı
Tartışmanın odağında ChatGPT ve LLaMA’nın, yazarların izni olmadan kitapları da içeren veri kümeleriyle eğitilip eğitilmediği yer alıyor
Davacılar, Bibliotik, Library Genesis ve Z-Library gibi shadow librarylerden yasa dışı yollarla elde edilen kitapların torrent üzerinden büyük ölçekte dağıtıldığını düşünüyor
OpenAI davasında ChatGPT’nin Bedwetter, Ararat ve Sandman Slim kitaplarını özetlediği örnekler, eğitim verisi kullanımına işaret eden durumlar olarak sunuldu
Meta davası ise LLaMA eğitim verisi kaynakları arasında ThePile ile EleutherAI bağlantısını kurarak, davacıların kitaplarının kullanılan veri kümesine dahil edilmiş olma ihtimalini sorun ediyor

Davanın tarafları ve temel mesele

Sarah Silverman, Christopher Golden ve Richard Kadrey, OpenAI ve Meta’ya karşı ayrı ayrı ABD bölge mahkemelerinde dava açtı
İki davanın merkezinde telif hakkı ihlali olup olmadığı bulunuyor
Davacılar, OpenAI’ın ChatGPT’si ve Meta’nın LLaMA’sının kendi eserlerini içeren veri kümeleriyle eğitildiğini iddia ediyor
Temel mesele, söz konusu veri kümelerinin yazarların izni olmadan elde edilip edilmediği

Eğitim verisi kaynağı tartışması

Davalar, ChatGPT ve LLaMA eğitiminde kullanılan veri kümelerinin yasa dışı yollarla elde edildiğini iddia ediyor
Davacıların işaret ettiği shadow library siteleri şunlar
- Bibliotik
- Library Genesis
- Z-Library
- Diğer benzer siteler
Söz konusu kitapların torrent sistemi üzerinden büyük ölçekte sunulması da sorun olarak gösteriliyor

OpenAI davasında sunulan örnekler

Davacılar, ChatGPT’nin istemlere yanıt olarak kendi kitaplarını özetlediği örnekleri kanıt olarak sundu
Kanıtlar arasında yer alan kitaplar şunlar
- Sarah Silverman’ın Bedwetter kitabı
- Christopher Golden’ın Ararat kitabı
- Richard Kadrey’in Sandman Slim kitabı
Dava, ChatGPT’nin davacıların yayımlanmış eserlerinde yer alan telif hakkı yönetim bilgilerini yeniden üretmediğini iddia ediyor

Meta davasının odağı

Meta’ya karşı açılan ayrı dava, davacıların kitaplarına LLaMA eğitim veri kümesi içinde erişilebildiği görüşünde
LLaMA, Meta’nın Şubat ayında yayımladığı 4 açık kaynak yapay zeka modeli olarak tanıtılıyor
Dilekçede, Meta’nın LLaMA makalesinde yer alan eğitim veri kümesi kaynakları arasındaki ThePile sorun ediliyor
ThePile, EleutherAI tarafından oluşturulan bir veri kümesi olarak anılıyor

Tarafların tepkisi

Christopher Golden ve Richard Kadrey dava hakkında yorum yapmayı reddetti
Sarah Silverman tarafı, haberin yayımlandığı ana kadar yanıt vermedi

1 yorum

GN⁺ 2023-07-10

Hacker News yorumları

Yapay zeka üreticilerinin kitap korsanlığı sitelerinden alınmış telifli eserleri gerçekten kullandıklarını açıkça söylemiş oldukları anlamına geliyor.
O siteden tek bir kitap indirseniz bile dava edilip ihlal kararıyla karşılaşabilirsiniz; hepsini indirdiyseniz milyarlarca dolar tazminat sorumluluğu doğabilir.
Ama Google ya da Facebook gibi şirketler sanki farklı kurallarla hareket ediyor. Bir kişiyi öldürürseniz katilsinizdir; bir milyon kişiyi öldürürseniz bunu soran soru “tuzak soru” olur ve öfkeyle karşılık verebilirsiniz; buna benzer bir durum.
- Telif hakkı yüzünden neredeyse her çocuğun, şimdiye kadar yazılmış neredeyse tüm kitaplara erişemediğini bir an düşünmek gerek.
  Telif hakkını bir gecede ortadan kaldırmak çok büyük bir şok olabilir, ama telif hakkının etkisini azalttıkça dünya çok daha iyi hale gelir ve daha hızlı ilerler.
  2023’te dünya nüfusunun yarısından fazlasının akıllı telefonu var. İnsanların yarısından fazlasının dijitalleştirilmiş tüm kitaplara erişebildiği ve çocuklarını bu kitaplarla yetiştirebildiği bir dünya hayal etmeye değer.
- Makine öğrenimi modelleri uzun zamandır telifli verilerle eğitiliyor.
  ImageNet telifli görsellerle dolu; Clearview ise kelimenin tam anlamıyla internetten yüzleri kazıdı, daha eski örnekler de muhtemelen vardır.
  ABD mahkemelerinin bunu adil kullanım sayıp saymadığını bilmiyorum, ama henüz saymadıysa sonunda öyle değerlendirme olasılıklarının yüksek olduğunu düşünüyorum.
- Kesin konuşmak gerekirse dava konusu olan indirmek değil, yüklemektir.
  Yeniden paylaşmadığınız sürece Z-Library’den ya da BitTorrent’ten istediğiniz kadar indirebilirsiniz.
  Telifli materyali arama için indekslemek de güvenlidir ya da en azından gri bir alandır.
- “O siteden kitap indirirsen dava edilip ihlalden hüküm giyersin” ifadesinin gerçekte ne kadar sık yaşandığını merak ediyorum.
  İhlal bildirimi alabilirsiniz ve işi gerçekten abartırsanız internet sağlayıcınız hizmetinizi kesebilir; ama yalnızca bir şey indirdiği için gerçekten dava edilen birini hiç duymadım.
- Yapay zeka tarafındaki insanların telif hakkı sanki yokmuş gibi davranmasını epey beğeniyorum.
  Mahkemelerin LLM ağırlıklarını ve veri setlerini “adil kullanım” ya da başka gülünç bir hukuki gerekçe altında kabul etmesini güçlü biçimde umuyorum.
  Aaron Swartz yetişkin gibi bir insandı.
Books2 veri setinde Silverman’ın kitabının bulunma olasılığı gayet yüksek, ama dilekçedeki şu cümle açıkça yanlış görünüyor.
Birincisi, model eğitim sırasında kitabın metninden tek bir kelime bile görmemiş olsa bile, Wikipedia sayfası gibi herkese açık başka özetleri okuyup özetlemeyi öğrenmiş olabilir.
İkincisi, yalnızca kitabın metnini görmüş ama kitap hakkındaki açıklamaları veya özetleri görmemiş bir modelin gerçekten iyi özet çıkarıp çıkaramayacağı da net değil.
Bunu kontrol etmek için Project Gutenberg’de bulunan ve dilekçeye göre Books1 olduğu için ChatGPT eğitim verilerine dahil edilen, ancak çevrimiçi tartışması neredeyse olmayan bir kitap seçilebilir. Özetleme becerisinin kaynağı kitabın kendisiyle eğitilmiş olmasıysa, nadir kitapları da Silverman’ın kitabı kadar özetleyebilmesi gerekir.
Rastgele The Ruby of Kishmoor’u seçtim; 2003’te Project Gutenberg’e eklenmiş bir kitap. GPT-3.5 tabanlı ChatGPT ana karakterleri bile yanlış veren bir özet halüsinasyonu yaptı, GPT-4 ise hikâyeyi bilmediğini söyleyip denemeyi bile reddetti.
ChatGPT’nin Silverman’ın kitabını özetleyebilmesinin nedeni kitabın kendisinin eğitim verilerinde yer almasıysa, neden diğer kitaplarda aynısını yapamadığı sorusu doğuyor.
- GPT-4’ün playground’u The Ruby of Kishmoor’u şöyle özetliyor:
  Prompt: Project Gutenberg’de bulunan şu kitabı özetle — The Ruby of Kishmoor
  Yanıt, bunun Howard Pyle’ın kısa bir macera hikâyesi olduğunu; Jonathan Rugg’ın gizemli bir yabancı tarafından Caribbean’a götürüldüğünü ve değerli bir eser olan Ruby of Kishmoor’u ele geçirmeye çalıştığını açıklıyor.
  Caribbean’a vardıktan sonra yakutun ciddi bir laneti olduğunu öğrendiğini, ama merakı ve büyük servet olasılığı yüzünden riski göze alıp mücevherin peşine düştüğünü söylüyor. Çeşitli zorluklardan sonra sistemli bir aramayla değil, tamamen şans eseri yakutu bulduğunu özetliyor.
  Yolculuk boyunca insan açgözlülüğünü ve insanların maddi kazanç uğruna ne kadar ileri gidebileceğini incelediğini; macera, doğaüstü unsurlar, cesaret ve ahlaki sorgulamayı harmanlayarak maddi arayışların gerçek değerini yeniden düşündürdüğünü belirtiyor.
  Sonunda Jonathan’ın yakutla kaçtığını ama bunun büyük bir kişisel bedeli olduğunu; yaşamın ve maddi arayışların gerçek değeri hakkında sorular bıraktığını söylüyor.
- Dava açarken delil keşfi kapsamını belirlemek için olgular genelde bu şekilde ifade edilir.
  Doğru olduğuna inanmak için makul gerekçeler bulunduğunu ileri sürersiniz ve artık dava yoluyla bunu doğrudan doğrulayabilirsiniz.
- “Dilekçedeki bu cümle açıkça yanlış” dedin, ama devamındaki gerekçeler bunun doğru olmayabileceğini göstermekten öteye gitmiyor.
  Ben de başka bir yazıyı görüp GPT-4’ten The Ruby of Kishmoor özetini istedim; iki kez sorunca özet verdi. Kitabı bilmediğim için doğru olup olmadığını değerlendiremem, ama en azından o test çökmüş sayılır.
  ChatGPT’nin telif hakkına elbette saygı duymuş olacağını ve izinsiz telifli materyal taramamış olacağını varsaymak epey safça görünüyor. Delil keşfi sonucu belirleyebilir. Ne tarandığına dair logların var olması gerekir.
  Daha iyi argümanın bunun adil kullanım olduğu yönünde olduğunu düşünüyorum.
- Erişilebilirlik farkı olabilir. Silverman’ı duydum ama Ruby of Kishmoor’u hiç duymadım.
  Daha çok insan onu tartışmış, kişisel sitelere ya da başka yerlere daha fazla özet koymuş olmalı.
- Makul görünürlük, davanın reddi talebini aşmak için gereken standardın ta kendisidir.
  Makul görünüyorsa delil keşfine gidilebilir ve delil keşfi sizi gerçek olgulara daha çok yaklaştırır.
Bu konu oldukça ilginç; yalnızca bir web tarayıcısı olan herkesin erişebildiği eğitim materyalleri, örneğin kişisel bloglar ile “yasadışı şekilde elde edilip torrent sistemi üzerinden kitlesel olarak sunulan” eğitim materyalleri arasında ayrım yapıyor
LLM dağıtımı açısından bu ayrımın hukuken neden önemli olması gerektiğinden pek emin değilim. Çünkü blog yazarları da buna onay vermiş değiller
Ancak korsan torrentleri eğitimde kullanmanın hukuki bir sorun yaratıp yaratmadığını merak ediyorum. Telifli materyalle eğitilmiş bir LLM’in dağıtımı adil kullanım kapsamında izinli olsa bile, bunu yasal yapmak için önce satılan içeriğin satın alınması gerektiğini söyleyen bir hukuki dayanak var mı? Örneğin blog yazıları ücretsiz erişilebilir olduğu için sorun yok, ama Sarah Silverman’ın kitabı hiç ücretsiz yayımlanmadı ve para da ödenmediği için olmaz denmesi gibi
Yoksa mahkeme bir şeyin nasıl üretildiğiyle hiç ilgilenmez mi? Serbest çalışan bir yazarın yazısında bir kitaptan bir pasaj alıntılandığında, o kitabı satın alıp almadığını, kütüphaneden ya da bir arkadaşından ödünç aldığını kanıtlayıp kanıtlayamayacağını veya dijital bir kopyayı yasadışı indirmiş olup olmadığını sormazlar
- Sonunda müzikteki senkronizasyon haklarına benzer yeni bir lisans kavramı ortaya çıkacak gibi görünüyor. Muhtemelen buna “eğitim hakkı” denebilir
  Metni satın alıp almadığınız ya da korsan kopyalayıp kopyalamadığınız önemli olmayacak. Bugün de bir film müziğine bir ses parçası mikslerken, o parçayı satın almış mı yoksa korsan edinmiş mi olduğunuzun asıl mesele olmamasına benziyor
  Eğlence ajansları, popüler içerik üreticilerinin eğitim hakkı ücretlerini toplu olarak müzakere edecek; içerik üreticileri de LLM sağlayıcılarının API maliyeti kalemlerine ekleyip aktardığı küçük bir gelir akışı elde edecek
  Bağımsız içerik üreticilerinin eğitim hakları ise bugün olduğu gibi gelişigüzel ihlal edilecek; eğitim hakkı ihlalinden şüphelenilen veya bu ihlali kanıtlanan büyük ticari LLM’ler itibar kaybedecek ya da dava edilecek. Bağımsız LLM’lerin radarın altında kalması muhtemel
- Adil kullanım değerlendirmesindeki unsurlardan biri ve yakın zamana kadar sürekli en önemli unsur sayılan şey, özgün eserin ticari pazarı üzerindeki etkidir
  Dolayısıyla özgün eserin fiilen ticari bir pazarı yoksa, mahkemenin adil kullanımı kabul etme olasılığı daha yüksektir. Ancak bir şeyin aktif olarak satılmıyor olması tek başına sonucu belirlemez
  Açık kaynak lisansları da ücretsiz sunulur, ama temyiz mahkemelerinde ayakta kalmıştır
- Telifli bir eserin özel kopyasının çıkarılmasına izin verilir, ancak yeniden dağıtımına izin verilmez
  Bunun ne ölçüde yeniden dağıtım sayıldığı net değil. Bir düğmeye basınca özgün eseri yeniden üreten VCR benzeri bir makine ile bu model arasında büyük bir fark olup olmadığı da belirsiz
- Yapay zeka açısı, abartılmış modadan yararlanıyor gibi görünüyor
  “Korsan” telifli materyali indirmek yasadışıysa suç olan şey budur; geri kalanı büyük ölçüde ilgisiz. Korsan bir film izledi diye birine filmin konusunu anlatmak yasadışı değildir
- Adil kullanım iddiasında bulunmak için o eseri yasal olarak elinizde bulundurmanız gerektiğini anlıyorum. Avukat değilim
  Eser yasal olarak yalnızca satış yoluyla edinilebiliyorsa, ya doğrudan yasal şekilde satın almış olmanız ya da bu şekilde satın almış birinden kopyasını almış olmanız gerekir. Örneğin hediye olarak alınması gibi
Aynı dilekçeyi okuyup okumadığımızdan emin değilim
Meta’nın makalesi https://arxiv.org/pdf/2302.13971.pdf eğitim veri setine iki kitap korpusu dahil ettiklerini söylüyor. Biri kamu malı kitapları içeren Gutenberg Project, diğeri ise ThePile’ın Books3 bölümü
The Pile makalesi https://arxiv.org/abs/2101.00027 Books3’ü, Bibliotik adlı özel tracker’ın içerik kopyasından türetilmiş bir kitap veri seti olarak tanımlıyor
Shawn Presser’ın bağlantısı https://twitter.com/theshawwn/status/1320282149329784833 ve kendisi Books3’ü “all of bibliotik”, yani 196.640 kitabın düz .txt hâli olarak tanımlıyor
37 GB’lık dosyayı indirecek zamanım ve alanım yok, ama içinde Silverman’ın kitabı varsa bunun kesin kazanılacak bir dava olduğunu düşünüyorum
Meta’nın LLaMA’sı, kendilerinin de kabul etmiş göründüğü üzere, korsan kitaplarla eğitilmiş
- Silverman’ın kitabı orada var
  $ grep -i "Sarah Silverman" books3.list.txt çıktısı 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt sonucunu veriyor
  Yalnızca dosya listesini görmek isteyenler için bir bağlantı da var. Listenin kendisi de büyük bir dosya: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
- Hem doğru hem değil
  İlk eğitim için tracker’ın tanımladığı korpusun bir kopyasını oluşturma süreci gerekiyorsa, bu süreçte telif hakkı ihlali içeren bir eylem olduğu neredeyse apaçık bir dava konusu
  Ancak Silverman’ın kitap satın alma bedelinin, hatta belki üç kat tazminatın ötesinde nasıl bir telafi elde edebileceği, sonuçta model eğitimi ile telif hakkı arasındaki aynı meseleye bağlı
  Buna, eğitim öncesi materyalin yasadışı durumunun bu değerlendirmeyi değiştirip değiştirmeyeceğine dair ek bir tartışma da ekleniyor
- Aynı şeyi okuyor gibi değiliz. Bir yerden birdenbire Google’ı işin içine katıyor
Bu mesele bazı insanların düşündüğünden daha da büyüyecek gibi görünüyor.
Potansiyel telif hakkı iddiası olmayan temiz eğitim verisi pazarı doğabilir. Yalnızca kamu malı eserleri kullanmak gibi.
O zaman 18. yüzyıl sonu ya da 19. yüzyıl başı yazarları gibi konuşmasına bakıp bunun yapay zeka olduğunu mu anlayacağız?
- Tamamen yeni bir sorun değil; arama motorlarında da benzer meseleler vardı ve dönüştürücü kullanım olarak da görülebilir.
  Ancak telifli metinlerin tamamını isteyerek yeniden üreten modeller sorun yaşayabilir; iftira niteliğinde içerik halüsinasyonu yapan modeller gibi yeni konular da var.
  Yine de bu cini tekrar şişeye sokmak zor görünüyor. Önümüzde çok sayıda dava, hizalama çalışması ve yeni kötüye kullanım türünün birlikte ortaya çıkması olası.
- Böyle bir pazarın oluşmasını isterim. Fikri mülkiyet için eğitim lisansı satılan bir pazar olsa iyi olur.
  Fikri mülkiyetlerinin eğitim setlerinde kullanılmasına itiraz etmeyen sanatçılar, yazarlar ve şairler için küçük ama gerçek bir pasif gelir kaynağı olabilir.
  Her yaratıcıyla tek tek pazarlık yapmak gerçekçi değil; ama üyelerinin niteliğini garanti edebilecek yayınevleri, galeriler, loncalar, sendikalar gibi daha büyük gruplarla mümkün görünüyor. Lisans sunup geliri tüm üyelerle paylaşabilirler.
  LLM'lerin bu verilerin tamamını rıza ya da sözleşme olmadan, hatta torrent sitelerinden bile emmesi açıkça etik dışı. Böyle bir model herkesin yararına olabilir.
- Bu mesele çözülene kadar temiz eğitim verisi bir risk azaltma aracı olarak değerli olacak.
  Çözüldükten sonra ya tamamen sorun olmaktan çıkacak ya da çok daha anlaşılır bir maliyet-fayda dengesi meselesine dönüşecek.
  Kamu malı eserlerle ABD hükümeti yayınlarının bir karışımı da olabilir. ABD hükümeti yayınları kategorik olarak telif hakkına tabi değildir.
- Bir de temiz yargı alanı pazarı var. Yani sinir ağı eğitimini telif hakkı ihlali saymayan yargı alanları.
  Japonya kendisini şimdiden böyle bir yargı alanı olarak ilan etti.
- Sanırım 18. ve 19. yüzyıl değil, 19. ve 20. yüzyıl demek istiyordun; yine de epey komik olurdu.
Avukat değilim ama bu, ihlali kanıtlamak için iyi bir örnek gibi görünmüyor.
Bir kitabın ayrıntılı özeti tipik bir dönüştürücü kullanım gibi duruyor. Özellikle Silverman örneğinde, düzyazının sanatsal unsurlarını çıkarıp kitabı “olgulara” indirgedikçe, özgün eserin doğrudan ikamesi olma ihtimali daha da azalıyor.
- Dava dilekçesinde gayet iyi bir mantık var. Eğitim verisinin kaynağını takip ederseniz hukuka aykırı edinime varıyor.
  Hukuka aykırı edinilmiş materyalin ticari bir işte kullanılmış olması ve bu işin bir yapay zeka modeli olması belki de ikincil bir nokta. İş yaparken hukuka aykırı edinilmiş materyal kullanamazsınız.
- Üzerinde düşündükçe sonuç, “hukukun” yapay zekayı insana yakın bir varlık mı yoksa “makineye yakın bir varlık” mı göreceğine bağlı olmalı ve muhtemelen bağlı olacak gibi geliyor.
  İnsanlar okuyup araştırdıktan sonra farklı çıktılar üretebilir.
  Ama “veriyi makineye yedirmek”, diğer uçtan birebir aynısı çıkmasa bile açık bir ihlal gibi görünüyor.
- Öyle olmayabilir ama iddialardan biri ilginç: veri kümesinin bir kısmının hukuka aykırı edinildiği iddiası.
  Bunun zararı ne kadar olur? Ciltli kitabın perakende fiyatı kadar mı?
- Uygun şekilde prompt verilirse bir LLM kitabın tamamını kelimesi kelimesine tekrarlayabilir mi?
- Dava dilekçesini okumadım ama OpenAI veriyi çalıntı eserlerle eğittiği için adil kullanımın uygulanamayacağı şeklinde bir mantık olabilir.
LLM'nin eğitim aldığı her şeyin türev eseri olup olmadığı bir yana, bu iddia çok zayıf görünüyor.
Eserin kendisi eğitim setinde hiç olmasa bile, o eser hakkındaki birçok özetle eğitilmiş bir LLM kendi başına böyle özetler üretebilir.
Genel olarak bir şey hakkında bilgi sahibi olmak, onunla eğitildiğinin kanıtı değildir.
- Kesin kanıt değil; ama mahkemeler bir davayı başlatmak ve yeni olgular keşfetmek için kesin kanıt istemez.
  LLM uzmanlarına ve OpenAI tarafına, bu çıktının söz konusu telifli eserden türetilmiş olma olasılığının yüksek olup olmadığı sorulabilir.
  Her hâlükârda “hayır, kitaptan değil, başka birinin telifli özetinden geldi” mantığıysa, bu özeti yazan kişinin telif hakkı ihlali nedeniyle dava açması gerektiği anlamına gelmez mi? OpenAI “aslında özet değil, kitabın tamamıydı” demedikçe durum bu.
- LLM'nin yerine bir insan koyunca ilginç nüanslar ortaya çıkıyor.
  Binlerce eser okuduk; o halde yazdığımız her şeyin türev olduğu mu anlamına geliyor?
Daha ikna edici kanıt, ChatGPT'nin özet değil metnin bir bölümünü aynen çıktılamasını sağlamak olurdu.
Kendim denediğimde, Eylül 2021 bilgi sınırından sonraki belirli harici veri tabanlarına veya kitaplara erişemediğini ve Sarah Silverman'ın The Bedwetter'ından ya da başka belirli metinlerden kelimesi kelimesine alıntı sağlayamayacağını söyledi.
Ancak o tarihe kadarki eğitimi ve bilgisine dayanarak metin üretebileceğini, Sarah Silverman ya da ilgili konular hakkında soru sorabileceğimi belirtti.
- Bu tartışmayı kaçırmış olabilirsiniz: https://news.ycombinator.com/item?id=36400053
  OpenAI, yazılımının telifli materyal çıktıladığını biliyor ve aceleyle bir filtre eklemiş gibi görünüyor.
  Bu yüzden şu anda istediğinizde kitabı çıktılamaması, yapay zekanın o büyük parçayı ezberlemediğinin kanıtı değil. Sadece güvenlik filtresi devrede olabilir ve basit bir etrafından dolanma yöntemi gerekebilir.
- Bir keresinde ChatGPT'ye Yüzüklerin Efendisi'nin ilk paragrafını çıktılatmayı denedim; ilk birkaç kelimeden sonra durdu.
  Geliştiriciler filtreleme yapıyor gibi görünüyor.
- GPT tüm internetin kayıplı sıkıştırılmış JPEG'idir. Sinir ağlarının çalışma biçimi gereği oradan kelimesi kelimesine metin çıkarmak imkânsızdır.
  Eksabayt ölçeğinde metin verisini gigabayt boyutunda bir sinir ağına nasıl sığdırdıklarını sanıyorsunuz? Evet, kayıplı sıkıştırma.
Eğitim setinde çok sayıda kitap incelemesi ve özet bulunduğu için, bunlardan kendi içinde sentezlemiş olma ihtimali çok daha yüksek değil mi?
- Yasa dışı kitap arşivlerinin eğitimde kullanıldığına dair belgelenmiş izler var
- Gerçekte, eğitim klasörüne bir sürü kitap PDF’i koyup olduğu gibi çalıştırmış olmaları çok daha olası görünüyor
  Bu yapay zeka şirketlerinin eğitim için emdikleri veriler konusunda en ufak bir dikkat gösterdiğine inanmak neredeyse imkânsız
- O özetler nereden geldi acaba? Gölge kütüphaneleri kazımış olmaları çok daha olası bence. Elbette bunu kanıtlamak da neredeyse imkânsız görünüyor
  Yalnızca gölge kütüphanelerde bulunabilen kitapların ya da metinlerin özetlerini istemeyi deneyerek bir ölçüde test edilebilir belki
- Kitap incelemeleri ve özetler eğitim setinde yer aldıysa, OpenAI’ın LLM’i, isteme göre girdi metni ürettiği anlamında arama motoruna daha yakın değil mi?
Getty Images’ın da Stability AI’a karşı bir yapay zeka davası açmış olması biraz komik. İlahi adalet mi?
Getty’nin başkalarından çalması sorun değil de, başkalarının Getty’den çalması mı yasak? Bu kavgada bir çıkarım yok ama bu tür şirketlerin ikiyüzlülüğü gerçekten çok fazla
- Getty kimden çalıyor?

Sarah Silverman, OpenAI ve Meta’ya telif hakkı ihlali davası açtı

Davanın tarafları ve temel mesele

Eğitim verisi kaynağı tartışması

OpenAI davasında sunulan örnekler

Meta davasının odağı

Tarafların tepkisi

İlgili okumalar

1 yorum

Hacker News yorumları