- Yapay zeka, asıl yazarın onayı olup olmadığına bakmaksızın girdileri alıp eğitiliyor ve ortaya çıkan sonuçları satarken asıl yazara ödeme yapmıyor
- Yapay zeka şirketlerinin (ve yapay zeka araçlarının) müşterileri de prompt ile işlenmiş çıktıları başka müşterilere yeniden satarak, internet genelinden kopyalanmış içeriklerden gelir elde ediyor
- Kendi e-ticaret eğitim içeriğini doğrudan araştırıp yazmış olsa da, bazı web siteleri ChatGPT'ye popüler birkaç eğitimi kopyalattıktan sonra bunları kendi yazılarıymış gibi yayımlıyor
- Kopya yazılar, Google arama sonuçlarında orijinalden daha üst sıralarda yer alıyor
- Kopya yazılarda, orijinal web sitesine giden bağlantı tamamen aynı bağlantı metniyle birlikte kalmıştı ve silinmeyen bağlantılar sayesinde bunun kopya olduğu doğrulandı
- Google, orijinali kopyalayan web sitelerini orijinalden daha üstte göstererek, izinsiz kopya içeriğin aramada ödüllendirildiği bir yapı oluşturuyor
1 yorum
Hacker News yorumları
Bunu meşrulaştırırken sık kullanılan bir safsata var: “Küçük ölçekte sorun değilse ya da görmezden gelinebilirse, büyük ölçekte de sorun değildir.”
Tek bir web sayfasından öğrenip para kazanmak kabul edilebilir ama bir bilgisayarın herkesten her şeyi öğrenip para kazanması neden sorun olsun, deniyor. Golden Gate Park’tan bir çiçek koparmakla, satmak için parktaki tüm çiçekleri otomatik biçen bir makine yapmak aynı şey değil. Niceliksel değişim, faaliyetin niteliksel değişimine yol açar; bunun etkisi her zaman kötü olmak zorunda değildir ama görmezden gelinmeyip değerlendirilmesi gerekir
Asıl mesele sadece ölçek değil; daha çok, insanlar için arzu edilir olan bir davranışın makine yaptığında toplumsal olarak kabul edilmemesi
Burada hissedilen “hırsızlık”, tamamen zihinsel bir yorumdur; birisi kopyaladı diye orijinal sizden alınmış olmaz
https://en.wikipedia.org/wiki/Fallacy_of_composition
İnternetten sonra ama LLM’lerden önce, teoride bilgi eşitsizliği büyük ölçüde azaldı; fakat algısal engeller nedeniyle çoğu insan bunu anlayıp kullanamıyordu. LLM’lerden sonra bu engel yıkılıyor; dolayısıyla artık bilgi ve malumatı farklı şekilde kullanarak nasıl para ve güç üretileceğini düşünmek gerekiyor
Asıl daha büyük sorun, orijinal kaynağın kendisini telafi edecek biçimde atıf alamaması
Web sitesi sahipleri içerik barındırma maliyetini ödüyor, örümcekler gelip tarayıp AI için indekslemesine izin veriyor ama şanslılarsa ancak bir alıntı görüyorlar; içerik sağlayıcı olarak neredeyse hiçbir karşılık almıyorlar. Bu giderek kötüleşiyor ve “Her şey zaten AI’da varsa neden web sitesine gideyim?” noktasına geliyor. Sonunda tarayıcıları engelleyip her şeyi giriş arkasına koymak zorunda kalabiliriz
En azından Google/Bing/Yahoo’nun scraping’i, kullanıcıya orijinal kaynağa dönen bağlantılar sağlamak için kullanılıyordu
robots.txtile engelledik, aceleyle reCAPTCHA da ekledik ama işe yaramadıVerilerimizin model çıktılarında göründüğünü doğruladık ama kim ne yapabilir ki diye düşündük
Bu AI şirketleri, “maliyetler toplumsallaştırılırken kârlar özelleştiriliyor” sloganının iğrenç bir örneğine benziyor
Yani bir geçit değil, varış noktası olmak istiyor
Bunun keşfedilebilirliği etkileyeceğini biliyorum ama sorun bu değilse, scraping nasıl bertaraf edilebilir diye merak ediyorum
Bu mesele, “fair use”ın veri scraping’inin %99’unu kapsadığı kadar basit değil
Eğer amaç orijinali yeniden üretmek değil de ön eğitimde token olasılık dağılımını tahmin etmek için kullanmaksa, durum daha da belirsizleşiyor. LLM ile bir kitabı kelimesi kelimesine aynen çıkartamazsınız deniyor
Örneğin Bing Chat, 2023 tarihli “The Secrets Hamas knew about Israel’s Military” başlıklı makalenin ilk 396 kelimesini iki kelime dışında kopyaladı; dava dosyasındaki görsellerde de OpenAI’nin GPT’sinin Times yazılarını öğrenip ezberleyerek kelime kelime kopyaladığı 100 örnek gösterildi
https://www.hollywoodreporter.com/business/business-news/cou...
Bunu anlamam biraz zaman aldı ama alıntılanması gereken şey, cümlenin harfi harfine kopyası değil, bilginin kaynağıdır
İçeriği yeniden üretmeleri sağlanabiliyor ama bu bir kedi-fare oyunu. Doğrudan yeniden üretmekten kaçınacak şekilde hizalanmamış olsalardı, bu çok daha sık olurdu. RECAP, diğer tüm yöntemlerden tutarlı biçimde daha iyi sonuç verdi; örneğin Claude-3.7’den ilk “Harry Potter” kitabından yaklaşık 3.000 pasaj çıkarıldı, en iyi temel yöntem ise 75 pasajda kaldı
Neredeyse sadece yorum satırları eksik olacak şekilde, kütüphaneyi hafızasından doğrudan intihal ediyor
AI’dan tek bir iyi şey çıkacaksa, o da telif hakkı hukukunu sonsuza dek bozmak olabilir
Hiç kimse fikirleri “sahiplenebilmelidir” denmemeli. Ticari kullanım için telif ödemelerini ayrı bir konu olarak destekliyorum ama bildiğimiz anlamdaki ticari olmayan korsan kopyalama ve izinsiz fan art %100 yasal olmalı
Mevcut sistemden farklı olarak, yapılan işe sınırlı biçimde ve belirli bir süre sahip olunabilmesi fikri oldukça makul görünüyor
Sanat üretirseniz takdir edilmelisiniz. Sanat, insanın kendini ifade etmesinin önemli yollarından biridir
anna's archive üzerinden baskısı tükenmiş kitapları “indiremeyeceksiniz” ama şirketler tüm bu verilerle eğitim yapıp özetlerini abonelik ücreti karşılığında satmaya gayet istekli olacak
Bunun neden şaşırtıcı olduğunu anlamıyorum. AI şirketlerinin model eğitimi için devasa miktarda veri çaldığını herkes biliyor; neden duracaklarını düşünelim ki? Telifli verinin kitlesel hırsızlığı için gerçekten hiç bedel ödediler mi?
Biz o veriyi çalamayız ya da ondan kâr elde edemeyiz ama onlar nedense yapabiliyor. Muhtemelen dünyaya fayda sağlayıp insanlığı ileri taşıdıkları için
Yasaları yapan ve uygulayanlar GDP’nin artmasını istiyor. Onlar için ahlak ve haklar, rahatsız ettiklerinde kolayca atılabilen ince bir maskeden ibaret
Böyle yorumlar ne içgörü sağlıyor, ne yardımcı oluyor, ne de düşündürüyor. Sadece kötü durumların kötü kalmasına yardım ediyor
“Fikri mülkiyet” mi dediniz? Bu büyüleyici bir serap
https://www.gnu.org/philosophy/not-ipr.html
Oracle’ın tüm iç deposunu kaynak göstermeden öğrenmiş bir open weight model olsaydı, bu adil olurdu
“Onların yazısında benim gerçek web siteme giden bağlantı var ve bağlantı metni de birebir aynı” kısmında sorunun ne olduğunu pek anlayamıyorum
Bağlantı metni aşırı uzun değilse, biri sizin yazınıza bağlantı verirken neden farklı kelimeler kullansın?
.../post/{id}/{extra-text}biçiminde olur. Buradakiextra-text, gönderiyi eşleştirmede hiç kullanılmazAmazon bağlantıları da eskiden böyleydi; ürün adı bağlantının sonuna eklenirdi ama silseniz ya da değiştirseniz bile yine aynı ürüne giderdi. Muhtemelen LLM’in bağlantının alakasız kısmını bile aynen vermesi şaşırtıcı gelmiştir
Elma kızartması tarifinin elma sıralama listesine bağlantı verdiğini varsayalım. Sonra biri sizin tarifinizi kaynak göstermeden kopyalıyor ve aynı ifadeyle yine o elma sıralama listesine bağlantı veriyor. Yazınızı çalmış olmalarına rağmen Google arama görünürlüğünden ve reklam gelirinden daha büyük pay alıyorlar. Sorun bu
Burada iki şey birbirine karışıyor gibi görünüyor
Birincisi, LLM/transformer teknolojisi gerçekten şaşırtıcı ve devrim niteliğinde. İkincisi, sonuçta bunlar insan bilgisinin büyük kısmını içeren devasa ve etkili bir veritabanı gibi çalışıyor. 1 numara, 2 numaranın üzerini örtüyor. Biri var olan tüm dijital çıktıları bir SQL veritabanına koyup isteyene ücretsiz verseydi, bunun yasallığı konusunda hiçbir belirsizlik olmazdı. Ama distillation gibi süreçler bu ilişkiyi gizliyor ve bunun basit bir retrieval olmadığını düşündürüyor. Gerçekte daha fazlası olduğu da doğru
Ben bir fikri mülkiyet avukatıyım ve bu konuyla fiilen uğraşıyorum
Hukuki tavsiye değildir ama internette içerik üretiyorsanız — açık depo kodu, blog, podcast, YouTube, yayınlar; hobi blogu bile olsa — ABD telif hakkı tescili yaptırmak yapabileceğiniz en akıllıca şeydir. Anthropic, telifli eserlerin ihlali nedeniyle yazarlara 1,5 milyar dolarlık toplu uzlaşma ödemesi yaptı. HN topluluğunun işleri de korunuyor olsaydı, tüm LLM scraping faaliyetleri için büyük miktarda yasal tazminat mümkün olabilirdi. Ben yüzlerce yazar ve yayıncıyla çalışıyor, ürettiklerini korumak ve lisanslamak için koalisyonlar kuruyorum
İkisi aynı şey değil
Gerçekten sahip olduğumu sandığım telif hakkını fiilen kullanmak için gerekliyse, bunun için bir script bile yazarım
Artık böyle değil mi? Neden bir anda değişti? Ne zaman değişti?
Teknik olarak bunun telif ihlali olup olmaması benim asıl meselem değil
Daha büyük sorun, dünyanın içeriğinden rant çıkarma kapasitesinin, büyük veri merkezleri kurabilen az sayıdaki şirketin elinde toplanması. Bu devasa bir sorun. Eğer benim web sayfam, haber sitem, çevrimiçi dergim, ticari sanatım bu modellere emiliyor ve ben teşvik mekanizmasının dışına itiliyorsam, neden üretmeye devam edeyim? Eğer bu bugün hukuken telif ihlali sayılmıyorsa, insan yaratıcılığı ve küçük işletmeler için mutlak bir trajedidir; bu yüzden yeni bir hukuki çerçeveye ihtiyaç var