1 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Yapay zeka, asıl yazarın onayı olup olmadığına bakmaksızın girdileri alıp eğitiliyor ve ortaya çıkan sonuçları satarken asıl yazara ödeme yapmıyor
  • Yapay zeka şirketlerinin (ve yapay zeka araçlarının) müşterileri de prompt ile işlenmiş çıktıları başka müşterilere yeniden satarak, internet genelinden kopyalanmış içeriklerden gelir elde ediyor
  • Kendi e-ticaret eğitim içeriğini doğrudan araştırıp yazmış olsa da, bazı web siteleri ChatGPT'ye popüler birkaç eğitimi kopyalattıktan sonra bunları kendi yazılarıymış gibi yayımlıyor
  • Kopya yazılar, Google arama sonuçlarında orijinalden daha üst sıralarda yer alıyor
  • Kopya yazılarda, orijinal web sitesine giden bağlantı tamamen aynı bağlantı metniyle birlikte kalmıştı ve silinmeyen bağlantılar sayesinde bunun kopya olduğu doğrulandı
  • Google, orijinali kopyalayan web sitelerini orijinalden daha üstte göstererek, izinsiz kopya içeriğin aramada ödüllendirildiği bir yapı oluşturuyor

1 yorum

 
GN⁺ 2 시간 전
Hacker News yorumları
  • Bunu meşrulaştırırken sık kullanılan bir safsata var: “Küçük ölçekte sorun değilse ya da görmezden gelinebilirse, büyük ölçekte de sorun değildir.”
    Tek bir web sayfasından öğrenip para kazanmak kabul edilebilir ama bir bilgisayarın herkesten her şeyi öğrenip para kazanması neden sorun olsun, deniyor. Golden Gate Park’tan bir çiçek koparmakla, satmak için parktaki tüm çiçekleri otomatik biçen bir makine yapmak aynı şey değil. Niceliksel değişim, faaliyetin niteliksel değişimine yol açar; bunun etkisi her zaman kötü olmak zorunda değildir ama görmezden gelinmeyip değerlendirilmesi gerekir

    • O örnekte hem küçük ölçekli hem büyük ölçekli davranış baştan kabul edilemez. Buna karşılık başkalarından öğrenmek, küçük ölçekte yalnızca toplumsal olarak kabul görmekle kalmaz, ilerlemenin de temelidir
      Asıl mesele sadece ölçek değil; daha çok, insanlar için arzu edilir olan bir davranışın makine yaptığında toplumsal olarak kabul edilmemesi
    • Erken web döneminde de buna benzer çok şey vardı. Herkes ilçe adliyesine gidip görebildiği “kamusal” belgeler vardı ama tarayıcıya sadece bir isim yazıp ülkenin herhangi bir yerinden herhangi birinin onları bulabilmesi, durumun niteliğini değiştirdi
    • Çiçekler fiziksel nesnelerdir; taşınınca ilk bulundukları yerden kaybolurlar ama bir LLM bir web sayfasından bir şey öğrendiğinde web sayfası yerinde kalır
      Burada hissedilen “hırsızlık”, tamamen zihinsel bir yorumdur; birisi kopyaladı diye orijinal sizden alınmış olmaz
    • Bu, bileşim safsatasıdır
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • İnternetten önce bilgi ve malumat eşitsizliği para ve güç üretebiliyordu
      İnternetten sonra ama LLM’lerden önce, teoride bilgi eşitsizliği büyük ölçüde azaldı; fakat algısal engeller nedeniyle çoğu insan bunu anlayıp kullanamıyordu. LLM’lerden sonra bu engel yıkılıyor; dolayısıyla artık bilgi ve malumatı farklı şekilde kullanarak nasıl para ve güç üretileceğini düşünmek gerekiyor
  • Asıl daha büyük sorun, orijinal kaynağın kendisini telafi edecek biçimde atıf alamaması
    Web sitesi sahipleri içerik barındırma maliyetini ödüyor, örümcekler gelip tarayıp AI için indekslemesine izin veriyor ama şanslılarsa ancak bir alıntı görüyorlar; içerik sağlayıcı olarak neredeyse hiçbir karşılık almıyorlar. Bu giderek kötüleşiyor ve “Her şey zaten AI’da varsa neden web sitesine gideyim?” noktasına geliyor. Sonunda tarayıcıları engelleyip her şeyi giriş arkasına koymak zorunda kalabiliriz

    • Daha da kötüsü, sürekli AI scraping içerik sağlayıcıya ek maliyet çıkarıyor ve hiçbir karşılık sunmuyor
      En azından Google/Bing/Yahoo’nun scraping’i, kullanıcıya orijinal kaynağa dönen bağlantılar sağlamak için kullanılıyordu
    • Yaklaşık bir yıl önce OpenAI çalıştığım şirketi DDoS seviyesinde taradı. robots.txt ile engelledik, aceleyle reCAPTCHA da ekledik ama işe yaramadı
      Verilerimizin model çıktılarında göründüğünü doğruladık ama kim ne yapabilir ki diye düşündük
    • Gerçekten para ve zaman harcatıyor. Üniversite sistem yöneticisi bir arkadaşım, AI crawler’larının sunuculara DDoS gibi yüklenmesiyle sürekli uğraşmak zorunda kaldığını söyledi; Anthropic’in özellikle kötü örneklerden biri olduğunu da ekledi
      Bu AI şirketleri, “maliyetler toplumsallaştırılırken kârlar özelleştiriliyor” sloganının iğrenç bir örneğine benziyor
    • Google için ise bunun neredeyse amaç olduğu görülüyor. Doğru yönü gösteren bir tabela olmaktan çıkıp, tüm cevaplara sahip bir oracle olmaya doğru gidiyor
      Yani bir geçit değil, varış noktası olmak istiyor
    • Arama motorlarıyla bulunamayacak ve dolayısıyla taranamayacak şekilde bir web sitesi barındırmanın yolu olup olmadığını merak ediyorum
      Bunun keşfedilebilirliği etkileyeceğini biliyorum ama sorun bu değilse, scraping nasıl bertaraf edilebilir diye merak ediyorum
  • Bu mesele, “fair use”ın veri scraping’inin %99’unu kapsadığı kadar basit değil
    Eğer amaç orijinali yeniden üretmek değil de ön eğitimde token olasılık dağılımını tahmin etmek için kullanmaksa, durum daha da belirsizleşiyor. LLM ile bir kitabı kelimesi kelimesine aynen çıkartamazsınız deniyor

    • “LLM ile bir kitabı kelimesi kelimesine aynen çıkartamazsınız” iddiası, New York Times’ın OpenAI’ye karşı açtığı davadaki temel iddiayla neredeyse doğrudan çelişiyor
      Örneğin Bing Chat, 2023 tarihli “The Secrets Hamas knew about Israel’s Military” başlıklı makalenin ilk 396 kelimesini iki kelime dışında kopyaladı; dava dosyasındaki görsellerde de OpenAI’nin GPT’sinin Times yazılarını öğrenip ezberleyerek kelime kelime kopyaladığı 100 örnek gösterildi
      https://www.hollywoodreporter.com/business/business-news/cou...
    • Okuldayken “kendi sözlerimle yazdım” demek, kaynağı belirtmemek için geçerli bir mazeret değildi
      Bunu anlamam biraz zaman aldı ama alıntılanması gereken şey, cümlenin harfi harfine kopyası değil, bilginin kaynağıdır
    • Aynı şey MP3 encoder için de söylenebilir ama bunun bir hâkimi ikna edeceğini sanmıyorum
    • https://arxiv.org/html/2510.25941v1
      İçeriği yeniden üretmeleri sağlanabiliyor ama bu bir kedi-fare oyunu. Doğrudan yeniden üretmekten kaçınacak şekilde hizalanmamış olsalardı, bu çok daha sık olurdu. RECAP, diğer tüm yöntemlerden tutarlı biçimde daha iyi sonuç verdi; örneğin Claude-3.7’den ilk “Harry Potter” kitabından yaklaşık 3.000 pasaj çıkarıldı, en iyi temel yöntem ise 75 pasajda kaldı
    • Claude’a, mevcut bir kütüphanenin drop-in replacement’ını yapmasını ve işlevini o kütüphanenin test suite’i ile doğrulamasını söyleyen bir prompt verin
      Neredeyse sadece yorum satırları eksik olacak şekilde, kütüphaneyi hafızasından doğrudan intihal ediyor
  • AI’dan tek bir iyi şey çıkacaksa, o da telif hakkı hukukunu sonsuza dek bozmak olabilir
    Hiç kimse fikirleri “sahiplenebilmelidir” denmemeli. Ticari kullanım için telif ödemelerini ayrı bir konu olarak destekliyorum ama bildiğimiz anlamdaki ticari olmayan korsan kopyalama ve izinsiz fan art %100 yasal olmalı

    • O zaman herkes için telif hakkını kaldırın. Ama şu anda, dev şirketlerin herkesin işini neşeyle intihal ettiği, film korsanlığı yapan birine ise SWAT gönderecek kadar daha kötü bir sistemin içinde sıkışmış durumdayız
    • Telif hakkı baştan beri “fikirleri” korumuyordu, bugün de korumuyor. Korunan şey ifade biçimi
    • Örneğin şarkı gibi bir şey, fikirden çok daha fazlasıdır. Fikre ek olarak düzenleme, prodüksiyon ve icra gibi emek de içerir
      Mevcut sistemden farklı olarak, yapılan işe sınırlı biçimde ve belirli bir süre sahip olunabilmesi fikri oldukça makul görünüyor
    • En büyük sorun bozuk ticarileştirme değil, bozuk atıf sistemi
      Sanat üretirseniz takdir edilmelisiniz. Sanat, insanın kendini ifade etmesinin önemli yollarından biridir
    • Telif hakkı bozulmayacak; her zaman olduğu gibi servetin yerçekimine göre seçici biçimde eğilecek
      anna's archive üzerinden baskısı tükenmiş kitapları “indiremeyeceksiniz” ama şirketler tüm bu verilerle eğitim yapıp özetlerini abonelik ücreti karşılığında satmaya gayet istekli olacak
  • Bunun neden şaşırtıcı olduğunu anlamıyorum. AI şirketlerinin model eğitimi için devasa miktarda veri çaldığını herkes biliyor; neden duracaklarını düşünelim ki? Telifli verinin kitlesel hırsızlığı için gerçekten hiç bedel ödediler mi?
    Biz o veriyi çalamayız ya da ondan kâr elde edemeyiz ama onlar nedense yapabiliyor. Muhtemelen dünyaya fayda sağlayıp insanlığı ileri taşıdıkları için

    • O veri çalınmadı. Hâlâ yerinde duruyor
    • Durmaları için bir neden var: kaynaklar artık AI ile kirlenmiş durumda. En azından scraping’i bırakmak için bir sebep bu
    • Sebep basit. Microsoft sizin çalışmanızı çalarsa GDP artar, siz Microsoft’un çalışmasını çalarsanız GDP düşer
      Yasaları yapan ve uygulayanlar GDP’nin artmasını istiyor. Onlar için ahlak ve haklar, rahatsız ettiklerinde kolayca atılabilen ince bir maskeden ibaret
    • Sebep ahbap-çavuş kapitalizmi. Keşke çözümünü de bilseydim
    • Kötü ya da adaletsiz bir durum gündeme geldiğinde her seferinde alaycı bir nihilistin çıkıp “Buna neden şaşırdın ki?” gibi tepki vermesinden gerçekten bıktım
      Böyle yorumlar ne içgörü sağlıyor, ne yardımcı oluyor, ne de düşündürüyor. Sadece kötü durumların kötü kalmasına yardım ediyor
  • “Fikri mülkiyet” mi dediniz? Bu büyüleyici bir serap
    https://www.gnu.org/philosophy/not-ipr.html

    • Yeter ki bu serap Oracle, Microsoft, Meta ve Google’a da, mahallenizde ücretsiz aşırı mesai yapan açık kaynak geliştiricisine de aynı şekilde uygulansın
      Oracle’ın tüm iç deposunu kaynak göstermeden öğrenmiş bir open weight model olsaydı, bu adil olurdu
  • “Onların yazısında benim gerçek web siteme giden bağlantı var ve bağlantı metni de birebir aynı” kısmında sorunun ne olduğunu pek anlayamıyorum
    Bağlantı metni aşırı uzun değilse, biri sizin yazınıza bağlantı verirken neden farklı kelimeler kullansın?

    • Evet. Bu, kaynak gösterip bağlantı vermek demek
    • Bazı bağlantılar .../post/{id}/{extra-text} biçiminde olur. Buradaki extra-text, gönderiyi eşleştirmede hiç kullanılmaz
      Amazon bağlantıları da eskiden böyleydi; ürün adı bağlantının sonuna eklenirdi ama silseniz ya da değiştirseniz bile yine aynı ürüne giderdi. Muhtemelen LLM’in bağlantının alakasız kısmını bile aynen vermesi şaşırtıcı gelmiştir
    • Muhtemelen bölüm başlığı kendi web sayfasına bağlıydı ya da benzeri bir durum vardı. Pek iyi yazılmış bir öfke yazısı değil
    • Kendi web sitesi URL’sini bir eğitim örneğinde kullanıyor ve başka eğitimler de bunu aynen kopyalamış gibi görünüyor
    • Diyelim ki iki web sayfası var. Biri elma kızartması tarifi, diğeri ise elma aromalarının sıralandığı bir liste
      Elma kızartması tarifinin elma sıralama listesine bağlantı verdiğini varsayalım. Sonra biri sizin tarifinizi kaynak göstermeden kopyalıyor ve aynı ifadeyle yine o elma sıralama listesine bağlantı veriyor. Yazınızı çalmış olmalarına rağmen Google arama görünürlüğünden ve reklam gelirinden daha büyük pay alıyorlar. Sorun bu
  • Burada iki şey birbirine karışıyor gibi görünüyor
    Birincisi, LLM/transformer teknolojisi gerçekten şaşırtıcı ve devrim niteliğinde. İkincisi, sonuçta bunlar insan bilgisinin büyük kısmını içeren devasa ve etkili bir veritabanı gibi çalışıyor. 1 numara, 2 numaranın üzerini örtüyor. Biri var olan tüm dijital çıktıları bir SQL veritabanına koyup isteyene ücretsiz verseydi, bunun yasallığı konusunda hiçbir belirsizlik olmazdı. Ama distillation gibi süreçler bu ilişkiyi gizliyor ve bunun basit bir retrieval olmadığını düşündürüyor. Gerçekte daha fazlası olduğu da doğru

  • Ben bir fikri mülkiyet avukatıyım ve bu konuyla fiilen uğraşıyorum
    Hukuki tavsiye değildir ama internette içerik üretiyorsanız — açık depo kodu, blog, podcast, YouTube, yayınlar; hobi blogu bile olsa — ABD telif hakkı tescili yaptırmak yapabileceğiniz en akıllıca şeydir. Anthropic, telifli eserlerin ihlali nedeniyle yazarlara 1,5 milyar dolarlık toplu uzlaşma ödemesi yaptı. HN topluluğunun işleri de korunuyor olsaydı, tüm LLM scraping faaliyetleri için büyük miktarda yasal tazminat mümkün olabilirdi. Ben yüzlerce yazar ve yayıncıyla çalışıyor, ürettiklerini korumak ve lisanslamak için koalisyonlar kuruyorum

    • Anthropic, telifli eserleri scrape ettiği, yani okuduğu için kaybetmedi. Telifli eserleri torrent üzerinden doğrudan dağıttığı için kaybetti
      İkisi aynı şey değil
    • Telif hakkının zaten otomatik oluştuğunu hep duydum. Telif tescili ücretli mi? Her blog yazısı için mi yapılmalı? Her gist için mi?
      Gerçekten sahip olduğumu sandığım telif hakkını fiilen kullanmak için gerekliyse, bunun için bir script bile yazarım
    • Orijinal yaratımı internete koymak zaten otomatik olarak telif hakkı doğurmuyor mu?
    • “Telif hakkını tescil ettirmek” ne demek pek anlamıyorum. Duyduğum tüm açıklamalar, bir yaratımın telif hakkının otomatik olarak size ait olduğu ve lisansla vazgeçmediğiniz sürece varsayılanın “tüm hakları saklıdır” olduğu yönündeydi
      Artık böyle değil mi? Neden bir anda değişti? Ne zaman değişti?
    • Bunu kimse yapmayacak ve yeterince kişi hiç yapmayacaksa, plan B ne?
  • Teknik olarak bunun telif ihlali olup olmaması benim asıl meselem değil
    Daha büyük sorun, dünyanın içeriğinden rant çıkarma kapasitesinin, büyük veri merkezleri kurabilen az sayıdaki şirketin elinde toplanması. Bu devasa bir sorun. Eğer benim web sayfam, haber sitem, çevrimiçi dergim, ticari sanatım bu modellere emiliyor ve ben teşvik mekanizmasının dışına itiliyorsam, neden üretmeye devam edeyim? Eğer bu bugün hukuken telif ihlali sayılmıyorsa, insan yaratıcılığı ve küçük işletmeler için mutlak bir trajedidir; bu yüzden yeni bir hukuki çerçeveye ihtiyaç var

    • Google döneminde de tam olarak aynı süreçten geçildi. İnsanların web sitelerini bulmasının fiilen tek yolu haline geldikten sonra, Google’ın sadece haksız ekonomik rant topladığı söyleniyordu