1 puan yazan GN⁺ 2025-06-11 | 1 yorum | WhatsApp'ta paylaş
  • Low-background Steel sitesi, AI tarafından üretilmiş içeriklerle kirlenmemiş kaynakları bir araya getirmeyi amaçlıyor
  • Bu proje, 2022’de büyük ölçekli AI içerik yayılımından önce üretilmiş metin, görsel ve video materyallerine odaklanıyor
  • Wikipedia, Arctic Code Vault, Project Gutenberg gibi başlıca katkı kaynaklarını tanıtıyor
  • Site ziyaretçileri yeni kirlenmemiş kaynaklar da gönderebiliyor
  • Nükleer testler öncesinin temiz metali kavramından esinlenen bu fikir, güvenilirliği ve özgünlüğü korumaya odaklanıyor

Giriş

  • Low-background Steel, AI’nin ürettiği içeriklerle kirlenmemiş çevrimiçi kaynakları toplayan bir web sitesi
  • Sitenin adı, nükleer testlerden önce üretilmiş ve radyoaktif kirlenmeye maruz kalmamış metal olan Low-background Steel (ve Lead) kavramından geliyor
  • Trinity Testi’nden önce batmış gemilerden çıkarılan metaller, neredeyse hiç radyoaktif kirlenme taşımadıkları için değerli kabul ediliyor
  • Buradan hareketle fikir, AI üretimlerinin hızla çoğalmasından önce üretilmiş saf dijital içerikleri korumayı ve yönlendirmeyi amaçlıyor

Amaç ve arka plan

  • 2022’de büyük ölçekli AI tabanlı üretken içeriklerin ortaya çıkışından önceki metin, görsel, video gibi çeşitli özgün formatlardaki materyalleri güvence altına almaya odaklanıyor
  • Bu materyaller arasında Wikipedia’nın tam dökümü, Arctic Code Vault, Project Gutenberg gibi güvenilir başlıca açık kaynak veritabanları yer alıyor
  • Site kullanıcıları, yeni kirlenmemiş kaynakları gönderim formu üzerinden doğrudan ekleyebiliyor

Sitenin önemi

  • AI üretimlerinin hızla arttığı bir dönemde, özgünlüğün korunması ve güvenilir bilginin sağlanması daha da önemli hale geliyor
  • Low-background Steel, bilgi kirliliği endişesi olmadan kullanılabilecek temiz veri referansları sunmayı hedefliyor

Katkı yöntemi

  • Herkes, sitenin submit özelliği üzerinden yeni Non-contaminated içerik kaynaklarını eklemeyi önerebilir

Notlar

  • Sitenin amacını iyi yansıtan Wikipedia’daki Low-background Steel açıklamasına bağlantı veriliyor
  • Proje Mart 2023’te açıldı ve fiilen çevrimiçi içerik koruma için deneysel bir merkez işlevi görüyor

1 yorum

 
GN⁺ 2025-06-11
Hacker News görüşü
  • Unicode’a yeni bir plane ekleyip tüm kullanışlı karakterleri ayna gibi kopyalayarak bunları ek durum bitleriyle ayırt etme fikrini ilginç buluyorum

    • Örneğin “insanın doğrudan yazdığı çıktı” bölgesinde yapay zeka üretimi metin kullanılırsa anında ceza verilmesi, “yalnızca insanlara açık” alanda yapay zekanın eğitim yapmasının ya da erişmesinin bile yasaklanması, “yapay zeka tarafından üretildiğini kabul eden” aralıkta ise tüm yapay zeka çıktılarının zorunlu olarak o karakter aralığında işlenmesi gibi şeyler hayal ediyorum

    • Elbette bu karakterler görsel olarak ayırt edilmesi zor olur ve ancak yazılım üzerinden ayırt edilebilir; bu yüzden ince bir kanal işlevi görürler

    • Metin kopyala-yapıştır yapılsa bile, kaynağın bilgisi küçük karakter kodlama farklarıyla birlikte taşınır

    • Neredeyse şaka gibi ama böyle bir sistemi ilginç buluyorum

    • Tıpkı organik gıdada olduğu gibi, %100 insan yazımı “organik” içerik için premium bir değer oluşacağını düşünüyorum

      • Ama gıda sektöründe olduğu gibi, gerçekte neyin izinli olduğu ve ne ölçüde organik sayılacağına karar vermek kabus olur
      • Sertifikasyon bir güven ağına dayanır ve sonuçta yapay zeka çıktıları kirlenmiş halde bile daha yüksek fiyata alınıp satılabilir
    • “Yapay zeka tarafından üretilmiş metin” ölçütünün belirsiz olduğunu düşünüp somut örnekler veriyorum

        1. Öğrenci metni kendi eliyle yazar
        1. Çevrimiçi bir ansiklopediye bakar, ama o ansiklopedi kendi içinde yapay zeka kullanır
        1. Yapay zekadan makalenin yapısını, ana noktalarını ve sonucunu kurmasını isteyip yazıyı kendi yazar
        1. Kendi yazdığı metinde yalnızca yazım denetimi, cümle düzeltme ve stil ayarını yapay zekaya bırakır
        1. Yapay zeka tüm yazıyı hayalet yazar gibi yazar
        1. Birden fazla metni kendi yazdıktan sonra, en iyi eseri yapay zekaya seçtirir
      • Birincisi ve sonuncusu açık ama geri kalanların ne ölçüde yapay zeka çıktısı sayılacağı kafamı karıştırıyor
    • Unicode’da aslında dil alanlarını işaretlemek için tag karakterleri zaten vardı ama daha yüksek seviyeli işaretleme (HTML vb.) karşısında geri planda kaldıkları için artık kullanım dışılar

      • Bu karakterler görünmez ve imleç hareketinde birkaç tanesi tek karakter gibi işlenir
      • ASCII ile eşleştiği için keyfi JSON veya veri eklemek mümkün
      • LLM’nin ürettiği alanları işaretlemekte kullanılabilirler ama gizli veri ya da önerilmeyen kullanım gibi rahatsız edici yanları olabilir
      • İlgili bağlantı: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • Bu yasa yürürlüğe girerse Hindistan’da 12 milisaniyede “daktilo fabrikaları” kurulacağını, insanların yapay zeka çıktısını yeniden yazarak veri aklama yapacağını tahmin ediyorum

    • Örneğin yabancı bir dilde metin yazıp sonra ChatGPT’den bunu İngilizceye çevirmesini istesem, bu yapay zeka üretimi mi sayılır diye merak ediyorum

      • El yazısından sonra LLM ile OCR yaptırsam, ya da yapay zekaya çok ayrıntılı bir taslak verip olgu denetimini de çok sıkı şekilde kendim yapsam ne olurdu
      • Yapay zekayı yalnızca dilbilgisi kontrolü ya da bilimsel ifade düzeltmesi için kullansam, bu da yapay zeka üretimi midir
      • Benim ölçütüme göre bunların hepsi “hayır”
  • Yapay zeka çıktılarının özünde ortalamaya dönüş eğilimi taşıdığını savunuyorum

    • Bu tür içeriklerin, insanların da doğrudan sorup elde edebileceği bilgi olduğu görüşündeyim

    • Tüm yapay zeka üretimlerine yalnızca <AI generated content> etiketi koymak yeterli olur; onun ötesi kamusal yarardan çok kirliliğe daha yakın geliyor

    • Bu mantığa göre aslında herhangi bir şeyi yazmaya gerek olmadığı sonucuna varılıyor

      • Shakespeare de matematiksel ispatlar da, tüm romanlar ve haberler de sonuçta mümkün kelime birleşimleri
      • Bir şeyin değeri sadece “üretilebilir” olmasında değil, belirli bir amaç, bağlam ve okur için üretilmiş olmasında yatıyor diye düşünüyorum
    • Bu sezgisel inancın bir zamanlar az da olsa deneysel kanıtı vardı

      • Ama yakın dönemde iyi kürasyon yapılmış yapay zeka çıktılarının yenilikçi atılımlar üretmesi, bunun artık doğru olmadığını gösterdi
    • İnsan uzman adının altında yürüyen doğrulama ve kürasyon sürecinin kendisi de büyük değer taşıyor

      • Zaten internetteki içeriklerin büyük kısmı uzman işi değil, düşük ücretli ve düşük kaliteli şeylerdi; yapay zekanın bunu daha da kötüleştirdiğini düşünmüyorum
    • Yapay zeka ile düzenlenmiş ya da stili değiştirilmiş yazının da sonuçta insan yazımı sayılıp sayılamayacağını merak ediyorum

      • Ben mesela blog yazılarımı notlara sesli olarak dikte ediyorum, sonra bunları CGPT ya da Claude ile ton ve ritim açısından toparlatıyorum
    • Bunun saçma olduğunu düşünüyorum

      • Deep Research araçlarını gerçekten kullandıysanız insanların da çok miktarda değersiz içerik ürettiğini anlarsınız
      • Ütopik bir yanlış anlamaya kapılmayın
  • Bu yazıda kullanılan terimlerin, kaygıyı olduğundan küçük gösterecek şekilde ustalıkla seçildiğini düşünüyorum

    • Nükleer testlerin sona ermesinden sonra radyasyon seviyesi doğal düzeye çok yaklaştı, bu yüzden yeni low-background steel gereksinimi azaldı; yeni çelikler de çoğu kullanım için yeterince düşük radyoaktif sinyale sahip

    • Birincisi, “kirlenmemiş” verinin mutlaka gerekli olduğunu düşünmüyorum

      • LLM verisinin sıradan Reddit yorumlarından çok daha iyi olduğu hissine sahibim
      • archive.org, gutenberg gibi yerlerden de “saf” veri bulmak hâlâ kolay
      • LLM çıktılarının sonunda her yere sızacağı için bunun kaçınılmaz bir akış olduğunu düşünüyorum
    • Nükleer testleri durdurduğumuz için arka plan radyasyonunun azaldığı ise doğru

  • Bu konunun halkın beklediği kadar ciddi olmayabileceğini düşünüyorum

    • Uzun vadede yapay zeka gerçek deneyimden öğrenecek, böylece sonsuz miktarda telifsiz eğitim verisi mümkün olacak ve yapay zeka kirliliği sorunu da aşılacak diye savunuyorum

    • Pratikte yapay zekanın halüsinasyonları / olgusal çarpıtmaları alıntılanıp gerçekmiş gibi yerleşme eğilimi gösteriyor

      • Örnek: “MS-DOS için yerleşik olan connect four verimlilik programının adı neydi?” diye gerçek bir yapay zekaya defalarca sorduğumda, her seferinde farklı ama hepsi de yanlış cevaplar verdi
      • Bu hatalı bilgi daha sonra internette yeniden alıntılanıyor ve yapay zeka da o yanlış bilgiyi öğreniyor; böylece bir geri besleme döngüsü oluşuyor
      • Böyle bir durumda gerçeği bilmek zorlaşıyor
    • Gerçek deneyim verisi üretmek (örneğin araç tamiri) pahalı ve riskli

      • Yapay zekanın da bir insan tamirci gibi kılavuzlar ve açık eğitim süreçleriyle başlaması gerekir
      • Eğer yalnızca gerçek uygulama verisiyle öğrenirse, deneme yanılma sırasında araçları bozacaktır ve o süreçte de insan müdahalesi gerekir
      • Off-policy reinforcement learning (RL) kullansanız bile, o veriler de önceki nesil modellerden, yani yapay zeka tarafından üretilmiş şeylerden gelmiş olabilir; bu yüzden tamamen “yapay zeka kirliliğinden arınmış” sayılmaz
      • Bu nedenle yalnızca gerçek deneyim, arz sınırlarını, maliyeti ve yapay zeka kirliliği sorununu tamamen çözemez
    • YouTube’da gerçek araç tamiri deneyim verisi çok fazla ama telif sorunu var

      • Yapay zeka şirketlerinin bu içeriği kullanmadan önce telif lisansı alıp almaması gerektiği tartışmalı
    • Uzun vadede gerçekten AGI gerekip gerekmediğini merak ediyorum

      • AGI geldikten sonra spam içeriğin de kaliteli hale geleceği imasına kuşkuyla bakıyorum
      • İlgili xkcd: https://xkcd.com/810/
    • Tahminimce genel zekaya sahip insansı robotlar ortaya çıkmadan önce araba tamir eden bir yapay zeka sistemi gerçek olmayacak

      • 5 yıldızlı otellerde yapay zeka hizmetçi görmemiz de aynı şekilde
      • Bu yüzden dil veritabanlarının kirlenmesi sorununun zamanla kendiliğinden çözüleceği görüşü bana biraz gerçekdışı geliyor
  • Şu anda “yapay zeka kirliliği”nin gerçekten yapay zeka eğitiminde sorun çıkardığına dair bir kanıt yok

    • 2022 öncesi kamusal verilerle eğitilmiş yapay zeka, 2022 sonrası verilerle eğitilmiş yapay zekaya göre belirgin bir performans üstünlüğü göstermiyor

    • Hatta kimi zaman daha yeni veriler biraz daha iyi sonuç veriyor

    • “low background steel” benzetmesinin arkasındaki düşünce, sentetik veri üzerinde tekrar tekrar eğitim yapılırsa yapay zeka modelinin tamamen anlamsız hale gelmesi, yani “model collapse” yaşanacağı

      • Gerçekte böyle bir şey görülmedi ve yapay zeka şirketleri de içerde yapay zeka verisini ayıklayan ayrı filtreler çalıştırmıyor gibi görünüyor
      • Hatta insanların yapay zeka verisine aşırı maruz kalması halinde model çöküşünün insanlarda ortaya çıkabileceğini düşünüyorum
      • Bu tamamen kendi deneyimim ve sezgim
    • Yukarıdaki iddia çeşitli nedenlerle pek makul değil

        1. 2022’den sonra LLM eğitim teknikleri olağanüstü gelişti; bu yüzden verideki yapay zeka “artıkları”nın olumsuz etkisi ortaya çıkacak kadar büyük görünmüyor olabilir
        1. Performans değerlendirmesi belirsiz ve daha çok aynı nesil modeller arasındaki küçük farklarda ortaya çıkıyor (Gemini 2.5 vs Claude 4 gibi)
      • Böyle küçük etkileri verilerle kanıtlamak zor; bu yüzden ilkesel yaklaşım daha önemli
      • İlke olarak yapay zeka üretimlerinden öğrenmeyi mümkün olduğunca kaçınmak daha doğru
    • Henüz gerçek anlamda büyük bir yapay zeka kirliliği “artığı” seli yaşamadık; ama ileride bunun hızla artacağını düşünüyorum

  • Bazıları yapay zeka içeriğine o kadar da tepki duymuyor ve low-background steel benzetmesini çok parlak bir fikir olarak görüyor

    • Ben de yapay zeka içeriğine çok olumsuz bakmıyorum; hatta bununla ilgili bir site bile yaptım

      • Amaç, kesin olarak insan yapımı olduğu bilinen materyalleri kayda geçirmek
    • Kişisel olarak bu bir yapay zeka fobisinden çok, yapay zekanın kendi çıktılarını yeniden öğrenmesini engelleme isteği

      • “Pre-AI” dönemi içerikleri artık yeniden üretilemeyen ve bu yüzden kendiliğinden kıtlaşan bir kaynak
      • Keşke 2015 civarında tüm verilere kriptografik zaman damgaları vurulmuş olsaydı; ama elde kalanı korumak için hâlâ geç değil
  • Bugünkü düşüncemin şaşırtıcı biçimde öngörülü çıktığını hissediyorum

    • Eski yorumum

    • Bu örneği en az 1 yıl önce, hatta daha da önce Hacker News’te görmüştüm

    • ChatGPT’nin çıkışından sonra sık kullanılan bir benzetmeydi

    • “Yapay zeka kirliliği olmayan içerik” çerçevesini de daha önce görmüştüm ama bunu “low background steel” ile ilişkilendirmek oldukça taze bir vuruş gibi geldi

    • Ben farklı düşünüyorum

      • İçeriklere ve sentetik verilere açıklamalar ekleyeceğimize, makinelerin bunları kullanarak gelecekteki çıktıları giderek iyileştireceğine inanıyorum
      • Bu etki yalnızca LLM’lerde çok belirgin olmayabilir ama görüntü ve video modellerinde açıkça görülüyor
      • En iyi görsel çıktıları titizlikle seçtikçe sonuçlar azar azar iyileşiyor; bu süreçte “zevke uygun kürasyon” da büyük rol oynuyor
      • Tıpkı genetikte ve biyolojide farklı ekolojik nişlere uygulanması gibi, sentetik makinelerle oyunun kurallarını hızla evrimleştiriyoruz
  • low-background benzetmesini ilginç buluyorum

  • Bu benzetmenin gerçekten ikna edici olup olmadığından emin değilim

    • low-background steel gerçekten yeniden üretmesi neredeyse imkansız bir şeyken, AI-free içerik üretmek için sadece yapay zeka kullanmamak yeterli; zorluk seviyesi çok daha düşük

    • Pratikte bir sonucun AI-free olduğunu nesnel olarak kanıtlamak neredeyse imkansız; bu yüzden kişinin kendisi dışında kimse bundan emin olamaz

    • Kim, hangi nedenle ve hangi parayla AI-free içerik üretecek diye soruyorum

    • Bana daha çok clickbait bir başlık gibi geliyor

  • Bu sitenin adının Y Combinator’dan gelmesine takılarak, bir fonksiyonun sabit noktasını bulmayı inference modelleri için bir gereksinim olarak görüyorum

    • Bir içeriğin kendi kendini dönüştürüp sonucu yeniden girdiye vereceği ve özündeki kalıpları çıkarmaya devam edeceği yönünde iyimser bir tutum
  • Yapay zeka yanlı verinin üretimi artsa bile, özgün insan içeriğiyle ondan türeyen içeriklerin ve onların da türevlerinin çeşitli katmanlar halinde karışarak eğitildiği bir durumda bile özsel özelliklerin çıkarılmaya devam edilebileceğini umuyorum