Yapay zeka ile kirlenmemiş içerikler için Low-background Steel

(blog.jgc.org)

1 puan yazan GN⁺ 2025-06-11 | 1 yorum | WhatsApp'ta paylaş

lowbackgroundsteel.ai, web’e yapay zeka üretimi içerikler büyük ölçekte karışmadan önceki kaynakları bulmak için Mart 2023’te oluşturuldu
Adı, nükleer denemelerin radyoaktif izotoplarıyla kirlenmemiş düşük arka planlı çelik ve kurşun metaforundan geliyor
Gerçek low-background steel ve kurşun, genellikle 1945’teki Trinity Testi öncesinde batmış gemilerden çıkarılan metalleri ifade ediyor
Site, 2022’de yapay zeka üretimi içeriklerin hızla artmasından önce oluşturulmuş metin, görsel ve video kaynaklarını toplamaya odaklanıyor
ChatGPT’nin yayımlanmasından önceki Wikipedia dökümleri, Arctic Code Vault, Project Gutenberg gibi kaynaklara bağlantı veriyor ve kirlenmemiş başka kaynaklar için de gönderim kabul ediyor

Yapay zeka öncesi kaynakları toplayan bir merkez

lowbackgroundsteel.ai, yapay zeka üretimi içeriklerin karışmadığı çevrimiçi materyalleri toplamak için oluşturulmuş bir kaynak merkezidir
Mart 2023’te başladı ve yapay zeka üretimi içerikler yayılmadan önceki çevrimiçi kaynakları düzenleme işlevi görüyor

Adındaki metafor

Low-background Steel, nükleer denemelerden çıkan radyoaktif izotoplarla kirlenmemiş metali ifade eder
Bu tür çelik ve kurşun genellikle 1945’teki Trinity Testi öncesinde batmış gemilerden çıkarılır
Site bu kavramı içeriğe uygulayarak, yapay zeka üretimi içeriklerle kirlenmemiş kaynakları Low-background Steel olarak adlandırıyor

Toplanan kaynaklar ve örnekler

Toplanan kaynaklar, 2022’de yapay zeka üretimi içerikler keskin biçimde artmadan önce oluşturulmuş metin, görsel ve video kaynaklarıdır
Şu anda bağlantı verilen örnekler şunlardır
- ChatGPT yayımlanmadan önceki Wikipedia dökümleri
- Arctic Code Vault
- Project Gutenberg
  - Bunun dışında ek kaynaklar

Kaynak gönderimi

Yapay zeka üretimi içeriklerle kirlenmemiş başka kaynaklar biliyorsanız, gönderim sayfası üzerinden iletebilirsiniz

1 yorum

GN⁺ 2025-06-11

Hacker News yorumları

Unicode’a yeni bir düzlem (plane) ekleyip, iletişim için gereken tüm karakterleri çoğaltırken ek durum bitleri koymanın yeterli olacağını düşünüyorum
Kesinlikle insan tarafından yazıldı, yalnızca insan gözü için, AI üretimi kabul edildi gibi aralıklar olur; bunları ihlal eden de hapse gönderilir
Elbette tüm aralıklar görsel olarak ayırt edilemeyen homogliflerden oluşacağı için, adil ifşa amacıyla yazılım aracılı yarı gizli bir kanal hâline gelir
Birden fazla kaynaktan kopyala-yapıştır yapılsa bile ince karakter kodlama farklarıyla kaynak bilgisi beraberinde gelir; bu şakayı da neredeyse 1’e yakın bir oranla yapıyorum
- Tıpkı gıdada olduğu gibi tamamen organik içerik için de piyasa değeri oluşacaktır
  Bunun anlamı, insanlar tarafından yazılmış, çizilmiş, bestelenmiş, düzenlenmiş ve kürate edilmiş içeriktir
  Ancak gıdada olduğu gibi izin verilen sınırları tanımlamak kâbus gibidir; organik olduğunu kanıtlamak zordur; sertifikasyon bir güven ağına dayanır; pratikte kaçınmaya çalıştığı şeyle kirlenir; hatta daha kötü olduğuna dair kanıtlar olsa bile daha yüksek fiyata satılabilir
- Unicode’da aslında metnin bir bölümünün başka bir dilden geldiğini belirtmek için oluşturulmuş Tag Characters aralığı vardır
  Bu kullanım HTML etiketleri gibi daha üst düzey işaretlemelerle değiştirildiği için kullanımdan kaldırıldı, ancak karakterler hâlâ mevcut
  Görünmez olmaları ve ardışık tag karakterlerinin imleç hareketinde tek bir karakter gibi davranması ilginçtir
  ASCII’yi yansıttıkları için içine rastgele JSON veya başka veriler kodlanabilir; gizli veriyle ya da terk edilmiş kullanım biçimleriyle insanları sinir etmeyi sorun etmiyorsanız LLM üretimi bölümleri işaretlemek için de oldukça uygundur
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- Sorun, AI üretiminin nasıl tanımlanacağı
  Ödev örneğinde, öğrencinin her şeyi kalem ve kâğıtla bizzat yazması ile her şeyi AI’a yazdırması açık; ama çevrimiçi ansiklopediden araştırma yapıp o ansiklopedinin AI ile yanıt verdiği durum, AI’dan yalnızca yazının yapısını, ana noktalarını ve sonucunu aldığı durum, kendisi yazdıktan sonra yalnızca yazım hatası, dilbilgisi ve üslup iyileştirmesini AI’a bıraktığı durum belirsiz
  Buna ek olarak, çeşitli konulardaki yazıları kendisi yazdıktan sonra en iyi yazıyı AI’a seçtirdiği durum da var
- Böyle bir yasa yürürlüğe girdikten 12 milisaniye sonra Hindistan’da daktilo fabrikaları ortaya çıkar ve insan çalışanlar AI kaynaklı metinleri elle yeniden kopyalayarak “veri aklama” yapar
- Yabancı dilde yazılmış bir metni ChatGPT’ye İngilizceye çevirtmek AI üretimi içerik midir
  Kâğıda yazılmış bir metni LLM ile OCR’dan geçirmek ne olur
  Çok ayrıntılı bir taslak verip sürekli yeniden yazdırırken kesin olmayan gerçekleri acımasızca çıkarttırmak ne olur
  AI’ı yalnızca dilbilgisini düzeltmek ve kötü İngilizceyi düzgün bir bilimsel üsluba dönüştürmek için kullanmak ne olur
  Tüm bu durumlarda nihai sonuç LLM’den kopyala-yapıştır edilmiş biçimde olsa bile, yanıtın açıkça “hayır” olduğunu düşünüyorum
AI üretimi içerik özünde ortalamaya gerilemedir; hem öğrenme hem de insanlara sağlayacağı fayda açısından zararlıdır
AI’ın üretebildiği bir şeyi yayımlamanın pek bir avantajı yok; doğrudan sormak yeterli
AI içeriği etiketlenerek yayımlanabilir, ama bunun dışındaki durumlarda çoğu zaman kamu yararından çok kirliliğe yakındır
- Bu mantıkla, en başta neden herhangi bir şey yazalım ki
  Shakespeare’in soneleri de zaten var olan kelimelerin dizilişinden ibaret; tüm matematik kanıtları, romanlar ve gazetecilik de mümkün sembol dizileri uzayındaki birer düzenlemeden başka bir şey değil
  Bir şeyin üretilebilir olması, belirli bir amaç, bağlam ve okur için üretildiğinde taşıdığı değeri geçersiz kılmaz
- Birkaç yıl öncesine kadar sezgisel olarak makul görünen, sınırlı deneysel dayanakları da olan bir inançtı
  Ancak sonrasında iyi kürate edilmiş AI üretimleri içinde çeşitli yetenek sıçramaları ortaya çıkınca, bence bu düşünce kesin biçimde çürütüldü
- AI tarafından düzeltilen veya redakte edilen içeriğe nasıl bakmalı
  Bugünlerde blog yazılarını sesli not olarak dikte ediyor, metne döktükten sonra CGPT ya da Claude’a verip tonunu ve ritmini inceltiyorum
- Doğrudan sorarsanız, bir insan uzmanın içeriği gözden geçirip adını koyarak güvence verdiği aşama yoktur
  O kürasyon ve güvence değerlidir
  Elbette akla hemen “O insanlar gerçekten bunu yapar mı?” sorusu gelebilir; buna katılıyorum, ama AI’dan önce de genellikle böyle olmuyordu
  İnternet içeriğinin büyük çoğunluğu zaten uzmanlığı olmayan düşük ücretli yazarların aceleyle ürettiği düşük kaliteli yazılardı; AI bu durumu değiştirmiyor
- Saçmalık
  Hiç deep research aracı kullandın mı
  Ütopya yanılgısına düşmemek gerek
  İnsanlar da çöp gibi yazılar yayımlıyor
Bunun insanların düşündüğü kadar büyük bir sorun olup olmayacağından emin değilim
Uzun vadede hedef muhtemelen yapay zekanın araba tamir kılavuzunu okumak yerine gerçekten arabayı tamir etmek gibi gerçek deneyimlerden öğrenmesini sağlamak olacak
Böylece telifsiz eğitim verisini sınırsızca elde edebilir ve yapay zekayla kirlenmiş eğitim verisi sorununu da doğal olarak aşabiliriz
- Sorun, halüsinasyonların alıntılanması ve sonunda gerçekmiş gibi kaynaklandırılması
  Örneğin “İçinde Connect Four bulunan MS-DOS üretkenlik programı hangisidir?” diye sorulabilir
  Bir MSDOS emülatörü var ve doğru cevabı da biliyorum, ama soru biraz obscure olduğu için mi bilmem, her yapay zeka her seferinde farklı cevap veriyor ve doğru cevabı verdiğini hiç görmedim
  Tekrar emin misin diye sorunca fikrini değiştiriyor
  Bu cevaplar çevrimiçi alıntılanır ve yapay zeka tekrar bu döngüsel referansı kaynak olarak öğrenirse, o noktada hakikat ortadan kaybolur
  Gerçekten yukarıdaki soruyu sorarsanız, yapay zekanın tamamen uydurduğu bir cevabı otoriter bir şekilde tekrar etmesine çok iyi bir örnek olur
- Gerçek deneyimle doğrudan veri üretmek çok pahalıdır ve veri edinimine gerçek operasyonel risklerin eşlik etmesi anlamına gelebilir
  Waymo gerçek yollarda araç kullanarak deneyim elde ediyor, ancak birim zamanda elde edilen verinin sınırı araç filosunun büyüklüğüne bağlı ve önce gerçek dünyada çalıştırılması güvenli olacak bir yetenek düzeyine ulaşması gerekiyor
  Araba tamir etmeye davranışsal politika yayılımı dışındaki bilgiler olmadan başlanırsa, oldukça uzun süre çok sayıda arabayı bozarak öğrenilir ve robotun başarısız olduğunu söyleyecek insana da ödeme yapmak gerekir
  Tamircilerin kılavuza bakmasını ve açık eğitim almasını istememizin bir nedeni var; bu maliyet mantığı tamirci ister insan ister yapay zeka olsun aynı şekilde geçerli
  Off-policy pekiştirmeli öğrenme kullanılsa bile, veri önceki nesil modellerin gösterimleriyse bu hâlâ yapay zeka ile kirlenmiş eğitim verisidir
- YouTube’da gerçek araba tamir deneyimlerini içeren muazzam miktarda eğitim verisi var, ama bunların hepsi telif hakkına tabi
  Yapay zeka şirketlerinin eğitimden önce bu içeriği lisanslaması gerekip gerekmediği tartışmalı bir konu
- Genel zekaya sahip insansı robotlar ortaya çıkmadan araba tamir eden yapay zeka sistemlerinin de olmayacağını düşünüyorum
  Böyle robotlar çıkmadan 5 yıldızlı otellerde yapay zeka hizmetçiler de olmayacak
  Asıl söylenenin yanlış olduğu anlamına gelmiyor, ancak bugün ile o nokta arasındaki mesafe hayal edilemeyecek kadar büyük olduğundan “yapay zeka çöpünün dildeki kelime sıklığı veritabanlarını kirletmesini dert etmeyin, bir gün çözülür” demek biraz konudan sapmış gibi geliyor
- Uzun vadede AGI istediğimiz anlamına mı geliyor
  AGI çıkınca spam de daha mı iyi olacak
  https://xkcd.com/810/
Seçilen terimin, kaygıyı alakasızmış gibi gösterecek şekilde çok ustaca seçilmiş olmasını seviyorum
Atmosferik nükleer denemelerin sona ermesinden sonra arka plan radyasyonunun doğal seviyelere yaklaşması ve yeni çeliğin de radyoaktif sinyalinin yeterince düşük hale gelmesiyle, radyasyona duyarlı çoğu kullanım için özel düşük arka planlı çeliğe artık gerek kalmaması açıklamasına benziyor
Ama “kirlenmemiş” veriye ihtiyaç olduğunu da, böyle veriyi bulmanın zor olduğunu da, LLM çıktısının zaten her şeyi enfekte edeceğini de düşünmüyorum
LLM verisi doğal arka plan Reddit yorumlarından biraz daha iyi bile olabilir; ayrıca archive.org ve Gutenberg gibi yerler de var
- Ama yakın tarihli kirlenmemiş veriyi bulmak zor
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Hımm… arka plan radyasyonunun azalmasının nedeni nükleer denemeleri durdurmuş olmamız
Şu an için yapay zeka kirliliğinin yapay zeka eğitim çalıştırmalarında gerçek bir sorun olduğuna inanmak için bir neden yok
2022 öncesi herkese açık tarama verileriyle eğitilen yapay zeka, 2022 sonrası tarama verileriyle eğitilen yapay zekadan belirgin biçimde daha iyi değil
Hatta bazı durumlarda, nedenini bilmesem de, daha yeni tarama verileri token başına performansta biraz daha iyi
- “Düşük arka planlı çelik” fikrinin arkasında, yapay zekayı sentetik verilerle eğitmenin yapay zekanın tamamen saçmalayıp işe yaramaz hale geldiği model çöküşüne yol açabileceği düşüncesi var
  Böyle bir şey ya olmadı ya da tüm yapay zeka şirketlerinin içeride yapay zeka verilerini ayıklayan çalışan filtreleri var
  Ben ilkine bahse girerim
  Yine de yapay zeka üretimi veriye fazla maruz kalmanın insanlarda model çöküşüne benzer bir şeye yol açabileceğini düşünüyorum, ama bu daha çok anekdotlara dayalı gözlem ve sezgi
- Bu akıl yürütme birkaç nedenle oldukça kötü
  2022’den sonra LLM eğitimi çok daha iyi hale geldi; eğitim verisindeki yapay zeka çöpünün olumsuz etkisi, parametre ölçeğinin artışı ve daha iyi eğitim tekniklerinden gelen kazanımları bastırmıyor diye olumsuz etki yok anlamına gelmez
  “Performansı daha iyi” de çok gevşek bir ifade ve bunu anlamlı biçimde ölçmek için elimizde hâlâ iyi bir cevap yok
  Gemini 2.5’in GPT-4o’dan daha iyi olduğunu anlayabiliriz, ama Gemini 2.5 ile Claude 4 arasında ayrım yapmak daha zordur
  Bu aşamadaki çöp veri etkisinin büyüklüğü muhtemelen aynı nesil modeller arasındaki küçük farklar düzeyindedir
  Veriyle kanıtlanması zor olacak kadar küçük bir etkiyi aradığımız bir durumdaysak, bu durumda ilk ilkelerden başlamak mantıklıdır; ilk ilkeler de yapay zeka üretimi içerikle eğitmemenin daha iyi olduğunu açıkça söyler
- İnsanlar henüz ciddi biçimde çöp içerik üretmeye başlamadı; bunun ileride çok daha artacağını düşünüyorum
Yapay zeka içeriğine pek alerjim yok, ama düşük arka planlı çelik benzetmesi hayranlık uyandırıcı
Harika
- Ben de yapay zeka içeriğine alerjik değilim
  Bu siteyi yapmamın nedeni, insan tarafından yapıldığını bildiğim şeyleri takip etmekti
- Bu, fobiden çok yapay zekayı kendi çıktısıyla eğitmekten kaçınmaya benziyor
  Yakın zamanda iş arkadaşlarımla da konuştuğumuz bir konuydu
  Yapay zeka öncesi içerikler ileride kaçınılmaz olarak daha değerli hale gelecek, çünkü bir daha üretilemeyecek şeyler
  İdeal olarak, 2015 civarında erişilebilir olan tüm verilere kriptografik zaman damgası vurmuş olmamız gerekirdi; ama şimdi elimizdeki durumla hareket etmek zorundayız
Bugün tuhaf bir şekilde kendimi kâhin gibi hissediyorum
https://news.ycombinator.com/item?id=44217676
- Bu örneği Hacker News’te en az 1 yıl önce, muhtemelen daha da önce duydum
  2 yıl öncesinden bir yazı da var: https://news.ycombinator.com/item?id=34085194
- Bu benzetme ChatGPT’nin çıkışından sonra yaygın bir benzetmeydi
- Bu düşüncenin gerçekten yanlış olduğunu düşünüyorum
  İçeriği ve sentetik verileri anotasyonlama süreci, yapay zeka çıktısını gelecekteki çıktıları daha iyi hale getiren bir gradyana dönüştürecek
  LLM çıktılarında bu daha az belirgin olabilir, ama görüntü ve video modellerinde çok açık olmalı
  Sistemin en iyi görsel çıktılarını seçme sürecinde, sisteme giren küçük hatalar ve zevke dayalı kürasyon sistemi daha iyi performansa ve daha yüksek genelliğe yöneltecek
  Genomu sentetik bir makine, fiziği de olasılıksal bir gradyan olarak görürsek, bu yaşamın ve kalıtımın tüm ekolojik nişlere uyum sağlamasından farklı değil
  Aynı şeyi hızlı şekilde çalıştırıyoruz
- İyi iş
  Yapay zeka “kirliliği” olmayan içerik şeklindeki çerçevelemeyi daha önce de duymuş gibiyim ve bunun zaten ortalıkta dolaşan bir fikir olduğunu düşünüyorum
  Yine de düşük arka plan çeliği benzetmesinin uygun olduğu konusunda başarılı bir tahminde bulunduğunu rahatlıkla iddia edebilirsin
İkinci el basılı kitaplar, özellikle “reading copies” veya “ex-library” denen, eski ama kullanılabilir kitaplar ikinci el kitap piyasasında çok ucuza satılıyor
Temel başvuru kitapları da dahil olmak üzere kendine ait fiziksel bir kütüphane oluşturmanı, yerel halk kütüphanelerini ve üniversite kütüphanelerini desteklemeni öneririm
Uzmanlık ve ilgi alanlarındaki makalelerin basılı kopyalarını da bulundurmak iyi olur
Ataların yöntemini izlemek demek bu
Yapay zekanın gerçekler hakkında açıkça yalan söylediği zamanlar oldu; her durumda yapay zekayı ikna edememiş olsam da, haklı olduğumu kendi başıma doğrulayabileceğim fiziksel bir kütüphanem olduğu için memnundum
Bu benzetme gerçekten uyuyor mu
Yeni düşük arka plan çeliği üretmek, radyoaktif parçacıklar her yerde olduğu için son derece zor; ama yapay zekasız içerik üretmek zor değil
Sadece yapay zekayla yazmazsın, olur biter
- Bir eserde yapay zeka olmadığını kanıtlamak, imkânsız olmasa bile tamamen gerçekçi değil
  Bu yüzden kişinin kendisi dışında kimse emin olamaz
- Yeni düşük arka plan çeliği üretmek zor değil
  Geri kazanıp kullanmak daha ucuz olduğu için böyle yapılıyor
- Böyle yapay zekasız içeriği kim, hangi gerekçeyle, hangi parayla üretecek
- Sadece tıklama tuzağı bir başlık
Bu sitenin adı bile Y combinator’dan geliyor
Biraz felsefi el hareketini saymazsak, akıl yürütme modellerinden beklenmesi gereken yeteneklerden biri; içeriği girdi olarak alıp içerik çıktısı veren ve sonra o içeriği tekrar tüketen bir fonksiyonun sabit noktasını bulabilmesidir
Başlangıçtaki insan içeriği, başlangıçtaki içerikten türetilmiş içerik ve yeniden o türetilmiş içerikten türetilmiş içeriğin karıştığı veriler üzerinde yinelemeli olarak eğitilse bile, temel sistemin belirgin özelliklerini ve örüntülerini çıkarabileceği konusunda iyimserim

Yapay zeka ile kirlenmemiş içerikler için Low-background Steel

Yapay zeka öncesi kaynakları toplayan bir merkez

Adındaki metafor

Toplanan kaynaklar ve örnekler

Arctic Code Vault

Project Gutenberg

Kaynak gönderimi

İlgili okumalar

1 yorum

Hacker News yorumları