- Low-background Steel sitesi, AI tarafından üretilmiş içeriklerle kirlenmemiş kaynakları bir araya getirmeyi amaçlıyor
- Bu proje, 2022’de büyük ölçekli AI içerik yayılımından önce üretilmiş metin, görsel ve video materyallerine odaklanıyor
- Wikipedia, Arctic Code Vault, Project Gutenberg gibi başlıca katkı kaynaklarını tanıtıyor
- Site ziyaretçileri yeni kirlenmemiş kaynaklar da gönderebiliyor
- Nükleer testler öncesinin temiz metali kavramından esinlenen bu fikir, güvenilirliği ve özgünlüğü korumaya odaklanıyor
Giriş
- Low-background Steel, AI’nin ürettiği içeriklerle kirlenmemiş çevrimiçi kaynakları toplayan bir web sitesi
- Sitenin adı, nükleer testlerden önce üretilmiş ve radyoaktif kirlenmeye maruz kalmamış metal olan Low-background Steel (ve Lead) kavramından geliyor
- Trinity Testi’nden önce batmış gemilerden çıkarılan metaller, neredeyse hiç radyoaktif kirlenme taşımadıkları için değerli kabul ediliyor
- Buradan hareketle fikir, AI üretimlerinin hızla çoğalmasından önce üretilmiş saf dijital içerikleri korumayı ve yönlendirmeyi amaçlıyor
Amaç ve arka plan
- 2022’de büyük ölçekli AI tabanlı üretken içeriklerin ortaya çıkışından önceki metin, görsel, video gibi çeşitli özgün formatlardaki materyalleri güvence altına almaya odaklanıyor
- Bu materyaller arasında Wikipedia’nın tam dökümü, Arctic Code Vault, Project Gutenberg gibi güvenilir başlıca açık kaynak veritabanları yer alıyor
- Site kullanıcıları, yeni kirlenmemiş kaynakları gönderim formu üzerinden doğrudan ekleyebiliyor
Sitenin önemi
- AI üretimlerinin hızla arttığı bir dönemde, özgünlüğün korunması ve güvenilir bilginin sağlanması daha da önemli hale geliyor
- Low-background Steel, bilgi kirliliği endişesi olmadan kullanılabilecek temiz veri referansları sunmayı hedefliyor
Katkı yöntemi
- Herkes, sitenin submit özelliği üzerinden yeni Non-contaminated içerik kaynaklarını eklemeyi önerebilir
Notlar
- Sitenin amacını iyi yansıtan Wikipedia’daki Low-background Steel açıklamasına bağlantı veriliyor
- Proje Mart 2023’te açıldı ve fiilen çevrimiçi içerik koruma için deneysel bir merkez işlevi görüyor
1 yorum
Hacker News görüşü
Unicode’a yeni bir
planeekleyip tüm kullanışlı karakterleri ayna gibi kopyalayarak bunları ek durum bitleriyle ayırt etme fikrini ilginç buluyorumÖrneğin “insanın doğrudan yazdığı çıktı” bölgesinde yapay zeka üretimi metin kullanılırsa anında ceza verilmesi, “yalnızca insanlara açık” alanda yapay zekanın eğitim yapmasının ya da erişmesinin bile yasaklanması, “yapay zeka tarafından üretildiğini kabul eden” aralıkta ise tüm yapay zeka çıktılarının zorunlu olarak o karakter aralığında işlenmesi gibi şeyler hayal ediyorum
Elbette bu karakterler görsel olarak ayırt edilmesi zor olur ve ancak yazılım üzerinden ayırt edilebilir; bu yüzden ince bir kanal işlevi görürler
Metin kopyala-yapıştır yapılsa bile, kaynağın bilgisi küçük karakter kodlama farklarıyla birlikte taşınır
Neredeyse şaka gibi ama böyle bir sistemi ilginç buluyorum
Tıpkı organik gıdada olduğu gibi, %100 insan yazımı “organik” içerik için premium bir değer oluşacağını düşünüyorum
“Yapay zeka tarafından üretilmiş metin” ölçütünün belirsiz olduğunu düşünüp somut örnekler veriyorum
Unicode’da aslında dil alanlarını işaretlemek için tag karakterleri zaten vardı ama daha yüksek seviyeli işaretleme (HTML vb.) karşısında geri planda kaldıkları için artık kullanım dışılar
Bu yasa yürürlüğe girerse Hindistan’da 12 milisaniyede “daktilo fabrikaları” kurulacağını, insanların yapay zeka çıktısını yeniden yazarak veri aklama yapacağını tahmin ediyorum
Örneğin yabancı bir dilde metin yazıp sonra ChatGPT’den bunu İngilizceye çevirmesini istesem, bu yapay zeka üretimi mi sayılır diye merak ediyorum
Yapay zeka çıktılarının özünde ortalamaya dönüş eğilimi taşıdığını savunuyorum
Bu tür içeriklerin, insanların da doğrudan sorup elde edebileceği bilgi olduğu görüşündeyim
Tüm yapay zeka üretimlerine yalnızca
<AI generated content>etiketi koymak yeterli olur; onun ötesi kamusal yarardan çok kirliliğe daha yakın geliyorBu mantığa göre aslında herhangi bir şeyi yazmaya gerek olmadığı sonucuna varılıyor
Bu sezgisel inancın bir zamanlar az da olsa deneysel kanıtı vardı
İnsan uzman adının altında yürüyen doğrulama ve kürasyon sürecinin kendisi de büyük değer taşıyor
Yapay zeka ile düzenlenmiş ya da stili değiştirilmiş yazının da sonuçta insan yazımı sayılıp sayılamayacağını merak ediyorum
Bunun saçma olduğunu düşünüyorum
Bu yazıda kullanılan terimlerin, kaygıyı olduğundan küçük gösterecek şekilde ustalıkla seçildiğini düşünüyorum
Nükleer testlerin sona ermesinden sonra radyasyon seviyesi doğal düzeye çok yaklaştı, bu yüzden yeni low-background steel gereksinimi azaldı; yeni çelikler de çoğu kullanım için yeterince düşük radyoaktif sinyale sahip
Birincisi, “kirlenmemiş” verinin mutlaka gerekli olduğunu düşünmüyorum
Nükleer testleri durdurduğumuz için arka plan radyasyonunun azaldığı ise doğru
Bu konunun halkın beklediği kadar ciddi olmayabileceğini düşünüyorum
Uzun vadede yapay zeka gerçek deneyimden öğrenecek, böylece sonsuz miktarda telifsiz eğitim verisi mümkün olacak ve yapay zeka kirliliği sorunu da aşılacak diye savunuyorum
Pratikte yapay zekanın halüsinasyonları / olgusal çarpıtmaları alıntılanıp gerçekmiş gibi yerleşme eğilimi gösteriyor
Gerçek deneyim verisi üretmek (örneğin araç tamiri) pahalı ve riskli
YouTube’da gerçek araç tamiri deneyim verisi çok fazla ama telif sorunu var
Uzun vadede gerçekten AGI gerekip gerekmediğini merak ediyorum
Tahminimce genel zekaya sahip insansı robotlar ortaya çıkmadan önce araba tamir eden bir yapay zeka sistemi gerçek olmayacak
Şu anda “yapay zeka kirliliği”nin gerçekten yapay zeka eğitiminde sorun çıkardığına dair bir kanıt yok
2022 öncesi kamusal verilerle eğitilmiş yapay zeka, 2022 sonrası verilerle eğitilmiş yapay zekaya göre belirgin bir performans üstünlüğü göstermiyor
Hatta kimi zaman daha yeni veriler biraz daha iyi sonuç veriyor
“low background steel” benzetmesinin arkasındaki düşünce, sentetik veri üzerinde tekrar tekrar eğitim yapılırsa yapay zeka modelinin tamamen anlamsız hale gelmesi, yani “model collapse” yaşanacağı
Yukarıdaki iddia çeşitli nedenlerle pek makul değil
Henüz gerçek anlamda büyük bir yapay zeka kirliliği “artığı” seli yaşamadık; ama ileride bunun hızla artacağını düşünüyorum
Bazıları yapay zeka içeriğine o kadar da tepki duymuyor ve low-background steel benzetmesini çok parlak bir fikir olarak görüyor
Ben de yapay zeka içeriğine çok olumsuz bakmıyorum; hatta bununla ilgili bir site bile yaptım
Kişisel olarak bu bir yapay zeka fobisinden çok, yapay zekanın kendi çıktılarını yeniden öğrenmesini engelleme isteği
Bugünkü düşüncemin şaşırtıcı biçimde öngörülü çıktığını hissediyorum
Eski yorumum
Bu örneği en az 1 yıl önce, hatta daha da önce Hacker News’te görmüştüm
ChatGPT’nin çıkışından sonra sık kullanılan bir benzetmeydi
“Yapay zeka kirliliği olmayan içerik” çerçevesini de daha önce görmüştüm ama bunu “low background steel” ile ilişkilendirmek oldukça taze bir vuruş gibi geldi
Ben farklı düşünüyorum
low-background benzetmesini ilginç buluyorum
Bu benzetmenin gerçekten ikna edici olup olmadığından emin değilim
low-background steel gerçekten yeniden üretmesi neredeyse imkansız bir şeyken, AI-free içerik üretmek için sadece yapay zeka kullanmamak yeterli; zorluk seviyesi çok daha düşük
Pratikte bir sonucun AI-free olduğunu nesnel olarak kanıtlamak neredeyse imkansız; bu yüzden kişinin kendisi dışında kimse bundan emin olamaz
Kim, hangi nedenle ve hangi parayla AI-free içerik üretecek diye soruyorum
Bana daha çok clickbait bir başlık gibi geliyor
Bu sitenin adının Y Combinator’dan gelmesine takılarak, bir fonksiyonun sabit noktasını bulmayı inference modelleri için bir gereksinim olarak görüyorum
Yapay zeka yanlı verinin üretimi artsa bile, özgün insan içeriğiyle ondan türeyen içeriklerin ve onların da türevlerinin çeşitli katmanlar halinde karışarak eğitildiği bir durumda bile özsel özelliklerin çıkarılmaya devam edilebileceğini umuyorum