The Pile: 825 GiB ölçeğinde açık kaynak dil modelleme veri kümesi (2020)

(pile.eleuther.ai)

1 puan yazan GN⁺ 2024-03-09 | 1 yorum | WhatsApp'ta paylaş

Büyük ölçekli dil modeli eğitiminde veri kaynaklarının çeşitliliği önem kazandıkça, The Pile 22 yüksek kaliteli veri kümesini bir araya getiren 825 GiB ölçeğinde açık bir eğitim seti olarak yayımlandı
Temel tasarım, kitaplar, kod, web sayfaları, sohbet günlükleri, akademik makaleler gibi çeşitli kaynakları birleştirerek alanlar arası genellemeyi artırmaya dayanıyor
The Pile ile eğitilen modeller, mevcut dil modelleme benchmark’larında orta düzeyde iyileşme gösterdi; Pile BPB üzerinde ise anlamlı iyileşmeler sağladı
Pile BPB, birden çok alandaki metinleri birlikte ele aldığı için tek bir derlem üzerindeki performanstan ziyade geniş kapsamlı metin modelleme yeteneğini ölçmek için kullanılıyor
Liderlik tablosu, test seti örtüşmesi olasılığını * ile işaretliyor; Zero-shot ise The Pile’ın tüm bileşenlerinin eğitim verisine dahil edilmediği anlamına geliyor

The Pile’ın bileşimi ve dağıtımı

The Pile, 825 GiB ölçeğinde çeşitli açık kaynak bir dil modelleme veri kümesidir
22 daha küçük ve yüksek kaliteli veri kümesinin tek bir veri kümesinde birleştirilmesiyle oluşturulmuştur
İndirme dosyaları the Eye üzerinde barındırılıyor
The Pile’ı kullanan veya The Pile ile değerlendirme yapan bir modeliniz varsa EleutherAI’a bildirebilirsiniz
The Pile’ı veya bileşenlerini kullanırsanız aşağıdaki makaleye atıf yapmanız gerekir
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - arXiv preprint arXiv:2101.00027, 2020

Eğitim seti ve benchmark olarak rolü

Özellikle büyük ölçekli modellerde, veri kaynaklarının çeşitliliği genel alanlar arası bilgiyi ve aşağı akış görevlerde genelleme yeteneğini iyileştirir
Değerlendirme sonuçlarına göre, The Pile ile eğitilen modeller geleneksel dil modelleme benchmark’larında orta düzeyde iyileşme gösterirken Pile BPB üzerinde anlamlı iyileşme kaydetti
Pile BPB (bits per byte), birden çok alandaki metinleri anlama gerektiren bir benchmark’tır
- Hedef alanlar arasında kitaplar, GitHub depoları, web sayfaları ve sohbet günlükleri yer alır
- Tıp, fizik, matematik, bilgisayar bilimi ve felsefe makaleleri de dahildir
Bu benchmark, alana özgü dünya bilgisi ve akıl yürütme becerisini birlikte gerektirdiği için, büyük dil modellerinin alanlar arası metin modelleme yeteneğini değerlendirmede kullanılır
Liderlik tablosu örnekleri, 1 Ocak 2021 itibarıyla olan kayıtları içerir
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- *, olası test seti örtüşmesini gösterir
- Zero-shot, The Pile’ın tüm bileşenlerinin eğitim verisine dahil edilmediği anlamına gelir

1 yorum

GN⁺ 2024-03-09

Hacker News yorumları

2020’de The Pile’a Books3’ün dahil edilmesinden endişe duyulduğunda, Eleuther’in başındaki Stella Biderman şöyle yanıtlamıştı:
Veriler arasında 1) dünyada var olan ve çevrimiçi yayımlanmış ham materyal, 2) bu ham materyalin dil modelleme için temizlenip işlenmiş küme bazlı verileri, 3) küme bazlı verileri ağırlıklarıyla birlikte büyük ölçekte birleştiren The Pile olduğunu söylemişti
Eleuther’in 2 ve 3’ü oluşturup yayımladığını; 2’nin insanların yeniden ağırlıklandırıp yeniden birleştirebilmesi için bırakıldığını, çoğu kişinin ise 3’ü olduğu gibi indireceğini açıklamıştı
Ayrıca 2 ve 3’ün telif hakkıyla korunan veri içerse bile ABD ölçütlerine göre adil kullanım olduğu için telif hakkı ihlali olmadığını; Maroon 5’i bir web sitesinden indirip 2’ye karşılık gelen bir veri kümesi oluşturmanın duruma göre ihlal olabileceğini, ancak kendi kullanımlarının ihlal olmadığını düşündüğünü söylemişti
- “2 ve 3 adil kullanım olduğu için telif hakkı ihlali değildir” ifadesinin doğru olup olmadığını dava edilip tartışılmadan bilmek mümkün değil
  Adil kullanım, kişinin tek başına ilan etmesiyle oluşan bir şey değil; The Office’teki Michael Scott’ın “iflasımı ilan ediyorum!” diye bağırmasına benziyor
  Mahkeme 1) kullanımın amacı ve niteliği, 2) telifli eserin niteliği, 3) kullanılan kısmın miktarı ve özsel önemi, 4) potansiyel pazar ya da değer üzerindeki etkisini değerlendirerek karar verir; OpenAI’ın New York Times ile çekişmesinin nedeni de tam olarak bu
  Genel çerçeveyi https://copyright.columbia.edu/basics/fair-use.html oldukça iyi özetliyor
- 2 numaralı kümede, telif hakkı sahibinin dağıtımına izin vermediği eksiksiz eserler, örneğin bir kitabın tamamı varsa, bu sözün nasıl doğru olabileceğini anlamıyorum
  “Dil modelleme için işleme” tamamen geri döndürülemez bir süreç anlamına geliyorsa başka
- Telif hakkı meselesinin doğru yanıtını bilmiyorum; ama 2024’te modele giren insan emeği konusunda “veri dünyada var”, “veri kümesi olarak toplandı” gibi edilgen ifadelerden daha iyi bir tutumumuz olmasını isterdim
- Eserleri yazarın izni olmadan dağıtıyor, yazarla rekabet edecek biçimde kullanıyor, birçok yapay zeka para kazanıyor ve bazıları orijinal metni aynen yeniden üretiyor
  Bu tür veri kümeleri telif hukukundaki 4 faktörlü testin çoğundan kalıyor gibi görünüyor; LLM’leri kendisine anlattığım uzman olmayan kişiler de yapay zeka şirketlerinin başkalarının işini çaldığı sonucuna vardı
  İlgili hukuki meseleleri, The Pile dahil çeşitli veri kümelerini, yasal alternatifleri ve dengeli telif hakkı reform önerisini toparlayan bir yazı var: http://gethisword.com/tech/exploringai/
  Şu anda en azından bir ülkede bile hemen üç kurala ihtiyaç olduğunu düşünüyorum: yasal erişim hakkı bulunan eserler yapay zeka eğitiminde kullanılabilmeli; eğitim kısıtlamaları, ek ücretlendirme ve indirme kısıtlamaları yasa dışı olmalı; kişisel kullanım amaçlı eğitim için erişilebilir eserler kopyalanıp dönüştürülebilmeli; ücretsiz yayımlanan web eserleri ise koşullarından bağımsız olarak yapay zeka eğitimi için kopyalanabilmeli, paylaşılabilmeli, işlenebilmeli ve bir araya getirilebilmeli
  Yapay zeka çıktılarının telif hakkı, mevcut yapay zeka ve karma eser hukukuna tabi olmalı; çıktı telif hakkına konuysa, kullanıcının mevcut bir esere dayanarak doğrudan yayımladığı eserle aynı statüde sayılmalı ve bunun değerlendirilebilmesi için eğitim setleri de açıklanmalı
- Libgen’i kazıyıp telifli içerikleri indirerek yeniden dağıtmanın yasa dışı olmadığını mı söylüyorlar?
  Şüpheliyim. İnternette bir yerden indirilen bir filmi torrent’te seed etmek “adil kullanım” değildir; The Pile da yalnızca veriyi dönüştüren kod değil, yeniden dağıtılmış verinin kendisi
  Bu mantığa göre bir Libgen aynasını yasal olarak işletmek mümkün olurdu
Bu veri kümesinde dağıtılan içeriklerin lisans metinlerinin yeniden sunumu ile kredi ve eser sahibi atıfları nerede görülebilir?
Hepsi dahil mi? Dahil edilen tüm öğelerin uyumlu durumda olup olmadığı bilinebiliyor mu?
Telifli verilerle beslenmiş bir modelle yapılan üreticinin çıktılarda telif yükümlülüklerinden kaçınabileceği tartışmasına açığım; ama veri kümesinin kendisi doğal olarak içindeki içeriğin telif haklarına bağlı değil mi?
- Bu veri kümesinde, korsan e-kitaplara özel torrent tracker’ı Bibliotik’in neredeyse tam dökümü olan Books3 var
  Duvarı ünlü yazar ya da yayınevi adlarıyla doldurup dart atsanız, isabet eden tarafın bu verinin bir kısmı üzerinde hak sahibi olma ihtimali yüksek
  “Yapay zeka araştırması için” demek sanki her şeyi yapmaya yetiyor. .ai alan adınız varsa Blu-ray rip’i yüklemek de sorun değilmiş gibi
- Kendi oyuncağını yapmanın, başkalarının kendi emek ürünleri üzerindeki haklarından daha önemli olduğunu düşündükleri için çalmışlar
İnsanların telifli eserleri internette paylaşıp yeniden yayımladığına inanamıyorum. Şok edici
Her neyse, RedPajama 30T ve The Pile “all you need” mi? ;)
- Daha sonra belirli doğal dil işleme görevlerini ele almak için yapılacak ön eğitim açısından yeterli
  İlginç sonuçlar almak için buradan yönerge veri kümeleri üretmek gerekir ve bunların çeşitli görevleri kapsaması gerekir
  LLM’de bilgi ve akıl yürütmeyi ortaya çıkaran şey tamamlanmış metnin kendisi değil, büyük ve çeşitli yönerge veri kümeleridir
- Telif hakkı tartışması çok fazla olduğu için, yalnızca izin verici lisanslı veriler içeren The Pile v2 oluşturmayı amaçlayan bir proje yürütülüyor
The Pile makalesinde geçen Books3, yazarların dava açtığı o veri kümesi mi? Popüler ve telifli materyallerin büyük miktarda bulunduğu şey?
- Evet. Bağlantısı verilen makaleye göre Books3, Shawn Presser’ın yayımladığı Bibliotik adlı özel tracker içeriğinin bir kopyasından türetilmiş bir kitap veri kümesi.
  Bibliotik, roman ve kurgu dışı kitapların bir karışımından oluşuyor; bir sonraki en büyük kitap veri kümesi olan BookCorpus2’den neredeyse bir basamak daha büyük. Kitapların uzun bağlam modelleme araştırmaları ve tutarlı hikâye anlatımı için değerli olması nedeniyle dahil edildiği belirtiliyor.
- Çeşitli hukuki süreçleri incelemeye başlamak için bu liste fena görünmüyor. Silverman ve diğerleri vakasına kadar ne kadar sık güncellendiğini bilmiyorum.
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- Öyle görünüyor. Bkz. https://www.wired.com/story/battle-over-books3/
- Verilerinin telif hakkına tabi kaynaklardan gelmediğini ya da telif hakkı kapsamında olmadığını mı iddia ediyorlar?
İlginin büyük kısmı Books3’e yönelse de, bu veri kümesinin bir diğer büyük bileşeni adı biraz yanıltıcı olan OpenWebText2.
Bu, çok oy alan Reddit gönderilerinde bağlantısı verilen üçüncü taraf web sitelerinin 15 yıllık içeriğinin kazınmış hâli; benim yazılarımın bir kısmı da içinde.
- Alaka ve etkiyi bir kenara bırakırsak, erişim kısıtlaması olmayan bir siteye internette herkese açık biçimde koyup sonra o içerik üzerinde manevi hak iddia etmek bana ikna edici gelmiyor.
  Bu, radyoda yayın yapmak ya da rastgele milyonlarca kişinin kapısına basılı materyal dağıtmak gibi.
  Fikri mülkiyet sahipliğini tesis etmenin ve veriyi telif hakkıyla korumanın yolları var, ancak Tumblr fan fiction’ları, YouTube yorumları ve HN tartışmaları resmî telif hakkı güvence altına alma yolları değil.
  Yasal olarak kazınabilen bir web sitesine koyulan şey adil kullanım kapsamına girebilir.
  Herkese açık web sitelerinden toplanan verilerle kişisel olarak istediğinizi yapabilirsiniz; kazınmış bir veri kümesiyle harika bir HN LLM’i oluşturup kişisel olarak kullanabilirsiniz.
  Son içtihatlar dikkate alındığında, telif haklarına saygı göstermek ve özgün metnin yeniden üretilmesini engellemek için iyi niyetli çaba gösterildiği sürece, dünyanın dört bir yanındaki telifli eserlerle eğitilmiş bir modeli bile API olarak sunmak ve ticari olarak kullanmak mümkün olabilir.
  Ancak modelin kendisini satmak veya dağıtmak başka bir hukuki alana girer.
  İnternet zaten böyle çalışmak üzere tasarlanmıştı; erişimi engellemek istiyorsanız kimlik doğrulama, ağ yapılandırması ve erişim kontrolü uygulamanız gerekir.
  Böyle mekanizmalar olmadan herkese açık bir siteye koyduysanız, geniş kapsamlı adil kullanım karşısında korunma iddianızın önemli bir bölümünden vazgeçmiş sayılmalısınız; sunucu ve alan adı edindiğiniz anda da tüm dünyayı örtük olarak indirmeye davet etmiş olursunuz.
  OpenWebText2’de kötüye kullanıldığını düşündüğünüz şey de temelde herkese açık bir web sitesine koyup sonraki kullanım üzerindeki kontrolü kaybetmenizden kaynaklanıyor; üstelik adil biçimde kazınmış.
- Alan adını söylerseniz büyük LLM’lerde intihal olup olmadığını kontrol ederim.
  Muhtemelen hiçbir model sizin yazınızdan tek bir cümle bile üretemeyecektir.
Hâlâ bir yerden indirilebiliyor mu? Birkaç ay önce indirmeye çalışmıştım ama indirme bağlantısı 404 veriyordu; şimdi de öyle görünüyor.
- Dağıtımın çoğu torrent·magnet bağlantıları ve doğrudan sabit disk takasıyla yapılıyor.
  Elinde olan birini tanımıyorsanız herkese açık tracker’lara bakabilirsiniz.
  Ancak telifli içerik barındırdığı için dağıtımın korsanlığa girdiğini bilmelisiniz.
- Buraya magnet bağlantısı koymak uygun olur mu bilmiyorum.
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile eski bir haber; the-stack-v2 gibi daha güncel veri kümelerine bakılması yönünde bir not var.
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile’da çok sayıda seçilmiş kaynak var; son eğilim ise seçilmiş veri kaynaklarını filtrelenmiş web crawl ile birleştirmek yönünde.
  Örneğin Common Crawl’ı yoğun biçimde işleyip karıştırmak; başkalarının bahsettiği dolma ya da kod modelleri için the-stack-v2 buna örnek.
İsmi havalı. Manhattan Project’in ilk “Pile”ını hatırlatıyor.
“The Making of the Atomic Bomb”da (1986) okumuştum; muhtemelen son filmde de yer almıştır.
- Aslında neredeyse hiç yer almıyor. Hatırladığım kadarıyla yalnızca çok kısa bahsedilen bir sahne vardı.
  Film, sonda kaba saba bir mesaj oluşturmak için anekdotları birbirine dizmiş gibiydi.
  Gerçek bir yeniden canlandırmadan çok kurgusal bir hikâye olarak bakınca fena bir film değildi ama kitabı okumak daha iyi olur.
  Özellikle Fermi ile ilgileniyorsanız David Schwartz’ın “The Last Man Who Knew Everything” kitabını öneririm.
The Pile oldukça eski; bu güncellenmiş bir sürüm mü?
- Hayır
  Bununla ilgili olarak the-stack veri kümesinin v2 sürümü kısa süre önce yayımlandı.
  Software Heritage 2023-09-06 grafik veri kümesi taranarak 104,2 milyon GitHub deposuna ait 3,28 milyar benzersiz dosya toplandı; ayrıca 2023-09-14’e kadarki GitHub Archive verilerinden depo düzeyinde ek metaveri toplandığı söyleniyor.
  Toplam sıkıştırılmamış boyut 67,53 TB; ön işleme hattında tam tekilleştirmenin üzerine yaklaşık tekilleştirme de uygulandı.
  Tekilleştirme sonrası boyut ve token sayısına göre v1 2,9 TB·200B, v2 ise 32,1 TB·900B.
  Yakında oldukça güçlü açık kodlama modelleri çıkacak gibi görünüyor; denemek istediğim modeller dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF ve starcoder2-15b-instruct-iMat.GGUF.
  Veri kümesi: https://huggingface.co/datasets/bigcode/the-stack-v2
  GGUF kuantizasyonları: https://huggingface.co/dranger003
Büyük Hollywood stüdyoları, korsan içerikleri bulup barındırma şirketlerine telif hakkı ihlali nedeniyle yayından kaldırma bildirimleri göndermeleri için çeşitli siber güvenlik şirketlerine büyük paralar ödüyor.
Yazarlar ve sanatçılar bir veri koalisyonu gibi bir biçimde bir araya gelirse stüdyoların yaptığı şeyin aynısını yapabilirler.
Telif hukukunun gerçek bir yaptırım gücü varsa, böyle bir örgüt içeriği barındıran yerlere yasal talepler gönderip kaldırılmasını isteyebilir.

The Pile: 825 GiB ölçeğinde açık kaynak dil modelleme veri kümesi (2020)

The Pile’ın bileşimi ve dağıtımı

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Eğitim seti ve benchmark olarak rolü

İlgili okumalar

1 yorum

Hacker News yorumları