13 puan yazan xguru 2021-10-28 | 1 yorum | WhatsApp'ta paylaş
  • Araştırmacı Carl Malamud, ücretli makaleler de dahil 107.233.728 dergiden SpaCy ile çıkarılan n-gram indeksini yayımladı

  • Tam metin yerine yalnızca 1 kelimeden en fazla 5 kelime uzunluğa kadar ifade parçacıkları içeren bir indeks olduğu için telif kısıtlamalarını aşıyor

  • Farklı araştırma alanlarında kullanılabilmesi için web arşivinde ücretsiz olarak yayımlandı

→ Ör.) belirli bir kimyasal maddenin makalelerde kaç kez kullanıldığı

  • 3 tablodan oluşuyor

→ 350 milyar n-gram ve dergi id'si

→ 19,7 milyar anahtar kelime ve dergi id'si

→ dergi id'si ve meta veriler: makale başlığı, yazar, DOI (makaleye özgü tanımlayıcı numara)

  • Katalog, sıkıştırılmış halde 5 TB; açıldığında 38 TB

1 yorum

 
xguru 2021-10-28

Nature’ın tanıtım yazısı

Görünüşe göre telif hakkı sorununu, gerçek tam metinleri değil yalnızca indeksi yayımlayarak kendine özgü bir şekilde aşmışlar.

Nature yazısında da geçtiği gibi, sorun yalnızca indeksi oluşturan Carl’ın orijinal ücretli makaleleri nasıl elde ettiğiyle ilgili; bu indeksin kendisinin araştırmada kullanılması ise sorun teşkil etmiyor gibi görünüyor.

Bunu görünce Aaron Swartz aklıma geldi; sayfanın alt kısmında buna dair bir not da yer alıyor.

Carl Malamud’un Aaron Swartz Memorial’da konuştuğu videoyu da birlikte izleyin.