2 puan yazan GN⁺ 2024-08-20 | Henüz yorum yok. | WhatsApp'ta paylaş
  • SafeDocs’un tamamı, LLM’ler, embedding modelleri, XGBoost ve Linear Regressors kullanılarak sınıflandırıldı.
  • Sınıflandırma sürecinde çeşitli deneyler ve performans karşılaştırmaları yapıldı, ayrıca birden fazla modelin performansı değerlendirildi.

Giriş

  • Common Crawl (CC), interneti arşivleyen bir web arşivi olup bilim insanları ve araştırmacılar için interneti korumaya odaklanır.
  • CC, PDF dosyalarını tamamen saklamak yerine yalnızca ilk 1MB’ını saklar; SafeDocs ise bu CC içindeki PDF dosyalarını yeniden indirerek orijinal PDF’leri korur.
  • SafeDocs veri kümesi yaklaşık 8,4 milyon PDF dosyasından oluşur ve açıldığında 8TB’a ulaşır.
  • Bu PDF’leri sınıflandırma girişiminde bulunuldu.

Veri kümesi oluşturma

  • PDF dosyalarını çeşitli etiketlerle sınıflandırma süreci açıklanıyor.
  • FineWeb teknik blogundan ilham alınarak eğitim içeriğinin bir alt kümesi oluşturuldu, LLM kullanılarak etiketler üretildi ve ardından bunları öğrenebilecek küçük modeller eğitildi.
  • 100k etiket üretildi ve dengesiz etiketler düzeltilerek 59k etiketlik bir yapıya yeniden düzenlendi.

Model eğitimi

Fikir 1: Embedding modeli

  • Embedding modeli kullanılarak metin, görsel, video gibi veriler n boyutlu uzaydaki vektörlere dönüştürüldü.
  • Finetuning ile sınıflandırma performansı artırıldı.
  • Birden fazla model test edildi ve sonuçta Alibaba-large-gte-1.5 modeli en iyi performansı göstererek %59,14 doğruluk elde etti.

Fikir 2: XGBoost

  • XGBoost, tablo verilerinde en yüksek performans gösteren modellerden biri olup, çok sayıda basit ikili sınıflandırıcı eğiterek sınıflandırma problemini çözer.
  • Bu yöntemle %83,97 doğruluk elde edildi.

Fikir 3: TFIDF

  • TFIDF, belirli bir kelimenin bir belge içinde ne kadar önemli olduğunu hesaplayan bir yöntemdir; temel NLP teknikleri kullanılarak model eğitildi.
  • %67,52 doğruluk kaydedildi.

Fikir 4: Derin öğrenmeye dönüş

  • Derin öğrenme sınıflandırıcısı kullanılarak en az %70 doğruluk hedeflendi.
  • Daha fazla etiket üretildi ve gte-large modeliyle yapılan deneyler sonucunda %69,22 doğruluk elde edildi.

Deney sonuçları

  • Sonuçta XGBoost embedding modeli en yüksek değer olan %85,26 doğruluğa ulaştı.
  • Çeşitli modellerin performansı karşılaştırıldığında en iyi sonucun XGBoost’tan geldiği görüldü.

Tüm korpusu sınıflandırma

  • Oluşturulan model kullanılarak tüm PDF verisi sınıflandırıldı ve sonuçlar görselleştirildi.
  • Sınıflandırma sonuçları PCA ve UMAP kullanılarak görsel olarak ifade edildi.

Sonuç

  • Derin öğrenme modellerinin performansı beklentilerin altında kalsa da genel olarak anlamlı sonuçlar elde edildi.
  • PDF gibi karmaşık veriler içeren büyük ölçekli veri kümelerinin giderek daha yaygın hale gelmesi bekleniyor.
  • Veri kümesi ve kod paylaşılaraq daha iyi sonuçlar elde etme fırsatı sunuluyor.

GN⁺’ın görüşü

  • Bu proje, büyük ölçekli veri kümelerindeki sınıflandırma problemlerine yönelik farklı yaklaşımların denendiği iyi bir örnek.
  • XGBoost gibi geleneksel makine öğrenmesi tekniklerinin hâlâ çok etkili olabileceğini gösteriyor.
  • Derin öğrenme modellerinin performansını artırmak için daha fazla veri ve GPU kaynağı gerekmiş olabilir.
  • PDF gibi karmaşık verilerin nasıl işleneceğine dair daha fazla araştırma ve deneye ihtiyaç var.
  • Bu proje, araştırma ve geliştirmeyle ilgilenen kişiler için oldukça faydalı bir referans olabilir.

Henüz yorum yok.

Henüz yorum yok.