- SafeDocs’un tamamı, LLM’ler, embedding modelleri, XGBoost ve Linear Regressors kullanılarak sınıflandırıldı.
- Sınıflandırma sürecinde çeşitli deneyler ve performans karşılaştırmaları yapıldı, ayrıca birden fazla modelin performansı değerlendirildi.
Giriş
- Common Crawl (CC), interneti arşivleyen bir web arşivi olup bilim insanları ve araştırmacılar için interneti korumaya odaklanır.
- CC, PDF dosyalarını tamamen saklamak yerine yalnızca ilk 1MB’ını saklar; SafeDocs ise bu CC içindeki PDF dosyalarını yeniden indirerek orijinal PDF’leri korur.
- SafeDocs veri kümesi yaklaşık 8,4 milyon PDF dosyasından oluşur ve açıldığında 8TB’a ulaşır.
- Bu PDF’leri sınıflandırma girişiminde bulunuldu.
Veri kümesi oluşturma
- PDF dosyalarını çeşitli etiketlerle sınıflandırma süreci açıklanıyor.
- FineWeb teknik blogundan ilham alınarak eğitim içeriğinin bir alt kümesi oluşturuldu, LLM kullanılarak etiketler üretildi ve ardından bunları öğrenebilecek küçük modeller eğitildi.
- 100k etiket üretildi ve dengesiz etiketler düzeltilerek 59k etiketlik bir yapıya yeniden düzenlendi.
Model eğitimi
Fikir 1: Embedding modeli
- Embedding modeli kullanılarak metin, görsel, video gibi veriler n boyutlu uzaydaki vektörlere dönüştürüldü.
- Finetuning ile sınıflandırma performansı artırıldı.
- Birden fazla model test edildi ve sonuçta
Alibaba-large-gte-1.5 modeli en iyi performansı göstererek %59,14 doğruluk elde etti.
Fikir 2: XGBoost
- XGBoost, tablo verilerinde en yüksek performans gösteren modellerden biri olup, çok sayıda basit ikili sınıflandırıcı eğiterek sınıflandırma problemini çözer.
- Bu yöntemle %83,97 doğruluk elde edildi.
Fikir 3: TFIDF
- TFIDF, belirli bir kelimenin bir belge içinde ne kadar önemli olduğunu hesaplayan bir yöntemdir; temel NLP teknikleri kullanılarak model eğitildi.
- %67,52 doğruluk kaydedildi.
Fikir 4: Derin öğrenmeye dönüş
- Derin öğrenme sınıflandırıcısı kullanılarak en az %70 doğruluk hedeflendi.
- Daha fazla etiket üretildi ve
gte-large modeliyle yapılan deneyler sonucunda %69,22 doğruluk elde edildi.
Deney sonuçları
- Sonuçta XGBoost embedding modeli en yüksek değer olan %85,26 doğruluğa ulaştı.
- Çeşitli modellerin performansı karşılaştırıldığında en iyi sonucun XGBoost’tan geldiği görüldü.
Tüm korpusu sınıflandırma
- Oluşturulan model kullanılarak tüm PDF verisi sınıflandırıldı ve sonuçlar görselleştirildi.
- Sınıflandırma sonuçları PCA ve UMAP kullanılarak görsel olarak ifade edildi.
Sonuç
- Derin öğrenme modellerinin performansı beklentilerin altında kalsa da genel olarak anlamlı sonuçlar elde edildi.
- PDF gibi karmaşık veriler içeren büyük ölçekli veri kümelerinin giderek daha yaygın hale gelmesi bekleniyor.
- Veri kümesi ve kod paylaşılaraq daha iyi sonuçlar elde etme fırsatı sunuluyor.
GN⁺’ın görüşü
- Bu proje, büyük ölçekli veri kümelerindeki sınıflandırma problemlerine yönelik farklı yaklaşımların denendiği iyi bir örnek.
- XGBoost gibi geleneksel makine öğrenmesi tekniklerinin hâlâ çok etkili olabileceğini gösteriyor.
- Derin öğrenme modellerinin performansını artırmak için daha fazla veri ve GPU kaynağı gerekmiş olabilir.
- PDF gibi karmaşık verilerin nasıl işleneceğine dair daha fazla araştırma ve deneye ihtiyaç var.
- Bu proje, araştırma ve geliştirmeyle ilgilenen kişiler için oldukça faydalı bir referans olabilir.
Henüz yorum yok.