TL;DR
- Temel özet: Fine-tune edilmiş model, OpenAI modelinden daha yüksek doğruluk gösterdi; ancak değerlendirme uygulaması zordu.
- Ana noktalar: Fine-tuning sürecinde çok fazla kod gizliydi ve çalışma hızı yavaştı. Bir sistem olmadan bakım karmaşıklığı artar.
Veri kümesini yükleme
- Veri kümesi: Test veri kümesi, Hugging Face Hub üzerindeki herkese açık bir depodan kullanıldı.
- Veri kümesi yapısı: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' vb.
Tahmin ekleme
- Tahmin ekleme: Her veri kümesi satırına tahmin sonucu eklendi; hesaplama açısından yoğun adımlardan kaçınmak için bu işlem yinelemeli olarak yapıldı.
- Pydantic nesnelerinin kullanımı: Veri doğrulama ve kalite kontrol işlevlerini ele almak için veriler Pydantic nesneleriyle yapılandırıldı.
JSON geçerlilik testi
- Tahmin sonuçları: Modelin JSON dizgesi üretmesi sağlandı.
- GPT modellerinin kullanımı: Tahmin için GPT-4o ve GPT-4 Turbo modelleri kullanıldı.
- Sorunlar: GPT modelleri aynı prompt ile eğitilmediği için doğru karşılaştırma yapmak zordu.
Asenkron tahmin
- Asenkron işleme: Çok sayıda olayı işlemek için tahminler asenkron şekilde yürütüldü.
- Yeniden deneme mantığı: GPT-3.5-turbo modelinin hız sınırları dikkate alınarak yeniden deneme mantığı eklendi.
Veri kümesini dönüştürme ve push etme
- Veri kümesi dönüşümü: Tahmin sonuçları veri kümesine eklendi ve Hugging Face Hub'a push edildi.
- Fonksiyon kullanımı: Dönüştürme ve push sürecini tekrar tekrar yürütmek için fonksiyonlar kullanıldı.
Fine-tune edilmiş model tahminleri ekleme
- Yerel model: Yerelde eğitilmiş modelin tahmin sonuçları veri kümesine eklendi.
- OpenAI modeli: OpenAI'ın tek tıklamalı fine-tuning hizmetiyle eğitilen modelin tahmin sonuçları eklendi.
- Çeşitli modeller: Mistral, Llama3, Solar LLM gibi farklı modellerin tahmin sonuçları eklendi.
Nihai değerlendirme
- Değerlendirme metrikleri: JSON geçerlilik testi, başlangıç tarihi doğruluğu, haftaya göre doğruluk, hedef grup doğruluğu, olay türü doğruluğu gibi çeşitli metrikler kullanıldı.
- Nihai sonuç: Fine-tune edilmiş model, OpenAI modelinden daha yüksek doğruluk gösterdi.
GN⁺ görüşü
- Fine-tuning'in önemi: Fine-tune edilmiş modelin OpenAI'ın temel modelinden daha yüksek doğruluk göstermesi, belirli görevlere uyarlanmış modellerin önemini vurguluyor.
- Değerlendirmenin karmaşıklığı: Değerlendirme uygulamasının zor olması, sistematik bir yaklaşıma duyulan ihtiyacı hissettiriyor.
- Çeşitli modellerin kullanımı: Karşılaştırmalı değerlendirme için farklı modellerin kullanılması ilgi çekici. Bu sayede modellerin güçlü ve zayıf yönleri daha net görülebiliyor.
- Açık kaynak kullanımı: Veri kümelerini yönetmek ve paylaşmak için Hugging Face Hub gibi açık kaynak platformlarının kullanılması faydalı.
- Asenkron işlemenin gerekliliği: Çok miktarda veri işlenirken asenkron yaklaşımın verimli olduğunu gösteriyor.
1 yorum
Hacker News görüşleri