1 puan yazan GN⁺ 2024-07-02 | 1 yorum | WhatsApp'ta paylaş

TL;DR

  • Temel özet: Fine-tune edilmiş model, OpenAI modelinden daha yüksek doğruluk gösterdi; ancak değerlendirme uygulaması zordu.
  • Ana noktalar: Fine-tuning sürecinde çok fazla kod gizliydi ve çalışma hızı yavaştı. Bir sistem olmadan bakım karmaşıklığı artar.

Veri kümesini yükleme

  • Veri kümesi: Test veri kümesi, Hugging Face Hub üzerindeki herkese açık bir depodan kullanıldı.
  • Veri kümesi yapısı: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' vb.

Tahmin ekleme

  • Tahmin ekleme: Her veri kümesi satırına tahmin sonucu eklendi; hesaplama açısından yoğun adımlardan kaçınmak için bu işlem yinelemeli olarak yapıldı.
  • Pydantic nesnelerinin kullanımı: Veri doğrulama ve kalite kontrol işlevlerini ele almak için veriler Pydantic nesneleriyle yapılandırıldı.

JSON geçerlilik testi

  • Tahmin sonuçları: Modelin JSON dizgesi üretmesi sağlandı.
  • GPT modellerinin kullanımı: Tahmin için GPT-4o ve GPT-4 Turbo modelleri kullanıldı.
  • Sorunlar: GPT modelleri aynı prompt ile eğitilmediği için doğru karşılaştırma yapmak zordu.

Asenkron tahmin

  • Asenkron işleme: Çok sayıda olayı işlemek için tahminler asenkron şekilde yürütüldü.
  • Yeniden deneme mantığı: GPT-3.5-turbo modelinin hız sınırları dikkate alınarak yeniden deneme mantığı eklendi.

Veri kümesini dönüştürme ve push etme

  • Veri kümesi dönüşümü: Tahmin sonuçları veri kümesine eklendi ve Hugging Face Hub'a push edildi.
  • Fonksiyon kullanımı: Dönüştürme ve push sürecini tekrar tekrar yürütmek için fonksiyonlar kullanıldı.

Fine-tune edilmiş model tahminleri ekleme

  • Yerel model: Yerelde eğitilmiş modelin tahmin sonuçları veri kümesine eklendi.
  • OpenAI modeli: OpenAI'ın tek tıklamalı fine-tuning hizmetiyle eğitilen modelin tahmin sonuçları eklendi.
  • Çeşitli modeller: Mistral, Llama3, Solar LLM gibi farklı modellerin tahmin sonuçları eklendi.

Nihai değerlendirme

  • Değerlendirme metrikleri: JSON geçerlilik testi, başlangıç tarihi doğruluğu, haftaya göre doğruluk, hedef grup doğruluğu, olay türü doğruluğu gibi çeşitli metrikler kullanıldı.
  • Nihai sonuç: Fine-tune edilmiş model, OpenAI modelinden daha yüksek doğruluk gösterdi.

GN⁺ görüşü

  1. Fine-tuning'in önemi: Fine-tune edilmiş modelin OpenAI'ın temel modelinden daha yüksek doğruluk göstermesi, belirli görevlere uyarlanmış modellerin önemini vurguluyor.
  2. Değerlendirmenin karmaşıklığı: Değerlendirme uygulamasının zor olması, sistematik bir yaklaşıma duyulan ihtiyacı hissettiriyor.
  3. Çeşitli modellerin kullanımı: Karşılaştırmalı değerlendirme için farklı modellerin kullanılması ilgi çekici. Bu sayede modellerin güçlü ve zayıf yönleri daha net görülebiliyor.
  4. Açık kaynak kullanımı: Veri kümelerini yönetmek ve paylaşmak için Hugging Face Hub gibi açık kaynak platformlarının kullanılması faydalı.
  5. Asenkron işlemenin gerekliliği: Çok miktarda veri işlenirken asenkron yaklaşımın verimli olduğunu gösteriyor.

1 yorum

 
GN⁺ 2024-07-02
Hacker News görüşleri
  • OpenPipe kurucusu: veri çıkarımı, ince ayar yapılmış modellerin öne çıktığı bir alan. OpenPipe’ın araştırmasına göre Llama 3 8B modeli birçok görevde GPT-4’ü geride bıraktı. Asıl önemli nokta, yüksek kaliteli eğitim verisinin nasıl üretileceği
  • Küçük uzmanlaşmış modeller, bilgi çıkarımı ve metin sınıflandırmada daha iyi performans gösteriyor. Küçük modellerin performansını da kapsayan araştırmalar görmek isterim
  • Belirlenmemiş sistemlerin denklemleri sonsuz sayıda çözüme sahiptir. Açık kaynak yapay zeka modelleri kullanarak SOTA benchmark’ları aşmak mümkün. Mevcut teknolojiyle akıllı sistemler kurmak mümkün değil; yeni bir atılım gerekli
  • Veri çıkarımı ve yapılandırma, gerçek işlerde faydalı olan LLM’lerin tek ciddi uygulaması. Küçük modeller daha hızlı ve daha ucuz, ayrıca çevrimdışı işler için uygun. Daha fazla deney ve daha hedefli ince ayar yapılabilir
  • İnce ayarlı modellerin amacı tam olarak bu. Barındırılan ve yerel seçenekleri birleştiren bir ince ayar sürecini görmek güzel olurdu
  • GPT-4’ün hatalı olduğu örneklerle en iyi modelin doğru olduğu örnekleri görmek isterim. 0 temperature ile yeniden denemek de iyi olabilir. 0 temperature, yapılandırılmış veri çıkarımında büyük fark yaratabiliyor
  • Benzer bir konu üzerine bir makale yazdım: makale bağlantısı
  • Predibase’te 700’den fazla ince ayar deneyi yapıp GPT-4 ile karşılaştırdılar. Vakaların %85’inde GPT-4’ü geçtiler. Sonuçlara buradan ulaşabilirsiniz
  • Tüm modelleri mümkün olduğunca açık kaynak yapmak gerekir. Özgürlük ve kalite açısından açık kaynak genellikle daha iyidir
  • Hedef haber makalesindeki tartışmalı içerik, ChatGPT’nin özetleme yeteneğini etkiliyor olabilir