8 puan yazan GN⁺ 2024-04-24 | 2 yorum | WhatsApp'ta paylaş

phi-3-mini dil modeli tanıtımı

  • phi-3-mini, 3,8B parametreye sahip bir dil modeli ve 3,3 trilyon token ile eğitildi
  • Akademik benchmark'lar ve şirket içi test sonuçlarına göre Mixtral 8x7B, GPT-3.5 gibi modellerle yarışabilecek performans gösteriyor (MMLU %69, MT-bench 8.38 puan)
  • Telefona dağıtılabilecek kadar küçük boyutuna rağmen etkileyici performans sergiliyor
  • phi-2'de kullanılan veri setinin genişletilmiş bir sürümüne dayanıyor; filtrelenmiş web verileri ve sentetik verilerden oluşuyor
  • Sağlamlık, güvenlik ve sohbet biçimi için ek olarak hizalandı

phi-3-small, phi-3-medium modelleri tanıtımı

  • 4,8 trilyon token ile eğitilen 7B ve 14B modeller olan phi-3-small ve phi-3-medium için ilk parametre ölçekleme sonuçları da sunuluyor
  • phi-3-mini'den çok daha yüksek performans gösteriyorlar (MMLU %75, %78, MT-bench 8.7 puan, 8.9 puan)

GN⁺'un görüşü

  • Telefonda kullanılabilecek kadar küçük bir dil modelinin yüksek performans göstermesi etkileyici. Gelecekte mobil cihazlarda yapay zeka kullanımının daha da artması bekleniyor
  • Ancak kişisel verilerin korunması ve gizlilik konusunda endişeler olabilir. İşleme yerel cihazda yapılsa bile kullanıcı verilerinin güvenli biçimde yönetilmesi gerekir
  • Web verileri ve sentetik verilerden yararlanan eğitim yaklaşımı ilgi çekici. Veri toplama ve arıtma için büyük emek gerekmiş olmalı. Yüksek kaliteli verinin iyi performansa dönüştüğünü gösteren bir örnek
  • Model boyutuna göre performans karşılaştırma sonuçları da ilginç. Verimlilik açısından uygun boyutta bir model seçmek önemli görünüyor
  • Stability AI'nin StableLM'i, Anthropic'in Claude'u gibi hafifletilmiş açık kaynak dil modelleri ortaya çıkıyor. Çeşitli kullanım örneklerinin çıkması bekleniyor

2 yorum

 
GN⁺ 2024-04-24
Hacker News görüşü
  • Phi-3 modelinin benchmark sonuçları dikkatle yorumlanmalı. Önceki Phi-2 modelinde, gerçek performansın benchmark rakamlarının altında kaldığı bir emsal vardı. Bu sonuçlar doğrudan gerçek kullanım senaryolarına ya da LMSYS leaderboard sıralamasına yansımayabilir.

  • Buna rağmen Phi-3, küçük model boyutuna rağmen iyi performans gösteriyor. GPT-4 performansını daha küçük bir modele aktarmada, "sentetik veri" üzerinden yapılan distillation yaklaşımının etkili olabileceğine işaret ediyor. Büyük bir modelin en iyi şekilde eğitildikten sonra daha küçük bir modele damıtıldığı Chinchilla yaklaşımının potansiyelini de düşündürüyor.

  • LMSYS İngilizce leaderboard'unda Phi-3 modelleri, Llama 3 ve GPT-3.5 gibi modellerle yarışabilecek performans gösteriyor. Özellikle Phi-3-mini 3.8B, 3.8B parametreyle Llama 3 8B'ye kafa tutuyor. Bu da telefonda çalışabilen, GPT-4 seviyesinde açık kaynak bir LLM'in ortaya çıkabileceğine işaret ediyor.

  • Ancak bu tür benchmark'ların modeller tarafından gaming edilmesi kolay olan sınırlamaları var. Tek tek task'lerden ziyade genel performansa odaklanmak gerekiyor. Farklı açılardan dikkatli bir değerlendirme şart gibi görünüyor.

  • Phi-3 modellerinin bir kısmı HuggingFace'te yayımlandı. Bu da modellerin kullanımını daha kolay hale getirecek gibi görünüyor.

  • 3,3 trilyon token'lık devasa sentetik veri eğitimi, modelin hafiflemesine katkı sağlıyor. Telif hakkı sorunlarını hafifletmeye de yardımcı olabilir.

  • Ancak gerçek kullanımda, eğitim verisinin dışındaki alanlarda oldukça fazla saçmalıyor. Dar görevlerde yapılan finetuning için etkili olabilir ama genel sohbetlerde GPT-3.5'in yerini alması zor görünüyor.

  • Model ağırlıkları 4k ve 128k context sürümleriyle HuggingFace'te yayımlandı. finetuning ya da RAG (Retrieval-Augmented Generation) kullanım olasılıklarına yönelik ilgi artıyor.