Microsoft, küçük ama güçlü 2.7B Phi-2 dil modelini tanıttı

xguru · 2023-12-15T09:21:19+09:00

SLM: Küçük Dil Modeli 2.7B bir model olmasına rağmen, kendisinden en fazla 25 kat daha büyük modellerle aynı ya da daha iyi performans gösteriyor Mistral 7B ve Llama-7B/13B performansını aşıyor Kodlama ve matematik gibi çok adımlı akıl yürütmede, 25 kat daha büyük Llama-2-70B modelinden bile daha iyi Google Gemini Nano 2'den daha küçük olmasına rağmen, aynı ya da daha iyi performans sunuyor GPT-4 ve Llama-2 gibi modellere kıyasla daha az hesaplama gücüyle metin üretimi, görsel açıklama gibi benzer görevleri yerine getirebiliyor Küçük boyutu sayesinde, mekanik yorumlanabilirlik, güvenlik iyileştirmeleri veya çeşitli görevlere yönelik ince ayar deneyleri dahil olmak üzere araştırmacılar için ideal bir oyun alanı

(microsoft.com)

17 puan yazan xguru 2023-12-15 | 2 yorum | WhatsApp'ta paylaş

SLM: Küçük Dil Modeli
2.7B bir model olmasına rağmen, kendisinden en fazla 25 kat daha büyük modellerle aynı ya da daha iyi performans gösteriyor
- Mistral 7B ve Llama-7B/13B performansını aşıyor
- Kodlama ve matematik gibi çok adımlı akıl yürütmede, 25 kat daha büyük Llama-2-70B modelinden bile daha iyi
- Google Gemini Nano 2'den daha küçük olmasına rağmen, aynı ya da daha iyi performans sunuyor
GPT-4 ve Llama-2 gibi modellere kıyasla daha az hesaplama gücüyle metin üretimi, görsel açıklama gibi benzer görevleri yerine getirebiliyor
Küçük boyutu sayesinde, mekanik yorumlanabilirlik, güvenlik iyileştirmeleri veya çeşitli görevlere yönelik ince ayar deneyleri dahil olmak üzere araştırmacılar için ideal bir oyun alanı

2 yorum

xguru 2023-12-15

Weights burada: https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Hacker News görüşleri

GPT-3 ve Phi-2'nin parametre sayısı karşılaştırması
- GPT-3'ün 174 milyar parametresi var.
- Phi-2'nin 2,7 milyar parametresi var; bu da onu GPT-3'ten yaklaşık 65 kat daha küçük yapıyor.
Eğitim verisi miktarı karşılaştırması
- GPT-3, 300 milyar token ile eğitildi.
- Phi-2, 1,4 trilyon token ile eğitildi; yani GPT-3'ten yaklaşık 5 kat daha fazla veriyle eğitildi.
İnsan dil edinimi ve yapay zeka
- Bir insan bebeğinin dili öğrenmesi için yaklaşık 30 milyon "token eşdeğeri" öğrenme verisi gerekiyor.
- Bu, insanın biyolojik yapısının dil edinimine özelleştiğini ve olası insan dilleri için hipotez uzayını daraltan güçlü "rehberler" ya da kısıtlar içerdiğini düşündürüyor.
- Dil modellerinin daha az veriyle öğrenebilmesini sağlayacak benzer bir yapının bulunup bulunamayacağı merak ediliyor.
Phi-2'nin ağırlıklarının yayımlanma durumu
- Phi-2'nin ağırlıkları yayımlandı, ancak indirmek için Azure Studio'ya giriş yapmak gerekiyor.
- Azure AI Studio'da Phi-2 sayfasını bulup "artifacts" sekmesine tıklayarak indirilebiliyor.
Phi-2 eğitim maliyeti
- Phi-2, 96 adet A100 GPU üzerinde 14 gün boyunca eğitildi.
- Bu, eğitim maliyetinin yaklaşık 30 bin USD olduğu anlamına geliyor.
- LLM (Large Language Model) eğitim maliyeti bir araba satın alma maliyetinden daha ucuz hale gelirse, bu yapay zekanın demokratikleşmesine büyük katkı sağlayabilir.
Phi-2'nin araştırma amaçlı kısıtı
- "Yalnızca araştırma amaçlı kullanım" kısıtı olmasına rağmen, Phi-2'nin performansı farklı cihazlarda yerel kullanım olasılığını artırıyor.
- Performansının çok iyi olduğu söyleniyor; bu yüzden geleceğin parlak ve/veya korkutucu olduğu yönünde görüşler var.
Küçük model rekabeti
- Son dönemde küçük model alanında ciddi bir rekabet var.
- Bu küçük modellerin temel hedefi, telefonlara/dizüstü bilgisayarlara yerel olarak dağıtılıp yeni bir uygulama/kullanıcı arayüzü neslini tetiklemek olabilir.
Phi-2 ve Mistral 7B performans karşılaştırması
- 2,7 milyarlık Phi-2'nin, 7 milyarlık Mistral 7B'den daha iyi performans göstermesi etkileyici.
Web sitesine erişim sorunu
- Web sitesine erişilemiyor, ancak önbelleğe alınmış sürüm üzerinden bakılabiliyor.
Phi-2'nin dağıtım biçimi
- Phi-1.5 huggingface üzerinde yayımlanmıştı, ancak Phi-2 yalnızca Azure AI Studio'ya eklenmiş; bu da geliştiricileri kayıt olmaya yönlendiriyor.
- Microsoft'un neden ML dünyasının GitHub'ı gibi olan huggingface'te yer almadığı sorgulanıyor.
Phi-2 modelinin indirilebilir olup olmadığı
- Phi-2 modelinin yerel olarak indirilebilip indirilemeyeceği ya da yalnızca Azure üzerinde kullanılıp kullanılamayacağı soruluyor.

Microsoft, küçük ama güçlü 2.7B Phi-2 dil modelini tanıttı

İlgili okumalar

2 yorum

Hacker News görüşleri