17 puan yazan xguru 2023-12-15 | 2 yorum | WhatsApp'ta paylaş
  • SLM: Küçük Dil Modeli
  • 2.7B bir model olmasına rağmen, kendisinden en fazla 25 kat daha büyük modellerle aynı ya da daha iyi performans gösteriyor
    • Mistral 7B ve Llama-7B/13B performansını aşıyor
    • Kodlama ve matematik gibi çok adımlı akıl yürütmede, 25 kat daha büyük Llama-2-70B modelinden bile daha iyi
    • Google Gemini Nano 2'den daha küçük olmasına rağmen, aynı ya da daha iyi performans sunuyor
  • GPT-4 ve Llama-2 gibi modellere kıyasla daha az hesaplama gücüyle metin üretimi, görsel açıklama gibi benzer görevleri yerine getirebiliyor
  • Küçük boyutu sayesinde, mekanik yorumlanabilirlik, güvenlik iyileştirmeleri veya çeşitli görevlere yönelik ince ayar deneyleri dahil olmak üzere araştırmacılar için ideal bir oyun alanı

2 yorum

 
xguru 2023-12-15
Hacker News görüşleri
  • GPT-3 ve Phi-2'nin parametre sayısı karşılaştırması
    • GPT-3'ün 174 milyar parametresi var.
    • Phi-2'nin 2,7 milyar parametresi var; bu da onu GPT-3'ten yaklaşık 65 kat daha küçük yapıyor.
  • Eğitim verisi miktarı karşılaştırması
    • GPT-3, 300 milyar token ile eğitildi.
    • Phi-2, 1,4 trilyon token ile eğitildi; yani GPT-3'ten yaklaşık 5 kat daha fazla veriyle eğitildi.
  • İnsan dil edinimi ve yapay zeka
    • Bir insan bebeğinin dili öğrenmesi için yaklaşık 30 milyon "token eşdeğeri" öğrenme verisi gerekiyor.
    • Bu, insanın biyolojik yapısının dil edinimine özelleştiğini ve olası insan dilleri için hipotez uzayını daraltan güçlü "rehberler" ya da kısıtlar içerdiğini düşündürüyor.
    • Dil modellerinin daha az veriyle öğrenebilmesini sağlayacak benzer bir yapının bulunup bulunamayacağı merak ediliyor.
  • Phi-2'nin ağırlıklarının yayımlanma durumu
    • Phi-2'nin ağırlıkları yayımlandı, ancak indirmek için Azure Studio'ya giriş yapmak gerekiyor.
    • Azure AI Studio'da Phi-2 sayfasını bulup "artifacts" sekmesine tıklayarak indirilebiliyor.
  • Phi-2 eğitim maliyeti
    • Phi-2, 96 adet A100 GPU üzerinde 14 gün boyunca eğitildi.
    • Bu, eğitim maliyetinin yaklaşık 30 bin USD olduğu anlamına geliyor.
    • LLM (Large Language Model) eğitim maliyeti bir araba satın alma maliyetinden daha ucuz hale gelirse, bu yapay zekanın demokratikleşmesine büyük katkı sağlayabilir.
  • Phi-2'nin araştırma amaçlı kısıtı
    • "Yalnızca araştırma amaçlı kullanım" kısıtı olmasına rağmen, Phi-2'nin performansı farklı cihazlarda yerel kullanım olasılığını artırıyor.
    • Performansının çok iyi olduğu söyleniyor; bu yüzden geleceğin parlak ve/veya korkutucu olduğu yönünde görüşler var.
  • Küçük model rekabeti
    • Son dönemde küçük model alanında ciddi bir rekabet var.
    • Bu küçük modellerin temel hedefi, telefonlara/dizüstü bilgisayarlara yerel olarak dağıtılıp yeni bir uygulama/kullanıcı arayüzü neslini tetiklemek olabilir.
  • Phi-2 ve Mistral 7B performans karşılaştırması
    • 2,7 milyarlık Phi-2'nin, 7 milyarlık Mistral 7B'den daha iyi performans göstermesi etkileyici.
  • Web sitesine erişim sorunu
    • Web sitesine erişilemiyor, ancak önbelleğe alınmış sürüm üzerinden bakılabiliyor.
  • Phi-2'nin dağıtım biçimi
    • Phi-1.5 huggingface üzerinde yayımlanmıştı, ancak Phi-2 yalnızca Azure AI Studio'ya eklenmiş; bu da geliştiricileri kayıt olmaya yönlendiriyor.
    • Microsoft'un neden ML dünyasının GitHub'ı gibi olan huggingface'te yer almadığı sorgulanıyor.
  • Phi-2 modelinin indirilebilir olup olmadığı
    • Phi-2 modelinin yerel olarak indirilebilip indirilemeyeceği ya da yalnızca Azure üzerinde kullanılıp kullanılamayacağı soruluyor.