- OpenAI, ilk açık kaynak büyük dil modeli
gpt-oss-120b ve gpt-oss-20byi duyurdu; bazı benchmarklarda başarılı olmasına rağmen gerçek uygulamalarda sınırlılıkları var
- Bu modellerin genel bilgi kapsamı güçlü olsa da, popüler kültür gibi bazı alanlarda bilgi eksiklikleri olduğu belirtiliyor
- Microsoft'un Phi serisi gibi, sentetik veriye odaklı bir eğitim sayesinde benchmark performansı artsa da gerçek dünyadaki kullanılabilirliğin düşme eğilimi gösterdiği görülüyor
- Sentetik veriyle eğitim, açık kaynak olarak yayınlandığında ortaya çıkabilecek kötüye kullanım riskini azaltarak güvenliği artırma avantajı sunuyor
- OpenAI, Çinli açık kaynak modellerine kıyasla benchmark üstünlüğünü korurken güvenliği de sürdürmek için Phi tarzı bir yaklaşım benimsemiş gibi görünüyor
OpenAI'nın İlk Açık Kaynak LLM Duyurusu
- OpenAI, web üzerinden doğrudan sohbet edilebilen
gpt-oss-120b ve gpt-oss-20b adındaki ilk açık kaynak büyük dil modellerini duyurdu
- Bazı benchmarklarda güçlü performans gösterse de, SimpleQA gibi belirli testlerde performans düşüyor
- Bilim alanı gibi alanlarda genel bilgi zengin olsa da popüler kültür bilgisi eksik olduğu söyleniyor
- Gerçek kullanılabilirliğin yaklaşık altı ay sonra netleşmesi bekleniyor ve benchmark performansının gerçek uygulamalarda altında kalma olasılığı yüksek
Phi Modelleri ve Sentetik Veri Eğitimi
- 2024'te Microsoft'ta Sebastien Bubeck'in liderlik ettiği Phi serisi, tamamen sentetik veriyle eğitilmişti
- Sentetik veriler, diğer dil modellerinin ürettiği veya insan seçimi yapılan ders kitabı tabanlı metinlerden oluşur; kaliteyi ve kontrolü kolaylaştırır ama üretim maliyeti yüksektir
- Bu yöntem, benchmark performansını yükseltirken gerçek ortamlarda beklentinin altında sonuçlar verme eğilimine sahiptir
- Sentetik veri, benchmark soru türlerine göre kolayca üretilebildiğinden sınav odaklı eğitimi mümkün kılar ama genelleme yeteneği zayıflar
Sebastien Bubeck'in OpenAI'ye Katılımı ve gpt-oss
- 2024 sonunda Bubeck, Microsoft'tan ayrılarak OpenAI'ye katıldı
gpt-oss modellerinin ön-eğitim verisi detayları açıklanmadı, ancak güçlü filtrelenmiş veya sentetik veriler kullanılmış olması muhtemel
- Bu yaklaşımın, Phi-5 ve Phi-5-mini ile benzer özellikler göstermesi olası
Sentetik Verinin Güvenlik Avantajı
- Açık kaynak bir model, yayınlandıktan sonra sınırsız şekilde ince ayar (fine-tuning) yapılabilmesi nedeniyle güvenlik sorunlarına yol açabilir
- Özellikle küçük dil modellerinin başlıca gayriresmi kullanımlarından biri yetişkin rol yapımı olduğundan güvenlik yönetimi kritik
- Sentetik veya ders kitabı tabanlı verilerle eğitildiğinde riskli içerikler çıkarılarak güvenlik artırılabilir
- OpenAI, Çinli açık kaynak modellere göre benchmarklarda önde olurken güvenliği korumayı hedefleyen bir strateji seçmiş gibi görünüyor
Sonuç: Pratikte Phi-5 Ailesi
gpt-oss modelleri, sentetik veri temelli güvenlik odaklı bir tasarımla, pratik performanstan çok benchmark puanı ve güvenliği öncelediği tahmin ediliyor
- Sonuç olarak bu modeller temelde Phi-5 ve Phi-5-mini'nin karakterini taşır
Henüz yorum yok.