5 Dakikada Dizüstü Bilgisayarda Eğitilebilecek En Güçlü AI Modeli Hangisi?
(seangoedecke.com)- MacBook Pro üzerinde 5 dakikada yaklaşık 1.8M parametreli GPT tarzı bir transformer modeli, yaklaşık 20M TinyStories token’ı ile eğitilerek yaklaşık 9.6 perplexity elde edildi
- 5 dakika içinde eğitim için temel kısıtlar model boyutu ve işlenebilen token sayısı; model büyüdükçe yakınsama yavaşlıyor ve az veriyle verim düşüyor
- Performans optimizasyonu tarafında MPS kullanımı, derleme/kuantizasyon/gradient accumulation ve PyTorch alternatifi denemelerinden daha etkili; en iyi sonuç küçük model seçmekle alınıyor
- TinyStories gibi basit ve tutarlı veri kümeleri, ansiklopedik veri kümelerine kıyasla küçük modellerin performansını daha olumlu etkiliyor
- Transformer mimarisi, küçük boyut ve kısa eğitim süresi koşullarında LSTM veya diffusion yaklaşımlarından daha iyi sonuç veriyor
Genel Bakış
Bu yazı, bir dizüstü bilgisayarda (MacBook Pro) 5 dakikada eğitilebilen en yüksek performanslı AI dil modelini deneme sonuçlarıyla birlikte inceliyor; ayrıca en uygun eğitim stratejisi, veri kümesi seçimi ve model mimarisi hakkında içgörüler sunuyor.
Deney Sonuçlarının Özeti
- Yaklaşık 1.8M parametreli GPT tarzı bir transformer modeli, yaklaşık 20M TinyStories verisiyle eğitildi ve 9.6 perplexity değerine ulaştı
- Üretim örnekleri kısa ama tutarlı hikâyeler biçiminde; İngilizce dil bilgisi çoğunlukla doğru kalıyor
- 5 dakika içinde pratik sayılabilecek düzeyde model çıktısı elde edilmesinin beklentilerin üzerinde olduğu vurgulanıyor
Deneyin Arka Planı ve Sınırları
- Dizüstü bilgisayar ortamında güçlü bir modeli hızlıca eğitmek, gerçekçi olmaktan çok meraktan doğan bir deney olarak başladı
- Gerçekte bulutta yüksek performanslı GPU’larla (H100 vb.) çok daha güçlü modeller eğitmek mümkün; ancak bu deneyin temel sınırı zamandı: 5 dakika
- Model boyutu büyüdükçe token işleme hızı düşüyor ve 5 dakika içinde iyi sonuç almak zorlaşıyor
- Çok küçük modeller (ör. 10K parametre) yeterli karmaşıklığı öğrenemiyor
- Pratik aralık yaklaşık 1M~2M parametreli modeller
İşleme Hacmi Optimizasyonu
- MPS (Apple’ın Metal Performance Shaders’ı) kullanımı en etkili yöntem
torch.compile, float16, MLX gibi çeşitli matematiksel optimizasyonlar beklenenden daha az fayda sağladı, hatta bazı durumlarda performansı düşürdü- Gradient accumulation bellek yönetimi açısından faydalı olsa da, pratikte ciddi hız kaybına yol açıyor
- Verimli olmak için modelin ağırlık güncellemelerini dahili bellekte hızlıca yapabilmesi gerekiyor
Veri Kümesi Seçimi
- Sınırlı token sayısıyla (yaklaşık 10~20M) önce Simple English Wikipedia gibi basit İngilizce wiki verileri kullanıldı; sonuçta dil bilgisel tutarlılık yakalansa da anlamsal tutarlılık zayıf kaldı
- Özel isim ağırlığı ve yapay duran olgu sıralamaları nedeniyle anlamlı içerik üretiminde sınırlar görüldü
- TinyStories veri kümesi kullanıldığında, hikâye yapısı net ve dil basit olduğu için sonuçlar çok daha tutarlı ve anlamlı oldu
- 4 yaş düzeyinde hikâyeler içerdiğinden, küçük modeller için öğrenmesi daha kolay oldu
Tokenizer ve Tokenizasyon
- Tokenizer eğitimi bu 5 dakikalık süreye dahil değil ve veri ölçeği küçük olduğu için optimizasyon gereksinimi de düşük
- Çok baytlı token’ların öğrenilmesi model için daha kolay
Model Mimarisi Deneyleri
-
Transformer (GPT-2 tarzı) mimarisi kullanıldı
- 2~3 katman, SwiGLU gibi aktivasyon fonksiyonları, positional embedding gibi hiperparametreler ayarlandı
- LSTM performans olarak yaklaşsa da perplexity açısından transformer daha iyi sonuç verdi
- Dropout, mixture-of-experts gibi yöntemler bu kadar küçük ölçekte verimsiz kaldı
- Curriculum learning, eğitim süresi çok kısa olduğu için anlamlı fayda sağlamadı
-
Diffusion modeli (D3PM) denemesi
- Doğal dil ayrık token’lardan oluştuğu için, diffusion sürecinde yalnızca anlamsız rastgele token’lar üretildi ve yaklaşım başarısız oldu
- Transformer veya LSTM’ye kıyasla cümle yapısını hızlıca oluşturmakta zorlandı
Model Boyutu ile Token/Saniye İşleme Hacmi Arasındaki İlişki
- 1M~2M parametreli modeller en ideal sweet spot’u oluşturuyor
- Daha büyük modeller 5 dakika içinde yakınsayamıyor, daha küçük modeller ise çok erken performans sınırına ulaşıyor
- Chinchilla scaling law ile deney sonuçları genel olarak uyumlu
- Toplam eğitim token’ı/20 oranının ideal model boyutunu verdiği ve bu deneyde de bunun doğrulandığı belirtiliyor
Sonuç ve Çıkarımlar
- Çok kısa sürede ve küçük donanımla bile tutarlı hikâye anlatımı yapabilen bir model eğitmek mümkün
- 5 dakikalık eğitim, güçlü model geliştirmek için uygun olmasa da küçük ölçekli, ultra hafif model tasarımı ile donanım ve mimari optimizasyon deneyleri için anlam taşıyor
- Gelecekte dizüstü GPU’ları ve model yapıları geliştikçe, yalnızca birkaç dakikada eğitilebilen modellerin performansının daha da artma potansiyeli var
Henüz yorum yok.