2 puan yazan GN⁺ 2025-08-15 | Henüz yorum yok. | WhatsApp'ta paylaş
  • MacBook Pro üzerinde 5 dakikada yaklaşık 1.8M parametreli GPT tarzı bir transformer modeli, yaklaşık 20M TinyStories token’ı ile eğitilerek yaklaşık 9.6 perplexity elde edildi
  • 5 dakika içinde eğitim için temel kısıtlar model boyutu ve işlenebilen token sayısı; model büyüdükçe yakınsama yavaşlıyor ve az veriyle verim düşüyor
  • Performans optimizasyonu tarafında MPS kullanımı, derleme/kuantizasyon/gradient accumulation ve PyTorch alternatifi denemelerinden daha etkili; en iyi sonuç küçük model seçmekle alınıyor
  • TinyStories gibi basit ve tutarlı veri kümeleri, ansiklopedik veri kümelerine kıyasla küçük modellerin performansını daha olumlu etkiliyor
  • Transformer mimarisi, küçük boyut ve kısa eğitim süresi koşullarında LSTM veya diffusion yaklaşımlarından daha iyi sonuç veriyor

Genel Bakış

Bu yazı, bir dizüstü bilgisayarda (MacBook Pro) 5 dakikada eğitilebilen en yüksek performanslı AI dil modelini deneme sonuçlarıyla birlikte inceliyor; ayrıca en uygun eğitim stratejisi, veri kümesi seçimi ve model mimarisi hakkında içgörüler sunuyor.

Deney Sonuçlarının Özeti

  • Yaklaşık 1.8M parametreli GPT tarzı bir transformer modeli, yaklaşık 20M TinyStories verisiyle eğitildi ve 9.6 perplexity değerine ulaştı
  • Üretim örnekleri kısa ama tutarlı hikâyeler biçiminde; İngilizce dil bilgisi çoğunlukla doğru kalıyor
  • 5 dakika içinde pratik sayılabilecek düzeyde model çıktısı elde edilmesinin beklentilerin üzerinde olduğu vurgulanıyor

Deneyin Arka Planı ve Sınırları

  • Dizüstü bilgisayar ortamında güçlü bir modeli hızlıca eğitmek, gerçekçi olmaktan çok meraktan doğan bir deney olarak başladı
  • Gerçekte bulutta yüksek performanslı GPU’larla (H100 vb.) çok daha güçlü modeller eğitmek mümkün; ancak bu deneyin temel sınırı zamandı: 5 dakika
  • Model boyutu büyüdükçe token işleme hızı düşüyor ve 5 dakika içinde iyi sonuç almak zorlaşıyor
    • Çok küçük modeller (ör. 10K parametre) yeterli karmaşıklığı öğrenemiyor
    • Pratik aralık yaklaşık 1M~2M parametreli modeller

İşleme Hacmi Optimizasyonu

  • MPS (Apple’ın Metal Performance Shaders’ı) kullanımı en etkili yöntem
  • torch.compile, float16, MLX gibi çeşitli matematiksel optimizasyonlar beklenenden daha az fayda sağladı, hatta bazı durumlarda performansı düşürdü
  • Gradient accumulation bellek yönetimi açısından faydalı olsa da, pratikte ciddi hız kaybına yol açıyor
  • Verimli olmak için modelin ağırlık güncellemelerini dahili bellekte hızlıca yapabilmesi gerekiyor

Veri Kümesi Seçimi

  • Sınırlı token sayısıyla (yaklaşık 10~20M) önce Simple English Wikipedia gibi basit İngilizce wiki verileri kullanıldı; sonuçta dil bilgisel tutarlılık yakalansa da anlamsal tutarlılık zayıf kaldı
    • Özel isim ağırlığı ve yapay duran olgu sıralamaları nedeniyle anlamlı içerik üretiminde sınırlar görüldü
  • TinyStories veri kümesi kullanıldığında, hikâye yapısı net ve dil basit olduğu için sonuçlar çok daha tutarlı ve anlamlı oldu
    • 4 yaş düzeyinde hikâyeler içerdiğinden, küçük modeller için öğrenmesi daha kolay oldu

Tokenizer ve Tokenizasyon

  • Tokenizer eğitimi bu 5 dakikalık süreye dahil değil ve veri ölçeği küçük olduğu için optimizasyon gereksinimi de düşük
  • Çok baytlı token’ların öğrenilmesi model için daha kolay

Model Mimarisi Deneyleri

  • Transformer (GPT-2 tarzı) mimarisi kullanıldı

    • 2~3 katman, SwiGLU gibi aktivasyon fonksiyonları, positional embedding gibi hiperparametreler ayarlandı
    • LSTM performans olarak yaklaşsa da perplexity açısından transformer daha iyi sonuç verdi
    • Dropout, mixture-of-experts gibi yöntemler bu kadar küçük ölçekte verimsiz kaldı
    • Curriculum learning, eğitim süresi çok kısa olduğu için anlamlı fayda sağlamadı
  • Diffusion modeli (D3PM) denemesi

    • Doğal dil ayrık token’lardan oluştuğu için, diffusion sürecinde yalnızca anlamsız rastgele token’lar üretildi ve yaklaşım başarısız oldu
    • Transformer veya LSTM’ye kıyasla cümle yapısını hızlıca oluşturmakta zorlandı

Model Boyutu ile Token/Saniye İşleme Hacmi Arasındaki İlişki

  • 1M~2M parametreli modeller en ideal sweet spot’u oluşturuyor
    • Daha büyük modeller 5 dakika içinde yakınsayamıyor, daha küçük modeller ise çok erken performans sınırına ulaşıyor
  • Chinchilla scaling law ile deney sonuçları genel olarak uyumlu
    • Toplam eğitim token’ı/20 oranının ideal model boyutunu verdiği ve bu deneyde de bunun doğrulandığı belirtiliyor

Sonuç ve Çıkarımlar

  • Çok kısa sürede ve küçük donanımla bile tutarlı hikâye anlatımı yapabilen bir model eğitmek mümkün
  • 5 dakikalık eğitim, güçlü model geliştirmek için uygun olmasa da küçük ölçekli, ultra hafif model tasarımı ile donanım ve mimari optimizasyon deneyleri için anlam taşıyor
  • Gelecekte dizüstü GPU’ları ve model yapıları geliştikçe, yalnızca birkaç dakikada eğitilebilen modellerin performansının daha da artma potansiyeli var

Henüz yorum yok.

Henüz yorum yok.