5 Dakikada Dizüstü Bilgisayarda Eğitilebilecek En Güçlü AI Modeli Hangisi?

(seangoedecke.com)

2 puan yazan GN⁺ 2025-08-15 | Henüz yorum yok. | WhatsApp'ta paylaş

MacBook Pro üzerinde 5 dakikada yaklaşık 1.8M parametreli GPT tarzı bir transformer modeli, yaklaşık 20M TinyStories token’ı ile eğitilerek yaklaşık 9.6 perplexity elde edildi
5 dakika içinde eğitim için temel kısıtlar model boyutu ve işlenebilen token sayısı; model büyüdükçe yakınsama yavaşlıyor ve az veriyle verim düşüyor
Performans optimizasyonu tarafında MPS kullanımı, derleme/kuantizasyon/gradient accumulation ve PyTorch alternatifi denemelerinden daha etkili; en iyi sonuç küçük model seçmekle alınıyor
TinyStories gibi basit ve tutarlı veri kümeleri, ansiklopedik veri kümelerine kıyasla küçük modellerin performansını daha olumlu etkiliyor
Transformer mimarisi, küçük boyut ve kısa eğitim süresi koşullarında LSTM veya diffusion yaklaşımlarından daha iyi sonuç veriyor

Genel Bakış

Bu yazı, bir dizüstü bilgisayarda (MacBook Pro) 5 dakikada eğitilebilen en yüksek performanslı AI dil modelini deneme sonuçlarıyla birlikte inceliyor; ayrıca en uygun eğitim stratejisi, veri kümesi seçimi ve model mimarisi hakkında içgörüler sunuyor.

Deney Sonuçlarının Özeti

Yaklaşık 1.8M parametreli GPT tarzı bir transformer modeli, yaklaşık 20M TinyStories verisiyle eğitildi ve 9.6 perplexity değerine ulaştı
Üretim örnekleri kısa ama tutarlı hikâyeler biçiminde; İngilizce dil bilgisi çoğunlukla doğru kalıyor
5 dakika içinde pratik sayılabilecek düzeyde model çıktısı elde edilmesinin beklentilerin üzerinde olduğu vurgulanıyor

Deneyin Arka Planı ve Sınırları

Dizüstü bilgisayar ortamında güçlü bir modeli hızlıca eğitmek, gerçekçi olmaktan çok meraktan doğan bir deney olarak başladı
Gerçekte bulutta yüksek performanslı GPU’larla (H100 vb.) çok daha güçlü modeller eğitmek mümkün; ancak bu deneyin temel sınırı zamandı: 5 dakika
Model boyutu büyüdükçe token işleme hızı düşüyor ve 5 dakika içinde iyi sonuç almak zorlaşıyor
- Çok küçük modeller (ör. 10K parametre) yeterli karmaşıklığı öğrenemiyor
- Pratik aralık yaklaşık 1M~2M parametreli modeller

İşleme Hacmi Optimizasyonu

MPS (Apple’ın Metal Performance Shaders’ı) kullanımı en etkili yöntem
torch.compile, float16, MLX gibi çeşitli matematiksel optimizasyonlar beklenenden daha az fayda sağladı, hatta bazı durumlarda performansı düşürdü
Gradient accumulation bellek yönetimi açısından faydalı olsa da, pratikte ciddi hız kaybına yol açıyor
Verimli olmak için modelin ağırlık güncellemelerini dahili bellekte hızlıca yapabilmesi gerekiyor

Veri Kümesi Seçimi

Sınırlı token sayısıyla (yaklaşık 10~20M) önce Simple English Wikipedia gibi basit İngilizce wiki verileri kullanıldı; sonuçta dil bilgisel tutarlılık yakalansa da anlamsal tutarlılık zayıf kaldı
- Özel isim ağırlığı ve yapay duran olgu sıralamaları nedeniyle anlamlı içerik üretiminde sınırlar görüldü
TinyStories veri kümesi kullanıldığında, hikâye yapısı net ve dil basit olduğu için sonuçlar çok daha tutarlı ve anlamlı oldu
- 4 yaş düzeyinde hikâyeler içerdiğinden, küçük modeller için öğrenmesi daha kolay oldu

Tokenizer ve Tokenizasyon

Tokenizer eğitimi bu 5 dakikalık süreye dahil değil ve veri ölçeği küçük olduğu için optimizasyon gereksinimi de düşük
Çok baytlı token’ların öğrenilmesi model için daha kolay

Model Mimarisi Deneyleri

Transformer (GPT-2 tarzı) mimarisi kullanıldı
- 2~3 katman, SwiGLU gibi aktivasyon fonksiyonları, positional embedding gibi hiperparametreler ayarlandı
- LSTM performans olarak yaklaşsa da perplexity açısından transformer daha iyi sonuç verdi
- Dropout, mixture-of-experts gibi yöntemler bu kadar küçük ölçekte verimsiz kaldı
- Curriculum learning, eğitim süresi çok kısa olduğu için anlamlı fayda sağlamadı
Diffusion modeli (D3PM) denemesi
- Doğal dil ayrık token’lardan oluştuğu için, diffusion sürecinde yalnızca anlamsız rastgele token’lar üretildi ve yaklaşım başarısız oldu
- Transformer veya LSTM’ye kıyasla cümle yapısını hızlıca oluşturmakta zorlandı

Model Boyutu ile Token/Saniye İşleme Hacmi Arasındaki İlişki

1M~2M parametreli modeller en ideal sweet spot’u oluşturuyor
- Daha büyük modeller 5 dakika içinde yakınsayamıyor, daha küçük modeller ise çok erken performans sınırına ulaşıyor
Chinchilla scaling law ile deney sonuçları genel olarak uyumlu
- Toplam eğitim token’ı/20 oranının ideal model boyutunu verdiği ve bu deneyde de bunun doğrulandığı belirtiliyor

Sonuç ve Çıkarımlar

Çok kısa sürede ve küçük donanımla bile tutarlı hikâye anlatımı yapabilen bir model eğitmek mümkün
5 dakikalık eğitim, güçlü model geliştirmek için uygun olmasa da küçük ölçekli, ultra hafif model tasarımı ile donanım ve mimari optimizasyon deneyleri için anlam taşıyor
Gelecekte dizüstü GPU’ları ve model yapıları geliştikçe, yalnızca birkaç dakikada eğitilebilen modellerin performansının daha da artma potansiyeli var