14 puan yazan GN⁺ 2025-07-03 | 1 yorum | WhatsApp'ta paylaş
  • GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan vb. başlıca büyük dil modellerinin parametre ölçeği ve mimarisi hakkında nesnel bilgiler ile tarihsel değişimin bir özeti
  • GPT-2 (2019) 130 milyon~1,6 milyar parametreye, GPT-3 (2020) 175 milyar (175B) parametreye, Llama-3.1 (2024) ise 405 milyar (405B) parametreye sahip; yani büyük modellerin boyutu hızla arttı
  • MoE (Mixture-of-Experts, uzman karışımı) mimarisinin ortaya çıkmasıyla GPT-3 sınıfı ve üzeri modeller açık kaynak / indirilebilir hale geldi; bunun öne çıkan örnekleri arasında DeepSeek V3 Base (671 milyar), ERNIE-4.5 (424 milyar), Mixtral-8x22B (141 milyar) gibi çeşitli ultra büyük modeller bulunuyor
  • Dense (tüm parametrelerin kullanıldığı) modeller ile MoE (yalnızca bazı uzman parametrelerin etkinleştirildiği) modellerin karşılaştırılması daha karmaşık hale geldi ve pratikteki "zeka" karşılaştırması kolay değil
  • Son dönemde çok modlu ve çok dilli destek, yeni mimariler, sentetik veri kullanımı gibi çeşitli gelişim eğilimleri öne çıkıyor

  • Bu belge, son birkaç yılda büyük dil modellerinin (LLM) temel model (base model) ölçeğindeki değişime dair olgusal bilgileri derliyor
  • Odak noktası chatbot ya da asistanlar değil, metin üretim motoru olarak modelin kendisi

Tarihçe

  • GPT-2(-medium, -large, -xl) (2019): sırasıyla 137 milyon, 380 milyon, 812 milyon ve 1,61 milyar parametre
    • Yaklaşık 40GB’lık WebText veri kümesi (tahmini 1 milyar token) üzerinde eğitildi
    • Kullanılan site listesi domains.txt içinde görülebilir
  • GPT-3(davinci, davinci-002) (2020): 175 milyar parametre
    • CommonCrawl, WebText2, Books1·2, Wikipedia vb. yaklaşık 400 milyar token veriyle eğitildi
    • Binlerce büyük A100 GPU üzerinde aylar süren eğitim gerektirdi
  • GPT-3.5, GPT-4 (2022, 2023): mimari ve veriyle ilgili resmî bilgiler açıklanmadı

Llama

  • Llama, Meta (eski Facebook) tarafından geliştirilen bir büyük dil modeli serisi olup, açık kaynaklaşması ve nispeten daha az kaynakla da kullanılabilen yapısıyla dikkat çekti
  • Model boyutu (parametre sayısı), eğitim verisi ve mimarinin evrim süreci, LLM açık kaynak trendine yön verdi
  • Llama 1 (2023)

    • 7B, 13B, 33B, 65B: 7 milyar, 13 milyar, 33 milyar ve 65 milyar parametre sundu
    • Eğitim verisi: 1,4 trilyon (1.4T) tokenlık büyük metin verisi (Books3, CommonCrawl vb.)
    • Llama 65B, o dönemde açık modeller arasında en büyük ölçekti
    • Books3, telif hakkı mevzuatı tartışmalarında önemli bir dönüm noktası olan büyük bir veri kümesiydi
    • Özellikler
      • Görece küçük GPU’larla da çalıştırılabiliyordu (65B bile 8 GPU ile çalışabiliyordu)
      • Açık ağırlık dağıtımı sayesinde çeşitli türev modeller ve topluluk deneyleri hızla yayıldı
  • Llama 2 (2023’ün ikinci yarısı)

    • Yayınlandığında 7 milyar, 13 milyar ve 70 milyar parametreli sürümler sundu (7B, 13B, 70B)
    • Sohbet odaklı sürümler de yayımlandı; fine-tuning ve RLHF (pekiştirmeli öğrenme temelli insan geri bildirimi) gibi yöntemler desteklendi
    • Topluluk ve ticari kullanım için izin veren bir lisansa sahipti (ancak bazı kısıtlarla)
  • Llama 3.1 (2024)

    • 405B: 405 milyar dense (tüm parametreler kullanılır) parametre
    • Eğitim verisi: 2,87 trilyon token + 800 milyar uzun bağlam + 40 milyar annealing (yüksek kaliteli kod/matematik vb. ekleme) → toplam 3,67 trilyon token
    • Mimari
      • Transformer tabanlı; çıkarım sürecinde tüm parametreler aynı anda kullanılıyor (dense)
      • Yüksek kaliteli kod ve matematik verisinin eklenmesiyle ana benchmark puanları en üst düzeye çıkarıldı (annealing)
    • Özellikler
      • Büyük dense modeller içinde indirilebilir en güncel model (açık kaynak)
      • Meta, veri kümesi bileşimini kamuya açık biçimde açıklamıyor; bazı telif tartışmalı verileri (Books3 vb.) içermesi mümkün
      • Bazı değerlendirmelerde "asistan eğiliminin" güçlendiği, bu yüzden saf metin motoru rolünden bir miktar uzaklaştığı belirtiliyor
  • Llama 4 (2025)

    • En büyük model: 2 trilyon (2T) parametreli MoE (Mixture-of-Experts, uzman karışımı mimarisi)
      • A288B 16E: 28,8 milyar etkin parametre, 16 uzman; toplam 2 trilyon parametrenin yalnızca bir kısmı etkinleştiriliyor
    • Durum
      • 2T model yayımlanmadı (dahili deneyler için); dışarıya yalnızca türev/küçültülmüş sürümler açıldı (maverick, scout vb.)
      • Türev modellerin, aslına kıyasla daha düşük "zeka" sunduğuna dair çok sayıda değerlendirme var
      • Yayın sürecinde benchmark puanı manipülasyonu tartışması (lmarena olayı) gibi nedenlerle güven zedelendi ve ekibin dağılabileceği konuşuldu
    • MoE mimarisinin özellikleri
      • Yalnızca bazı uzman parametreleri etkinleştirerek dense modellere göre aynı parametre sayısında daha iyi hesaplama verimliliği sağlar
      • Ultra büyük modellerin de pratikte kullanılabilmesini mümkün kılar (dağıtık ortamlar ve daha sınırlı kaynaklarda kullanım)
  • Llama’nın önemi ve etkisi

    • Llama serisi, açık kaynak ekosisteminin yayılmasına ve büyük dil modellerinin kitleselleşmesine öncülük etti
    • Llama-3.1 405B’nin yayımlanmasıyla birlikte GPT-3/4 sınıfı büyük modelleri indirip denemek gerçekçi hale geldi
    • MoE mimarisinin benimsenmesiyle ultra büyük modellerin eğitimi ve dağıtımı hız kazandı (DeepSeek, Mixtral vb. üzerinde de etkili oldu)
    • Ancak son dönemde modellerin benchmark optimizasyonuna (annealing) ve asistan eğilimine yönelmesi, bunların "saf dil modeli" olarak niteliğinin değiştiği tartışmasını doğurdu

The desert – açık kaynak büyük modellerde boşluk dönemi ve değişim

  • GPT-3 düzeyinde (175 milyar parametre sınıfı) ve üzerindeki büyük dil modellerinin açık kaynak olarak bulunamadığı uzun boşluk dönemini ifade eder
  • Bu dönemde (2020~2023 ortası) yalnızca 70B ve altındaki Llama gibi nispeten küçük modeller açıktı ve
    • Bazı projeler, küçük Llama modellerini (ör. 70B) GPT-3 tarafından üretilen sentetik verilerle fine-tune ederek performansı yükseltmeye çalıştı
    • Ancak yapay zekanın ürettiği metnin yeniden yapay zekaya eğitim verisi olarak verilmesi, veri kalitesinde bozulma (degeneration) sorununa yol açabiliyor
  • GPT-3 düzeyinde açık ağırlıklı modellerin uzun süre ortaya çıkmamasının nedenleri arasında,
    • eğitim maliyeti (binlerce ila on binlerce GPU’luk altyapı), veri temini ve büyük parametreli yapıların dağıtım zorluğu birlikte rol oynadı
  • Llama-3.1 405B (405 milyar dense parametre) yayımlandıktan sonra ultra büyük modellerin açık kaynaklaşması ciddi biçimde başladı
    • Hemen öncesinde, Aralık 2023’te Mistral’ın Mixtral-8x7B modeli (MoE mimarisi, toplam 56 milyar parametre), Nisan 2024’te ise Mixtral-8x22B (toplam 141 milyar, etkin 39 milyar parametre) gibi örnekler vardı
      • Bunlar, MoE (uzman karışımı) mimarisi sayesinde GPT-3 sınıfı büyük modellerin nispeten az kaynakla eğitilip dağıtılmasını mümkün kıldı
  • MoE mimarisi, birden çok uzman ağdan (Expert) oluşur ve her çıkarımda yalnızca bir kısmı etkinleştirilir
    • Böylece dense yapılara kıyasla daha az kaynakla (bellek ve hesaplama) büyük modeller çalıştırılabilir
    • GPU sayısı ve bellek sınırları nedeniyle, MoE büyük açık modellerin yaygınlaşmasında belirleyici rol oynadı

En yeni büyük MoE (uzman karışımı) modeller

Deepseek V3 Base (2024)

  • 671 milyar parametre (MoE), 37 milyar etkin parametre, 14,8 trilyon yüksek kaliteli tokenla eğitildi
  • R1 (çıkarım odaklı model) da ortaya çıktı; indirilebilir modeller arasında GPT-4 düzeyi performansa ilk kez yaklaşan model oldu
  • Yayımlandıktan hemen sonra NVIDIA (NVDA) hisselerinde geçici düşüşe yol açacak kadar pazarda büyük etki yarattı
  • Sonrasında Çin merkezli olanlar da dahil yeni nesil büyük MoE modelleri peş peşe ortaya çıktı
    • Bazı modeller, çok modlu ve çok dilli destek için eğitime farklı türde yeni veriler ekledi

Databricks (DBRX, Mart 2024)

  • Toplam 132 milyar parametre, 36 milyar etkin parametre, 12 trilyon token
  • 16 uzmandan 4’ünü seçiyor (Mistral ve Grok’a kıyasla daha ince ayrımlı)

Minimax (Ocak 2025)

  • Toplam 456 milyar parametre, 45,9 milyar etkin parametre; eğitim verisi kalitesi kendi reward labeler sistemiyle kontrol edildi

Dots (Haziran 2025)

  • Toplam 143 milyar parametre, 14 milyar etkin parametre, 11,2 trilyon token, 32K context
  • top-6/128 uzman yapısı, Qwen2.5-72B’ye benzer performans

Hunyuan (Haziran 2025)

  • 80 milyar parametreli MoE, 13 milyar etkin parametre, 20 trilyon token, 256K context
  • 8 adet paylaşılmayan uzman etkin, paylaşılan uzman ise her zaman etkin

Ernie (Haziran 2025)

  • Toplam 424 milyar parametre, 47 milyar etkin parametre, trilyonlarca token

Sonuç ve görünüm

  • 2024~2025 itibarıyla GPT-3 sınıfı (175 milyar) ve üzerindeki ultra büyük modeller farklı biçimlerde yayımlanıyor
  • 405B (405 milyar) en güncel dense base model olsa da, en yeni MoE modelleri de hem büyüyor hem çeşitleniyor
  • Dense vs MoE performans karşılaştırması hâlâ belirsiz; gerçek "zeka" için hangi yapı ve ölçeğin gerektiği daha fazla tartışılmalı
  • Yeni yapılar (RWKV, byte-latent, bitnet) ve sentetik veri kullanımı da deneniyor; ancak saf metin motoru olarak özsel ilerleme hâlâ bir meydan okuma
  • Son dönemde büyük modellerin çoğu "AI assistant" rolüne göre fine-tune ediliyor; alternatif LLM arayışının önem kazandığı bir dönemdeyiz

1 yorum

 
GN⁺ 2025-07-03
Hacker News görüşü
  • Bunun tamamen teknik bir görüşten ziyade, bu indirilebilir modellerin içine ne kadar çok verinin sıkıştırılmış olduğuna hâlâ hayran kalıyorum. Dün kablosuz internetin çalışmadığı bir uçakta Ollama üzerinden gemma3:12b modelini (8.1GB) indirip çocuklarla birlikte türlü türlü sorular sordum. Son dönemde video oyunları, hayvanlar, tarih gibi çeşitli konularda mükemmel değildi ama böylesine küçük bir dosyanın içine insanlığın bilgisinin bu kadarının sığmış olması ve çevrimdışı da kullanılabilmesi gerçekten inanılmaz geldi. Kayıplı sıkıştırma olsa da insanlık bilgisinin bu kadar küçük boyuta indirgenebilmesi şaşırtıcı

    • Dil modellerinin ne kadar güçlü bir sıkıştırma aracı olabileceği gerçekten çok ilginç. Bir modeli assistant amacıyla eğitirseniz, sıradan metinden ziyade assistant konuşma kayıtlarını daha iyi sıkıştırıyor. UncheatableEval diye bir değerlendirme var; burada dil modelinin sıkıştırma kabiliyeti çeşitli görevlere uygulanarak ölçülebiliyor. Bu ölçüt fiilen 'hile yapılamayan' bir test. Sıkıştırma performansının, oyunlardaki gibi kestirme yollara izin vermeyen gerçek bir benchmark olduğunu düşünüyorum

    • Çevrimdışı kullanılmak üzere çeşitli kaynakları indirebildiğiniz Kiwix projesini tavsiye ederim. İnternet erişiminin zayıf ya da hiç olmadığı yerler için önceden yüklenmiş içerikle gelen cihazlar da sunuyorlar

    • Bilgi olarak, İngilizce Wikipedia'da (26 Haziran 2025 itibarıyla) 7 milyonun üzerinde makale ve 63 milyon sayfa var. Yalnızca metin yaklaşık 156GB, tüm sürümler birleştirildiğinde veritabanının toplam boyutu ise yaklaşık 26TB

    • 8.1GB gerçekten çok büyük bir boyut. 64.8 milyar (64,800,000,000) bit ediyor; 100 bit, 1.000 bit belki gözde canlandırılabilir ama 10 bin, 1 milyon, 64 milyon ve bunun 1.000 katı olan bu sayı gerçekten akıl almaz büyüklükte hissettiriyor

    • Dil modellerini bilgi kuramı ya da sıkıştırma perspektifinden inceleyen alan hâlâ küçük, ama verimlilik ve ölçeklenebilirlik açısından giderek daha önemli hâle geliyor. Bugün bununla ilgili bir tartışma yaptım; ilgilenenler göz atabilir

  • Deepseek v1 yaklaşık 670 milyar parametreye sahip ve fiziksel boyutu yaklaşık 1.4TB. Şimdiye kadar dijitalleştirilmiş tüm kitapları sıkıştırsanız birkaç TB, açık web yaklaşık 50TB, İngilizce elektronik metinlerin tamamını zip ile paketleseniz O(100TB) civarında olur diye tahmin ediyorum. Mevcut model boyutları bunun yalnızca %1'i seviyesinde ve artık daha da büyütmenin performansı eskisi kadar artırmadığı bir bölgeye girmiş gibi görünüyoruz (gpt4.5 ile 4o karşılaştırmasına bakın). Bu yüzden son dönemde 'reasoning modeli' yaklaşımıyla hesaplama maliyeti inference zamanı tarafına kayıyor. Ek fayda elde etmek için bundan sonra belirli alanlara odaklanan özelleşmiş modellerin gelişeceğini düşünüyorum. Yüksek kaliteli open-source modeller için 1TB inference VRAM orta vadeli bir hedef olabilir. KOBİ ölçeğinde bile ulaşılabilir bir seviye gibi duruyor (yaklaşık 250B parametre tahmini)

    • Buna görüntü ve videoyu da eklerseniz, yukarıdaki tahminler bir zamanların 640KB'nin herkese yeteceği söylemi gibi gelebilir. Sonrasında robotlar dünyayı kendi başlarına keşfederek veri toplarsa daha da fazla bilgi birikecektir. Ciddi konuşmak gerekirse, görüntü ve etkileşim verisinin eklenmesi metin üretiminde de kayda değer fayda sağlayacaktır

    • Gerçek rakamları bir kez hesaplamayı denedim. 157 milyon makale ve 52 milyon kitap için, makale başına ortalama 10 bin, kitap başına 100 bin kelime varsaydım ve örnek kitap verisiyle sıkıştırma oranını çıkardım. Sıkıştırılmamış hâlde yaklaşık 30TB, sıkıştırılmış hâlde 5.5TB ediyor. 2TB'lık 3 microSD ile (toplam 750 dolar) saklanabilir

    • Küçük bir not: Sabit bir depolama miktarı için big O gösterimini (O(100TB)) kullanmanın uygun olmadığını düşünüyorum

    • Acaba 50TB rakamı ABD Kongre Kütüphanesi, yani Library of Congress ölçüsüne mi dayanıyor? İnternetin tamamı bundan çok daha büyük olurdu

    • 'Dijitalleştirilmiş tüm kitaplar birkaç TB'a sıkışır, açık web 50TB'dir' sayılarının nereden geldiğini merak ediyorum. Bir kaynak varsa görmek isterim. Eskiden yüzyıl sonuna kadar olan tüm yazılı kayıtların yaklaşık 50MB olduğuna dair bir yazı okumuştum ama kaynağını bulamıyorum; belki de yanlış hatırlıyorumdur

  • Gemma ve Gemini serisi modeller (Google) eksik. Ayrıca T5 serisi transfer öğrenme ve bu alanın yaygınlaşmasında önemli bir rol oynadı; ondan hiç söz edilmemesi de üzücü. T5, birçok kavramın başlangıç noktası sayılabilir

    • Gemma modelleri boyutları küçük olduğu için listeye alınmamış. T5 tarihsel olarak çok önemli ama 11B'nin altında kaldığı için ayrıca çok fazla değinilmemiş. Yine de gerçekten anlamlı ve eğlenceli bir model
  • Görsel olarak görmek isterseniz, aile bazında yıllara göre toplam parametreleri grafikleştiren bir çalışma var: Total Parameters vs. Release Year by Family

    • Bu grafik, GPT-3'ün ne kadar büyük bir sıçrama olduğunu ve sonrasında uzun süre kimsenin o seviyeye yaklaşamadığını çok net gösteriyor

    • Gerçekten harika bir çalışma. Hazırladığınız için teşekkürler. Kendi gönderi yorumuma grafiğin ekran görüntüsünü, bağlantısını ve krediyi ekledim

  • Gerçekten çok iyi bir yazı. Ancak sanki yalnızca bu devasa dil modelleri en büyük yenilikmiş gibi bir önkabul var. Büyük oyuncular bir süredir oldukça sessizdi ve dışarıdan bakınca OpenAI bunu davranışlarıyla hafifçe ima etti. Muhtemelen çok daha büyük modeller yaptılar ama sonuçlar hayal kırıklığı yarattığı için sessizce denemeyi bıraktılar. Aslında en güçlü ön saftaki reasoning modellerinin, kamuya açık dev modellerden daha küçük olması bile mümkün

  • Ortada ironik bir durum var. Open-source topluluğu GPT-3'e (175B) yetişmek için 30~70B modeller, RLHF, sentetik veri gibi birçok yaklaşım denedi ama aradaki fark sürdü. Sonunda modelin kendi boyutunun gerçekten çok önemli olduğu ortaya çıktı ve ancak gerçekten dev dense (405B) ya da MoE modelleri (DeepSeek V3, DBRX vb.) geldiğinde, açık laboratuvarların dışında da GPT-4 düzeyi reasoning görülebildi

  • "Open-source modellerin GPT-3 seviyesine yaklaşmak için çoğunlukla 70B sınıfı Llama'yı GPT-3'ün ürettiği sentetik veriyle eğittiği" notuna katılmıyorum. Eğer sentetik veri her zaman performansı düşürseydi, yapay zeka laboratuvarları bunu asla kullanmazdı. Gerçekte sentetik veri kullanarak daha iyi modeller üretiyorlar. Evet, özellikle modelin kendi çıktılarıyla kasıtlı olarak bir eğitim döngüsü kurulduğunda performans düşüşü gösteren makaleler var; ancak bu, yapay zeka laboratuvarlarının sentetik veriyi fiilen kullanma biçiminden farklı. O makalenin popüler olmasının nedeni biraz da 'kendi kuyruğunu yiyip yok olan AI' fikrinin fazla çekici olması

    • Katılıyorum. Özellikle daha küçük bir modeli daha büyük bir modelin çıktılarıyla eğitme bağlamında distillation çok etkili bir teknik. Ben de geçmişte Llama ve Mistral modellerini insan verisi ve GPT-4 tarafından üretilmiş verilerle alan odaklı olarak fine-tune ettim; (kaliteli) sentetik veri eklendikten sonra sonuçlar daha iyi oldu
  • İnsanların LLM'leri kayıplı sıkıştırma diye sürekli tekrar etmesi biraz üzücü. Kabaca doğru bir benzetme olabilir ama daha kesin ve ilginç gerçek şu ki LLM'ler kayıpsız (lossless) sıkıştırma algoritması olarak da işlev görebilir. Bunun iki örneği var. 1) Herhangi bir metin, LLM'nin log-olasılığına yakın maliyetle aritmetik kodlama kullanılarak kodlanabilir (varsayım: gönderici ve alıcı aynı LLM parametrelerine sahip olmalı) 2) LLM ve SGD (eğitim kodu) kullanılarak kayıpsız sıkıştırma uygulanabilir (burada model parametreleri açıklama uzunluğuna dahil edilmiyor). Jack Rae'in “compression for AGI” materyaline bakmaya değer

      1. maddeyle ilgili olarak, klasik sıkıştırma teknikleri de hem göndericinin hem alıcının aynı büyük sözlüğe sahip olması hâlinde çok etkili olur
  • "1.61B" gibi sayılar bana bir dosyanın ne kadar büyük olduğunu ya da ne kadar VRAM gerektiğini pek hissettirmiyor. Gerçek depolama alanı ve donanım gereksinimlerini, bugün satın alsam hangi seviyeye kadar çalıştırabileceğimi ve 10 yıl sonra hangi modelleri çalıştırabileceğimi merak ediyorum

    • Parametre başına 1 bayt (f8) ise 1.6GB, 2 bayt (f16) ise 2.3GB eder. GPU'ya yüklemenin dışında ek bellek ihtiyacı da olduğu için kabaca parametre sayısının 4 katını hesaplamak iyi olur. Yani 2B parametre için 8GB VRAM önerilir

    • Çoğu model 16 bit (2 bayt) ile eğitilir. 1 milyar parametreli model 2GB eder. Pratik kullanımda daha küçük 8 bit quantization çoğu zaman yeterlidir ve genelde 16 bitten 8 bite inince performans kaybı çok az olur. Dolayısıyla 1 milyarlık model için 1GB, 20B model için 20GB gibi basit bir hesap yapılabilir. Daha düşük bitler (5 bit, 4 bit vb.) de performans düşüşü büyük değilse kullanım amacına göre gayet işe yarar olabilir. Hatta doğrudan 4 bit ile eğitilen bir modelin, 16 bitten quantize edilen modelden daha iyi kalite verdiği örnekler bile var. Büyük modellerde darboğaz VRAM kapasitesinden çok bant genişliğidir. Bu yüzden yüksek VRAM'e sahip GPU'lar önemli. 128GB sistem RAM'iniz olsa bile, GPU-CPU arasındaki bant genişliği yetersizse GPU belleğinin dışına çıkıldığında CPU aslında daha yavaş kalır. GPU'lar (ör. RTX 5090) 32GB VRAM ve yaklaşık 1Tb/s bant genişliği sunuyor. Apple M serisi 512Gb/s, AMD Strix Halo ise 128GB birleşik bellek ve 256Gb/s bant genişliği sağlıyor. Tüketici donanımında LLM çalıştırmaya dair gerçek deneyimler için Reddit'teki r/LocalLLaMA topluluğuna bakılabilir. Yalnız orada alışılmadık denemeler de çok olduğu için biraz dikkatli yaklaşmak gerekir. 10 yıl sonrasını tahmin etmek ise imkânsız. TSMC, Samsung ve Intel'in üçü de hyperscaler talebine yetişmek için amiral gemisi GPU üretimine yüklenmiş durumda; ayrıca yarı iletken sektörü siyaset, ticaret, yapay zeka, black swan olayları gibi pek çok değişken nedeniyle öngörmesi zor bir dönemden geçiyor