Üretken modellerin mevcut durumu
(nrehiew.github.io)- 2024 yılı boyunca hem metin hem de görsel üretimi alanlarında büyük ilerlemeler yaşandı
- OpenAI'nin tek başına önde gittiği ilk dönemin aksine, geçen yılın sonunda Anthropic, DeepSeek, Qwen gibi çeşitli araştırma laboratuvarları rekabetçi biçimde cepheyi genişletiyor
- 2024~2025 araştırma eğilimleri derleniyor ve gelecekte umut vadeden alanlar kısaca özetleniyor
“Yalnızca kapalı kaynak üzerine inşa edilen hendek uzun ömürlü olmaz
OpenAI de başkalarının takibini engelleyemeyecek
Sonunda asıl hendek, kendi organizasyonumuzu ve kültürümüzü büyütüp yenilik yapabilecek insanları yetiştirmektir”
─ Liang Wenfeng, CEO of DeepSeek
# Language
- Büyük dil modelleri (LLM), mevcut yapay zeka dalgasının merkezinde yer alıyor ve en fazla araştırma ile yatırım bu alana yapılıyor
- 2024'te hem model performansında hem de yeni ölçekleme paradigmalarında büyük ilerlemeler oldu
- Architecture
- Yeni mimariler (Mamba, xLSTM vb.) denendi, ancak en azından şimdilik decoder-only Transformer'ın ana akım olarak kalması bekleniyor
- Dense Transformer
- Llama 3 bunun öne çıkan örneği ve Meta, vanilla Dense Transformer'ı sınırlarına kadar optimize ediyor
- Noam Transformer olarak adlandırılan biçim (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE vb.) fiili standart haline gelmiş durumda
- DeepSeek'in sunduğu Multi Latent Attention (MLA) gibi yaklaşımlar daha fazla ilgi görecek gibi duruyor; ayrıca RoPE'yi değiştiren ya da onun yerine geçen tekniklerin ortaya çıkması da olası
- Mixture-of-Experts
- GPT-4'ün devasa bir MoE olduğu söylentileri yayılırken, bu yaklaşım 2024'te yeniden öne çıktı
- Açık kaynak tarafında Mistral'ın Mixtral'i ile DeepSeek v2·v3 öne çıkan örnekler
- MoE'nin dezavantajı servise almak açısından kolay olmaması, ancak DeepSeek bu konuda aktif biçimde araştırma yürütüyor
- İleride yönlendirme mekanizmaları, her katmanda MoE uygulama biçimleri ve uzmanların yorumlanabilirliği etrafında farklı yönlerde araştırmalar bekleniyor
- Tokenization
- Byte Pair Encoding'in yerini alacak bir yeniliğe ihtiyaç olduğunu düşünenler çok, ancak henüz büyük bir sorun yaratmadığı için kullanım sürüyor
- Meta, CoT'nin latent space içinde işlenmesi (byte-based) veya Transformer'ın doğrudan byte düzeyinde eğitilmesi gibi iki yaklaşım önererek ilgi çekti
- Byte Latent Transformer (BLT), byte girdilerini işlemek için Encoder/Decoder yapısını kullanıyor
- Byte decoder kalitesinin darboğaz haline gelip gelmeyeceğine dair kaygılar var
- Reasoning
- 2024'ün ikinci yarısında modellerin matematik, bilim ve kodlama alanlarındaki akıl yürütme yetenekleri hızla gelişti (o1, o3, DeepSeek r1 vb.)
- Bu durum, “inference-time compute” adlı yeni bir ölçekleme paradigmasıyla bağlantılı
- Modelin çok uzun Chain of Thought üretip bu süreci kendi içinde doğrulaması ve kullanması söz konusu
- OpenAI'nin o1 ve o3'ü nasıl geliştirdiği açıklanmadı, ancak “Let’s Verify Step by Step” makalesi gibi RL yaklaşımlarını kullanmış olmaları muhtemel görünüyor
- Gelecekte Anthropic veya diğer laboratuvarların da benzer reasoner modeller sunması bekleniyor
- Yalnızca STEM alanlarına odaklanan yapıdan çıkıp daha geniş alanlara da (yaratıcı yazarlık vb.) uygulanıp uygulanamayacağı merak konusu
- Distillation
- OpenAI'nin o1'i yayınladığında Chain of Thought'u paylaşmamasının, model çıktılarıyla yeniden eğitim yapma örneklerinin (DeepSeek v3 vb.) performans artışına ciddi katkı sağlamasıyla ilgili olabileceği tahmin ediliyor
- DeepSeek v3, reasoner türü modellerdeki uzun CoT'yi aynen yeniden üretmiyor gibi görünse de, içeride modları ayırıp gerekli durumlarda akıl yürüttüğü anlaşılıyor
- Küçük modellerin (o1-mini vb.) büyük model performansına ne kadar yaklaşabildiği ya da içeride gizli damıtma teknikleri olup olmadığı da ilginç bir araştırma konusu
# Image
- Görsel alanına birçok küçük ve orta ölçekli araştırma laboratuvarı girdiği için yenilikler hızla ilerliyor
- Bugünün başlıca modelleri (Flux, Stable Diffusion 3, MidJourney, Sora vb.) Diffusion Transformer tabanlı ve Flow Matching çerçevesi ana akım durumda
- Architecture
- Diffusion Transformer ile adaptif normalizasyon ve MM-DIT yapılarının birleştiği biçimler yaygın olarak kullanılıyor
- Metin kodlayıcıyı CLIP yerine daha küçük LLM'lerle değiştirme girişimlerinin 2025'te artması bekleniyor
- Framework
- Geleneksel olasılıksal yaklaşım yerine Flow Matching yöntemini tercih eden bir eğilim oluşmuş durumda
- AutoRegressive modellerin yeniden yükselişe geçmesi de mümkün; Visual Autoregressive Modelling makalesi büyük ilgi gördü
- xAI'nin açıkladığı görsel üretim tekniğinin de autoregressive olduğu tahmin ediliyor, ancak bunun somut nedenleri bilinmiyor
# Multimodality
- OpenAI, Anthropic gibi şirketler zaten modele görsel girdi verme özelliği sunuyordu, ancak 2024'ün ilk yarısında daha açık biçimde çok modlu araştırmalar hızlandı
- Visual Language Models
- Qwen, PaliGemma gibi çeşitli VLM'ler ortaya çıktı ve görsel açıklama üretimi ya da belge ayrıştırma gibi işlerde kullanıldı
- Vision Transformer ile önceden eğitilmiş LLM'yi birleştiren yapı standart haline geldi
- 2025'te bu VLM'lerin Omni-Models altında birleşmesi bekleniyor
- Omni-Modal Models
- OpenAI, GPT-4o ile görsel de üretebilen bir örnek gösterdi, ancak tam bir açıklama paylaşılmadı
- Chameleon gibi çalışmalarda görsel tokenizer + detokenizer kullanan erken füzyon modelleri denendi
- Metin dışı çıktıları da discrete token olarak ele alan yaklaşım hakkında lehte ve aleyhte tartışmalar var
- Llama 4'ün erken aşamada omnimodal olarak eğitildiğine dair söylentiler beklenti yaratıyor
# Agents and Human-AI Interfaces
- “AI Agent” tanımı belirsiz olsa da, burada LLM'ye araç kullanma yetkisi verilip hedefe kendi başına ulaşması beklenen yapıyı şimdilik ajan olarak adlandırıyoruz
- SWE-Bench ölçütüne göre 2025 sonuna kadar kod hata ayıklama ve özellik geliştirme işlerinin belli bir düzeyde otomatikleşmesi bekleniyor
- Ancak bunun mühendislerin yerini alacak seviyeye gelmesi için henüz erken; önce seyahat planı veya bilgi arama gibi hata toleransının daha yüksek olduğu alanlarda yaygınlaşması öngörülüyor
- Cursor gibi editör tabanlı arayüzler, ajan kullanımına daha uygun olabilir
- Ajan çağrıları yüksek token maliyetine sahip olduğundan, tamamen otonom ajanların maliyet/verim açısından gerçekten avantajlı olup olmayacağı belirsiz
# 2025
- Yapay zekanın çok hızlı geliştiği sözü artık tanıdık gelse de, gerçekte değişim o kadar büyük ki hızını ölçmek bile zor
- Bu yazı yalnızca metin ve görsel odaklı mevcut durumu ve 2025'e dair beklentileri kısaca ele alıyor. Kapsanmayan ama dikkat çekici alanlar arasında şunlar var:
- Eğitim optimizasyonu (Muon, NanoGPT speedruns)
- Video modelleri (tutarlılık ve çıkarım hızı sorunlarının çözülmesi)
- Quantization (1-bit quantization, FP8 altı hassasiyet vb.)
- Model yorumlanabilirliği araştırmaları
- Değerlendirme ve benchmark'lar (SWE-Bench gibi gerçek işe dayalı değerlendirmelerin artması umuluyor)
- 2025'te daha fazla ilerleme yaşanması umuluyor
2 yorum
Teşekkür ederim
Düzenli özet için teşekkürler