- 2024 yılı boyunca hem metin hem de görsel üretimi alanlarında büyük ilerlemeler yaşandı
- OpenAI'nin tek başına önde gittiği ilk dönemin aksine, geçen yılın sonunda Anthropic, DeepSeek, Qwen gibi çeşitli araştırma laboratuvarları rekabetçi biçimde cepheyi genişletiyor
- 2024~2025 araştırma eğilimleri derleniyor ve gelecekte umut vadeden alanlar kısaca özetleniyor
> “Yalnızca kapalı kaynak üzerine inşa edilen hendek uzun ömürlü olmaz
> OpenAI de başkalarının takibini engelleyemeyecek
> Sonunda asıl hendek, kendi organizasyonumuzu ve kültürümüzü büyütüp yenilik yapabilecek insanları yetiştirmektir”
> ─ Liang Wenfeng, CEO of DeepSeek
# Language
- Büyük dil modelleri (LLM), mevcut yapay zeka dalgasının merkezinde yer alıyor ve en fazla araştırma ile yatırım bu alana yapılıyor
- 2024'te hem model performansında hem de yeni ölçekleme paradigmalarında büyük ilerlemeler oldu
- Architecture
- Yeni mimariler (Mamba, xLSTM vb.) denendi, ancak en azından şimdilik decoder-only Transformer'ın ana akım olarak kalması bekleniyor
- Dense Transformer
- Llama 3 bunun öne çıkan örneği ve Meta, vanilla Dense Transformer'ı sınırlarına kadar optimize ediyor
- Noam Transformer olarak adlandırılan biçim (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE vb.) fiili standart haline gelmiş durumda
- DeepSeek'in sunduğu Multi Latent Attention (MLA) gibi yaklaşımlar daha fazla ilgi görecek gibi duruyor; ayrıca RoPE'yi değiştiren ya da onun yerine geçen tekniklerin ortaya çıkması da olası
- Mixture-of-Experts
- GPT-4'ün devasa bir MoE olduğu söylentileri yayılırken, bu yaklaşım 2024'te yeniden öne çıktı
- Açık kaynak tarafında Mistral'ın Mixtral'i ile DeepSeek v2·v3 öne çıkan örnekler
- MoE'nin dezavantajı servise almak açısından kolay olmaması, ancak DeepSeek bu konuda aktif biçimde araştırma yürütüyor
- İleride yönlendirme mekanizmaları, her katmanda MoE uygulama biçimleri ve uzmanların yorumlanabilirliği etrafında farklı yönlerde araştırmalar bekleniyor
- Tokenization
- Byte Pair Encoding'in yerini alacak bir yeniliğe ihtiyaç olduğunu düşünenler çok, ancak henüz büyük bir sorun yaratmadığı için kullanım sürüyor
- Meta, CoT'nin latent space içinde işlenmesi (byte-based) veya Transformer'ın doğrudan byte düzeyinde eğitilmesi gibi iki yaklaşım önererek ilgi çekti
- Byte Latent Transformer (BLT), byte girdilerini işlemek için Encoder/Decoder yapısını kullanıyor
- Byte decoder kalitesinin darboğaz haline gelip gelmeyeceğine dair kaygılar var
- Reasoning
- 2024'ün ikinci yarısında modellerin matematik, bilim ve kodlama alanlarındaki akıl yürütme yetenekleri hızla gelişti (o1, o3, DeepSeek r1 vb.)
- Bu durum, “inference-time compute” adlı yeni bir ölçekleme paradigmasıyla bağlantılı
- Modelin çok uzun Chain of Thought üretip bu süreci kendi içinde doğrulaması ve kullanması söz konusu
- OpenAI'nin o1 ve o3'ü nasıl geliştirdiği açıklanmadı, ancak “Let’s Verify Step by Step” makalesi gibi RL yaklaşımlarını kullanmış olmaları muhtemel görünüyor
- Gelecekte Anthropic veya diğer laboratuvarların da benzer reasoner modeller sunması bekleniyor
- Yalnızca STEM alanlarına odaklanan yapıdan çıkıp daha geniş alanlara da (yaratıcı yazarlık vb.) uygulanıp uygulanamayacağı merak konusu
- Distillation
- OpenAI'nin o1'i yayınladığında Chain of Thought'u paylaşmamasının, model çıktılarıyla yeniden eğitim yapma örneklerinin (DeepSeek v3 vb.) performans artışına ciddi katkı sağlamasıyla ilgili olabileceği tahmin ediliyor
- DeepSeek v3, reasoner türü modellerdeki uzun CoT'yi aynen yeniden üretmiyor gibi görünse de, içeride modları ayırıp gerekli durumlarda akıl yürüttüğü anlaşılıyor
- Küçük modellerin (o1-mini vb.) büyük model performansına ne kadar yaklaşabildiği ya da içeride gizli damıtma teknikleri olup olmadığı da ilginç bir araştırma konusu
# Image
- Görsel alanına birçok küçük ve orta ölçekli araştırma laboratuvarı girdiği için yenilikler hızla ilerliyor
- Bugünün başlıca modelleri (Flux, Stable Diffusion 3, MidJourney, Sora vb.) Diffusion Transformer tabanlı ve Flow Matching çerçevesi ana akım durumda
- Architecture
- Diffusion Transformer ile adaptif normalizasyon ve MM-DIT yapılarının birleştiği biçimler yaygın olarak kullanılıyor
- Metin kodlayıcıyı CLIP yerine daha küçük LLM'lerle değiştirme girişimlerinin 2025'te artması bekleniyor
- Framework
- Geleneksel olasılıksal yaklaşım yerine Flow Matching yöntemini tercih eden bir eğilim oluşmuş durumda
- AutoRegressive modellerin yeniden yükselişe geçmesi de mümkün; Visual Autoregressive Modelling makalesi büyük ilgi gördü
- xAI'nin açıkladığı görsel üretim tekniğinin de autoregressive olduğu tahmin ediliyor, ancak bunun somut nedenleri bilinmiyor
# Multimodality
- OpenAI, Anthropic gibi şirketler zaten modele görsel girdi verme özelliği sunuyordu, ancak 2024'ün ilk yarısında daha açık biçimde çok modlu araştırmalar hızlandı
- Visual Language Models
- Qwen, PaliGemma gibi çeşitli VLM'ler ortaya çıktı ve görsel açıklama üretimi ya da belge ayrıştırma gibi işlerde kullanıldı
- Vision Transformer ile önceden eğitilmiş LLM'yi birleştiren yapı standart haline geldi
- 2025'te bu VLM'lerin Omni-Models altında birleşmesi bekleniyor
- Omni-Modal Models
- OpenAI, GPT-4o ile görsel de üretebilen bir örnek gösterdi, ancak tam bir açıklama paylaşılmadı
- Chameleon gibi çalışmalarda görsel tokenizer + detokenizer kullanan erken füzyon modelleri denendi
- Metin dışı çıktıları da discrete token olarak ele alan yaklaşım hakkında lehte ve aleyhte tartışmalar var
- Llama 4'ün erken aşamada omnimodal olarak eğitildiğine dair söylentiler beklenti yaratıyor
# Agents and Human-AI Interfaces
- “AI Agent” tanımı belirsiz olsa da, burada LLM'ye araç kullanma yetkisi verilip hedefe kendi başına ulaşması beklenen yapıyı şimdilik ajan olarak adlandırıyoruz
- SWE-Bench ölçütüne göre 2025 sonuna kadar kod hata ayıklama ve özellik geliştirme işlerinin belli bir düzeyde otomatikleşmesi bekleniyor
- Ancak bunun mühendislerin yerini alacak seviyeye gelmesi için henüz erken; önce seyahat planı veya bilgi arama gibi hata toleransının daha yüksek olduğu alanlarda yaygınlaşması öngörülüyor
- Cursor gibi editör tabanlı arayüzler, ajan kullanımına daha uygun olabilir
- Ajan çağrıları yüksek token maliyetine sahip olduğundan, tamamen otonom ajanların maliyet/verim açısından gerçekten avantajlı olup olmayacağı belirsiz
# 2025
- Yapay zekanın çok hızlı geliştiği sözü artık tanıdık gelse de, gerçekte değişim o kadar büyük ki hızını ölçmek bile zor
- Bu yazı yalnızca metin ve görsel odaklı mevcut durumu ve 2025'e dair beklentileri kısaca ele alıyor. Kapsanmayan ama dikkat çekici alanlar arasında şunlar var:
- Eğitim optimizasyonu (Muon, NanoGPT speedruns)
- Video modelleri (tutarlılık ve çıkarım hızı sorunlarının çözülmesi)
- Quantization (1-bit quantization, FP8 altı hassasiyet vb.)
- Model yorumlanabilirliği araştırmaları
- Değerlendirme ve benchmark'lar (SWE-Bench gibi gerçek işe dayalı değerlendirmelerin artması umuluyor)
- 2025'te daha fazla ilerleme yaşanması umuluyor
2 yorum
Teşekkür ederim
Düzenli özet için teşekkürler