Üretken modellerin mevcut durumu

xguru · 2025-01-06T10:21:01+09:00

2024 yılı boyunca hem metin hem de görsel üretimi alanlarında büyük ilerlemeler yaşandı OpenAI'nin tek başına önde gittiği ilk dönemin aksine, geçen yılın sonunda Anthropic, DeepSeek, Qwen gibi çeşitli araştırma laboratuvarları rekabetçi biçimde cepheyi genişletiyor 2024~2025 araştırma eğilimleri derleniyor ve gelecekte umut vadeden alanlar kısaca özetleniyor > “Yalnızca kapalı kaynak üzerine inşa edilen hendek uzun ömürlü olmaz > OpenAI de başkalarının takibini engelleyemeyecek > Sonunda asıl hendek, kendi organizasyonumuzu ve kültürümüzü büyütüp yenilik yapabilecek insanları yetiştirmektir” > ─ Liang Wenfeng, CEO of DeepSeek # Language Büyük dil modelleri (LLM), mevcut yapay zeka dalgasının merkezinde yer alıyor ve en fazla araştırma ile yatırım bu alana yapılıyor 2024'te hem model performansında hem de yeni ölçekleme paradigmalarında büyük ilerlemeler oldu Architecture Yeni mimariler (Mamba, xLSTM vb.) denendi, ancak en azından şimdilik decoder-only Transformer'ın ana akım olarak kalması bekleniyor Dense Transformer Llama 3 bunun öne çıkan örneği ve Meta, vanilla Dense Transformer'ı sınırlarına kadar optimize ediyor Noam Transformer olarak adlandırılan biçim (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE vb.) fiili standart haline gelmiş durumda DeepSeek'in sunduğu Multi Latent Attention (MLA) gibi yaklaşımlar daha fazla ilgi görecek gibi duruyor; ayrıca RoPE'yi değiştiren ya da onun yerine geçen tekniklerin ortaya çıkması da olası Mixture-of-Experts GPT-4'ün devasa bir MoE olduğu söylentileri yayılırken, bu yaklaşım 2024'te yeniden öne çıktı Açık kaynak tarafında Mistral'ın Mixtral'i ile DeepSeek v2·v3 öne çıkan örnekler MoE'nin dezavantajı servise almak açısından kolay olmaması, ancak DeepSeek bu konuda aktif biçimde araştırma yürütüyor İleride yönlendirme mekanizmaları, her katmanda MoE uygulama biçimleri ve uzmanların yorumlanabilirliği etrafında farklı yönlerde araştırmalar bekleniyor Tokenization Byte Pair Encoding'in yerini alacak bir yeniliğe ihtiyaç olduğunu düşünenler çok, ancak henüz büyük bir sorun yaratmadığı için kullanım sürüyor Meta, CoT'nin latent space içinde işlenmesi (byte-based) veya Transformer'ın doğrudan byte düzeyinde eğitilmesi gibi iki yaklaşım önererek ilgi çekti Byte Latent Transformer (BLT), byte girdilerini işlemek için Encoder/Decoder yapısını kullanıyor Byte decoder kalitesinin darboğaz haline gelip gelmeyeceğine dair kaygılar var Reasoning 2024'ün ikinci yarısında modellerin matematik, bilim ve kodlama alanlarındaki akıl yürütme yetenekleri hızla gelişti (o1, o3, DeepSeek r1 vb.) Bu durum, “inference-time compute” adlı yeni bir ölçekleme paradigmasıyla bağlantılı Modelin çok uzun Chain of Thought üretip bu süreci kendi içinde doğrulaması ve kullanması söz konusu OpenAI'nin o1 ve o3'ü nasıl geliştirdiği açıklanmadı, ancak “Let’s Verify Step by Step” makalesi gibi RL yaklaşımlarını kullanmış olmaları muhtemel görünüyor Gelecekte Anthropic veya diğer laboratuvarların da benzer reasoner modeller sunması bekleniyor Yalnızca STEM alanlarına odaklanan yapıdan çıkıp daha geniş alanlara da (yaratıcı yazarlık vb.) uygulanıp uygulanamayacağı merak konusu Distillation OpenAI'nin o1'i yayınladığında Chain of Thought'u paylaşmamasının, model çıktılarıyla yeniden eğitim yapma örneklerinin (DeepSeek v3 vb.) performans artışına ciddi katkı sağlamasıyla ilgili olabileceği tahmin ediliyor DeepSeek v3, reasoner türü modellerdeki uzun CoT'yi aynen yeniden üretmiyor gibi görünse de, içeride modları ayırıp gerekli durumlarda akıl yürüttüğü anlaşılıyor Küçük modellerin (o1-mini vb.) büyük model performansına ne kadar yaklaşabildiği ya da içeride gizli damıtma teknikleri olup olmadığı da ilginç bir araştırma konusu # Image Görsel alanına birçok küçük ve orta ölçekli araştırma laboratuvarı girdiği için yenilikler hızla ilerliyor Bugünün başlıca modelleri (Flux, Stable Diffusion 3, MidJourney, Sora vb.) Diffusion Transformer tabanlı ve Flow Matching çerçevesi ana akım durumda Architecture Diffusion Transformer ile adaptif normalizasyon ve MM-DIT yapılarının birleştiği biçimler yaygın olarak kullanılıyor Metin kodlayıcıyı CLIP yerine daha küçük LLM'lerle değiştirme girişimlerinin 2025'te artması bekleniyor Framework Geleneksel olasılıksal yaklaşım yerine Flow Matching yöntemini tercih eden bir eğilim oluşmuş durumda AutoRegressive modellerin yeniden yükselişe geçmesi de mümkün; Visual Autoregressive Modelling makalesi büyük ilgi gördü xAI'nin açıkladığı görsel üretim tekniğinin de autoregressive olduğu tahmin ediliyor, ancak bunun somut nedenleri bilinmiyor # Multimodality OpenAI, Anthropic gibi şirketler zaten modele görsel girdi verme özelliği sunuyordu, ancak 2024'ün ilk yarısında daha açık biçimde çok modlu araştırmalar hızlandı Visual Language Models Qwen, PaliGemma gibi çeşitli VLM'ler ortaya çıktı ve görsel açıklama üretimi ya da belge ayrıştırma gibi işlerde kullanıldı Vision Transformer ile önceden eğitilmiş LLM'yi birleştiren yapı standart haline geldi 2025'te bu VLM'lerin Omni-Models altında birleşmesi bekleniyor Omni-Modal Models OpenAI, GPT-4o ile görsel de üretebilen bir örnek gösterdi, ancak tam bir açıklama paylaşılmadı Chameleon gibi çalışmalarda görsel tokenizer + detokenizer kullanan erken füzyon modelleri denendi Metin dışı çıktıları da discrete token olarak ele alan yaklaşım hakkında lehte ve aleyhte tartışmalar var Llama 4'ün erken aşamada omnimodal olarak eğitildiğine dair söylentiler beklenti yaratıyor # Agents and Human-AI Interfaces “AI Agent” tanımı belirsiz olsa da, burada LLM'ye araç kullanma yetkisi verilip hedefe kendi başına ulaşması beklenen yapıyı şimdilik ajan olarak adlandırıyoruz SWE-Bench ölçütüne göre 2025 sonuna kadar kod hata ayıklama ve özellik geliştirme işlerinin belli bir düzeyde otomatikleşmesi bekleniyor Ancak bunun mühendislerin yerini alacak seviyeye gelmesi için henüz erken; önce seyahat planı veya bilgi arama gibi hata toleransının daha yüksek olduğu alanlarda yaygınlaşması öngörülüyor Cursor gibi editör tabanlı arayüzler, ajan kullanımına daha uygun olabilir Ajan çağrıları yüksek token maliyetine sahip olduğundan, tamamen otonom ajanların maliyet/verim açısından gerçekten avantajlı olup olmayacağı belirsiz # 2025 Yapay zekanın çok hızlı geliştiği sözü artık tanıdık gelse de, gerçekte değişim o kadar büyük ki hızını ölçmek bile zor Bu yazı yalnızca metin ve görsel odaklı mevcut durumu ve 2025'e dair beklentileri kısaca ele alıyor. Kapsanmayan ama dikkat çekici alanlar arasında şunlar var: Eğitim optimizasyonu (Muon, NanoGPT speedruns) Video modelleri (tutarlılık ve çıkarım hızı sorunlarının çözülmesi) Quantization (1-bit quantization, FP8 altı hassasiyet vb.) Model yorumlanabilirliği araştırmaları Değerlendirme ve benchmark'lar (SWE-Bench gibi gerçek işe dayalı değerlendirmelerin artması umuluyor) 2025'te daha fazla ilerleme yaşanması umuluyor

(nrehiew.github.io)

20 puan yazan xguru 2025-01-06 | 2 yorum | WhatsApp'ta paylaş

2024 yılı boyunca hem metin hem de görsel üretimi alanlarında büyük ilerlemeler yaşandı
OpenAI'nin tek başına önde gittiği ilk dönemin aksine, geçen yılın sonunda Anthropic, DeepSeek, Qwen gibi çeşitli araştırma laboratuvarları rekabetçi biçimde cepheyi genişletiyor
2024~2025 araştırma eğilimleri derleniyor ve gelecekte umut vadeden alanlar kısaca özetleniyor
> “Yalnızca kapalı kaynak üzerine inşa edilen hendek uzun ömürlü olmaz
> OpenAI de başkalarının takibini engelleyemeyecek
> Sonunda asıl hendek, kendi organizasyonumuzu ve kültürümüzü büyütüp yenilik yapabilecek insanları yetiştirmektir”
> ─ Liang Wenfeng, CEO of DeepSeek

# Language

Büyük dil modelleri (LLM), mevcut yapay zeka dalgasının merkezinde yer alıyor ve en fazla araştırma ile yatırım bu alana yapılıyor
2024'te hem model performansında hem de yeni ölçekleme paradigmalarında büyük ilerlemeler oldu
Architecture
- Yeni mimariler (Mamba, xLSTM vb.) denendi, ancak en azından şimdilik decoder-only Transformer'ın ana akım olarak kalması bekleniyor
- Dense Transformer
  - Llama 3 bunun öne çıkan örneği ve Meta, vanilla Dense Transformer'ı sınırlarına kadar optimize ediyor
  - Noam Transformer olarak adlandırılan biçim (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE vb.) fiili standart haline gelmiş durumda
  - DeepSeek'in sunduğu Multi Latent Attention (MLA) gibi yaklaşımlar daha fazla ilgi görecek gibi duruyor; ayrıca RoPE'yi değiştiren ya da onun yerine geçen tekniklerin ortaya çıkması da olası
- Mixture-of-Experts
  - GPT-4'ün devasa bir MoE olduğu söylentileri yayılırken, bu yaklaşım 2024'te yeniden öne çıktı
  - Açık kaynak tarafında Mistral'ın Mixtral'i ile DeepSeek v2·v3 öne çıkan örnekler
  - MoE'nin dezavantajı servise almak açısından kolay olmaması, ancak DeepSeek bu konuda aktif biçimde araştırma yürütüyor
  - İleride yönlendirme mekanizmaları, her katmanda MoE uygulama biçimleri ve uzmanların yorumlanabilirliği etrafında farklı yönlerde araştırmalar bekleniyor
Tokenization
- Byte Pair Encoding'in yerini alacak bir yeniliğe ihtiyaç olduğunu düşünenler çok, ancak henüz büyük bir sorun yaratmadığı için kullanım sürüyor
- Meta, CoT'nin latent space içinde işlenmesi (byte-based) veya Transformer'ın doğrudan byte düzeyinde eğitilmesi gibi iki yaklaşım önererek ilgi çekti
- Byte Latent Transformer (BLT), byte girdilerini işlemek için Encoder/Decoder yapısını kullanıyor
- Byte decoder kalitesinin darboğaz haline gelip gelmeyeceğine dair kaygılar var
Reasoning
- 2024'ün ikinci yarısında modellerin matematik, bilim ve kodlama alanlarındaki akıl yürütme yetenekleri hızla gelişti (o1, o3, DeepSeek r1 vb.)
- Bu durum, “inference-time compute” adlı yeni bir ölçekleme paradigmasıyla bağlantılı
  - Modelin çok uzun Chain of Thought üretip bu süreci kendi içinde doğrulaması ve kullanması söz konusu
- OpenAI'nin o1 ve o3'ü nasıl geliştirdiği açıklanmadı, ancak “Let’s Verify Step by Step” makalesi gibi RL yaklaşımlarını kullanmış olmaları muhtemel görünüyor
- Gelecekte Anthropic veya diğer laboratuvarların da benzer reasoner modeller sunması bekleniyor
- Yalnızca STEM alanlarına odaklanan yapıdan çıkıp daha geniş alanlara da (yaratıcı yazarlık vb.) uygulanıp uygulanamayacağı merak konusu
Distillation
- OpenAI'nin o1'i yayınladığında Chain of Thought'u paylaşmamasının, model çıktılarıyla yeniden eğitim yapma örneklerinin (DeepSeek v3 vb.) performans artışına ciddi katkı sağlamasıyla ilgili olabileceği tahmin ediliyor
- DeepSeek v3, reasoner türü modellerdeki uzun CoT'yi aynen yeniden üretmiyor gibi görünse de, içeride modları ayırıp gerekli durumlarda akıl yürüttüğü anlaşılıyor
- Küçük modellerin (o1-mini vb.) büyük model performansına ne kadar yaklaşabildiği ya da içeride gizli damıtma teknikleri olup olmadığı da ilginç bir araştırma konusu

# Image

Görsel alanına birçok küçük ve orta ölçekli araştırma laboratuvarı girdiği için yenilikler hızla ilerliyor
Bugünün başlıca modelleri (Flux, Stable Diffusion 3, MidJourney, Sora vb.) Diffusion Transformer tabanlı ve Flow Matching çerçevesi ana akım durumda
Architecture
- Diffusion Transformer ile adaptif normalizasyon ve MM-DIT yapılarının birleştiği biçimler yaygın olarak kullanılıyor
- Metin kodlayıcıyı CLIP yerine daha küçük LLM'lerle değiştirme girişimlerinin 2025'te artması bekleniyor
Framework
- Geleneksel olasılıksal yaklaşım yerine Flow Matching yöntemini tercih eden bir eğilim oluşmuş durumda
- AutoRegressive modellerin yeniden yükselişe geçmesi de mümkün; Visual Autoregressive Modelling makalesi büyük ilgi gördü
- xAI'nin açıkladığı görsel üretim tekniğinin de autoregressive olduğu tahmin ediliyor, ancak bunun somut nedenleri bilinmiyor

# Multimodality

OpenAI, Anthropic gibi şirketler zaten modele görsel girdi verme özelliği sunuyordu, ancak 2024'ün ilk yarısında daha açık biçimde çok modlu araştırmalar hızlandı
Visual Language Models
- Qwen, PaliGemma gibi çeşitli VLM'ler ortaya çıktı ve görsel açıklama üretimi ya da belge ayrıştırma gibi işlerde kullanıldı
- Vision Transformer ile önceden eğitilmiş LLM'yi birleştiren yapı standart haline geldi
- 2025'te bu VLM'lerin Omni-Models altında birleşmesi bekleniyor
Omni-Modal Models
- OpenAI, GPT-4o ile görsel de üretebilen bir örnek gösterdi, ancak tam bir açıklama paylaşılmadı
- Chameleon gibi çalışmalarda görsel tokenizer + detokenizer kullanan erken füzyon modelleri denendi
- Metin dışı çıktıları da discrete token olarak ele alan yaklaşım hakkında lehte ve aleyhte tartışmalar var
- Llama 4'ün erken aşamada omnimodal olarak eğitildiğine dair söylentiler beklenti yaratıyor

# Agents and Human-AI Interfaces

“AI Agent” tanımı belirsiz olsa da, burada LLM'ye araç kullanma yetkisi verilip hedefe kendi başına ulaşması beklenen yapıyı şimdilik ajan olarak adlandırıyoruz
SWE-Bench ölçütüne göre 2025 sonuna kadar kod hata ayıklama ve özellik geliştirme işlerinin belli bir düzeyde otomatikleşmesi bekleniyor
Ancak bunun mühendislerin yerini alacak seviyeye gelmesi için henüz erken; önce seyahat planı veya bilgi arama gibi hata toleransının daha yüksek olduğu alanlarda yaygınlaşması öngörülüyor
Cursor gibi editör tabanlı arayüzler, ajan kullanımına daha uygun olabilir
Ajan çağrıları yüksek token maliyetine sahip olduğundan, tamamen otonom ajanların maliyet/verim açısından gerçekten avantajlı olup olmayacağı belirsiz

# 2025

Yapay zekanın çok hızlı geliştiği sözü artık tanıdık gelse de, gerçekte değişim o kadar büyük ki hızını ölçmek bile zor
Bu yazı yalnızca metin ve görsel odaklı mevcut durumu ve 2025'e dair beklentileri kısaca ele alıyor. Kapsanmayan ama dikkat çekici alanlar arasında şunlar var:
- Eğitim optimizasyonu (Muon, NanoGPT speedruns)
- Video modelleri (tutarlılık ve çıkarım hızı sorunlarının çözülmesi)
- Quantization (1-bit quantization, FP8 altı hassasiyet vb.)
- Model yorumlanabilirliği araştırmaları
- Değerlendirme ve benchmark'lar (SWE-Bench gibi gerçek işe dayalı değerlendirmelerin artması umuluyor)
2025'te daha fazla ilerleme yaşanması umuluyor

2 yorum

lonzino 2025-01-06

Teşekkür ederim

zkdlfrlwl2 2025-01-06

Düzenli özet için teşekkürler