20 puan yazan xguru 2025-01-06 | 2 yorum | WhatsApp'ta paylaş
  • 2024 yılı boyunca hem metin hem de görsel üretimi alanlarında büyük ilerlemeler yaşandı
  • OpenAI'nin tek başına önde gittiği ilk dönemin aksine, geçen yılın sonunda Anthropic, DeepSeek, Qwen gibi çeşitli araştırma laboratuvarları rekabetçi biçimde cepheyi genişletiyor
  • 2024~2025 araştırma eğilimleri derleniyor ve gelecekte umut vadeden alanlar kısaca özetleniyor
    > “Yalnızca kapalı kaynak üzerine inşa edilen hendek uzun ömürlü olmaz
    > OpenAI de başkalarının takibini engelleyemeyecek
    > Sonunda asıl hendek, kendi organizasyonumuzu ve kültürümüzü büyütüp yenilik yapabilecek insanları yetiştirmektir”
    > ─ Liang Wenfeng, CEO of DeepSeek

# Language

  • Büyük dil modelleri (LLM), mevcut yapay zeka dalgasının merkezinde yer alıyor ve en fazla araştırma ile yatırım bu alana yapılıyor
  • 2024'te hem model performansında hem de yeni ölçekleme paradigmalarında büyük ilerlemeler oldu
  • Architecture
    • Yeni mimariler (Mamba, xLSTM vb.) denendi, ancak en azından şimdilik decoder-only Transformer'ın ana akım olarak kalması bekleniyor
    • Dense Transformer
      • Llama 3 bunun öne çıkan örneği ve Meta, vanilla Dense Transformer'ı sınırlarına kadar optimize ediyor
      • Noam Transformer olarak adlandırılan biçim (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE vb.) fiili standart haline gelmiş durumda
      • DeepSeek'in sunduğu Multi Latent Attention (MLA) gibi yaklaşımlar daha fazla ilgi görecek gibi duruyor; ayrıca RoPE'yi değiştiren ya da onun yerine geçen tekniklerin ortaya çıkması da olası
    • Mixture-of-Experts
      • GPT-4'ün devasa bir MoE olduğu söylentileri yayılırken, bu yaklaşım 2024'te yeniden öne çıktı
      • Açık kaynak tarafında Mistral'ın Mixtral'i ile DeepSeek v2·v3 öne çıkan örnekler
      • MoE'nin dezavantajı servise almak açısından kolay olmaması, ancak DeepSeek bu konuda aktif biçimde araştırma yürütüyor
      • İleride yönlendirme mekanizmaları, her katmanda MoE uygulama biçimleri ve uzmanların yorumlanabilirliği etrafında farklı yönlerde araştırmalar bekleniyor
  • Tokenization
    • Byte Pair Encoding'in yerini alacak bir yeniliğe ihtiyaç olduğunu düşünenler çok, ancak henüz büyük bir sorun yaratmadığı için kullanım sürüyor
    • Meta, CoT'nin latent space içinde işlenmesi (byte-based) veya Transformer'ın doğrudan byte düzeyinde eğitilmesi gibi iki yaklaşım önererek ilgi çekti
    • Byte Latent Transformer (BLT), byte girdilerini işlemek için Encoder/Decoder yapısını kullanıyor
    • Byte decoder kalitesinin darboğaz haline gelip gelmeyeceğine dair kaygılar var
  • Reasoning
    • 2024'ün ikinci yarısında modellerin matematik, bilim ve kodlama alanlarındaki akıl yürütme yetenekleri hızla gelişti (o1, o3, DeepSeek r1 vb.)
    • Bu durum, “inference-time compute” adlı yeni bir ölçekleme paradigmasıyla bağlantılı
      • Modelin çok uzun Chain of Thought üretip bu süreci kendi içinde doğrulaması ve kullanması söz konusu
    • OpenAI'nin o1 ve o3'ü nasıl geliştirdiği açıklanmadı, ancak “Let’s Verify Step by Step” makalesi gibi RL yaklaşımlarını kullanmış olmaları muhtemel görünüyor
    • Gelecekte Anthropic veya diğer laboratuvarların da benzer reasoner modeller sunması bekleniyor
    • Yalnızca STEM alanlarına odaklanan yapıdan çıkıp daha geniş alanlara da (yaratıcı yazarlık vb.) uygulanıp uygulanamayacağı merak konusu
  • Distillation
    • OpenAI'nin o1'i yayınladığında Chain of Thought'u paylaşmamasının, model çıktılarıyla yeniden eğitim yapma örneklerinin (DeepSeek v3 vb.) performans artışına ciddi katkı sağlamasıyla ilgili olabileceği tahmin ediliyor
    • DeepSeek v3, reasoner türü modellerdeki uzun CoT'yi aynen yeniden üretmiyor gibi görünse de, içeride modları ayırıp gerekli durumlarda akıl yürüttüğü anlaşılıyor
    • Küçük modellerin (o1-mini vb.) büyük model performansına ne kadar yaklaşabildiği ya da içeride gizli damıtma teknikleri olup olmadığı da ilginç bir araştırma konusu

# Image

  • Görsel alanına birçok küçük ve orta ölçekli araştırma laboratuvarı girdiği için yenilikler hızla ilerliyor
  • Bugünün başlıca modelleri (Flux, Stable Diffusion 3, MidJourney, Sora vb.) Diffusion Transformer tabanlı ve Flow Matching çerçevesi ana akım durumda
  • Architecture
    • Diffusion Transformer ile adaptif normalizasyon ve MM-DIT yapılarının birleştiği biçimler yaygın olarak kullanılıyor
    • Metin kodlayıcıyı CLIP yerine daha küçük LLM'lerle değiştirme girişimlerinin 2025'te artması bekleniyor
  • Framework
    • Geleneksel olasılıksal yaklaşım yerine Flow Matching yöntemini tercih eden bir eğilim oluşmuş durumda
    • AutoRegressive modellerin yeniden yükselişe geçmesi de mümkün; Visual Autoregressive Modelling makalesi büyük ilgi gördü
    • xAI'nin açıkladığı görsel üretim tekniğinin de autoregressive olduğu tahmin ediliyor, ancak bunun somut nedenleri bilinmiyor

# Multimodality

  • OpenAI, Anthropic gibi şirketler zaten modele görsel girdi verme özelliği sunuyordu, ancak 2024'ün ilk yarısında daha açık biçimde çok modlu araştırmalar hızlandı
  • Visual Language Models
    • Qwen, PaliGemma gibi çeşitli VLM'ler ortaya çıktı ve görsel açıklama üretimi ya da belge ayrıştırma gibi işlerde kullanıldı
    • Vision Transformer ile önceden eğitilmiş LLM'yi birleştiren yapı standart haline geldi
    • 2025'te bu VLM'lerin Omni-Models altında birleşmesi bekleniyor
  • Omni-Modal Models
    • OpenAI, GPT-4o ile görsel de üretebilen bir örnek gösterdi, ancak tam bir açıklama paylaşılmadı
    • Chameleon gibi çalışmalarda görsel tokenizer + detokenizer kullanan erken füzyon modelleri denendi
    • Metin dışı çıktıları da discrete token olarak ele alan yaklaşım hakkında lehte ve aleyhte tartışmalar var
    • Llama 4'ün erken aşamada omnimodal olarak eğitildiğine dair söylentiler beklenti yaratıyor

# Agents and Human-AI Interfaces

  • “AI Agent” tanımı belirsiz olsa da, burada LLM'ye araç kullanma yetkisi verilip hedefe kendi başına ulaşması beklenen yapıyı şimdilik ajan olarak adlandırıyoruz
  • SWE-Bench ölçütüne göre 2025 sonuna kadar kod hata ayıklama ve özellik geliştirme işlerinin belli bir düzeyde otomatikleşmesi bekleniyor
  • Ancak bunun mühendislerin yerini alacak seviyeye gelmesi için henüz erken; önce seyahat planı veya bilgi arama gibi hata toleransının daha yüksek olduğu alanlarda yaygınlaşması öngörülüyor
  • Cursor gibi editör tabanlı arayüzler, ajan kullanımına daha uygun olabilir
  • Ajan çağrıları yüksek token maliyetine sahip olduğundan, tamamen otonom ajanların maliyet/verim açısından gerçekten avantajlı olup olmayacağı belirsiz

# 2025

  • Yapay zekanın çok hızlı geliştiği sözü artık tanıdık gelse de, gerçekte değişim o kadar büyük ki hızını ölçmek bile zor
  • Bu yazı yalnızca metin ve görsel odaklı mevcut durumu ve 2025'e dair beklentileri kısaca ele alıyor. Kapsanmayan ama dikkat çekici alanlar arasında şunlar var:
    • Eğitim optimizasyonu (Muon, NanoGPT speedruns)
    • Video modelleri (tutarlılık ve çıkarım hızı sorunlarının çözülmesi)
    • Quantization (1-bit quantization, FP8 altı hassasiyet vb.)
    • Model yorumlanabilirliği araştırmaları
    • Değerlendirme ve benchmark'lar (SWE-Bench gibi gerçek işe dayalı değerlendirmelerin artması umuluyor)
  • 2025'te daha fazla ilerleme yaşanması umuluyor

2 yorum

 
lonzino 2025-01-06

Teşekkür ederim

 
zkdlfrlwl2 2025-01-06

Düzenli özet için teşekkürler