2025 Yapay Zeka Mühendisi Okuma Listesi

(latent.space)

45 puan yazan GN⁺ 2025-01-14 | 3 yorum | WhatsApp'ta paylaş

Yapay zeka mühendisleri için 50 makale, model ve blog, 10 alana ayrılarak seçildi
LLM'ler, benchmark'lar, prompting, RAG, agent'lar, kod üretimi, görsel, ses, diffusion ve fine-tuning alanlarını kapsıyor

Bölüm 1: En ileri LLM'ler

OpenAI modelleri
- GPT1 (makale), GPT2 (makale), GPT3 (makale), Codex (makale), InstructGPT (makale), GPT4 (makale)
- GPT3.5 (ChatGPT tanıtımı), 4o (GPT-4o tanıtımı), o1 (o1 önizlemesi), o3 (system card)
Anthropic ve Google modelleri
- Claude 3 (makale), Gemini 1 (makale)
- Claude 3.5 Sonnet (ayrıntılar), Gemini 2.0 Flash (resmi blog), Flash Thinking (Gemini API dokümantasyonu), Gemma 2 (makale)
Meta ile ilişkili LLaMA ailesi
- LLaMA 1 (makale), LLaMA 2 (makale), LLaMA 3 (makale)
- Ölçeklenmiş modeller: Mistral 7B (makale), Mixtral (makale), Pixtral (makale)
DeepSeek modelleri
- DeepSeek V1 (makale), Coder (makale), MoE (makale), V2 (makale), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (makale) - tüm Mac ve iPhone'lara dahil edilen model
Dikkate değer ek modeller ve araştırmalar
- LLM modelleri
  - AI2 ailesi: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - Diğerleri: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws araştırmaları
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- En ileri modeller:
  - o1, o3, R1, QwQ, QVQ, f1
- Reasoning model araştırmaları:
  - Let’s Verify Step By Step, STaR, Noam Brown'un konuşması

Bölüm 2: Benchmark’lar ve değerlendirme

MMLU
- MMLU (makale): çok disiplinli bilgi benchmark’larının standardı
  - 2025’te son teknoloji araştırmalar MMLU Pro (makale), GPQA Diamond (makale), BIG-Bench Hard (makale) kullanıyor
- GPQA (makale): soru üretimi ve doğru yanıt değerlendirmesine odaklanır
- BIG-Bench (makale): çok çeşitli problemler içeren büyük ölçekli benchmark
MuSR (makale): uzun bağlam içinde değerlendirme
- İlgili araştırmalar: LongBench (makale), BABILong (makale), RULER (tanıtım)
- Problem çözme: Lost in the Middle (makale), Needle in a Haystack (GitHub)
MATH (makale): matematik yarışması problemleri derlemesi
- Son teknoloji araştırmalar FrontierMath (makale) ve yüksek zorluktaki problemlere odaklanıyor
- Alt kümeler: MATH Level 5, AIME, AMC10/AMC12
IFEval (makale): temel talimat yerine getirme değerlendirme benchmark’ı
- Apple tarafından resmî olarak benimsenmiş (bağlantı)
- İlgili benchmark: MT-Bench (makale)
ARC AGI (resmî sayfa): soyut akıl yürütme ve "IQ testi" benchmark’ı
- Hızla doygunluğa ulaşan diğer benchmark’ların aksine uzun vadede geçerliliğini korur
Ek kaynaklar
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: benchmark’lara dair derinlemesine analizler
- LLM ile ilgili kaynaklar: LLM-as-Judge, Applied LLMs
- Veri kümesi kaynakları: Datasets

Bölüm 3: Prompting, ICL ve düşünce zinciri

GPT-3 ve In-Context Learning (ICL)
- GPT-3 makalesi(makale): In-Context Learning (ICL) kavramını tanıttı
- ICL, prompting ile yakından ilişkilidir; bu sayede LLM bağlam içinde öğrenip bunu uygulayabilir
- Prompt Injection: prompt manipülasyonu ve güvenlik sorunları (Lilian Weng özeti, Simon Willison serisi)
The Prompt Report: prompting ile ilgili makalelerin derlemesi
- Genel bakış: prompting tekniklerinin genel gelişimini ve son trendleri özetler (ilgili podcast)
Chain-of-Thought (CoT):
- Adım adım düşünme sürecini modelleme
- İlgili araştırmalar:
  - Scratchpads (makale)
  - Let’s Think Step By Step (makale)
Tree of Thought:
- Lookahead ve Backtracking kavramlarını tanıtır
- Karmaşık problem çözümü için etkili bir yöntem (ilgili podcast)
Prompt Tuning:
- Prompt olmadan da model performansını ayarlamak mümkündür:
  - Prefix-Tuning (makale)
  - Entropi tabanlı decoding ayarı (GitHub)
  - Representation Engineering (blog)
Automatic Prompt Engineering:
- LLM’nin doğrudan prompt üretip optimize etme yöntemi
- DSPy framework (makale) içinde uygulanmıştır
Araştırma makalelerinin yanı sıra pratik rehberler de faydalıdır:
- Lilian Weng’in Prompt Engineering blogu
- Eugene Yan’ın Prompting rehberi
- Anthropic’in tutorial ve workshop’ları:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

Bölüm 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: bilgi erişiminin temellerini ele alan klasik bir başvuru kaynağı
- RAG, bilgi erişimi (IR) problemidir ve 60 yılı aşkın geçmişe sahip bir alanla yakından ilişkilidir
- Başlıca teknikler:
  - TF-IDF, BM25: metin tabanlı arama
  - FAISS, HNSW: vektör arama ve en yakın komşu araması
Meta RAG (2020 tarihli makale) : RAG teriminin ilk kez ortaya çıkışı
- HyDE (doküman)
- Chunking (araştırma)
- Rerankers (Cohere blogu)
- Multimodal veri işleme (YouTube)
MTEB: embedding değerlendirme benchmark'ı
- Tartışmalar ve sınırlamalar (ilgili tartışma)
- Embedding model örnekleri:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (HuggingFace blogu)
GraphRAG: Microsoft'un RAG ile bilgi grafiğini entegre etmesi
- GraphRAG:
  - bilgi grafiğini RAG iş akışına entegre ederek kişisel veriler üzerinde daha iyi sonuçlar sunar
  - açık kaynak hâline getirildi (Microsoft blogu)
- İlgili araştırmalar:
  - ColBERT, ColPali, ColQwen
RAGAS: OpenAI'nin önerdiği basit bir RAG değerlendirme yöntemi
- Nvidia FACTS Framework (makale)
- Extrinsic Hallucinations in LLMs (Lilian Weng'in incelemesi)
- Jason Wei'nin Recall vs Precision (tweet)
Reklam
Öğrenme kaynakları ve RAG pratiği
- LlamaIndex (doküman, kurs)
- LangChain (doküman, video eğitim)
- RAG vs Long Context Debate:
  - makale: RAG ile uzun bağlam yaklaşımının karşılaştırılması

Bölüm 5: Ajanlar

SWE-Bench:
- ajan değerlendirmesi için önde gelen bir benchmark (kodlama odaklı)
- Anthropic, Devin, OpenAI gibi şirketler tarafından benimsenmesi sayesinde büyük ilgi görüyor
- İlgili kaynaklar:
  - SWE-Agent (makale)
  - SWE-Bench Multimodal (makale)
  - Konwinski Prize (web sitesi)
- Karşılaştırma için: WebArena (GitHub), SWE-Gym (ilgili tweet)
ReAct:
- araç kullanımı ve fonksiyon çağrısı odaklı LLM araştırmalarının çıkış noktası
- İlgili çalışmalar:
  - Gorilla (leaderboard)
  - Toolformer (makale)
  - HuggingGPT (makale)
MemGPT:
- uzun vadeli bellek emülasyonu yaklaşımı
- Başlıca kullanım alanları:
  - ChatGPT'nin bellek ve kontrol özellikleri
  - LangGraph'in epizodik belleği
- İlgili sistemler:
  - MetaGPT (makale)
  - AutoGen (makale)
  - Smallville (GitHub)
Voyager:
- Nvidia'nın bilişsel mimari yaklaşımı:
  - müfredat, beceri kütüphanesi, sandbox kullanarak performans iyileştirme
- Kavramsal genişleme:
  - Agent Workflow Memory (makale)
Anthropic'in Building Effective Agents:
- 2024'te ajan tasarımının temel çerçevesini derli toplu sunuyor
- Ana konular:
  - chaining, routing, paralelleştirme, orkestrasyon, değerlendirme, optimizasyon
- İlgili kaynaklar:
  - Lilian Weng'in ajan araştırması
  - Shunyu Yao'nun LLM ajan araştırması
  - Chip Huyen'in 2025 ajan genel bakışı
Ek öğrenme kaynakları ve dersler
- 2024'ün güncel ajan tasarımı: NeurIPS özeti
- UC Berkeley MOOC: LLM Agents dersi
- ajan tanımı tartışması: gerekirse bu tanıma bakın

Bölüm 6: Kod üretimi (CodeGen)

The Stack paper
- The Pile'ın kod odaklı açık veri kümesi eşiyle başlangıç noktası oldu
- Devam çalışmaları:
  - The Stack v2: geliştirilmiş veri kümesi
  - StarCoder: optimize edilmiş kod üretim modeli
Reklam
Açık kod modeli makaleleri
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Pek çok kişi Claude 3.5 Sonnet'i en iyi kod modeli olarak değerlendiriyor, ancak resmi bir makale yok
HumanEval/Codex
- Kodlama alanının vazgeçilmez benchmark'ı (şu anda doygunluğa ulaşmış durumda)
- Modern alternatif benchmark'lar:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - ajan odaklı değerlendirmesiyle tanınıyor, ancak maliyeti yüksek ve modelden çok ajan değerlendirmesine odaklanıyor
AlphaCodeium
- Google'ın AlphaCode ve AlphaCode2 performansını temel alıyor
- Flow Engineering kullanarak mevcut modellerin performansını büyük ölçüde artırıyor
CriticGPT
- kod üretimi sırasında ortaya çıkan güvenlik sorunlarını tespit etmeye odaklanıyor
  - OpenAI'nin CriticGPT'si güvenlik sorunlarını belirleyecek şekilde eğitildi
  - Anthropic, sorunlara yol açan LLM özelliklerini analiz etmek için SAE'leri (Safety-relevant Activation Ensembles) kullanıyor (araştırma)
Sektörde kod üretimi, araştırmadan uygulamaya doğru ağırlık merkezini kaydırıyor:
- Devin gibi kod ajanlarının kullanımı (video)
- kod üretimine dair pratik tavsiyeler (YouTube)

Bölüm 7: Görüntü

LLM dışı tabanlı görüntü araştırmaları
- YOLO:
  - Gerçek zamanlı nesne tespiti modeli olarak ünlü
  - Şu anda v11 sürümüne kadar gelişti (GitHub)
  - Son araştırmalar: DETR tabanlı transformer modeller, YOLO’yu aşan performans gösteriyor
- Not: YOLO’nun çeşitli sürümlerine ve gelişim soy ağacına dikkat edin (ilgili tartışma)
CLIP:
- ViT tabanlı multimodal modellerin başarılı bir örneği
- En yeni modeller:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP hâlâ önemli bir arka plan bilgisi
MMVP benchmark:
- CLIP’in sınırlamalarını değerlendirir
- Multimodal sürümler: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- Görüntü ve video segmentasyonunun öne çıkan modeli
- Devam çalışması: SAM 2 (ilgili podcast)
- Tamamlayıcı model: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (podcast)
- Early Fusion:
  - Meta’nın Flamingo modeli
  - Chameleon
  - Apple’ın AIMv2 modeli
  - Reka’nın Core modeli
- Referans materyal: multimodal görüntü araştırmalarının akışı
Yayımlanmamış güncel çalışmalar:
- GPT4V System Card ve türev araştırmalar (makale)
- OpenAI 4o:
  - 4o Vision ince ayarı
- En yeni modeller:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - Diğer modeller:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ
  Reklam

Bölüm 8: Ses

Whisper:
- OpenAI’ın başarılı ASR modeli
- Başlıca sürümler:
  - Whisper v2 (ilgili tartışma)
  - Whisper v3 (ilgili tartışma)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (analiz)
- Whisper birden çok açık ağırlıklı model sunuyor, ancak bazı sürümlerin makalesi yok
AudioPaLM:
- Google’ın AudioPaLM’i, PaLM’den Gemini’ye geçişten önceki bir araştırma
- Not: Meta’nın Llama 3 ses araştırması (makale)
NaturalSpeech:
- Önemli TTS araştırmalarından biri
- Yakın zamanda v3 ile güncellendi (makale)
Kyutai Moshi:
- Tam çift yönlü konuşma-metin açık ağırlıklı model
- Yüksek kaliteli demo (YouTube)
- Referans model: Hume OCTAVE (blog)
OpenAI Realtime API: The Missing Manual:
- OpenAI’ın gerçek zamanlı ses API’si için gayriresmî dokümantasyon
- En yeni ajan ve gerçek zamanlı çalışmalar için önemli bir araç
Büyük araştırma laboratuvarları dışında çeşitli çözüm önerileri:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Not: State of Voice AI 2024
- NotebookLM ses modeli:
  - Model kamuya açık değil, ancak modelleme sürecine dair derinlemesine açıklama sunuluyor
Gemini 2.0: sesi ve görüntüyü doğal şekilde entegre eden multimodal model
- 2025 sonrası: ses ve görüntü modalitelerinin birleşimi, net bir yol olarak evriliyor

Bölüm 9: Görsel/Video Diffusion

Latent Diffusion:
- Stable Diffusion’ın temel makalesi
- Genişletilmiş sürümler:
  - SD2 (resmî duyuru)
  - SDXL ve SD3
- Ekip şu anda BFL Flux geliştiriyor
OpenAI DALL-E serisi:
- DALL-E, DALL-E-2, DALL-E-3
Google Imagen serisi:
- Imagen, Imagen 2, Imagen 3
- Referans: Ideogram
Consistency Models:
- Diffusion modellerinin distilasyon çalışması
- Genişletmeler:
  - LCMs
  - En güncel güncelleme: sCMs
Sora:
- OpenAI’nin metinden videoya dönüştürme aracı (resmî makale yok)
- Referanslar:
  - DiT makalesi (aynı yazarlar)
  - OpenSora: açık ağırlıklara dayalı rakip model
  - Lilian Weng’in özeti
Reklam
ComfyUI:
- Vizyon modeli kullanıcı arayüzü olarak dikkat çekiyor (ilgili röportaj)
Uzmanlık alanları:
- Text Diffusion: metin tabanlı diffusion modelleri
- Music Diffusion: müzik üretimi için diffusion
- Autoregressive Image Generation: otoregresif görsel üretimi
Açık ağırlık rekabeti:
- Text-to-Video Arena
En güncel eğilimleri anlamak:
- Stable Diffusion ve DALL-E modellerini kullanmak
- Metin ve video modalitelerinin birleşimine yönelik araştırmalar

Bölüm 10: Model Finetuning

LoRA/QLoRA:
- Düşük maliyetli model finetuning için standart
- Başlıca uygulamalar:
  - Yerel modellerde ve OpenAI’nin 4o modelinde de destekleniyor (podcaste göz atın)
  - FSDP+QLoRA: eğitim materyali
DPO:
- OpenAI’nin Preference Finetuning özelliğinde destekleniyor
- PPO’ya (makale) alternatif olarak popüler, ancak performansı biraz daha düşük
ReFT:
- Modelin mevcut bazı katmanlarını finetune etmek yerine özelliklerine (feature) odaklanır
- Verimli bir finetuning yaklaşımı
Orca 3/AgentInstruct:
- Sentetik veri üretimi için uygun bir yöntem
- İlgili araştırma:
  - NeurIPS’teki Synthetic Data Picks
RL tuning:
- OpenAI’nin o1 için RL Finetuning çalışması tartışmalı olsa da önemli bir kaynak
- İlgili araştırmalar:
  - Let’s Verify Step By Step
  - Noam Brown’un konuşması
Unsloth notebook’ları:
- GitHub üzerinde uygulama odaklı notebook’lar sunuyor
HuggingFace rehberi:
- How to fine-tune open LLMs: finetuning’in tüm sürecine dair derinlemesine rehber

Yapay zeka mühendisleri için 2025 okuma listesinin sonu

Bu liste kapsamlı ve göz korkutucu gelebilir, ancak yarıda bırakmanızda sakınca yok. Önemli olan yeniden başlamaktır
Güncel kalması için 2025 boyunca sürekli güncellenecek
Kendi öğrenme yönteminizi oluşturabilirsiniz, ancak makaleleri bir saatte nasıl okuyacağınıza göz atmak faydalı olabilir
Okuma ve öğrenme ipuçlarına buradan ulaşabilirsiniz
Toplulukla birlikte öğrenin
- Discord ve Telegram grupları:
  - Krispin’in Discord grubu: https://app.discuna.com/invite/ai_engineer
  - NYC’de faaliyet gösteren Fed of Flow AI’ın Telegram grubu: AI NYC Telegram
  - Latent Space Discord topluluğuna katılın: Discord davet bağlantısı
- Not ve öne çıkan kısımları paylaşma:
  - Okur Niels’in başlattığı blog: 2025 AI Engineer Reading List notları

3 yorum

kipsong133 2025-01-16

Böyle bakınca, gerçekten de yakından incelenmeye değer hâlâ tonlarca kaynak var.

GN⁺ 2025-01-14

Hacker News görüşleri

Çoğu makale, derin kavrayıştan çok bilgi edinmeye odaklanıyor. Konuya aşina değilseniz, makaleler yerine ders kitaplarıyla başlamak daha iyi olur. Bishop’un en güncel "Deep Learning: Foundations and Concepts (2024)" ve Chip Huyen’in "AI Engineering (2024)" kitapları iyi kaynaklar. "Dive into Deep Learning" veya fast.ai materyalleri de öneriliyor
"AI Engineer" diye bir mesleğin tam olarak ne olduğunu bilmiyorum, ama araştırma makaleleri okumanın gerçekten gerekli olup olmadığı şüpheli. Yapay zekanın en ileri sınırında çalışmıyorsanız, makale okumanın pek anlamı olmayabilir. LLM’lerin nasıl yanıt verdiğini anlamak ve kullanıcı dostu uygulamalar geliştirmek daha önemli. OpenAI ya da Groq API’sini kullanırken "multi head attention" ile "single head attention" arasındaki farkı bilmek çok da faydalı değil
Böyle bir liste hazırlamak zor bir iş. Seçilenlerin dışında da uygun pek çok aday var; bu yüzden bunu bir müfredat olarak görmek ve güncel ilgili makaleleri sabit referanslar değil, hareketli işaretçiler olarak anlamak gerekiyor. Belirli bir okuma listesi bir makale kulübünde ele alınıyor
Çoğu açık kaynak modelin talimat ince ayar yöntemi Alpaca’dan geliyor. Alpaca ve sentetik veri üretimiyle ilgili makaleler de eklenmeli
AI ve LLM makalelerini okuyup anlamaya zaman harcamak yerine ELIZA hakkında okuyup onu kendiniz inşa etmeniz daha iyi olur. Tensörler, vektörler, alanlar, dilbilim, bilgisayar mimarisi ve ağlara odaklanmak gerekiyor
Okuma listesi yaklaşık 1 yıl öncesine ait. 2025’te KTO, RLOO, DPO gibi tekniklere odaklanmak gerekiyor. 2025’te yalnızca damıtma ve optimizasyona odaklanılmalı. CoT yeni bir şey değil; önemli olan değiştirilmiş CoT
"AI" teriminin son dönemdeki DL gelişmeleri tarafından neredeyse tamamen yutulmuş olması ilginç. Russell & Norvig, Minsky, Shannon, Lenat gibi isimlerden hiç bahsedilmiyor. AI’ın daha geniş başlıklarına giriş yapmak istiyorsanız, çoğu lisansüstü program aynı kitabı kullanıyor
Harika bir derleme. Aşağıdaki kursla birleştirilirse en iyi sonuç alınabilir
Harika bir liste

francomoon7 2025-01-16

Eliza'yı bizzat inşa etmek ne anlama geliyor?