2025 Yapay Zeka Mühendisi Okuma Listesi
(latent.space)- Yapay zeka mühendisleri için 50 makale, model ve blog, 10 alana ayrılarak seçildi
- LLM'ler, benchmark'lar, prompting, RAG, agent'lar, kod üretimi, görsel, ses, diffusion ve fine-tuning alanlarını kapsıyor
Bölüm 1: En ileri LLM'ler
- OpenAI modelleri
- GPT1 (makale), GPT2 (makale), GPT3 (makale), Codex (makale), InstructGPT (makale), GPT4 (makale)
- GPT3.5 (ChatGPT tanıtımı), 4o (GPT-4o tanıtımı), o1 (o1 önizlemesi), o3 (system card)
- Anthropic ve Google modelleri
- Claude 3 (makale), Gemini 1 (makale)
- Claude 3.5 Sonnet (ayrıntılar), Gemini 2.0 Flash (resmi blog), Flash Thinking (Gemini API dokümantasyonu), Gemma 2 (makale)
- Meta ile ilişkili LLaMA ailesi
- DeepSeek modelleri
- Apple Intelligence
- Apple Intelligence (makale) - tüm Mac ve iPhone'lara dahil edilen model
- Dikkate değer ek modeller ve araştırmalar
- LLM modelleri
- AI2 ailesi: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Diğerleri: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws araştırmaları
- Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- En ileri modeller:
- Reasoning model araştırmaları:
- LLM modelleri
Bölüm 2: Benchmark’lar ve değerlendirme
- MMLU
- MuSR (makale): uzun bağlam içinde değerlendirme
- MATH (makale): matematik yarışması problemleri derlemesi
- Son teknoloji araştırmalar FrontierMath (makale) ve yüksek zorluktaki problemlere odaklanıyor
- Alt kümeler: MATH Level 5, AIME, AMC10/AMC12
- IFEval (makale): temel talimat yerine getirme değerlendirme benchmark’ı
- ARC AGI (resmî sayfa): soyut akıl yürütme ve "IQ testi" benchmark’ı
- Hızla doygunluğa ulaşan diğer benchmark’ların aksine uzun vadede geçerliliğini korur
- Ek kaynaklar
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: benchmark’lara dair derinlemesine analizler
- LLM ile ilgili kaynaklar: LLM-as-Judge, Applied LLMs
- Veri kümesi kaynakları: Datasets
Bölüm 3: Prompting, ICL ve düşünce zinciri
- GPT-3 ve In-Context Learning (ICL)
- GPT-3 makalesi(makale): In-Context Learning (ICL) kavramını tanıttı
- ICL, prompting ile yakından ilişkilidir; bu sayede LLM bağlam içinde öğrenip bunu uygulayabilir
- Prompt Injection: prompt manipülasyonu ve güvenlik sorunları (Lilian Weng özeti, Simon Willison serisi)
- The Prompt Report: prompting ile ilgili makalelerin derlemesi
- Genel bakış: prompting tekniklerinin genel gelişimini ve son trendleri özetler (ilgili podcast)
- Chain-of-Thought (CoT):
- Tree of Thought:
- Lookahead ve Backtracking kavramlarını tanıtır
- Karmaşık problem çözümü için etkili bir yöntem (ilgili podcast)
- Prompt Tuning:
- Automatic Prompt Engineering:
- LLM’nin doğrudan prompt üretip optimize etme yöntemi
- DSPy framework (makale) içinde uygulanmıştır
- Araştırma makalelerinin yanı sıra pratik rehberler de faydalıdır:
- Lilian Weng’in Prompt Engineering blogu
- Eugene Yan’ın Prompting rehberi
- Anthropic’in tutorial ve workshop’ları:
Bölüm 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: bilgi erişiminin temellerini ele alan klasik bir başvuru kaynağı
- RAG, bilgi erişimi (IR) problemidir ve 60 yılı aşkın geçmişe sahip bir alanla yakından ilişkilidir
- Başlıca teknikler:
- TF-IDF, BM25: metin tabanlı arama
- FAISS, HNSW: vektör arama ve en yakın komşu araması
- Meta RAG (2020 tarihli makale) : RAG teriminin ilk kez ortaya çıkışı
- HyDE (doküman)
- Chunking (araştırma)
- Rerankers (Cohere blogu)
- Multimodal veri işleme (YouTube)
- MTEB: embedding değerlendirme benchmark'ı
- Tartışmalar ve sınırlamalar (ilgili tartışma)
- Embedding model örnekleri:
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (HuggingFace blogu)
- GraphRAG: Microsoft'un RAG ile bilgi grafiğini entegre etmesi
- GraphRAG:
- bilgi grafiğini RAG iş akışına entegre ederek kişisel veriler üzerinde daha iyi sonuçlar sunar
- açık kaynak hâline getirildi (Microsoft blogu)
- İlgili araştırmalar:
- ColBERT, ColPali, ColQwen
- GraphRAG:
- RAGAS: OpenAI'nin önerdiği basit bir RAG değerlendirme yöntemi
- Nvidia FACTS Framework (makale)
- Extrinsic Hallucinations in LLMs (Lilian Weng'in incelemesi)
- Jason Wei'nin Recall vs Precision (tweet)
- Öğrenme kaynakları ve RAG pratiği
- LlamaIndex (doküman, kurs)
- LangChain (doküman, video eğitim)
- RAG vs Long Context Debate:
- makale: RAG ile uzun bağlam yaklaşımının karşılaştırılması
Bölüm 5: Ajanlar
- SWE-Bench:
- ajan değerlendirmesi için önde gelen bir benchmark (kodlama odaklı)
- Anthropic, Devin, OpenAI gibi şirketler tarafından benimsenmesi sayesinde büyük ilgi görüyor
- İlgili kaynaklar:
- SWE-Agent (makale)
- SWE-Bench Multimodal (makale)
- Konwinski Prize (web sitesi)
- Karşılaştırma için: WebArena (GitHub), SWE-Gym (ilgili tweet)
- ReAct:
- araç kullanımı ve fonksiyon çağrısı odaklı LLM araştırmalarının çıkış noktası
- İlgili çalışmalar:
- Gorilla (leaderboard)
- Toolformer (makale)
- HuggingGPT (makale)
- MemGPT:
- uzun vadeli bellek emülasyonu yaklaşımı
- Başlıca kullanım alanları:
- İlgili sistemler:
- Voyager:
- Nvidia'nın bilişsel mimari yaklaşımı:
- müfredat, beceri kütüphanesi, sandbox kullanarak performans iyileştirme
- Kavramsal genişleme:
- Agent Workflow Memory (makale)
- Nvidia'nın bilişsel mimari yaklaşımı:
- Anthropic'in Building Effective Agents:
- 2024'te ajan tasarımının temel çerçevesini derli toplu sunuyor
- Ana konular:
- chaining, routing, paralelleştirme, orkestrasyon, değerlendirme, optimizasyon
- İlgili kaynaklar:
- Lilian Weng'in ajan araştırması
- Shunyu Yao'nun LLM ajan araştırması
- Chip Huyen'in 2025 ajan genel bakışı
- Ek öğrenme kaynakları ve dersler
- 2024'ün güncel ajan tasarımı: NeurIPS özeti
- UC Berkeley MOOC: LLM Agents dersi
- ajan tanımı tartışması: gerekirse bu tanıma bakın
Bölüm 6: Kod üretimi (CodeGen)
- The Stack paper
- The Pile'ın kod odaklı açık veri kümesi eşiyle başlangıç noktası oldu
- Devam çalışmaları:
- The Stack v2: geliştirilmiş veri kümesi
- StarCoder: optimize edilmiş kod üretim modeli
- Açık kod modeli makaleleri
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Pek çok kişi Claude 3.5 Sonnet'i en iyi kod modeli olarak değerlendiriyor, ancak resmi bir makale yok
- HumanEval/Codex
- Kodlama alanının vazgeçilmez benchmark'ı (şu anda doygunluğa ulaşmış durumda)
- Modern alternatif benchmark'lar:
- SWE-Bench
- ajan odaklı değerlendirmesiyle tanınıyor, ancak maliyeti yüksek ve modelden çok ajan değerlendirmesine odaklanıyor
- AlphaCodeium
- Google'ın AlphaCode ve AlphaCode2 performansını temel alıyor
- Flow Engineering kullanarak mevcut modellerin performansını büyük ölçüde artırıyor
- CriticGPT
- kod üretimi sırasında ortaya çıkan güvenlik sorunlarını tespit etmeye odaklanıyor
- OpenAI'nin CriticGPT'si güvenlik sorunlarını belirleyecek şekilde eğitildi
- Anthropic, sorunlara yol açan LLM özelliklerini analiz etmek için SAE'leri (Safety-relevant Activation Ensembles) kullanıyor (araştırma)
- kod üretimi sırasında ortaya çıkan güvenlik sorunlarını tespit etmeye odaklanıyor
- Sektörde kod üretimi, araştırmadan uygulamaya doğru ağırlık merkezini kaydırıyor:
Bölüm 7: Görüntü
- LLM dışı tabanlı görüntü araştırmaları
- YOLO:
- Not: YOLO’nun çeşitli sürümlerine ve gelişim soy ağacına dikkat edin (ilgili tartışma)
- CLIP:
- ViT tabanlı multimodal modellerin başarılı bir örneği
- En yeni modeller:
- CLIP hâlâ önemli bir arka plan bilgisi
- MMVP benchmark:
- CLIP’in sınırlamalarını değerlendirir
- Multimodal sürümler: MMMU, SWE-Bench Multimodal
- Segment Anything Model (SAM):
- Görüntü ve video segmentasyonunun öne çıkan modeli
- Devam çalışması: SAM 2 (ilgili podcast)
- Tamamlayıcı model: GroundingDINO
- Early Fusion vs Late Fusion:
- Yayımlanmamış güncel çalışmalar:
- GPT4V System Card ve türev araştırmalar (makale)
- OpenAI 4o:
- En yeni modeller:
Bölüm 8: Ses
- Whisper:
- OpenAI’ın başarılı ASR modeli
- Başlıca sürümler:
- Whisper v2 (ilgili tartışma)
- Whisper v3 (ilgili tartışma)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (analiz)
- Whisper birden çok açık ağırlıklı model sunuyor, ancak bazı sürümlerin makalesi yok
- AudioPaLM:
- Google’ın AudioPaLM’i, PaLM’den Gemini’ye geçişten önceki bir araştırma
- Not: Meta’nın Llama 3 ses araştırması (makale)
- NaturalSpeech:
- Önemli TTS araştırmalarından biri
- Yakın zamanda v3 ile güncellendi (makale)
- Kyutai Moshi:
- OpenAI Realtime API: The Missing Manual:
- OpenAI’ın gerçek zamanlı ses API’si için gayriresmî dokümantasyon
- En yeni ajan ve gerçek zamanlı çalışmalar için önemli bir araç
- Büyük araştırma laboratuvarları dışında çeşitli çözüm önerileri:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Not: State of Voice AI 2024
- NotebookLM ses modeli:
- Model kamuya açık değil, ancak modelleme sürecine dair derinlemesine açıklama sunuluyor
- Gemini 2.0: sesi ve görüntüyü doğal şekilde entegre eden multimodal model
- 2025 sonrası: ses ve görüntü modalitelerinin birleşimi, net bir yol olarak evriliyor
Bölüm 9: Görsel/Video Diffusion
- Latent Diffusion:
- Stable Diffusion’ın temel makalesi
- Genişletilmiş sürümler:
- SD2 (resmî duyuru)
- SDXL ve SD3
- Ekip şu anda BFL Flux geliştiriyor
- OpenAI DALL-E serisi:
- Google Imagen serisi:
- Consistency Models:
- Sora:
- OpenAI’nin metinden videoya dönüştürme aracı (resmî makale yok)
- Referanslar:
- DiT makalesi (aynı yazarlar)
- OpenSora: açık ağırlıklara dayalı rakip model
- Lilian Weng’in özeti
- ComfyUI:
- Vizyon modeli kullanıcı arayüzü olarak dikkat çekiyor (ilgili röportaj)
- Uzmanlık alanları:
- Text Diffusion: metin tabanlı diffusion modelleri
- Music Diffusion: müzik üretimi için diffusion
- Autoregressive Image Generation: otoregresif görsel üretimi
- Açık ağırlık rekabeti:
- En güncel eğilimleri anlamak:
- Stable Diffusion ve DALL-E modellerini kullanmak
- Metin ve video modalitelerinin birleşimine yönelik araştırmalar
Bölüm 10: Model Finetuning
- LoRA/QLoRA:
- Düşük maliyetli model finetuning için standart
- Başlıca uygulamalar:
- Yerel modellerde ve OpenAI’nin 4o modelinde de destekleniyor (podcaste göz atın)
- FSDP+QLoRA: eğitim materyali
- DPO:
- OpenAI’nin Preference Finetuning özelliğinde destekleniyor
- PPO’ya (makale) alternatif olarak popüler, ancak performansı biraz daha düşük
- ReFT:
- Modelin mevcut bazı katmanlarını finetune etmek yerine özelliklerine (feature) odaklanır
- Verimli bir finetuning yaklaşımı
- Orca 3/AgentInstruct:
- Sentetik veri üretimi için uygun bir yöntem
- İlgili araştırma:
- NeurIPS’teki Synthetic Data Picks
- RL tuning:
- OpenAI’nin o1 için RL Finetuning çalışması tartışmalı olsa da önemli bir kaynak
- İlgili araştırmalar:
- Let’s Verify Step By Step
- Noam Brown’un konuşması
- Unsloth notebook’ları:
- GitHub üzerinde uygulama odaklı notebook’lar sunuyor
- HuggingFace rehberi:
- How to fine-tune open LLMs: finetuning’in tüm sürecine dair derinlemesine rehber
Yapay zeka mühendisleri için 2025 okuma listesinin sonu
- Bu liste kapsamlı ve göz korkutucu gelebilir, ancak yarıda bırakmanızda sakınca yok. Önemli olan yeniden başlamaktır
- Güncel kalması için 2025 boyunca sürekli güncellenecek
- Kendi öğrenme yönteminizi oluşturabilirsiniz, ancak makaleleri bir saatte nasıl okuyacağınıza göz atmak faydalı olabilir
- Okuma ve öğrenme ipuçlarına buradan ulaşabilirsiniz
- Toplulukla birlikte öğrenin
- Discord ve Telegram grupları:
- Krispin’in Discord grubu: https://app.discuna.com/invite/ai_engineer
- NYC’de faaliyet gösteren Fed of Flow AI’ın Telegram grubu: AI NYC Telegram
- Latent Space Discord topluluğuna katılın: Discord davet bağlantısı
- Not ve öne çıkan kısımları paylaşma:
- Okur Niels’in başlattığı blog: 2025 AI Engineer Reading List notları
- Discord ve Telegram grupları:
3 yorum
Böyle bakınca, gerçekten de yakından incelenmeye değer hâlâ tonlarca kaynak var.
Hacker News görüşleri
Çoğu makale, derin kavrayıştan çok bilgi edinmeye odaklanıyor. Konuya aşina değilseniz, makaleler yerine ders kitaplarıyla başlamak daha iyi olur. Bishop’un en güncel "Deep Learning: Foundations and Concepts (2024)" ve Chip Huyen’in "AI Engineering (2024)" kitapları iyi kaynaklar. "Dive into Deep Learning" veya fast.ai materyalleri de öneriliyor
"AI Engineer" diye bir mesleğin tam olarak ne olduğunu bilmiyorum, ama araştırma makaleleri okumanın gerçekten gerekli olup olmadığı şüpheli. Yapay zekanın en ileri sınırında çalışmıyorsanız, makale okumanın pek anlamı olmayabilir. LLM’lerin nasıl yanıt verdiğini anlamak ve kullanıcı dostu uygulamalar geliştirmek daha önemli. OpenAI ya da Groq API’sini kullanırken "multi head attention" ile "single head attention" arasındaki farkı bilmek çok da faydalı değil
Böyle bir liste hazırlamak zor bir iş. Seçilenlerin dışında da uygun pek çok aday var; bu yüzden bunu bir müfredat olarak görmek ve güncel ilgili makaleleri sabit referanslar değil, hareketli işaretçiler olarak anlamak gerekiyor. Belirli bir okuma listesi bir makale kulübünde ele alınıyor
Çoğu açık kaynak modelin talimat ince ayar yöntemi Alpaca’dan geliyor. Alpaca ve sentetik veri üretimiyle ilgili makaleler de eklenmeli
AI ve LLM makalelerini okuyup anlamaya zaman harcamak yerine ELIZA hakkında okuyup onu kendiniz inşa etmeniz daha iyi olur. Tensörler, vektörler, alanlar, dilbilim, bilgisayar mimarisi ve ağlara odaklanmak gerekiyor
Okuma listesi yaklaşık 1 yıl öncesine ait. 2025’te KTO, RLOO, DPO gibi tekniklere odaklanmak gerekiyor. 2025’te yalnızca damıtma ve optimizasyona odaklanılmalı. CoT yeni bir şey değil; önemli olan değiştirilmiş CoT
"AI" teriminin son dönemdeki DL gelişmeleri tarafından neredeyse tamamen yutulmuş olması ilginç. Russell & Norvig, Minsky, Shannon, Lenat gibi isimlerden hiç bahsedilmiyor. AI’ın daha geniş başlıklarına giriş yapmak istiyorsanız, çoğu lisansüstü program aynı kitabı kullanıyor
Harika bir derleme. Aşağıdaki kursla birleştirilirse en iyi sonuç alınabilir
Harika bir liste
Eliza'yı bizzat inşa etmek ne anlama geliyor?