- Yapay zeka mühendisleri için 50 makale, model ve blog, 10 alana ayrılarak seçildi
- LLM'ler, benchmark'lar, prompting, RAG, agent'lar, kod üretimi, görsel, ses, diffusion ve fine-tuning alanlarını kapsıyor
Bölüm 1: En ileri LLM'ler
- OpenAI modelleri
- Anthropic ve Google modelleri
- Meta ile ilişkili LLaMA ailesi
- DeepSeek modelleri
- Apple Intelligence
- Apple Intelligence (makale) - tüm Mac ve iPhone'lara dahil edilen model
- Dikkate değer ek modeller ve araştırmalar
- LLM modelleri
- AI2 ailesi: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Diğerleri: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws araştırmaları
- En ileri modeller:
- Reasoning model araştırmaları:
Bölüm 2: Benchmark’lar ve değerlendirme
- MMLU
- MMLU (makale): çok disiplinli bilgi benchmark’larının standardı
- 2025’te son teknoloji araştırmalar MMLU Pro (makale), GPQA Diamond (makale), BIG-Bench Hard (makale) kullanıyor
- GPQA (makale): soru üretimi ve doğru yanıt değerlendirmesine odaklanır
- BIG-Bench (makale): çok çeşitli problemler içeren büyük ölçekli benchmark
- MuSR (makale): uzun bağlam içinde değerlendirme
- MATH (makale): matematik yarışması problemleri derlemesi
- Son teknoloji araştırmalar FrontierMath (makale) ve yüksek zorluktaki problemlere odaklanıyor
- Alt kümeler: MATH Level 5, AIME, AMC10/AMC12
- IFEval (makale): temel talimat yerine getirme değerlendirme benchmark’ı
- Apple tarafından resmî olarak benimsenmiş (bağlantı)
- İlgili benchmark: MT-Bench (makale)
- ARC AGI (resmî sayfa): soyut akıl yürütme ve "IQ testi" benchmark’ı
- Hızla doygunluğa ulaşan diğer benchmark’ların aksine uzun vadede geçerliliğini korur
- Ek kaynaklar
Bölüm 3: Prompting, ICL ve düşünce zinciri
- GPT-3 ve In-Context Learning (ICL)
- GPT-3 makalesi(makale): In-Context Learning (ICL) kavramını tanıttı
- ICL, prompting ile yakından ilişkilidir; bu sayede LLM bağlam içinde öğrenip bunu uygulayabilir
- Prompt Injection: prompt manipülasyonu ve güvenlik sorunları (Lilian Weng özeti, Simon Willison serisi)
- The Prompt Report: prompting ile ilgili makalelerin derlemesi
- Genel bakış: prompting tekniklerinin genel gelişimini ve son trendleri özetler (ilgili podcast)
- Chain-of-Thought (CoT):
- Adım adım düşünme sürecini modelleme
- İlgili araştırmalar:
- Tree of Thought:
- Lookahead ve Backtracking kavramlarını tanıtır
- Karmaşık problem çözümü için etkili bir yöntem (ilgili podcast)
- Prompt Tuning:
- Prompt olmadan da model performansını ayarlamak mümkündür:
- Prefix-Tuning (makale)
- Entropi tabanlı decoding ayarı (GitHub)
- Representation Engineering (blog)
- Automatic Prompt Engineering:
- LLM’nin doğrudan prompt üretip optimize etme yöntemi
- DSPy framework (makale) içinde uygulanmıştır
- Araştırma makalelerinin yanı sıra pratik rehberler de faydalıdır:
Bölüm 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: bilgi erişiminin temellerini ele alan klasik bir başvuru kaynağı
- RAG, bilgi erişimi (IR) problemidir ve 60 yılı aşkın geçmişe sahip bir alanla yakından ilişkilidir
- Başlıca teknikler:
- TF-IDF, BM25: metin tabanlı arama
- FAISS, HNSW: vektör arama ve en yakın komşu araması
- Meta RAG (2020 tarihli makale) : RAG teriminin ilk kez ortaya çıkışı
- MTEB: embedding değerlendirme benchmark'ı
- GraphRAG: Microsoft'un RAG ile bilgi grafiğini entegre etmesi
- GraphRAG:
- bilgi grafiğini RAG iş akışına entegre ederek kişisel veriler üzerinde daha iyi sonuçlar sunar
- açık kaynak hâline getirildi (Microsoft blogu)
- İlgili araştırmalar:
- RAGAS: OpenAI'nin önerdiği basit bir RAG değerlendirme yöntemi
- Öğrenme kaynakları ve RAG pratiği
Bölüm 5: Ajanlar
- SWE-Bench:
- ajan değerlendirmesi için önde gelen bir benchmark (kodlama odaklı)
- Anthropic, Devin, OpenAI gibi şirketler tarafından benimsenmesi sayesinde büyük ilgi görüyor
- İlgili kaynaklar:
- Karşılaştırma için: WebArena (GitHub), SWE-Gym (ilgili tweet)
- ReAct:
- araç kullanımı ve fonksiyon çağrısı odaklı LLM araştırmalarının çıkış noktası
- İlgili çalışmalar:
- MemGPT:
- uzun vadeli bellek emülasyonu yaklaşımı
- Başlıca kullanım alanları:
- İlgili sistemler:
- Voyager:
- Nvidia'nın bilişsel mimari yaklaşımı:
- müfredat, beceri kütüphanesi, sandbox kullanarak performans iyileştirme
- Kavramsal genişleme:
- Agent Workflow Memory (makale)
- Anthropic'in Building Effective Agents:
- 2024'te ajan tasarımının temel çerçevesini derli toplu sunuyor
- Ana konular:
- chaining, routing, paralelleştirme, orkestrasyon, değerlendirme, optimizasyon
- İlgili kaynaklar:
- Ek öğrenme kaynakları ve dersler
Bölüm 6: Kod üretimi (CodeGen)
- The Stack paper
- The Pile'ın kod odaklı açık veri kümesi eşiyle başlangıç noktası oldu
- Devam çalışmaları:
- Açık kod modeli makaleleri
- HumanEval/Codex
- Kodlama alanının vazgeçilmez benchmark'ı (şu anda doygunluğa ulaşmış durumda)
- Modern alternatif benchmark'lar:
- SWE-Bench
- ajan odaklı değerlendirmesiyle tanınıyor, ancak maliyeti yüksek ve modelden çok ajan değerlendirmesine odaklanıyor
- AlphaCodeium
- Google'ın AlphaCode ve AlphaCode2 performansını temel alıyor
- Flow Engineering kullanarak mevcut modellerin performansını büyük ölçüde artırıyor
- CriticGPT
- kod üretimi sırasında ortaya çıkan güvenlik sorunlarını tespit etmeye odaklanıyor
- OpenAI'nin CriticGPT'si güvenlik sorunlarını belirleyecek şekilde eğitildi
- Anthropic, sorunlara yol açan LLM özelliklerini analiz etmek için SAE'leri (Safety-relevant Activation Ensembles) kullanıyor (araştırma)
- Sektörde kod üretimi, araştırmadan uygulamaya doğru ağırlık merkezini kaydırıyor:
- Devin gibi kod ajanlarının kullanımı (video)
- kod üretimine dair pratik tavsiyeler (YouTube)
Bölüm 7: Görüntü
- LLM dışı tabanlı görüntü araştırmaları
- YOLO:
- Gerçek zamanlı nesne tespiti modeli olarak ünlü
- Şu anda v11 sürümüne kadar gelişti (GitHub)
- Son araştırmalar: DETR tabanlı transformer modeller, YOLO’yu aşan performans gösteriyor
- Not: YOLO’nun çeşitli sürümlerine ve gelişim soy ağacına dikkat edin (ilgili tartışma)
- CLIP:
- ViT tabanlı multimodal modellerin başarılı bir örneği
- En yeni modeller:
- CLIP hâlâ önemli bir arka plan bilgisi
- MMVP benchmark:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- Yayımlanmamış güncel çalışmalar:
- GPT4V System Card ve türev araştırmalar (makale)
- OpenAI 4o:
- En yeni modeller:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- Diğer modeller:
Bölüm 8: Ses
- Whisper:
- OpenAI’ın başarılı ASR modeli
- Başlıca sürümler:
- Whisper birden çok açık ağırlıklı model sunuyor, ancak bazı sürümlerin makalesi yok
- AudioPaLM:
- Google’ın AudioPaLM’i, PaLM’den Gemini’ye geçişten önceki bir araştırma
- Not: Meta’nın Llama 3 ses araştırması (makale)
- NaturalSpeech:
- Önemli TTS araştırmalarından biri
- Yakın zamanda v3 ile güncellendi (makale)
- Kyutai Moshi:
- Tam çift yönlü konuşma-metin açık ağırlıklı model
- Yüksek kaliteli demo (YouTube)
- Referans model: Hume OCTAVE (blog)
- OpenAI Realtime API: The Missing Manual:
- OpenAI’ın gerçek zamanlı ses API’si için gayriresmî dokümantasyon
- En yeni ajan ve gerçek zamanlı çalışmalar için önemli bir araç
- Büyük araştırma laboratuvarları dışında çeşitli çözüm önerileri:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Not: State of Voice AI 2024
- NotebookLM ses modeli:
- Gemini 2.0: sesi ve görüntüyü doğal şekilde entegre eden multimodal model
- 2025 sonrası: ses ve görüntü modalitelerinin birleşimi, net bir yol olarak evriliyor
Bölüm 9: Görsel/Video Diffusion
- Latent Diffusion:
- Stable Diffusion’ın temel makalesi
- Genişletilmiş sürümler:
- Ekip şu anda BFL Flux geliştiriyor
- OpenAI DALL-E serisi:
- Google Imagen serisi:
- Consistency Models:
- Diffusion modellerinin distilasyon çalışması
- Genişletmeler:
- Sora:
- OpenAI’nin metinden videoya dönüştürme aracı (resmî makale yok)
- Referanslar:
- ComfyUI:
- Uzmanlık alanları:
- Açık ağırlık rekabeti:
- En güncel eğilimleri anlamak:
- Stable Diffusion ve DALL-E modellerini kullanmak
- Metin ve video modalitelerinin birleşimine yönelik araştırmalar
Bölüm 10: Model Finetuning
- LoRA/QLoRA:
- Düşük maliyetli model finetuning için standart
- Başlıca uygulamalar:
- DPO:
- OpenAI’nin Preference Finetuning özelliğinde destekleniyor
- PPO’ya (makale) alternatif olarak popüler, ancak performansı biraz daha düşük
- ReFT:
- Modelin mevcut bazı katmanlarını finetune etmek yerine özelliklerine (feature) odaklanır
- Verimli bir finetuning yaklaşımı
- Orca 3/AgentInstruct:
- Sentetik veri üretimi için uygun bir yöntem
- İlgili araştırma:
- RL tuning:
- Unsloth notebook’ları:
- GitHub üzerinde uygulama odaklı notebook’lar sunuyor
- HuggingFace rehberi:
Yapay zeka mühendisleri için 2025 okuma listesinin sonu
- Bu liste kapsamlı ve göz korkutucu gelebilir, ancak yarıda bırakmanızda sakınca yok. Önemli olan yeniden başlamaktır
- Güncel kalması için 2025 boyunca sürekli güncellenecek
- Kendi öğrenme yönteminizi oluşturabilirsiniz, ancak makaleleri bir saatte nasıl okuyacağınıza göz atmak faydalı olabilir
- Okuma ve öğrenme ipuçlarına buradan ulaşabilirsiniz
- Toplulukla birlikte öğrenin
- Discord ve Telegram grupları:
- Not ve öne çıkan kısımları paylaşma:
3 yorum
Böyle bakınca, gerçekten de yakından incelenmeye değer hâlâ tonlarca kaynak var.
Hacker News görüşleri
Çoğu makale, derin kavrayıştan çok bilgi edinmeye odaklanıyor. Konuya aşina değilseniz, makaleler yerine ders kitaplarıyla başlamak daha iyi olur. Bishop’un en güncel "Deep Learning: Foundations and Concepts (2024)" ve Chip Huyen’in "AI Engineering (2024)" kitapları iyi kaynaklar. "Dive into Deep Learning" veya fast.ai materyalleri de öneriliyor
"AI Engineer" diye bir mesleğin tam olarak ne olduğunu bilmiyorum, ama araştırma makaleleri okumanın gerçekten gerekli olup olmadığı şüpheli. Yapay zekanın en ileri sınırında çalışmıyorsanız, makale okumanın pek anlamı olmayabilir. LLM’lerin nasıl yanıt verdiğini anlamak ve kullanıcı dostu uygulamalar geliştirmek daha önemli. OpenAI ya da Groq API’sini kullanırken "multi head attention" ile "single head attention" arasındaki farkı bilmek çok da faydalı değil
Böyle bir liste hazırlamak zor bir iş. Seçilenlerin dışında da uygun pek çok aday var; bu yüzden bunu bir müfredat olarak görmek ve güncel ilgili makaleleri sabit referanslar değil, hareketli işaretçiler olarak anlamak gerekiyor. Belirli bir okuma listesi bir makale kulübünde ele alınıyor
Çoğu açık kaynak modelin talimat ince ayar yöntemi Alpaca’dan geliyor. Alpaca ve sentetik veri üretimiyle ilgili makaleler de eklenmeli
AI ve LLM makalelerini okuyup anlamaya zaman harcamak yerine ELIZA hakkında okuyup onu kendiniz inşa etmeniz daha iyi olur. Tensörler, vektörler, alanlar, dilbilim, bilgisayar mimarisi ve ağlara odaklanmak gerekiyor
Okuma listesi yaklaşık 1 yıl öncesine ait. 2025’te KTO, RLOO, DPO gibi tekniklere odaklanmak gerekiyor. 2025’te yalnızca damıtma ve optimizasyona odaklanılmalı. CoT yeni bir şey değil; önemli olan değiştirilmiş CoT
"AI" teriminin son dönemdeki DL gelişmeleri tarafından neredeyse tamamen yutulmuş olması ilginç. Russell & Norvig, Minsky, Shannon, Lenat gibi isimlerden hiç bahsedilmiyor. AI’ın daha geniş başlıklarına giriş yapmak istiyorsanız, çoğu lisansüstü program aynı kitabı kullanıyor
Harika bir derleme. Aşağıdaki kursla birleştirilirse en iyi sonuç alınabilir
Harika bir liste
Eliza'yı bizzat inşa etmek ne anlama geliyor?