45 puan yazan GN⁺ 2025-01-14 | 3 yorum | WhatsApp'ta paylaş
  • Yapay zeka mühendisleri için 50 makale, model ve blog, 10 alana ayrılarak seçildi
  • LLM'ler, benchmark'lar, prompting, RAG, agent'lar, kod üretimi, görsel, ses, diffusion ve fine-tuning alanlarını kapsıyor

Bölüm 1: En ileri LLM'ler

Bölüm 2: Benchmark’lar ve değerlendirme

  • MMLU
    • MMLU (makale): çok disiplinli bilgi benchmark’larının standardı
      • 2025’te son teknoloji araştırmalar MMLU Pro (makale), GPQA Diamond (makale), BIG-Bench Hard (makale) kullanıyor
    • GPQA (makale): soru üretimi ve doğru yanıt değerlendirmesine odaklanır
    • BIG-Bench (makale): çok çeşitli problemler içeren büyük ölçekli benchmark
  • MuSR (makale): uzun bağlam içinde değerlendirme
  • MATH (makale): matematik yarışması problemleri derlemesi
    • Son teknoloji araştırmalar FrontierMath (makale) ve yüksek zorluktaki problemlere odaklanıyor
    • Alt kümeler: MATH Level 5, AIME, AMC10/AMC12
  • IFEval (makale): temel talimat yerine getirme değerlendirme benchmark’ı
    • Apple tarafından resmî olarak benimsenmiş (bağlantı)
    • İlgili benchmark: MT-Bench (makale)
  • ARC AGI (resmî sayfa): soyut akıl yürütme ve "IQ testi" benchmark’ı
    • Hızla doygunluğa ulaşan diğer benchmark’ların aksine uzun vadede geçerliliğini korur
  • Ek kaynaklar

Bölüm 3: Prompting, ICL ve düşünce zinciri

Bölüm 4: RAG (Retrieval-Augmented Generation)

  • Introduction to Information Retrieval: bilgi erişiminin temellerini ele alan klasik bir başvuru kaynağı
    • RAG, bilgi erişimi (IR) problemidir ve 60 yılı aşkın geçmişe sahip bir alanla yakından ilişkilidir
    • Başlıca teknikler:
      • TF-IDF, BM25: metin tabanlı arama
      • FAISS, HNSW: vektör arama ve en yakın komşu araması
  • Meta RAG (2020 tarihli makale) : RAG teriminin ilk kez ortaya çıkışı
  • MTEB: embedding değerlendirme benchmark'ı
  • GraphRAG: Microsoft'un RAG ile bilgi grafiğini entegre etmesi
    • GraphRAG:
      • bilgi grafiğini RAG iş akışına entegre ederek kişisel veriler üzerinde daha iyi sonuçlar sunar
      • açık kaynak hâline getirildi (Microsoft blogu)
    • İlgili araştırmalar:
  • RAGAS: OpenAI'nin önerdiği basit bir RAG değerlendirme yöntemi
  • Öğrenme kaynakları ve RAG pratiği

Bölüm 5: Ajanlar

Bölüm 6: Kod üretimi (CodeGen)

  • The Stack paper
    • The Pile'ın kod odaklı açık veri kümesi eşiyle başlangıç noktası oldu
    • Devam çalışmaları:
  • Açık kod modeli makaleleri
  • HumanEval/Codex
    • Kodlama alanının vazgeçilmez benchmark'ı (şu anda doygunluğa ulaşmış durumda)
    • Modern alternatif benchmark'lar:
    • SWE-Bench
      • ajan odaklı değerlendirmesiyle tanınıyor, ancak maliyeti yüksek ve modelden çok ajan değerlendirmesine odaklanıyor
  • AlphaCodeium
    • Google'ın AlphaCode ve AlphaCode2 performansını temel alıyor
    • Flow Engineering kullanarak mevcut modellerin performansını büyük ölçüde artırıyor
  • CriticGPT
    • kod üretimi sırasında ortaya çıkan güvenlik sorunlarını tespit etmeye odaklanıyor
      • OpenAI'nin CriticGPT'si güvenlik sorunlarını belirleyecek şekilde eğitildi
      • Anthropic, sorunlara yol açan LLM özelliklerini analiz etmek için SAE'leri (Safety-relevant Activation Ensembles) kullanıyor (araştırma)
  • Sektörde kod üretimi, araştırmadan uygulamaya doğru ağırlık merkezini kaydırıyor:
    • Devin gibi kod ajanlarının kullanımı (video)
    • kod üretimine dair pratik tavsiyeler (YouTube)

Bölüm 7: Görüntü

Bölüm 8: Ses

  • Whisper:
    • OpenAI’ın başarılı ASR modeli
    • Başlıca sürümler:
    • Whisper birden çok açık ağırlıklı model sunuyor, ancak bazı sürümlerin makalesi yok
  • AudioPaLM:
    • Google’ın AudioPaLM’i, PaLM’den Gemini’ye geçişten önceki bir araştırma
    • Not: Meta’nın Llama 3 ses araştırması (makale)
  • NaturalSpeech:
    • Önemli TTS araştırmalarından biri
    • Yakın zamanda v3 ile güncellendi (makale)
  • Kyutai Moshi:
    • Tam çift yönlü konuşma-metin açık ağırlıklı model
    • Yüksek kaliteli demo (YouTube)
    • Referans model: Hume OCTAVE (blog)
  • OpenAI Realtime API: The Missing Manual:
    • OpenAI’ın gerçek zamanlı ses API’si için gayriresmî dokümantasyon
    • En yeni ajan ve gerçek zamanlı çalışmalar için önemli bir araç
  • Büyük araştırma laboratuvarları dışında çeşitli çözüm önerileri:
  • Gemini 2.0: sesi ve görüntüyü doğal şekilde entegre eden multimodal model
    • 2025 sonrası: ses ve görüntü modalitelerinin birleşimi, net bir yol olarak evriliyor

Bölüm 9: Görsel/Video Diffusion

Bölüm 10: Model Finetuning

Yapay zeka mühendisleri için 2025 okuma listesinin sonu

3 yorum

 
kipsong133 2025-01-16

Böyle bakınca, gerçekten de yakından incelenmeye değer hâlâ tonlarca kaynak var.

 
GN⁺ 2025-01-14
Hacker News görüşleri
  • Çoğu makale, derin kavrayıştan çok bilgi edinmeye odaklanıyor. Konuya aşina değilseniz, makaleler yerine ders kitaplarıyla başlamak daha iyi olur. Bishop’un en güncel "Deep Learning: Foundations and Concepts (2024)" ve Chip Huyen’in "AI Engineering (2024)" kitapları iyi kaynaklar. "Dive into Deep Learning" veya fast.ai materyalleri de öneriliyor

  • "AI Engineer" diye bir mesleğin tam olarak ne olduğunu bilmiyorum, ama araştırma makaleleri okumanın gerçekten gerekli olup olmadığı şüpheli. Yapay zekanın en ileri sınırında çalışmıyorsanız, makale okumanın pek anlamı olmayabilir. LLM’lerin nasıl yanıt verdiğini anlamak ve kullanıcı dostu uygulamalar geliştirmek daha önemli. OpenAI ya da Groq API’sini kullanırken "multi head attention" ile "single head attention" arasındaki farkı bilmek çok da faydalı değil

  • Böyle bir liste hazırlamak zor bir iş. Seçilenlerin dışında da uygun pek çok aday var; bu yüzden bunu bir müfredat olarak görmek ve güncel ilgili makaleleri sabit referanslar değil, hareketli işaretçiler olarak anlamak gerekiyor. Belirli bir okuma listesi bir makale kulübünde ele alınıyor

  • Çoğu açık kaynak modelin talimat ince ayar yöntemi Alpaca’dan geliyor. Alpaca ve sentetik veri üretimiyle ilgili makaleler de eklenmeli

  • AI ve LLM makalelerini okuyup anlamaya zaman harcamak yerine ELIZA hakkında okuyup onu kendiniz inşa etmeniz daha iyi olur. Tensörler, vektörler, alanlar, dilbilim, bilgisayar mimarisi ve ağlara odaklanmak gerekiyor

  • Okuma listesi yaklaşık 1 yıl öncesine ait. 2025’te KTO, RLOO, DPO gibi tekniklere odaklanmak gerekiyor. 2025’te yalnızca damıtma ve optimizasyona odaklanılmalı. CoT yeni bir şey değil; önemli olan değiştirilmiş CoT

  • "AI" teriminin son dönemdeki DL gelişmeleri tarafından neredeyse tamamen yutulmuş olması ilginç. Russell & Norvig, Minsky, Shannon, Lenat gibi isimlerden hiç bahsedilmiyor. AI’ın daha geniş başlıklarına giriş yapmak istiyorsanız, çoğu lisansüstü program aynı kitabı kullanıyor

  • Harika bir derleme. Aşağıdaki kursla birleştirilirse en iyi sonuç alınabilir

  • Harika bir liste

 
francomoon7 2025-01-16

Eliza'yı bizzat inşa etmek ne anlama geliyor?