3 puan yazan GN⁺ 2025-07-12 | 1 yorum | WhatsApp'ta paylaş
  • LLM Çıkarım El Kitabı, gerçek üretim ortamlarında LLM çıkarımı için gerekli temel kavramları ve optimizasyon tekniklerini kapsamlı biçimde açıklar
  • Performans metrikleri (ör. Time to First Token, Tokens per Second) ve operasyonel en iyi uygulamalar gibi pratikte kritik bilgileri sunar
  • Sürekli batching, prefix caching gibi en güncel optimizasyon yöntemlerini ayrıntılı olarak açıklar
  • Dağınık durumdaki LLM çıkarım bilgisini tek yerde toplayarak geliştiricilerin anlayışını ve kullanım kolaylığını artırır
  • El kitabı, güncel saha bilgileri ve kanıtlanmış metodolojileri sürekli yansıtarak güncellenir

LLM Çıkarım El Kitabı'na Giriş

LLM Inference in Production, teknik terimler sözlüğü, rehber ve başvuru kaynağını tek yapıda birleştirir
Bu el kitabı, LLM çıkarımının temel kavramları, performans metrikleri, optimizasyon teknikleri (sürekli batching, prefix caching vb.), operasyonel en iyi uygulamalar gibi pratikte mutlaka bilinmesi gereken konuları ayrıntılı biçimde ele alır

  • Üretim ortamlarında LLM dağıtımı, ölçeklendirme ve işletim yönergelerini pratik şekilde sunar
  • Gerçekçi olmayan istisnalar ve gereksiz teknik gürültüyü dışarıda bırakıp sahada önemli olan noktalara odaklanır
  • Her kullanım senaryosuna uygun performans iyileştirme tekniklerini tanıtarak performans geliştirmeye somut katkı sağlar
  • Sektördeki en güncel gelişmeleri ve pratikte doğrulanmış içgörüleri sürekli günceller

Yazım motivasyonu

Geliştiriciler, LLM çıkarımıyla ilgili bilgiye ulaşmakta zorlanıyor veya bilginin birçok yere dağılmış olması nedeniyle bilgi parçalanması sorunu yaşıyor
El kitabının yazarları; makaleler, vendor blogları, GitHub issue'ları ve Discord konuşmaları arasında dağılmış içeriği bir araya getirerek,

  • LLM eğitimi ile çıkarımı arasındaki farkı
  • Goodput ile SLO karşılama arasındaki ilişkiyi
  • Prefill-Decode ayırma tekniğinin pratik kullanımını tek seferde anlaşılabilecek şekilde düzenledi

Hedef okur kitlesi

Bu el kitabı, üretim ortamlarında LLM dağıtan, ölçekleyen ve işleten mühendisler için hazırlandı
Küçük açık modellerin fine-tuning'inden büyük ölçekli kendi altyapısını işletmeye kadar,

  • LLM çıkarımını daha hızlı, daha ucuz ve daha güvenilir hale getirmek isteyen herkes temel hedef kitledir

Kullanım şekli

Bu el kitabı baştan sona okunabilecek ya da başvuru kaynağı gibi yalnızca ihtiyaç duyulan bölümleri bulup okunabilecek bir yapıya sahiptir
Belirli bir giriş sırası veya kullanım yöntemi yoktur ve,

  • LLM çıkarımı alanındaki hızlı değişime ayak uydurmak için en güncel içerikler eklenmeye ve yenilenmeye devam edecektir

Katkı rehberi

Hata bildirimleri, iyileştirme önerileri ve yeni konu eklemeleri memnuniyetle karşılanır

  • Issue açarak veya GitHub deposuna Pull Request göndererek herkes katkıda bulunabilir

1 yorum

 
GN⁺ 2025-07-12
Hacker News yorumları
  • Merhaba, ben bu projenin ana bakımcılarından biriyim; projemizin Hacker News’te paylaşılmasından mutluluk ve onur duyuyorum. Bu el kitabını hazırlamamızın nedeni, gerçek LLM uygulamaları geliştiren geliştiricilerin de LLM çıkarımı kavramlarına kolayca erişebilmesini sağlamaktı. Farklı yerlere dağılmış bilgileri açık, pratik ve ölçeklenebilir bir biçimde bir araya getirmek istedik. Daha iyi bir el kitabı için geliştirmeye devam edeceğiz; bu yüzden geri bildirimleri memnuniyetle alıyoruz. GitHub deposuna da göz atarsanız seviniriz.
    • Bunu böyle derlediğiniz için gerçekten teşekkürler. Bir sorum var: bu görselde TTFT ve ITL’yi tanımlayan şemaya bakınca, modelin T0’dan T3’e kadar 4 token ürettikten sonra tek bir çıktı token’ı verdiği görülüyor. Bana göre bu görsel ITL’yi açıklamak için daha uygun görünüyor; TTFT durumunda ise decode aşamasında yalnızca T0 çıkıp ilk çıktı token’ının hemen detokenization’a ulaşması gerekirmiş gibi duruyor (özellikle streaming ortamında, yoksa TTFT ölçümünün çok anlamı olmaz diye düşünüyorum).
    • Ayrı bir issue açmayı düşünmüyorum ama el kitabının self-hosting bölümünde llama.cpp gibi yerel self-hosted çıkarım açık kaynak projelerinin daha net tavsiye edilmesini isterdim.
    • Bu el kitabının faydalı ve iyi düzenlenmiş olduğunu düşünüyorum. Ancak çok fazla küçük sayfaya bölünmüş ve mobilde içindekiler varsayılan olarak görünmediği için okuması zor. Birkaç sayfa okuduktan sonra bıraktım. En azından her bölüm tek bir sayfa olarak gösterilse iyi olurdu.
    • Gerçekten harika bir iş; çok şık hazırlanmış ve kullanışlı.
  • Tasarım da gerçekten çok hoş, merakımdan soruyorum: web sitesinde kullanılan tasarım trendinin ya da stilinin adı nedir? Bu site tasarımını da gerçekten çok beğendim.
    • Sanırım Infima adlı temel CSS framework’ü kullanıyor. Bu, Docusaurus’un varsayılan CSS framework’ü ve sistem font stack’ini olduğu gibi kullanıyor. font-family ise -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif.
  • İleride Structured outputs/Guided generation ve sampling hakkında daha fazla içerik de eklenmesini isterim. Çıkarım aşamasındaki sampling algoritmalarını tanıtan ek bir referans olarak şuraya da bakılabilir.
    • Vay, bu sampling derleme notu da gerçekten çok ayrıntılı.
  • Böyle bir el kitabının çıkmasına çok sevindim. Herkese açık kaynaklarda model eğitimi etrafındaki ilgi ve heyecanın yüksek olmasını anlıyorum, ancak modeli pratikte iyi işletmek de son derece önemli. Gelecekte çeşitli uygulamalarda daha geniş çapta benimsenmesi için çalıştırma ve operasyon bilgisi giderek daha gerekli hale gelecek.
  • Bunu böyle bir araya getirip düzenlediğiniz için teşekkürler. Bundan sonra ilgilenen birinin öğrenmesi için sadece bu tek bağlantıyı paylaşmak yeterli olacak gibi görünüyor. Bir öneri olarak, "OpenAI-compatible API" sayfasına OpenAI paketi olmadan saf REST çağrısı örnekleri de eklenirse iyi olur.
  • BentoML hakkında hatırladığım kadarıyla eskiden daha çok MLOps tarafındaydı; sanırım 1 yıl kadar önce kullanmıştım. Acaba şirket yönünü mü değiştirdi?
    • LLM serving tarafı pazarda büyük bir paya sahip olduğu için, bir serving framework’ünün bu alana genişlemesi gayet doğal bir akış.
  • Çok iyi bir başvuru kaynağı olmuş; bu kadar düzenli toparladığınız için teşekkürler.