15 puan yazan GN⁺ 2026-02-16 | 1 yorum | WhatsApp'ta paylaş
  • Büyük ölçekli modeller çağında veri kalitesi, model performansının üst sınırını belirler
  • Bunun için sistematik veri mühendisliği bilgisi sunan bir açık kaynak rehber kitap
  • Ön eğitim verisi temizleme, çok modlu hizalama, RAG veri hattı, sentetik veri üretimi gibi tüm süreci kapsar
  • 5 bölümde 13 chapter'dan oluşur. Ayrıca 5 uygulamalı capstone proje, çalıştırılabilir kod ve mimari tasarımlar içererek pratik öğrenmeyi destekler
  • Ray, Spark, CLIP, DVC gibi modern teknoloji yığınlarını kullanarak metin, görsel ve video verilerini işler
  • LLM araştırmacıları, veri mühendisleri, MLOps uzmanları gibi AI veri hattı kurucuları için pratik bir başvuru kaynağı olarak kullanılabilir

Giriş

  • Büyük ölçekli modeller çağında veri kalitesi, model performansının sınırını belirler
    • LLM veri mühendisliği konusunda sistematik kaynak eksikliğini gidermek için hazırlanmıştır
  • Kitap, ön eğitim verisi temizlemeden çok modlu hizalamaya, RAG'e ve sentetik veri üretimine kadar tüm teknoloji yığınını ele alır
    • Common Crawl gibi büyük ölçekli gürültülü verilerden yüksek kaliteli corpus çıkarımı
    • Görsel-metin, video ve ses verilerinin toplanması, temizlenmesi ve hizalanması
    • SFT, RLHF, CoT verilerinin otomatik üretimi
    • Kurumsal belge parsing ve anlamsal birimlere ayırma dahil RAG veri hattı kurulumu
  • 5 uçtan uca capstone proje ile uygulama odaklı öğrenme sunar
  • Çevrimiçi okunabilir: https://datascale-ai.github.io/data_engineering_book/en/

Kitabın yapısı

  • Genel yapı, ham veriden uygulamaya uzanan eksiksiz veri mühendisliği hattıdır
  • Toplam 6 kısım, 13 bölüm ve 5 projeden oluşur
    • Part 1: Altyapı ve temel kavramlar
    • Part 2: Metin ön eğitim verisi mühendisliği
    • Part 3: Çok modlu veri mühendisliği
    • Part 4: Hizalama ve sentetik veri mühendisliği
    • Part 5: Uygulama seviyesinde veri mühendisliği
    • Part 6: Capstone projeler (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Başlıca özellikler

Kapsamlı teori

  • Data-Centric AI yaklaşımını genel olarak yansıtır
  • Ön eğitim → ince ayar → RLHF → RAG şeklinde ilerleyen LLM veri yaşam döngüsünün tamamını ele alır
  • ölçekleme yasaları, veri kalitesi değerlendirmesi, çok modlu hizalama gibi ileri konuları içerir

Modern teknoloji yığını

  • Dağıtık hesaplama: Ray Data, Spark
  • Veri depolama: Parquet, WebDataset, Vector Databases
  • Metin işleme: Trafilatura, KenLM, MinHash LSH
  • Çok modlu işleme: CLIP, ColPali, img2dataset
  • Veri sürümleme: DVC, LakeFS

Zengin capstone projeler

  • Mini-C4: Trafilatura + Ray + MinHash ile yüksek kaliteli metin corpus'u oluşturma
  • Legal Expert SFT: Self-Instruct + CoT tabanlı alan odaklı instruction veri seti
  • LLaVA Multimodal: Bbox hizalama ve çoklu görsel interleaving ile görsel instruction veri seti üretimi
  • Math Textbook: Evol-Instruct + sandbox doğrulaması ile akıl yürütme veri seti oluşturma
  • Financial Report RAG: ColPali + Qwen-VL ile çok modlu soru-cevap sistemi gerçekleştirme

Yerel geliştirme

  • Gerekli ortam: Python 3.8+, MkDocs Material, mkdocs-static-i18n
  • Kurulum ve önizleme
    • git clone ile depoyu klonladıktan sonra bağımlılıkları yükleyin
    • mkdocs serve çalıştırıldığında yerel önizleme yapılabilir (Çince/İngilizce geçiş desteklenir)
  • Statik site derleme: mkdocs build çalıştırıldığında sonuç site/ dizininde oluşturulur

Proje yapısı

  • docs/ klasöründe Çince (zh/) ve İngilizce (en/) içerik bulunur
  • images/, stylesheets/, javascripts/ gibi kaynak dizinleri yer alır
  • .github/workflows/ içinde CI/CD yapılandırması bulunur
  • Site yapılandırması mkdocs.yml ile yönetilir
  • Lisans MIT License

Hedef okuyucu kitlesi

  • LLM araştırma ve geliştirme mühendisleri, veri mühendisleri, MLOps mühendisleri, teknik AI PM'ler, LLM veri hattı araştırmacıları

Lisans

  • MIT License uygulanır

1 yorum

 
GN⁺ 2026-02-16
Hacker News yorumları
  • Bu kitabı gerçekten büyük bir memnuniyetle okuyorum. Çeviri kalitesi çok yüksek
    LLM eğitimi konusunda tam bir acemiyim, ama Apple Silicon üzerinde Python kod üretimi için yeni bir mimari deniyorum
    Ancak veri araçlarının kod odaklı değil de genel metin veya görsellere odaklanması sinir bozucu geliyor
    SGlang MacOS'ta çalışmadığı için EBNF kısıtlı çıktı kullanarak sentetik veri üretemiyorum
    Python kod korpusunu doğrudan indirip APFS sorunları, sharding ve özel sınıflandırma·temizleme·karıştırma işlemleriyle uğraşıyorum; bu yüzden kod için önceden etiketlenmiş veri setleri olmaması şaşırtıcı geliyor

  • Ortaya çıkmakta olan LLM veri mühendisliği alanını ele alan bir kitapsa, ML yaşam döngüsünün tamamına yönelik depolama formatları gibi yükselen kategorilerden de söz etmeli
    Örneğin Lance, hem analitik işler hem de vektör iş yükleri için optimize edilmiş kolon bazlı depolama sunuyor; ayrıca sürümleme ve rastgele erişimi destekliyor
    Bu; örnekleme, verimli filtreleme ve multimodal veriyle (ör. video) çalışma açısından çok önemli
    Benzer örnekler arasında vortex ve Meta'nın nimble projesi var

  • Bence başlık olarak ‘Data Engineering for LLMs’ daha uygun

    • İyi nokta. İçerik açısından ‘Data Engineering for LLMs’ çok daha doğru; bunu hemen proje liderine ileteceğim
  • Çeviri kaynaklı olabilir ama baştaki “Modern Data Stack” açıklaması güven vermedi
    1_2_data_infra.md bölümü biraz muğlaktı, ancak
    sonrasında gelen veri temizleme ve RAG pipeline bölümleri çok daha netti

    • Dürüst geri bildirimin için teşekkürler
  • İngilizce sürüm README_en.md içinde

    • Teşekkürler! Üstteki bağlantıyı onunla değiştirdim. Başlangıçta gönderilen URL data_engineering_book idi
      Gönderi spam filtresine takılmıştı; yazar bunu e-postayla bildirince arka planı yorumlarda paylaşması için davet ettim. Şimdi bunu üstte yansıtacak şekilde güncelledim
    • Doğrudan bağlantıyı paylaştığın için teşekkürler
  • Çok ilginç göründüğü için yer imlerine ekledim. Ama README'nin ChatGPT ile yazılıp yazılmadığını merak ediyorum

    • Evet. Biz Çinli bir ekibiz ve İngilizce çeviri için GPT kullandık. Biraz ‘sahte sıcaklık’ hissi verdiğine dair geri bildirim için teşekkürler. İleride bunu daha nötr ve öz bir tona getireceğiz
    • Ben de aynı hissi aldım. Çok fazla özet tablo ve yapay bir üslup var; bu yüzden LLM tarafından yazılmış gibi duruyor. GPT olmasa bile baştan kapsamlı bir yeniden yazım gerekiyor
  • “Data is the new oil, but only if you know how to refine it.” cümlesi etkileyiciydi
    Petrol da rafine edilmeden işe yaramaz; bu yüzden “Veri yeni petroldür ve rafine edildiğinde değer kazanır” gibi bir ifade daha doğal olabilir

  • ‘Vector DB vs Keyword Search’ bölümü ilginçti. RAG pipeline deneylerinde sınırı nerede çizdiğinizi merak ediyorum
    Bizim deneyimimize göre BM25 gibi anahtar kelime araması varlık adları ve ID'lerde güçlü, vektör araması ise kavramsal sorgularda güçlüydü. Kitapta hibrit arama veya yeniden sıralama da ele alınıyor mu merak ediyorum

    • Güzel soru. Gerçek üretim ortamlarında BM25+vektör hibrit yaklaşımı çoğu durumda etkili oldu. Yaklaşık 70/30 oranında anahtar kelimeler tam eşleşmede avantajlı
      Asıl kritik nokta yeniden sıralama. Sonuçları yalnızca birleştirmek yetmez; cross-encoder (ör. Cohere veya özel model) ile puanları yeniden vermek gerekir
      Tamamen anlamsal aramanın avantajlı olduğu durumlar, sorguların daha çok soyut kavramlara dayandığı anlardır
    • İçgörü için teşekkürler. Bu tür kalıpları ilerideki güncellemelerde ele alacağız. Şu anda Bahar Bayramı tatilindeyiz, bu yüzden biraz gecikme olabilir
  • Her bölümdeki görseller İngilizce (README_en.md içindeki görseller hariç)

    • Bildirdiğin için teşekkürler! Bu farkın farkına vardım ve README_en.md içindeki diyagramları hemen düzelttim. Artık doğru şekilde görünecekler
  • Yalnızca Parquet, modern veri mühendisliği için yeterli değil. Delta ve Iceberg de eklenmeli

    • Geri bildirimin için teşekkürler! Bunu ilgili bölümden sorumlu kişiye ilettim. Şu anda Bahar Bayramı tatili olduğu için güncelleme biraz gecikebilir. Mutlu yıllar dilerim