- Büyük ölçekli modeller çağında veri kalitesi, model performansının üst sınırını belirler
- Bunun için sistematik veri mühendisliği bilgisi sunan bir açık kaynak rehber kitap
- Ön eğitim verisi temizleme, çok modlu hizalama, RAG veri hattı, sentetik veri üretimi gibi tüm süreci kapsar
- 5 bölümde 13 chapter'dan oluşur. Ayrıca 5 uygulamalı capstone proje, çalıştırılabilir kod ve mimari tasarımlar içererek pratik öğrenmeyi destekler
- Ray, Spark, CLIP, DVC gibi modern teknoloji yığınlarını kullanarak metin, görsel ve video verilerini işler
- LLM araştırmacıları, veri mühendisleri, MLOps uzmanları gibi AI veri hattı kurucuları için pratik bir başvuru kaynağı olarak kullanılabilir
Giriş
- Büyük ölçekli modeller çağında veri kalitesi, model performansının sınırını belirler
- LLM veri mühendisliği konusunda sistematik kaynak eksikliğini gidermek için hazırlanmıştır
- Kitap, ön eğitim verisi temizlemeden çok modlu hizalamaya, RAG'e ve sentetik veri üretimine kadar tüm teknoloji yığınını ele alır
- Common Crawl gibi büyük ölçekli gürültülü verilerden yüksek kaliteli corpus çıkarımı
- Görsel-metin, video ve ses verilerinin toplanması, temizlenmesi ve hizalanması
- SFT, RLHF, CoT verilerinin otomatik üretimi
- Kurumsal belge parsing ve anlamsal birimlere ayırma dahil RAG veri hattı kurulumu
- 5 uçtan uca capstone proje ile uygulama odaklı öğrenme sunar
- Çevrimiçi okunabilir: https://datascale-ai.github.io/data_engineering_book/en/
Kitabın yapısı
- Genel yapı, ham veriden uygulamaya uzanan eksiksiz veri mühendisliği hattıdır
- Toplam 6 kısım, 13 bölüm ve 5 projeden oluşur
- Part 1: Altyapı ve temel kavramlar
- Part 2: Metin ön eğitim verisi mühendisliği
- Part 3: Çok modlu veri mühendisliği
- Part 4: Hizalama ve sentetik veri mühendisliği
- Part 5: Uygulama seviyesinde veri mühendisliği
- Part 6: Capstone projeler (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
Başlıca özellikler
Kapsamlı teori
- Data-Centric AI yaklaşımını genel olarak yansıtır
- Ön eğitim → ince ayar → RLHF → RAG şeklinde ilerleyen LLM veri yaşam döngüsünün tamamını ele alır
- ölçekleme yasaları, veri kalitesi değerlendirmesi, çok modlu hizalama gibi ileri konuları içerir
Modern teknoloji yığını
- Dağıtık hesaplama: Ray Data, Spark
- Veri depolama: Parquet, WebDataset, Vector Databases
- Metin işleme: Trafilatura, KenLM, MinHash LSH
- Çok modlu işleme: CLIP, ColPali, img2dataset
- Veri sürümleme: DVC, LakeFS
Zengin capstone projeler
- Mini-C4: Trafilatura + Ray + MinHash ile yüksek kaliteli metin corpus'u oluşturma
- Legal Expert SFT: Self-Instruct + CoT tabanlı alan odaklı instruction veri seti
- LLaVA Multimodal: Bbox hizalama ve çoklu görsel interleaving ile görsel instruction veri seti üretimi
- Math Textbook: Evol-Instruct + sandbox doğrulaması ile akıl yürütme veri seti oluşturma
- Financial Report RAG: ColPali + Qwen-VL ile çok modlu soru-cevap sistemi gerçekleştirme
Yerel geliştirme
- Gerekli ortam: Python 3.8+, MkDocs Material, mkdocs-static-i18n
- Kurulum ve önizleme
git clone ile depoyu klonladıktan sonra bağımlılıkları yükleyin
mkdocs serve çalıştırıldığında yerel önizleme yapılabilir (Çince/İngilizce geçiş desteklenir)
- Statik site derleme:
mkdocs build çalıştırıldığında sonuç site/ dizininde oluşturulur
Proje yapısı
docs/ klasöründe Çince (zh/) ve İngilizce (en/) içerik bulunur
images/, stylesheets/, javascripts/ gibi kaynak dizinleri yer alır
.github/workflows/ içinde CI/CD yapılandırması bulunur
- Site yapılandırması
mkdocs.yml ile yönetilir
- Lisans MIT License
Hedef okuyucu kitlesi
- LLM araştırma ve geliştirme mühendisleri, veri mühendisleri, MLOps mühendisleri, teknik AI PM'ler, LLM veri hattı araştırmacıları
Lisans
1 yorum
Hacker News yorumları
Bu kitabı gerçekten büyük bir memnuniyetle okuyorum. Çeviri kalitesi çok yüksek
LLM eğitimi konusunda tam bir acemiyim, ama Apple Silicon üzerinde Python kod üretimi için yeni bir mimari deniyorum
Ancak veri araçlarının kod odaklı değil de genel metin veya görsellere odaklanması sinir bozucu geliyor
SGlang MacOS'ta çalışmadığı için EBNF kısıtlı çıktı kullanarak sentetik veri üretemiyorum
Python kod korpusunu doğrudan indirip APFS sorunları, sharding ve özel sınıflandırma·temizleme·karıştırma işlemleriyle uğraşıyorum; bu yüzden kod için önceden etiketlenmiş veri setleri olmaması şaşırtıcı geliyor
Ortaya çıkmakta olan LLM veri mühendisliği alanını ele alan bir kitapsa, ML yaşam döngüsünün tamamına yönelik depolama formatları gibi yükselen kategorilerden de söz etmeli
Örneğin Lance, hem analitik işler hem de vektör iş yükleri için optimize edilmiş kolon bazlı depolama sunuyor; ayrıca sürümleme ve rastgele erişimi destekliyor
Bu; örnekleme, verimli filtreleme ve multimodal veriyle (ör. video) çalışma açısından çok önemli
Benzer örnekler arasında vortex ve Meta'nın nimble projesi var
Bence başlık olarak ‘Data Engineering for LLMs’ daha uygun
Çeviri kaynaklı olabilir ama baştaki “Modern Data Stack” açıklaması güven vermedi
1_2_data_infra.md bölümü biraz muğlaktı, ancak
sonrasında gelen veri temizleme ve RAG pipeline bölümleri çok daha netti
İngilizce sürüm README_en.md içinde
Gönderi spam filtresine takılmıştı; yazar bunu e-postayla bildirince arka planı yorumlarda paylaşması için davet ettim. Şimdi bunu üstte yansıtacak şekilde güncelledim
Çok ilginç göründüğü için yer imlerine ekledim. Ama README'nin ChatGPT ile yazılıp yazılmadığını merak ediyorum
“Data is the new oil, but only if you know how to refine it.” cümlesi etkileyiciydi
Petrol da rafine edilmeden işe yaramaz; bu yüzden “Veri yeni petroldür ve rafine edildiğinde değer kazanır” gibi bir ifade daha doğal olabilir
‘Vector DB vs Keyword Search’ bölümü ilginçti. RAG pipeline deneylerinde sınırı nerede çizdiğinizi merak ediyorum
Bizim deneyimimize göre BM25 gibi anahtar kelime araması varlık adları ve ID'lerde güçlü, vektör araması ise kavramsal sorgularda güçlüydü. Kitapta hibrit arama veya yeniden sıralama da ele alınıyor mu merak ediyorum
Asıl kritik nokta yeniden sıralama. Sonuçları yalnızca birleştirmek yetmez; cross-encoder (ör. Cohere veya özel model) ile puanları yeniden vermek gerekir
Tamamen anlamsal aramanın avantajlı olduğu durumlar, sorguların daha çok soyut kavramlara dayandığı anlardır
Her bölümdeki görseller İngilizce (README_en.md içindeki görseller hariç)
Yalnızca Parquet, modern veri mühendisliği için yeterli değil. Delta ve Iceberg de eklenmeli