Büyük Ölçekli Modeller için Veri Mühendisliği: Mimari, Algoritmalar ve Projeler

(github.com/datascale-ai)

15 puan yazan GN⁺ 2026-02-16 | 1 yorum | WhatsApp'ta paylaş

Büyük ölçekli modeller çağında veri kalitesi, model performansının üst sınırını belirler
Bunun için sistematik veri mühendisliği bilgisi sunan bir açık kaynak rehber kitap
Ön eğitim verisi temizleme, çok modlu hizalama, RAG veri hattı, sentetik veri üretimi gibi tüm süreci kapsar
5 bölümde 13 chapter'dan oluşur. Ayrıca 5 uygulamalı capstone proje, çalıştırılabilir kod ve mimari tasarımlar içererek pratik öğrenmeyi destekler
Ray, Spark, CLIP, DVC gibi modern teknoloji yığınlarını kullanarak metin, görsel ve video verilerini işler
LLM araştırmacıları, veri mühendisleri, MLOps uzmanları gibi AI veri hattı kurucuları için pratik bir başvuru kaynağı olarak kullanılabilir

Giriş

Büyük ölçekli modeller çağında veri kalitesi, model performansının sınırını belirler
- LLM veri mühendisliği konusunda sistematik kaynak eksikliğini gidermek için hazırlanmıştır
Kitap, ön eğitim verisi temizlemeden çok modlu hizalamaya, RAG'e ve sentetik veri üretimine kadar tüm teknoloji yığınını ele alır
- Common Crawl gibi büyük ölçekli gürültülü verilerden yüksek kaliteli corpus çıkarımı
- Görsel-metin, video ve ses verilerinin toplanması, temizlenmesi ve hizalanması
- SFT, RLHF, CoT verilerinin otomatik üretimi
- Kurumsal belge parsing ve anlamsal birimlere ayırma dahil RAG veri hattı kurulumu
5 uçtan uca capstone proje ile uygulama odaklı öğrenme sunar
Çevrimiçi okunabilir: https://datascale-ai.github.io/data_engineering_book/en/

Kitabın yapısı

Genel yapı, ham veriden uygulamaya uzanan eksiksiz veri mühendisliği hattıdır
Toplam 6 kısım, 13 bölüm ve 5 projeden oluşur
- Part 1: Altyapı ve temel kavramlar
- Part 2: Metin ön eğitim verisi mühendisliği
- Part 3: Çok modlu veri mühendisliği
- Part 4: Hizalama ve sentetik veri mühendisliği
- Part 5: Uygulama seviyesinde veri mühendisliği
- Part 6: Capstone projeler (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Başlıca özellikler

Kapsamlı teori

Data-Centric AI yaklaşımını genel olarak yansıtır
Ön eğitim → ince ayar → RLHF → RAG şeklinde ilerleyen LLM veri yaşam döngüsünün tamamını ele alır
ölçekleme yasaları, veri kalitesi değerlendirmesi, çok modlu hizalama gibi ileri konuları içerir

Modern teknoloji yığını

Dağıtık hesaplama: Ray Data, Spark
Veri depolama: Parquet, WebDataset, Vector Databases
Metin işleme: Trafilatura, KenLM, MinHash LSH
Çok modlu işleme: CLIP, ColPali, img2dataset
Veri sürümleme: DVC, LakeFS

Zengin capstone projeler

Mini-C4: Trafilatura + Ray + MinHash ile yüksek kaliteli metin corpus'u oluşturma
Legal Expert SFT: Self-Instruct + CoT tabanlı alan odaklı instruction veri seti
LLaVA Multimodal: Bbox hizalama ve çoklu görsel interleaving ile görsel instruction veri seti üretimi
Math Textbook: Evol-Instruct + sandbox doğrulaması ile akıl yürütme veri seti oluşturma
Financial Report RAG: ColPali + Qwen-VL ile çok modlu soru-cevap sistemi gerçekleştirme

Yerel geliştirme

Gerekli ortam: Python 3.8+, MkDocs Material, mkdocs-static-i18n
Kurulum ve önizleme
- git clone ile depoyu klonladıktan sonra bağımlılıkları yükleyin
- mkdocs serve çalıştırıldığında yerel önizleme yapılabilir (Çince/İngilizce geçiş desteklenir)
Statik site derleme: mkdocs build çalıştırıldığında sonuç site/ dizininde oluşturulur

Proje yapısı

docs/ klasöründe Çince (zh/) ve İngilizce (en/) içerik bulunur
images/, stylesheets/, javascripts/ gibi kaynak dizinleri yer alır
.github/workflows/ içinde CI/CD yapılandırması bulunur
Site yapılandırması mkdocs.yml ile yönetilir
Lisans MIT License

Hedef okuyucu kitlesi

LLM araştırma ve geliştirme mühendisleri, veri mühendisleri, MLOps mühendisleri, teknik AI PM'ler, LLM veri hattı araştırmacıları

Lisans

MIT License uygulanır

Çevrimiçi okuma: https://datascale-ai.github.io/data_engineering_book/en/

1 yorum

GN⁺ 2026-02-16

Hacker News yorumları

Bu kitabı gerçekten büyük bir memnuniyetle okuyorum. Çeviri kalitesi çok yüksek
LLM eğitimi konusunda tam bir acemiyim, ama Apple Silicon üzerinde Python kod üretimi için yeni bir mimari deniyorum
Ancak veri araçlarının kod odaklı değil de genel metin veya görsellere odaklanması sinir bozucu geliyor
SGlang MacOS'ta çalışmadığı için EBNF kısıtlı çıktı kullanarak sentetik veri üretemiyorum
Python kod korpusunu doğrudan indirip APFS sorunları, sharding ve özel sınıflandırma·temizleme·karıştırma işlemleriyle uğraşıyorum; bu yüzden kod için önceden etiketlenmiş veri setleri olmaması şaşırtıcı geliyor
Ortaya çıkmakta olan LLM veri mühendisliği alanını ele alan bir kitapsa, ML yaşam döngüsünün tamamına yönelik depolama formatları gibi yükselen kategorilerden de söz etmeli
Örneğin Lance, hem analitik işler hem de vektör iş yükleri için optimize edilmiş kolon bazlı depolama sunuyor; ayrıca sürümleme ve rastgele erişimi destekliyor
Bu; örnekleme, verimli filtreleme ve multimodal veriyle (ör. video) çalışma açısından çok önemli
Benzer örnekler arasında vortex ve Meta'nın nimble projesi var
Bence başlık olarak ‘Data Engineering for LLMs’ daha uygun
- İyi nokta. İçerik açısından ‘Data Engineering for LLMs’ çok daha doğru; bunu hemen proje liderine ileteceğim
Çeviri kaynaklı olabilir ama baştaki “Modern Data Stack” açıklaması güven vermedi
1_2_data_infra.md bölümü biraz muğlaktı, ancak
sonrasında gelen veri temizleme ve RAG pipeline bölümleri çok daha netti
- Dürüst geri bildirimin için teşekkürler
İngilizce sürüm README_en.md içinde
- Teşekkürler! Üstteki bağlantıyı onunla değiştirdim. Başlangıçta gönderilen URL data_engineering_book idi
  Gönderi spam filtresine takılmıştı; yazar bunu e-postayla bildirince arka planı yorumlarda paylaşması için davet ettim. Şimdi bunu üstte yansıtacak şekilde güncelledim
- Doğrudan bağlantıyı paylaştığın için teşekkürler
Çok ilginç göründüğü için yer imlerine ekledim. Ama README'nin ChatGPT ile yazılıp yazılmadığını merak ediyorum
- Evet. Biz Çinli bir ekibiz ve İngilizce çeviri için GPT kullandık. Biraz ‘sahte sıcaklık’ hissi verdiğine dair geri bildirim için teşekkürler. İleride bunu daha nötr ve öz bir tona getireceğiz
- Ben de aynı hissi aldım. Çok fazla özet tablo ve yapay bir üslup var; bu yüzden LLM tarafından yazılmış gibi duruyor. GPT olmasa bile baştan kapsamlı bir yeniden yazım gerekiyor
“Data is the new oil, but only if you know how to refine it.” cümlesi etkileyiciydi
Petrol da rafine edilmeden işe yaramaz; bu yüzden “Veri yeni petroldür ve rafine edildiğinde değer kazanır” gibi bir ifade daha doğal olabilir
‘Vector DB vs Keyword Search’ bölümü ilginçti. RAG pipeline deneylerinde sınırı nerede çizdiğinizi merak ediyorum
Bizim deneyimimize göre BM25 gibi anahtar kelime araması varlık adları ve ID'lerde güçlü, vektör araması ise kavramsal sorgularda güçlüydü. Kitapta hibrit arama veya yeniden sıralama da ele alınıyor mu merak ediyorum
- Güzel soru. Gerçek üretim ortamlarında BM25+vektör hibrit yaklaşımı çoğu durumda etkili oldu. Yaklaşık 70/30 oranında anahtar kelimeler tam eşleşmede avantajlı
  Asıl kritik nokta yeniden sıralama. Sonuçları yalnızca birleştirmek yetmez; cross-encoder (ör. Cohere veya özel model) ile puanları yeniden vermek gerekir
  Tamamen anlamsal aramanın avantajlı olduğu durumlar, sorguların daha çok soyut kavramlara dayandığı anlardır
- İçgörü için teşekkürler. Bu tür kalıpları ilerideki güncellemelerde ele alacağız. Şu anda Bahar Bayramı tatilindeyiz, bu yüzden biraz gecikme olabilir
Her bölümdeki görseller İngilizce (README_en.md içindeki görseller hariç)
- Bildirdiğin için teşekkürler! Bu farkın farkına vardım ve README_en.md içindeki diyagramları hemen düzelttim. Artık doğru şekilde görünecekler
Yalnızca Parquet, modern veri mühendisliği için yeterli değil. Delta ve Iceberg de eklenmeli
- Geri bildirimin için teşekkürler! Bunu ilgili bölümden sorumlu kişiye ilettim. Şu anda Bahar Bayramı tatili olduğu için güncelleme biraz gecikebilir. Mutlu yıllar dilerim

Büyük Ölçekli Modeller için Veri Mühendisliği: Mimari, Algoritmalar ve Projeler

Giriş

Kitabın yapısı

Başlıca özellikler

Kapsamlı teori

Modern teknoloji yığını

Zengin capstone projeler

Yerel geliştirme

Proje yapısı

Hedef okuyucu kitlesi

Lisans

İlgili okumalar

1 yorum

Hacker News yorumları