Python Veri Bilimi El Kitabı

(jakevdp.github.io)

43 puan yazan GN⁺ 2025-12-04 | 2 yorum | WhatsApp'ta paylaş

Python tabanlı veri biliminin temel araç ve tekniklerini ele alan çevrimiçi bir el kitabı; tüm içerik web sitesi ve GitHub üzerinden açık olarak sunuluyor
Jupyter notebook formatında sunulduğu için uygulama odaklı öğrenmeye uygun; kod ve metin birlikte yer alıyor
Metinler CC-BY-NC-ND lisansı, kod örnekleri ise MIT lisansı ile dağıtılıyor; bu da serbest ticari olmayan kullanımı mümkün kılıyor
IPython, NumPy, Pandas, Matplotlib, Scikit-Learn gibi veri analizi ve makine öğreniminin temel kütüphanelerini sistemli biçimde ele alıyor
Veri bilimine yeni başlayanlardan profesyonellere kadar, Python ekosisteminin standart iş akışını öğrenmek için yararlı bir kaynak

Genel Bakış

Bu site, Jake VanderPlas'ın 『Python Data Science Handbook』 adlı eserinin tamamını içeriyor
- Orijinal kitap O’Reilly tarafından yayımlandı ve web sürümü ücretsiz olarak açıklandı
- Tüm içerik, GitHub deposunda Jupyter notebook biçiminde sunuluyor
Metinler CC-BY-NC-ND lisansı, kod örnekleri ise MIT lisansı ile dağıtılıyor
- Ticari olmayan kullanım ve kodun yeniden kullanımı mümkün
Okur yararlı bulursa, orijinal kitabı satın alarak yazarı destekleyebilir

İçerik Yapısı

Kitap toplam 5 ana bölüm ve bir ek bölümden oluşuyor

1. Bölüm: IPython – sıradan Python'ın ötesine geçmek

IPython ortamının özellikleri ve kullanımını açıklıyor
- Yardım sistemi, klavye kısayolları, magic komutları, shell komutlarıyla entegrasyon gibi konular dahil
- Kod yürütme geçmişi, hata ayıklama ve performans ölçümü özelliklerini ele alıyor

2. Bölüm: NumPy'ye Giriş

NumPy dizileri ile sayısal hesaplamanın temellerini ele alıyor
- Veri tipleri, broadcasting, Boolean mask, sıralama, structured array gibi konular dahil
- Dizi tabanlı işlemler ve toplulaştırma fonksiyonlarının kullanımını açıklıyor

3. Bölüm: Pandas ile Veri İşleme

Pandas'ın temel nesneleri ve veri işleme özelliklerini ele alıyor
- İndeksleme, eksik veri işleme, gruplama, pivot tablolar, zaman serisi işleme gibi konular dahil
- eval() ve query() ile yüksek performanslı işlem özelliklerini de tanıtıyor

4. Bölüm: Matplotlib ile Görselleştirme

Matplotlib ve Seaborn kullanarak veri görselleştirme yöntemlerini açıklıyor
- Çizgi grafikleri, saçılım grafikleri, histogramlar, yoğunluk grafikleri gibi çeşitli grafik türleri dahil
- Lejantlar, renk çubukları, stil sayfaları, 3D grafikler ve coğrafi veri görselleştirme gibi gelişmiş özellikleri ele alıyor

5. Bölüm: Makine Öğrenimi

Scikit-Learn merkezli olarak makine öğreniminin temel kavramlarını ve algoritmalarını ele alıyor
- Hiperparametreler, model doğrulama, özellik mühendisliği gibi temel süreçler dahil
- Naive Bayes, doğrusal regresyon, SVM, random forest, PCA, k-means, GMM gibi başlıca modelleri açıklıyor
- Yüz tanıma pipeline örneği üzerinden gerçek uygulama senaryosu sunuyor

Ek: Şekil Kodları

Metinde kullanılan görselleştirme kodları toplu olarak sunuluyor
- Her şeklin yeniden üretilmesi ve düzenlenmesi mümkün

Kullanım Değeri

Veri bilimi öğrenenler için Python ekosistemine bütüncül bir anlayış sunuyor
Uygulanabilir notebook formatıyla eğitim, araştırma ve prototipleme için kullanılabilir
Açık kaynak lisanslarıyla yayımlandığı için sürekli genişleme ve topluluk katkısı kolaylaşıyor

2 yorum

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Python kütüphaneleriyle veri analizi
Pandas'ı geliştiren Wes McKinney'nin yazdığı bir kitap; veri bilimine giriş kitabı olarak bu da iyidir. Ben bu kitabı 2. baskı ilk çıktığında okumuştum... şimdi aratınca 3. baskının çıktığını gördüm.

GN⁺ 2025-12-04

Hacker News görüşleri

Jake VanderPlas’ın Statistics for Hackers konuşmasını gerçekten çok sevmiştim
Sunum slaytlarını görüntüle
- Paylaştığın için teşekkürler. Olasılık yerine sıklık üzerinden düşünmenin hatayı ne kadar azalttığını hatırlatıyor
  Örneğin, bir hastalığın yaygınlığı 1/10.000 ise ve test doğruluğu %99 olsa bile, pozitif sonucun hastalık anlamına gelme olasılığı %99 değildir
Bu tür kitaplar her zaman ilgi çekici
Veri işleme, görselleştirme, makine öğrenimi gibi çeşitli konuları geniş ama yüzeysel şekilde ele alıyor; oysa her biri tek başına bir kitap olabilir
Programlama öğretimi ile kavram ve teori tanıtımı arasında denge kurmak zor, ama bu kitap giriş seviyesi için iyi bir denge yakalamış gibi görünüyor
Bu kitap, 2017~2018’de veri bilimine başlarken gerçekten ateş🔥 gibi faydalıydı
Jake harika bir eğitmendi
Bugünün perspektifinden Pandas’ı seçmiş olması ilginç
Muhtemelen en yeni araçlardan ziyade genel kavramları aktarmaya odaklanmış
- Kitap aslında 2016’da yayımlandı, yani muhtemelen hâlâ 1. baskıdır
- Bence Pandas hâlâ sektör standardı. Polars ya da Spark daha çok veri mühendisliği performansına odaklanıyor ve veri biliminin tamamını kapsamak için pek uygun değil
- Kitap epey eski, bu yüzden “bugünlerde” ifadesi belki de pek uygun değil
- Pandas’ta neyin sorun olduğunu pek anlamıyorum
İlk işimde Kernel Density Estimation (KDE) ile ilgili bir blog yazısına başvurmuştum ve inanılmaz faydalıydı
O zamandan beri Jake’in çalışmalarını seviyorum
Kitabın çevrimiçi sürümü learningds.org üzerinde açık
Lisansı CC-BY-NC-ND
İnsanların neden Pandas’tan nefret ettiğini pek anlamıyorum
Mükemmel bir araç değil ama kod tabanımızda binlerce satır Pandas kodu var ve neredeyse hiç production bug yaratmadı
Pandas’ı statik şema sarmalayıcıları ve tip denetleyicileriyle birlikte kullanarak istikrarlı biçimde çalıştırıyoruz
- Bunun kendi yaptığınız bir şema sarmalayıcısı mı olduğunu, yoksa PyPI’de önerebileceğiniz bir paket mi bulunduğunu merak ediyorum
Harika bir yazardı ve blogunu özlüyorum
Özellikle pivot table hakkındaki yazısı aklımda kalmıştı; görünüşe göre o içerik artık kitapta yer alıyor
- Ayrıca Python için Altair (Vega-Lite tabanlı) görselleştirme kütüphanesinin de yaratıcısı
  Altair resmî sitesi üzerinden bakılabilir
Bu kitap 8 yıl önce yazılmış olsa da, aynı yazarın bir 2. baskısı var
- GitHub deposunda 2. baskının notebook sürümü bulunuyor
  “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…” şeklinde belirtilmiş
  Orijinal bağlantıdaki 2016 baskısıyla karşılaştırılabilir
2020~2021’de veri bilimi öğrenirken baştan sona okuduğum az sayıdaki kitaptan biri buydu
Hâlâ tavsiye edilebilir