- Python tabanlı veri biliminin temel araç ve tekniklerini ele alan çevrimiçi bir el kitabı; tüm içerik web sitesi ve GitHub üzerinden açık olarak sunuluyor
- Jupyter notebook formatında sunulduğu için uygulama odaklı öğrenmeye uygun; kod ve metin birlikte yer alıyor
- Metinler CC-BY-NC-ND lisansı, kod örnekleri ise MIT lisansı ile dağıtılıyor; bu da serbest ticari olmayan kullanımı mümkün kılıyor
- IPython, NumPy, Pandas, Matplotlib, Scikit-Learn gibi veri analizi ve makine öğreniminin temel kütüphanelerini sistemli biçimde ele alıyor
- Veri bilimine yeni başlayanlardan profesyonellere kadar, Python ekosisteminin standart iş akışını öğrenmek için yararlı bir kaynak
Genel Bakış
- Bu site, Jake VanderPlas'ın 『Python Data Science Handbook』 adlı eserinin tamamını içeriyor
- Orijinal kitap O’Reilly tarafından yayımlandı ve web sürümü ücretsiz olarak açıklandı
- Tüm içerik, GitHub deposunda Jupyter notebook biçiminde sunuluyor
- Metinler CC-BY-NC-ND lisansı, kod örnekleri ise MIT lisansı ile dağıtılıyor
- Ticari olmayan kullanım ve kodun yeniden kullanımı mümkün
- Okur yararlı bulursa, orijinal kitabı satın alarak yazarı destekleyebilir
İçerik Yapısı
- Kitap toplam 5 ana bölüm ve bir ek bölümden oluşuyor
1. Bölüm: IPython – sıradan Python'ın ötesine geçmek
- IPython ortamının özellikleri ve kullanımını açıklıyor
- Yardım sistemi, klavye kısayolları, magic komutları, shell komutlarıyla entegrasyon gibi konular dahil
- Kod yürütme geçmişi, hata ayıklama ve performans ölçümü özelliklerini ele alıyor
2. Bölüm: NumPy'ye Giriş
- NumPy dizileri ile sayısal hesaplamanın temellerini ele alıyor
- Veri tipleri, broadcasting, Boolean mask, sıralama, structured array gibi konular dahil
- Dizi tabanlı işlemler ve toplulaştırma fonksiyonlarının kullanımını açıklıyor
3. Bölüm: Pandas ile Veri İşleme
- Pandas'ın temel nesneleri ve veri işleme özelliklerini ele alıyor
- İndeksleme, eksik veri işleme, gruplama, pivot tablolar, zaman serisi işleme gibi konular dahil
eval() ve query() ile yüksek performanslı işlem özelliklerini de tanıtıyor
4. Bölüm: Matplotlib ile Görselleştirme
- Matplotlib ve Seaborn kullanarak veri görselleştirme yöntemlerini açıklıyor
- Çizgi grafikleri, saçılım grafikleri, histogramlar, yoğunluk grafikleri gibi çeşitli grafik türleri dahil
- Lejantlar, renk çubukları, stil sayfaları, 3D grafikler ve coğrafi veri görselleştirme gibi gelişmiş özellikleri ele alıyor
5. Bölüm: Makine Öğrenimi
- Scikit-Learn merkezli olarak makine öğreniminin temel kavramlarını ve algoritmalarını ele alıyor
- Hiperparametreler, model doğrulama, özellik mühendisliği gibi temel süreçler dahil
- Naive Bayes, doğrusal regresyon, SVM, random forest, PCA, k-means, GMM gibi başlıca modelleri açıklıyor
- Yüz tanıma pipeline örneği üzerinden gerçek uygulama senaryosu sunuyor
Ek: Şekil Kodları
- Metinde kullanılan görselleştirme kodları toplu olarak sunuluyor
- Her şeklin yeniden üretilmesi ve düzenlenmesi mümkün
Kullanım Değeri
- Veri bilimi öğrenenler için Python ekosistemine bütüncül bir anlayış sunuyor
- Uygulanabilir notebook formatıyla eğitim, araştırma ve prototipleme için kullanılabilir
- Açık kaynak lisanslarıyla yayımlandığı için sürekli genişleme ve topluluk katkısı kolaylaşıyor
2 yorum
https://product.kyobobook.co.kr/detail/S000201558138
Python kütüphaneleriyle veri analizi
Pandas'ı geliştiren Wes McKinney'nin yazdığı bir kitap; veri bilimine giriş kitabı olarak bu da iyidir. Ben bu kitabı 2. baskı ilk çıktığında okumuştum... şimdi aratınca 3. baskının çıktığını gördüm.
Hacker News görüşleri
Jake VanderPlas’ın Statistics for Hackers konuşmasını gerçekten çok sevmiştim
Sunum slaytlarını görüntüle
Örneğin, bir hastalığın yaygınlığı 1/10.000 ise ve test doğruluğu %99 olsa bile, pozitif sonucun hastalık anlamına gelme olasılığı %99 değildir
Bu tür kitaplar her zaman ilgi çekici
Veri işleme, görselleştirme, makine öğrenimi gibi çeşitli konuları geniş ama yüzeysel şekilde ele alıyor; oysa her biri tek başına bir kitap olabilir
Programlama öğretimi ile kavram ve teori tanıtımı arasında denge kurmak zor, ama bu kitap giriş seviyesi için iyi bir denge yakalamış gibi görünüyor
Bu kitap, 2017~2018’de veri bilimine başlarken gerçekten ateş🔥 gibi faydalıydı
Jake harika bir eğitmendi
Bugünün perspektifinden Pandas’ı seçmiş olması ilginç
Muhtemelen en yeni araçlardan ziyade genel kavramları aktarmaya odaklanmış
İlk işimde Kernel Density Estimation (KDE) ile ilgili bir blog yazısına başvurmuştum ve inanılmaz faydalıydı
O zamandan beri Jake’in çalışmalarını seviyorum
Kitabın çevrimiçi sürümü learningds.org üzerinde açık
Lisansı CC-BY-NC-ND
İnsanların neden Pandas’tan nefret ettiğini pek anlamıyorum
Mükemmel bir araç değil ama kod tabanımızda binlerce satır Pandas kodu var ve neredeyse hiç production bug yaratmadı
Pandas’ı statik şema sarmalayıcıları ve tip denetleyicileriyle birlikte kullanarak istikrarlı biçimde çalıştırıyoruz
Harika bir yazardı ve blogunu özlüyorum
Özellikle pivot table hakkındaki yazısı aklımda kalmıştı; görünüşe göre o içerik artık kitapta yer alıyor
Altair resmî sitesi üzerinden bakılabilir
Bu kitap 8 yıl önce yazılmış olsa da, aynı yazarın bir 2. baskısı var
“Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…” şeklinde belirtilmiş
Orijinal bağlantıdaki 2016 baskısıyla karşılaştırılabilir
2020~2021’de veri bilimi öğrenirken baştan sona okuduğum az sayıdaki kitaptan biri buydu
Hâlâ tavsiye edilebilir