1.600 gün süren veri bilimi projesinin başarısızlığı
(lellep.xyz)- 1.600 gün boyunca yürütülen veri bilimi projesi, ilginin kaybolmasıyla başarısızlıkla sonuçlandı
- Metin verilerini ele alan yeni bir meydan okumayı denemek için "haber ticker verisi toplama ve analizi" gerçekleştirildi
- Mart 2020'de, COVID-19 ile ilgili haberler sunan Alman kamu yayıncısı haber sitesi Tagesschau'nun haber ticker'ı veri kaynağı olarak seçildi
- 2022'nin 3. çeyreğinde COVID-19'un önemi azalınca kapsam, Ukrayna-Rusya savaşıyla ilgili haber ticker'larına genişletildi
- Veri meta kalıpları (yayın sıklığı vb.) ve konu bazlı anlamsal analiz yapıldı
- Yalnızca kısa vadeli veri keşfi yapıldı, esas analiz tamamlanmadı
- 2024'ün 3. çeyreğinde ilginin azalması ve zaman yetersizliği nedeniyle proje durduruldu
Veri toplama ve sistem tasarımı
- 2020'den 2024'e kadar 1.600 gün boyunca her gün haber verilerinin URL'leri toplandı ve ham veriler indirildi
- Tagesschau'da her gün kısa haber hikâyelerinin bir listesi bulunuyor; her hikâye zaman damgası, başlık, gövde metni ve multimedya öğeleri içeriyor
- Yapılandırılmamış veriyi yapılandırılmış haber parçacıklarına dönüştürmek için manuel ve Python tabanlı yarı otomatik bir veri hattı kuruldu
- URL toplamanın otomasyonu zor olduğundan, Tagesschau'nun yapılandırılmamış URL şeması nedeniyle her gün siteyi ziyaret edip bağlantıları manuel toplama yöntemi seçildi
- Her 4-8 haftada bir, HTML sayfaları Python ile toplu işlenerek ham veri olarak kaydedildi
- HTML'i ayrıştırmak için BeautifulSoup4 kullanıldı ve veriler SQLite veritabanına kaydedildi
- Projenin büyük bölümü otomatikleştirilmiş olsa da, manuel ETL hattı ve gerçek analiz otomatikleştirilmedi
- DOM yapısı değişikliklerine karşı ham HTML verisinin korunmasının önemi vurgulandı
Projenin başarısızlığından çıkarılan dersler
- Hikâye anlatımını düşünün:
- Projenin başından itibaren hikâye anlatımını kurgulayarak sonuçların kolay paylaşılabileceği şekilde tasarlayın
- Hızlı sonuç üretin:
- Sadece veri toplamayın; küçük veri kümeleriyle hızlıca ilk analizleri yapın
- Sonuçları yayımlayarak çalışma motivasyonunu koruyun ("Show Your Work" yaklaşımını kullanın)
- Otomasyon:
- Veri toplama ve ETL hattını olabildiğince otomatikleştirerek tekrarlayan işleri en aza indirin
- Bugün olsa, LLM tabanlı yapay zeka ajanlarını kullanırdı
- Veri toplama sıklığını değerlendirin:
- Toplama periyodunu önceden belirleyin (ör. günlük vs 30 saniye aralıklarla)
- Otomatikleştirilebilecek bir veri toplama sıklığı belirleyin
- Ham veriyi saklayın:
- Ham veriyi saklayarak ileride değişen ayrıştırma mantığına uyum sağlayabilirsiniz
- Bulut kullanımı:
- Basit ve güvenilir bir altyapı kurun, aynı zamanda pratik teknik beceriler kazanma fırsatı oluşturun
Sonuç: Başarısızlıkla büyümek
- Başarısız bir proje bile bir öğrenme deneyimine dönüşerek "daha iyi bir veri profesyoneli" olmaya yardımcı olur
- Veri bilimi projelerinin başarısızlığı, değerli bir öğrenme deneyimi ve "savaş yaraları" biriktirme fırsatıdır
- Doğal dil işleme yoluyla otomasyon fırsatlarından yararlanılamamış olması üzücü
- Yaklaşık 100 bin haber parçacığını analiz etme fırsatının kaçırılması da büyük bir hayal kırıklığı
- 2024 ABD seçimi gibi yeni haber ticker'ları ortaya çıkmaya devam ettiği için başkaları projeyi devralabilir
- İlgilenen birinin projeyi sürdürmesi umuluyor ve tüm veriler paylaşılmaya hazır
"Go out and build something!"
1 yorum
Hacker News görüşleri
Buna bir başarısızlık demektense, merakla denenip sonra bırakılmış bir girişim olarak görmek daha doğru. Blogda yazı yayımlanması ve HN'de paylaşılması bile başlı başına bir başarı sayılabilir
Web scraping hâlâ zor bir alan ve siteler scraping'i engellemek için çok çaba harcıyor
Her gün Tagesschau web sitesini ziyaret edip bağlantıları toplamak gibi manuel bir süreç varmış. Bu, iyi bir oyun planı değilmiş
COVID ile ilgili bir veri bilimi hobi projesi yürütülmüş ama 6 ay sonra ilgi kaybolmuş. Scraper hâlâ bulutta çalışmaya devam ediyor
Manuel iş yerine RSS feed kullanılarak otomasyon yapılmalıydı
Projenin en başından itibaren geri bildirim almak önemli. Bu, projenin yönünü ayarlama ve ilgiyi yeniden canlandırma fırsatı sunar
Farklı ilgi alanlarını kapsayan projelerin dinamizmi seviliyor. Birden çok projeden öğrenilenler kullanılarak yeni fikirler elde ediliyor
Başlık yanıltıcı olabilir. Sadece bir haber feed'ini scrape etme işi birkaç gün içinde kurulabilir
Birçok insan kişisel projeleri tamamlamakta zorlanıyor. Veri bilimi, veri setleri üzerinde içgörü keşfetmeye yönelik keşifsel bir çalışma
Veri toplama sürecinde, Tagesschau web sitesinin yapısal olmayan URL şeması nedeniyle manuel çalışma gerekmiş. İstikrarlı bir veri kaynağına ihtiyaç var
Web sitesi geliştiricileri scraper'ları düşünmüyor. Benzersiz veri setleri toplamak için web geliştiricilerinden herkese açık bir API sağlamalarını istemek iyi olabilir