7 puan yazan GN⁺ 2024-12-11 | 1 yorum | WhatsApp'ta paylaş
  • 1.600 gün boyunca yürütülen veri bilimi projesi, ilginin kaybolmasıyla başarısızlıkla sonuçlandı
  • Metin verilerini ele alan yeni bir meydan okumayı denemek için "haber ticker verisi toplama ve analizi" gerçekleştirildi
    • Mart 2020'de, COVID-19 ile ilgili haberler sunan Alman kamu yayıncısı haber sitesi Tagesschau'nun haber ticker'ı veri kaynağı olarak seçildi
    • 2022'nin 3. çeyreğinde COVID-19'un önemi azalınca kapsam, Ukrayna-Rusya savaşıyla ilgili haber ticker'larına genişletildi
    • Veri meta kalıpları (yayın sıklığı vb.) ve konu bazlı anlamsal analiz yapıldı
  • Yalnızca kısa vadeli veri keşfi yapıldı, esas analiz tamamlanmadı
  • 2024'ün 3. çeyreğinde ilginin azalması ve zaman yetersizliği nedeniyle proje durduruldu

Veri toplama ve sistem tasarımı

  • 2020'den 2024'e kadar 1.600 gün boyunca her gün haber verilerinin URL'leri toplandı ve ham veriler indirildi
    • Tagesschau'da her gün kısa haber hikâyelerinin bir listesi bulunuyor; her hikâye zaman damgası, başlık, gövde metni ve multimedya öğeleri içeriyor
  • Yapılandırılmamış veriyi yapılandırılmış haber parçacıklarına dönüştürmek için manuel ve Python tabanlı yarı otomatik bir veri hattı kuruldu
    • URL toplamanın otomasyonu zor olduğundan, Tagesschau'nun yapılandırılmamış URL şeması nedeniyle her gün siteyi ziyaret edip bağlantıları manuel toplama yöntemi seçildi
    • Her 4-8 haftada bir, HTML sayfaları Python ile toplu işlenerek ham veri olarak kaydedildi
    • HTML'i ayrıştırmak için BeautifulSoup4 kullanıldı ve veriler SQLite veritabanına kaydedildi
    • Projenin büyük bölümü otomatikleştirilmiş olsa da, manuel ETL hattı ve gerçek analiz otomatikleştirilmedi
    • DOM yapısı değişikliklerine karşı ham HTML verisinin korunmasının önemi vurgulandı

Projenin başarısızlığından çıkarılan dersler

  1. Hikâye anlatımını düşünün:
    • Projenin başından itibaren hikâye anlatımını kurgulayarak sonuçların kolay paylaşılabileceği şekilde tasarlayın
  2. Hızlı sonuç üretin:
    • Sadece veri toplamayın; küçük veri kümeleriyle hızlıca ilk analizleri yapın
    • Sonuçları yayımlayarak çalışma motivasyonunu koruyun ("Show Your Work" yaklaşımını kullanın)
  3. Otomasyon:
    • Veri toplama ve ETL hattını olabildiğince otomatikleştirerek tekrarlayan işleri en aza indirin
    • Bugün olsa, LLM tabanlı yapay zeka ajanlarını kullanırdı
  4. Veri toplama sıklığını değerlendirin:
    • Toplama periyodunu önceden belirleyin (ör. günlük vs 30 saniye aralıklarla)
    • Otomatikleştirilebilecek bir veri toplama sıklığı belirleyin
  5. Ham veriyi saklayın:
    • Ham veriyi saklayarak ileride değişen ayrıştırma mantığına uyum sağlayabilirsiniz
  6. Bulut kullanımı:
    • Basit ve güvenilir bir altyapı kurun, aynı zamanda pratik teknik beceriler kazanma fırsatı oluşturun

Sonuç: Başarısızlıkla büyümek

  • Başarısız bir proje bile bir öğrenme deneyimine dönüşerek "daha iyi bir veri profesyoneli" olmaya yardımcı olur
  • Veri bilimi projelerinin başarısızlığı, değerli bir öğrenme deneyimi ve "savaş yaraları" biriktirme fırsatıdır
  • Doğal dil işleme yoluyla otomasyon fırsatlarından yararlanılamamış olması üzücü
  • Yaklaşık 100 bin haber parçacığını analiz etme fırsatının kaçırılması da büyük bir hayal kırıklığı
  • 2024 ABD seçimi gibi yeni haber ticker'ları ortaya çıkmaya devam ettiği için başkaları projeyi devralabilir
    • İlgilenen birinin projeyi sürdürmesi umuluyor ve tüm veriler paylaşılmaya hazır

"Go out and build something!"

1 yorum

 
GN⁺ 2024-12-11
Hacker News görüşleri
  • Buna bir başarısızlık demektense, merakla denenip sonra bırakılmış bir girişim olarak görmek daha doğru. Blogda yazı yayımlanması ve HN'de paylaşılması bile başlı başına bir başarı sayılabilir

    • Proje tamamlanmış olsaydı, Python kullanılarak çeşitli analizlerde değerlendirilebilecek bir veri seti yayımlanmış olurdu
    • Ham veri seti yayımlanıp bunun bir başarı olarak görülmesi mümkün
    • LLM'lerdeki ilerleme nedeniyle artık AI agent olarak paketlenmiş temel modellerin de değerlendirileceği düşünülüyor
  • Web scraping hâlâ zor bir alan ve siteler scraping'i engellemek için çok çaba harcıyor

  • Her gün Tagesschau web sitesini ziyaret edip bağlantıları toplamak gibi manuel bir süreç varmış. Bu, iyi bir oyun planı değilmiş

  • COVID ile ilgili bir veri bilimi hobi projesi yürütülmüş ama 6 ay sonra ilgi kaybolmuş. Scraper hâlâ bulutta çalışmaya devam ediyor

  • Manuel iş yerine RSS feed kullanılarak otomasyon yapılmalıydı

  • Projenin en başından itibaren geri bildirim almak önemli. Bu, projenin yönünü ayarlama ve ilgiyi yeniden canlandırma fırsatı sunar

  • Farklı ilgi alanlarını kapsayan projelerin dinamizmi seviliyor. Birden çok projeden öğrenilenler kullanılarak yeni fikirler elde ediliyor

  • Başlık yanıltıcı olabilir. Sadece bir haber feed'ini scrape etme işi birkaç gün içinde kurulabilir

  • Birçok insan kişisel projeleri tamamlamakta zorlanıyor. Veri bilimi, veri setleri üzerinde içgörü keşfetmeye yönelik keşifsel bir çalışma

  • Veri toplama sürecinde, Tagesschau web sitesinin yapısal olmayan URL şeması nedeniyle manuel çalışma gerekmiş. İstikrarlı bir veri kaynağına ihtiyaç var

  • Web sitesi geliştiricileri scraper'ları düşünmüyor. Benzersiz veri setleri toplamak için web geliştiricilerinden herkese açık bir API sağlamalarını istemek iyi olabilir