2 puan yazan GN⁺ 2025-10-03 | 1 yorum | WhatsApp'ta paylaş
  • Mevcut foundation modelleri metin, görsel, ses ve videoyu işleyebiliyor; ancak gerçek dünyayı çalıştıran zaman serisi verileri (vital bulgular, fiyatlar, telemetri, loglar vb.) üzerinde zamansal akıl yürütme yetenekleri yetersiz
  • Time Series Language Models (TSLMs), zaman serilerini metinle eşdeğer yerel bir modalite olarak destekleyerek kullanıcıların doğal dille soru sormasına, açıklama ve öneri almasına olanak tanır
  • OpenTSLM, sağlık alanında zaman serisi verileri ile klinik metni birlikte işleyebilmek için tasarlanmış yeni bir dil modelidir
    • cross-attention mimarisini benimseyerek uzun zaman serilerinde de ölçeklenebilir ve mevcut yaklaşımlardan farklı olarak büyük ölçekli işletimde pratiktir
    • İki yapı öneriliyor: SoftPrompt (zaman serisini token olarak ekleme) ve Flamingo (çapraz dikkat tabanlı); her birinin farklı artı ve eksileri vardır
    • Modelin akıl yürütme performansını değerlendirmek için üç yeni Chain-of-Thought (CoT) veri kümesi (HAR, Sleep, ECG-QA) sunuluyor
  • GPT-4o'ya kıyasla 200 kat daha küçük bir modelle uyku evresi sınıflandırmada 4,4 kat, aktivite tanımada 6 kat, ECG yorumlamada 2 kat doğruluk elde edildi (verimlilik sırasıyla 880 kat, 1.000 kat, 400 kat)
  • Sağlık alanında ilk kez 12-lead ECG sinyalleri ile metni eşzamanlı işliyor ve kardiyologlar tarafından doğrulanmış chain-of-thought akıl yürütmesi sunuyor
  • Değişken uzunlukta çoklu zaman serilerini eşzamanlı işleyip bunları metin bağlamıyla birleştirerek alan uzmanlarınca doğrulanmış, yorumlanabilir açıklamalar üretiyor
  • Bu çalışma, sağlık dışında da finans, tedarik zinciri, endüstriyel izleme gibi çeşitli zaman serisi uygulama alanlarına genişletilebileceğini gösteriyor

Araştırmaya genel bakış

  • Klinik tanı ve tedavi, özünde zaman içindeki değişimi anlamaya dayanır
  • Mevcut LLM'ler görsel, metin, konuşma gibi çeşitli modaliteleri işleyebilse de sürekli zaman serisi verilerini yorumlama yetenekleri sınırlıydı
  • Bunu çözmek için OpenTSLM, zaman serisi verilerini LLM'lerin yeni yerel modalitesi olarak entegre eden bir yaklaşım öneriyor

Model mimarisi

  • OpenTSLM-SoftPrompt
    • Zaman serisini embedding'e dönüştürüp metin token'larıyla birlikte girişe verir
    • Basit ve parametre açısından verimlidir; ancak uzun dizilerde bellek kullanımı hızla artar
  • OpenTSLM-Flamingo
    • Zaman serisini ayrı bir modalite olarak işler ve metinle çapraz dikkat (cross-attention) üzerinden birleştirir
    • Uzun dizilerde de bellek kullanımı stabildir ve genel amaçlı işleme için uygundur

Veri kümeleri ve eğitim

  • HAR-CoT: ivmeölçer sensörüyle insan aktivitesi tanıma
  • Sleep-CoT: EEG tabanlı uyku evresi sınıflandırma
  • ECG-QA-CoT: elektrokardiyogram verileriyle soru-cevap
  • Aşamalı müfredat öğrenmesi uygulanarak basit zaman serisi örüntülerinin öğrenilmesinden akıl yürütme becerisinin öğrenilmesine geçiliyor

Başlıca sonuçlar

  • SoftPrompt-Llama3.2-1B: Sleep-CoT'ta %69,9 F1, HAR-CoT'ta %65,4 F1
  • Flamingo-Llama3.2-3B: ECG-QA-CoT'ta %40,25 F1 ile en iyi performansı gösterdi
  • GPT-4o'ya karşı üstün performans: küçük model (OpenTSLM-1B) bile GPT-4o'dan daha yüksek F1 puanı aldı
  • Doktor değerlendirmesi: ECG-QA akıl yürütme sürecinin %92,9'u doğru ya da kısmen doğru yorum olarak değerlendirildi

Bellek verimliliği

  • SoftPrompt'ta VRAM, giriş uzunluğuna göre geometrik olarak artıyor (ör. ECG-QA'da 110GB'den fazla gerekiyor)
  • Flamingo, istikrarlı bellek kullanımı koruyor (Llama-3B'de bile 60~70GB düzeyi)

Değerlendirme

  • OpenTSLM, küçük ölçekli modellerin çok büyük modelleri aşabildiğini gösteriyor
  • SoftPrompt kısa zaman serileri için uygunken, Flamingo uzun dönemli/çoklu zaman serileri için uygun
  • Sağlık verilerinde akıl yürütme sürecinin şeffaflığını sağlayarak güven oluşturmaya katkı sunuyor
  • Mevcut sınıflandırıcı tabanlı yaklaşımlardan farklı olarak doğal dil akıl yürütmesi + zaman serisi birleşimini gerçekleştiriyor

Sınırlamalar ve gelecekteki çalışmalar

  • Zaman serisinin ölçek ve birimlerini metin olarak koruyan mevcut yöntem en iyi yaklaşım olmayabilir
  • CoT veri kümelerinin oluşturulmasında GPT-4o yer aldığı için veri yanlılığı olasılığı bulunuyor
  • Doğru tahmini garanti eden kayıp fonksiyonu tasarımı, mimarinin sadeleştirilmesi ve genelleme performansının doğrulanması gerekiyor

Sonuç

  • OpenTSLM, sağlık alanının ötesinde finans, tedarik zinciri, endüstriyel izleme gibi uzun dönemli veri işleme için de yüksek kullanım potansiyeline sahip
  • Bu çalışma, zaman serisi dil modeli (TSLM) kavramının temelini atıyor ve genel amaçlı zaman serisi akıl yürütme modeline doğru genişlemeyi hedefliyor

1 yorum

 
GN⁺ 2025-10-03
Hacker News yorumları
  • Doğal dil üzerinden zaman serisi verileriyle etkileşime girilebilmesini anlıyorum, ama sinyal işleme ya da kural tabanlı algoritma kütüphanelerini (veya veri değişkense makine öğrenimi kullanımını) araç çağrısı olarak kullanmaya kıyasla ne avantaj sağladığını merak ediyorum
    Örneğin ticari bir LLM'e ECG verisini analiz etmesini söylersiniz ve LLM de bir ECG zaman serisi analiz kütüphanesini çağırır
    Bu kütüphane tüm veri üzerinde çalışıp istatistikleri ve olayları çıkarır - örn. “ortalama kalp atış hızı 60 bpm, belirli bir anda AFib tespit edildi” gibi
    Böylece LLM analiz için gereken tüm bilgiyi elde eder ve hesaplama maliyeti de çok daha düşük olur
    Üstelik bu yaklaşım büyük açıklamalı veri kümeleri ve önceden eğitilmiş modeller gerektiriyor; eğer yanılıyorsam düzeltin ama “genel amaçlı” zaman serisi verisi işleyebilen bir modelin mümkün olmadığını düşünüyorum
    Yani ECG verisiyle eğitilmiş bir model borsa verisiyle uyumlu olmaz
    Farklı türde verilerin hepsini anlayan tek bir model henüz mümkün değil

    • Böyle bir sistemi edge'de çalıştırmak zor
      Mesele edge üzerinde güvenilir biçimde çalışması
      Kimse kalp atışını izleme işini buluta bırakmak istemez - uzaktaki servislerde kesinti ve güvenilirlik sorunları büyük, buna LLM çıkarımıyla ilgili ek zorluklar da ekleniyor
      Mevcut kural tabanlı tespit özellikleri bu cihazlara zaten gömülü; buna LLM'in sunduğu gelişmiş örüntü tespitini eklemek, gereksiz uyarıları azaltıp karmaşık yeni örüntüleri de tespit edebilir

    • Bu, internetteki büyük veriyle sohbet eder gibi bir arayüz sunmak demek (ChatGPT)
      Ama bunun, Google'da arayıp üst sıralardaki bağlantılara tıklamaya, reklamlardan kaçınmaya, çerez onayı vermeye, başlığı okumaya, aşağı kaydırıp ödeme penceresini kapatmaya, sonra makalenin geri kalanını okumaya ve bunu 4 kez tekrarlamaya göre neden daha iyi olduğunu pek anlayamıyorum
      Tamam, anladım

  • “Stanford Repo Released Sep 31, 2025” diye bir ifade var; sanki 30 Eylül 2025'in ertesi gününün 31 olduğu bir olasılık dağılımından örneklenmiş gibi duruyor

    • Geri bildiriminiz için teşekkürler diyor
      İronik olarak bunun zamanı anlayan bir model hakkındaki yazı olduğuna dikkat çekiyor

    • Görünüşe göre tarih hatası zaten düzeltilmiş

  • Bu çalışmanın temeli “Flamingo” adlı bir sistem
    Bu sistem, metin ve görüntüleri sırayla gelen bir dizi olarak anlamakta uzmanlaşmış
    Yani iki farklı sıralı modaliteyi birlikte işleyebiliyor
    Bu yeni çalışma da bir modalite kanalına zaman token'ları ekleyerek zaman farkındalığını güçlendirmiş gibi görünüyor
    (Bu arada web sitesi tasarımı aşırı tatlı - metinde soldan sağa degrade efekti bile var)
    Flamingo ile ilgili makale bağlantısı

  • Bu gerçekten çok havalı
    Makaleye bakınca bu tekniğin zaman serisi verisine dayalı soru-cevapta iyi çalıştığı görülüyor
    Tıbbi yapay zeka alanında bana en ilginç gelen şey, insanların da fark edemediği hastalık sinyallerini tespit etmesi
    Mesela kardiyologların bile yapamadığı şekilde ECG'den ejeksiyon fraksiyonu tahmini yapmak (ama algoritma zaten RCT ile doğrulanmış durumda)
    İlgili makale bağlantısı
    OpenTSLM zaman serisi verisini LLM gömme uzayında tokenize ediyor; bu sürecin böyle ince sinyalleri yakalayıp yakalayamayacağını merak ediyorum
    Ya da bu yaklaşımın böyle kullanım senaryolarına uygun şekilde genişletilip genişletilemeyeceğini soruyorum

    • OpenTSLM modeli tam da bu tür ince sinyalleri yakalamak için tasarlandı
      Araştırmanın erken aşamalarındaki en büyük motivasyon buydu
      Modelde ham zaman serisi verisi çapraz dikkat yoluyla entegre ediliyor ve ham zaman serisi kodlayıcısında özgül zaman serisi temsilleri öğreniliyor
  • Modelin zaman serisi işlemesi gerekiyorsa, bir TS kütüphanesini çağıran bir betik üretip bunu çalıştırıcıya vermesi daha iyi olur
    İnsan da muhtemelen böyle yapardı
    Bu işlevi modelin içine gömmek gerçekten gerekli mi emin değilim
    Modelde yerel TS işleme varsa, bunun araç çağrısıyla yapılamayan neyi mümkün kıldığını merak ediyorum

    • Anthropic de Claude Agent SDK ile ilgili son duyurusunda “modele script yazdırın” yaklaşımını öneriyor
      Kod üretimi açık, yeniden kullanılabilir ve birleştirilebilir olduğu için karmaşık görevleri güvenilir biçimde yerine getirmede ideal
      Ajan geliştirirken hangi işlerin kod olarak ifade edilmeye uygun olduğunu düşünmek yeni kapılar açıyor
      Claude Agent SDK ile ilgili bağlantı

    • Sanırım asıl noktayı kaçırıyorsunuz
      Görüntü açıklaması için bir görüntü analiz kütüphanesi çağırmanın mı, yoksa görüntüyü doğrudan zaman serisi olarak anlayıp üzerinde akıl yürütmenin mi daha iyi olacağını düşünün
      Makalede yer alan grafiklere bakarsanız bu tür modellerin neler yapabildiğini görebilirsiniz

    • Temelde gerçekten bir “zaman kavramı” olup olmadığını ve nedenselliği anlayıp anlamadığını merak ediyorum

  • Bugün eve gider gitmez bunu mutlaka deneyeceğim
    Ben büyük miktarda ses zaman serisi verisiyle çalışıyorum (ortada kelimeler de yok ve çok sayıda ince değişim var), bu yeni yaklaşımın geleneksel istatistiksel yöntemlerle kıyaslandığında ne kadar iyi performans verdiğini görmek istiyorum

  • Bunlar huggingface'te bir depo açıp model ağırlıklarının bir kısmını yüklemiş
    Ama resmi ana sayfada, makalede ya da Github'da henüz o bağlantı görünmüyor
    OpenTSLM huggingface sayfası

  • Keşke claude code benim kalp atışı zaman serimi gerçek zamanlı izleyip yatakta dönüp durduğum süreyi bile tespit etse diye hayal ediyorum

    • Bu arada birkaç gün önce çıkan claude2, öncekine göre çok daha akıcı hissettiriyor
  • Doğru anladıysam bu model zaman serisi sınıflandırması ve yorumlaması için eğitilmiş gibi görünüyor; peki tahminleme (forecasting) tarafında da kıyaslama yapıldı mı merak ediyorum
    Açıklama ve öneri çoğu zaman tahminle yakından bağlantılı olduğundan, modelin özellikleri burada da ortaya çıkacaktır

  • Eğlenceli bir turnusol testi olarak S&P500 trendini çıkarıp bunu 500 hissenin bileşenlerine ayırarak her hissenin ne kadar katkı yaptığını analiz edip sıralayabilirsiniz
    Ama böyle bir çalışmayla Rentec ya da NSA'de iş bulmak zor
    Ticari ve tıbbi alanlarda sinyaller çoğunlukla durağandır ve white (ilişkisiz) noise ile birlikte ele alınır; NSA ve Rentec'te ise çoğunlukla durağan olmayan (non-stationary) sinyaller, rejim değişimi (regime change) ve korelasyonlu gürültü söz konusudur
    Bu tür sinyaller bilgi kaybı olmadan gürültüden arındırılamaz
    Bu tür analizlerin amacı bir sonraki tick'i tahmin etmekten çok, örüntü değişimini (rejim değişimini) mümkün olan en hızlı şekilde tespit edip bunu mevcut hisse alım satım örüntüleri ya da istihbarat faaliyet örüntüleriyle eşleştirmektir