OpenTSLM - Zaman serisi verilerini anlayan dil modeli

(opentslm.com)

2 puan yazan GN⁺ 2025-10-03 | 1 yorum | WhatsApp'ta paylaş

Mevcut foundation modelleri metin, görsel, ses ve videoyu işleyebiliyor; ancak gerçek dünyayı çalıştıran zaman serisi verileri (vital bulgular, fiyatlar, telemetri, loglar vb.) üzerinde zamansal akıl yürütme yetenekleri yetersiz
Time Series Language Models (TSLMs), zaman serilerini metinle eşdeğer yerel bir modalite olarak destekleyerek kullanıcıların doğal dille soru sormasına, açıklama ve öneri almasına olanak tanır
OpenTSLM, sağlık alanında zaman serisi verileri ile klinik metni birlikte işleyebilmek için tasarlanmış yeni bir dil modelidir
- cross-attention mimarisini benimseyerek uzun zaman serilerinde de ölçeklenebilir ve mevcut yaklaşımlardan farklı olarak büyük ölçekli işletimde pratiktir
- İki yapı öneriliyor: SoftPrompt (zaman serisini token olarak ekleme) ve Flamingo (çapraz dikkat tabanlı); her birinin farklı artı ve eksileri vardır
- Modelin akıl yürütme performansını değerlendirmek için üç yeni Chain-of-Thought (CoT) veri kümesi (HAR, Sleep, ECG-QA) sunuluyor
GPT-4o'ya kıyasla 200 kat daha küçük bir modelle uyku evresi sınıflandırmada 4,4 kat, aktivite tanımada 6 kat, ECG yorumlamada 2 kat doğruluk elde edildi (verimlilik sırasıyla 880 kat, 1.000 kat, 400 kat)
Sağlık alanında ilk kez 12-lead ECG sinyalleri ile metni eşzamanlı işliyor ve kardiyologlar tarafından doğrulanmış chain-of-thought akıl yürütmesi sunuyor
Değişken uzunlukta çoklu zaman serilerini eşzamanlı işleyip bunları metin bağlamıyla birleştirerek alan uzmanlarınca doğrulanmış, yorumlanabilir açıklamalar üretiyor
Bu çalışma, sağlık dışında da finans, tedarik zinciri, endüstriyel izleme gibi çeşitli zaman serisi uygulama alanlarına genişletilebileceğini gösteriyor

Araştırmaya genel bakış

Klinik tanı ve tedavi, özünde zaman içindeki değişimi anlamaya dayanır
Mevcut LLM'ler görsel, metin, konuşma gibi çeşitli modaliteleri işleyebilse de sürekli zaman serisi verilerini yorumlama yetenekleri sınırlıydı
Bunu çözmek için OpenTSLM, zaman serisi verilerini LLM'lerin yeni yerel modalitesi olarak entegre eden bir yaklaşım öneriyor

Model mimarisi

OpenTSLM-SoftPrompt
- Zaman serisini embedding'e dönüştürüp metin token'larıyla birlikte girişe verir
- Basit ve parametre açısından verimlidir; ancak uzun dizilerde bellek kullanımı hızla artar
OpenTSLM-Flamingo
- Zaman serisini ayrı bir modalite olarak işler ve metinle çapraz dikkat (cross-attention) üzerinden birleştirir
- Uzun dizilerde de bellek kullanımı stabildir ve genel amaçlı işleme için uygundur

Veri kümeleri ve eğitim

HAR-CoT: ivmeölçer sensörüyle insan aktivitesi tanıma
Sleep-CoT: EEG tabanlı uyku evresi sınıflandırma
ECG-QA-CoT: elektrokardiyogram verileriyle soru-cevap
Aşamalı müfredat öğrenmesi uygulanarak basit zaman serisi örüntülerinin öğrenilmesinden akıl yürütme becerisinin öğrenilmesine geçiliyor

Başlıca sonuçlar

SoftPrompt-Llama3.2-1B: Sleep-CoT'ta %69,9 F1, HAR-CoT'ta %65,4 F1
Flamingo-Llama3.2-3B: ECG-QA-CoT'ta %40,25 F1 ile en iyi performansı gösterdi
GPT-4o'ya karşı üstün performans: küçük model (OpenTSLM-1B) bile GPT-4o'dan daha yüksek F1 puanı aldı
Doktor değerlendirmesi: ECG-QA akıl yürütme sürecinin %92,9'u doğru ya da kısmen doğru yorum olarak değerlendirildi

Bellek verimliliği

SoftPrompt'ta VRAM, giriş uzunluğuna göre geometrik olarak artıyor (ör. ECG-QA'da 110GB'den fazla gerekiyor)
Flamingo, istikrarlı bellek kullanımı koruyor (Llama-3B'de bile 60~70GB düzeyi)

Değerlendirme

OpenTSLM, küçük ölçekli modellerin çok büyük modelleri aşabildiğini gösteriyor
SoftPrompt kısa zaman serileri için uygunken, Flamingo uzun dönemli/çoklu zaman serileri için uygun
Sağlık verilerinde akıl yürütme sürecinin şeffaflığını sağlayarak güven oluşturmaya katkı sunuyor
Mevcut sınıflandırıcı tabanlı yaklaşımlardan farklı olarak doğal dil akıl yürütmesi + zaman serisi birleşimini gerçekleştiriyor

Sınırlamalar ve gelecekteki çalışmalar

Zaman serisinin ölçek ve birimlerini metin olarak koruyan mevcut yöntem en iyi yaklaşım olmayabilir
CoT veri kümelerinin oluşturulmasında GPT-4o yer aldığı için veri yanlılığı olasılığı bulunuyor
Doğru tahmini garanti eden kayıp fonksiyonu tasarımı, mimarinin sadeleştirilmesi ve genelleme performansının doğrulanması gerekiyor

Sonuç

OpenTSLM, sağlık alanının ötesinde finans, tedarik zinciri, endüstriyel izleme gibi uzun dönemli veri işleme için de yüksek kullanım potansiyeline sahip
Bu çalışma, zaman serisi dil modeli (TSLM) kavramının temelini atıyor ve genel amaçlı zaman serisi akıl yürütme modeline doğru genişlemeyi hedefliyor

1 yorum

GN⁺ 2025-10-03

Hacker News yorumları

Doğal dil üzerinden zaman serisi verileriyle etkileşime girilebilmesini anlıyorum, ama sinyal işleme ya da kural tabanlı algoritma kütüphanelerini (veya veri değişkense makine öğrenimi kullanımını) araç çağrısı olarak kullanmaya kıyasla ne avantaj sağladığını merak ediyorum
Örneğin ticari bir LLM'e ECG verisini analiz etmesini söylersiniz ve LLM de bir ECG zaman serisi analiz kütüphanesini çağırır
Bu kütüphane tüm veri üzerinde çalışıp istatistikleri ve olayları çıkarır - örn. “ortalama kalp atış hızı 60 bpm, belirli bir anda AFib tespit edildi” gibi
Böylece LLM analiz için gereken tüm bilgiyi elde eder ve hesaplama maliyeti de çok daha düşük olur
Üstelik bu yaklaşım büyük açıklamalı veri kümeleri ve önceden eğitilmiş modeller gerektiriyor; eğer yanılıyorsam düzeltin ama “genel amaçlı” zaman serisi verisi işleyebilen bir modelin mümkün olmadığını düşünüyorum
Yani ECG verisiyle eğitilmiş bir model borsa verisiyle uyumlu olmaz
Farklı türde verilerin hepsini anlayan tek bir model henüz mümkün değil
- Böyle bir sistemi edge'de çalıştırmak zor
  Mesele edge üzerinde güvenilir biçimde çalışması
  Kimse kalp atışını izleme işini buluta bırakmak istemez - uzaktaki servislerde kesinti ve güvenilirlik sorunları büyük, buna LLM çıkarımıyla ilgili ek zorluklar da ekleniyor
  Mevcut kural tabanlı tespit özellikleri bu cihazlara zaten gömülü; buna LLM'in sunduğu gelişmiş örüntü tespitini eklemek, gereksiz uyarıları azaltıp karmaşık yeni örüntüleri de tespit edebilir
- Bu, internetteki büyük veriyle sohbet eder gibi bir arayüz sunmak demek (ChatGPT)
  Ama bunun, Google'da arayıp üst sıralardaki bağlantılara tıklamaya, reklamlardan kaçınmaya, çerez onayı vermeye, başlığı okumaya, aşağı kaydırıp ödeme penceresini kapatmaya, sonra makalenin geri kalanını okumaya ve bunu 4 kez tekrarlamaya göre neden daha iyi olduğunu pek anlayamıyorum
  Tamam, anladım
“Stanford Repo Released Sep 31, 2025” diye bir ifade var; sanki 30 Eylül 2025'in ertesi gününün 31 olduğu bir olasılık dağılımından örneklenmiş gibi duruyor
- Geri bildiriminiz için teşekkürler diyor
  İronik olarak bunun zamanı anlayan bir model hakkındaki yazı olduğuna dikkat çekiyor
- Görünüşe göre tarih hatası zaten düzeltilmiş
Bu çalışmanın temeli “Flamingo” adlı bir sistem
Bu sistem, metin ve görüntüleri sırayla gelen bir dizi olarak anlamakta uzmanlaşmış
Yani iki farklı sıralı modaliteyi birlikte işleyebiliyor
Bu yeni çalışma da bir modalite kanalına zaman token'ları ekleyerek zaman farkındalığını güçlendirmiş gibi görünüyor
(Bu arada web sitesi tasarımı aşırı tatlı - metinde soldan sağa degrade efekti bile var)
Flamingo ile ilgili makale bağlantısı
Bu gerçekten çok havalı
Makaleye bakınca bu tekniğin zaman serisi verisine dayalı soru-cevapta iyi çalıştığı görülüyor
Tıbbi yapay zeka alanında bana en ilginç gelen şey, insanların da fark edemediği hastalık sinyallerini tespit etmesi
Mesela kardiyologların bile yapamadığı şekilde ECG'den ejeksiyon fraksiyonu tahmini yapmak (ama algoritma zaten RCT ile doğrulanmış durumda)
İlgili makale bağlantısı
OpenTSLM zaman serisi verisini LLM gömme uzayında tokenize ediyor; bu sürecin böyle ince sinyalleri yakalayıp yakalayamayacağını merak ediyorum
Ya da bu yaklaşımın böyle kullanım senaryolarına uygun şekilde genişletilip genişletilemeyeceğini soruyorum
- OpenTSLM modeli tam da bu tür ince sinyalleri yakalamak için tasarlandı
  Araştırmanın erken aşamalarındaki en büyük motivasyon buydu
  Modelde ham zaman serisi verisi çapraz dikkat yoluyla entegre ediliyor ve ham zaman serisi kodlayıcısında özgül zaman serisi temsilleri öğreniliyor
Modelin zaman serisi işlemesi gerekiyorsa, bir TS kütüphanesini çağıran bir betik üretip bunu çalıştırıcıya vermesi daha iyi olur
İnsan da muhtemelen böyle yapardı
Bu işlevi modelin içine gömmek gerçekten gerekli mi emin değilim
Modelde yerel TS işleme varsa, bunun araç çağrısıyla yapılamayan neyi mümkün kıldığını merak ediyorum
- Anthropic de Claude Agent SDK ile ilgili son duyurusunda “modele script yazdırın” yaklaşımını öneriyor
  Kod üretimi açık, yeniden kullanılabilir ve birleştirilebilir olduğu için karmaşık görevleri güvenilir biçimde yerine getirmede ideal
  Ajan geliştirirken hangi işlerin kod olarak ifade edilmeye uygun olduğunu düşünmek yeni kapılar açıyor
  Claude Agent SDK ile ilgili bağlantı
- Sanırım asıl noktayı kaçırıyorsunuz
  Görüntü açıklaması için bir görüntü analiz kütüphanesi çağırmanın mı, yoksa görüntüyü doğrudan zaman serisi olarak anlayıp üzerinde akıl yürütmenin mi daha iyi olacağını düşünün
  Makalede yer alan grafiklere bakarsanız bu tür modellerin neler yapabildiğini görebilirsiniz
- Temelde gerçekten bir “zaman kavramı” olup olmadığını ve nedenselliği anlayıp anlamadığını merak ediyorum
Bugün eve gider gitmez bunu mutlaka deneyeceğim
Ben büyük miktarda ses zaman serisi verisiyle çalışıyorum (ortada kelimeler de yok ve çok sayıda ince değişim var), bu yeni yaklaşımın geleneksel istatistiksel yöntemlerle kıyaslandığında ne kadar iyi performans verdiğini görmek istiyorum
Bunlar huggingface'te bir depo açıp model ağırlıklarının bir kısmını yüklemiş
Ama resmi ana sayfada, makalede ya da Github'da henüz o bağlantı görünmüyor
OpenTSLM huggingface sayfası
Keşke claude code benim kalp atışı zaman serimi gerçek zamanlı izleyip yatakta dönüp durduğum süreyi bile tespit etse diye hayal ediyorum
- Bu arada birkaç gün önce çıkan claude2, öncekine göre çok daha akıcı hissettiriyor
Doğru anladıysam bu model zaman serisi sınıflandırması ve yorumlaması için eğitilmiş gibi görünüyor; peki tahminleme (forecasting) tarafında da kıyaslama yapıldı mı merak ediyorum
Açıklama ve öneri çoğu zaman tahminle yakından bağlantılı olduğundan, modelin özellikleri burada da ortaya çıkacaktır
Eğlenceli bir turnusol testi olarak S&P500 trendini çıkarıp bunu 500 hissenin bileşenlerine ayırarak her hissenin ne kadar katkı yaptığını analiz edip sıralayabilirsiniz
Ama böyle bir çalışmayla Rentec ya da NSA'de iş bulmak zor
Ticari ve tıbbi alanlarda sinyaller çoğunlukla durağandır ve white (ilişkisiz) noise ile birlikte ele alınır; NSA ve Rentec'te ise çoğunlukla durağan olmayan (non-stationary) sinyaller, rejim değişimi (regime change) ve korelasyonlu gürültü söz konusudur
Bu tür sinyaller bilgi kaybı olmadan gürültüden arındırılamaz
Bu tür analizlerin amacı bir sonraki tick'i tahmin etmekten çok, örüntü değişimini (rejim değişimini) mümkün olan en hızlı şekilde tespit edip bunu mevcut hisse alım satım örüntüleri ya da istihbarat faaliyet örüntüleriyle eşleştirmektir

OpenTSLM - Zaman serisi verilerini anlayan dil modeli

Araştırmaya genel bakış

Model mimarisi

Veri kümeleri ve eğitim

Başlıca sonuçlar

Bellek verimliliği

Değerlendirme

Sınırlamalar ve gelecekteki çalışmalar

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumları