- Mevcut foundation modelleri metin, görsel, ses ve videoyu işleyebiliyor; ancak gerçek dünyayı çalıştıran zaman serisi verileri (vital bulgular, fiyatlar, telemetri, loglar vb.) üzerinde zamansal akıl yürütme yetenekleri yetersiz
- Time Series Language Models (TSLMs), zaman serilerini metinle eşdeğer yerel bir modalite olarak destekleyerek kullanıcıların doğal dille soru sormasına, açıklama ve öneri almasına olanak tanır
- OpenTSLM, sağlık alanında zaman serisi verileri ile klinik metni birlikte işleyebilmek için tasarlanmış yeni bir dil modelidir
- cross-attention mimarisini benimseyerek uzun zaman serilerinde de ölçeklenebilir ve mevcut yaklaşımlardan farklı olarak büyük ölçekli işletimde pratiktir
- İki yapı öneriliyor: SoftPrompt (zaman serisini token olarak ekleme) ve Flamingo (çapraz dikkat tabanlı); her birinin farklı artı ve eksileri vardır
- Modelin akıl yürütme performansını değerlendirmek için üç yeni Chain-of-Thought (CoT) veri kümesi (HAR, Sleep, ECG-QA) sunuluyor
- GPT-4o'ya kıyasla 200 kat daha küçük bir modelle uyku evresi sınıflandırmada 4,4 kat, aktivite tanımada 6 kat, ECG yorumlamada 2 kat doğruluk elde edildi (verimlilik sırasıyla 880 kat, 1.000 kat, 400 kat)
- Sağlık alanında ilk kez 12-lead ECG sinyalleri ile metni eşzamanlı işliyor ve kardiyologlar tarafından doğrulanmış chain-of-thought akıl yürütmesi sunuyor
- Değişken uzunlukta çoklu zaman serilerini eşzamanlı işleyip bunları metin bağlamıyla birleştirerek alan uzmanlarınca doğrulanmış, yorumlanabilir açıklamalar üretiyor
- Bu çalışma, sağlık dışında da finans, tedarik zinciri, endüstriyel izleme gibi çeşitli zaman serisi uygulama alanlarına genişletilebileceğini gösteriyor
Araştırmaya genel bakış
- Klinik tanı ve tedavi, özünde zaman içindeki değişimi anlamaya dayanır
- Mevcut LLM'ler görsel, metin, konuşma gibi çeşitli modaliteleri işleyebilse de sürekli zaman serisi verilerini yorumlama yetenekleri sınırlıydı
- Bunu çözmek için OpenTSLM, zaman serisi verilerini LLM'lerin yeni yerel modalitesi olarak entegre eden bir yaklaşım öneriyor
Model mimarisi
- OpenTSLM-SoftPrompt
- Zaman serisini embedding'e dönüştürüp metin token'larıyla birlikte girişe verir
- Basit ve parametre açısından verimlidir; ancak uzun dizilerde bellek kullanımı hızla artar
- OpenTSLM-Flamingo
- Zaman serisini ayrı bir modalite olarak işler ve metinle çapraz dikkat (cross-attention) üzerinden birleştirir
- Uzun dizilerde de bellek kullanımı stabildir ve genel amaçlı işleme için uygundur
Veri kümeleri ve eğitim
- HAR-CoT: ivmeölçer sensörüyle insan aktivitesi tanıma
- Sleep-CoT: EEG tabanlı uyku evresi sınıflandırma
- ECG-QA-CoT: elektrokardiyogram verileriyle soru-cevap
- Aşamalı müfredat öğrenmesi uygulanarak basit zaman serisi örüntülerinin öğrenilmesinden akıl yürütme becerisinin öğrenilmesine geçiliyor
Başlıca sonuçlar
- SoftPrompt-Llama3.2-1B: Sleep-CoT'ta %69,9 F1, HAR-CoT'ta %65,4 F1
- Flamingo-Llama3.2-3B: ECG-QA-CoT'ta %40,25 F1 ile en iyi performansı gösterdi
- GPT-4o'ya karşı üstün performans: küçük model (OpenTSLM-1B) bile GPT-4o'dan daha yüksek F1 puanı aldı
- Doktor değerlendirmesi: ECG-QA akıl yürütme sürecinin %92,9'u doğru ya da kısmen doğru yorum olarak değerlendirildi
Bellek verimliliği
- SoftPrompt'ta VRAM, giriş uzunluğuna göre geometrik olarak artıyor (ör. ECG-QA'da 110GB'den fazla gerekiyor)
- Flamingo, istikrarlı bellek kullanımı koruyor (Llama-3B'de bile 60~70GB düzeyi)
Değerlendirme
- OpenTSLM, küçük ölçekli modellerin çok büyük modelleri aşabildiğini gösteriyor
- SoftPrompt kısa zaman serileri için uygunken, Flamingo uzun dönemli/çoklu zaman serileri için uygun
- Sağlık verilerinde akıl yürütme sürecinin şeffaflığını sağlayarak güven oluşturmaya katkı sunuyor
- Mevcut sınıflandırıcı tabanlı yaklaşımlardan farklı olarak doğal dil akıl yürütmesi + zaman serisi birleşimini gerçekleştiriyor
Sınırlamalar ve gelecekteki çalışmalar
- Zaman serisinin ölçek ve birimlerini metin olarak koruyan mevcut yöntem en iyi yaklaşım olmayabilir
- CoT veri kümelerinin oluşturulmasında GPT-4o yer aldığı için veri yanlılığı olasılığı bulunuyor
- Doğru tahmini garanti eden kayıp fonksiyonu tasarımı, mimarinin sadeleştirilmesi ve genelleme performansının doğrulanması gerekiyor
Sonuç
- OpenTSLM, sağlık alanının ötesinde finans, tedarik zinciri, endüstriyel izleme gibi uzun dönemli veri işleme için de yüksek kullanım potansiyeline sahip
- Bu çalışma, zaman serisi dil modeli (TSLM) kavramının temelini atıyor ve genel amaçlı zaman serisi akıl yürütme modeline doğru genişlemeyi hedefliyor
1 yorum
Hacker News yorumları
Doğal dil üzerinden zaman serisi verileriyle etkileşime girilebilmesini anlıyorum, ama sinyal işleme ya da kural tabanlı algoritma kütüphanelerini (veya veri değişkense makine öğrenimi kullanımını) araç çağrısı olarak kullanmaya kıyasla ne avantaj sağladığını merak ediyorum
Örneğin ticari bir LLM'e ECG verisini analiz etmesini söylersiniz ve LLM de bir ECG zaman serisi analiz kütüphanesini çağırır
Bu kütüphane tüm veri üzerinde çalışıp istatistikleri ve olayları çıkarır - örn. “ortalama kalp atış hızı 60 bpm, belirli bir anda AFib tespit edildi” gibi
Böylece LLM analiz için gereken tüm bilgiyi elde eder ve hesaplama maliyeti de çok daha düşük olur
Üstelik bu yaklaşım büyük açıklamalı veri kümeleri ve önceden eğitilmiş modeller gerektiriyor; eğer yanılıyorsam düzeltin ama “genel amaçlı” zaman serisi verisi işleyebilen bir modelin mümkün olmadığını düşünüyorum
Yani ECG verisiyle eğitilmiş bir model borsa verisiyle uyumlu olmaz
Farklı türde verilerin hepsini anlayan tek bir model henüz mümkün değil
Böyle bir sistemi edge'de çalıştırmak zor
Mesele edge üzerinde güvenilir biçimde çalışması
Kimse kalp atışını izleme işini buluta bırakmak istemez - uzaktaki servislerde kesinti ve güvenilirlik sorunları büyük, buna LLM çıkarımıyla ilgili ek zorluklar da ekleniyor
Mevcut kural tabanlı tespit özellikleri bu cihazlara zaten gömülü; buna LLM'in sunduğu gelişmiş örüntü tespitini eklemek, gereksiz uyarıları azaltıp karmaşık yeni örüntüleri de tespit edebilir
Bu, internetteki büyük veriyle sohbet eder gibi bir arayüz sunmak demek (ChatGPT)
Ama bunun, Google'da arayıp üst sıralardaki bağlantılara tıklamaya, reklamlardan kaçınmaya, çerez onayı vermeye, başlığı okumaya, aşağı kaydırıp ödeme penceresini kapatmaya, sonra makalenin geri kalanını okumaya ve bunu 4 kez tekrarlamaya göre neden daha iyi olduğunu pek anlayamıyorum
Tamam, anladım
“Stanford Repo Released Sep 31, 2025” diye bir ifade var; sanki 30 Eylül 2025'in ertesi gününün 31 olduğu bir olasılık dağılımından örneklenmiş gibi duruyor
Geri bildiriminiz için teşekkürler diyor
İronik olarak bunun zamanı anlayan bir model hakkındaki yazı olduğuna dikkat çekiyor
Görünüşe göre tarih hatası zaten düzeltilmiş
Bu çalışmanın temeli “Flamingo” adlı bir sistem
Bu sistem, metin ve görüntüleri sırayla gelen bir dizi olarak anlamakta uzmanlaşmış
Yani iki farklı sıralı modaliteyi birlikte işleyebiliyor
Bu yeni çalışma da bir modalite kanalına zaman token'ları ekleyerek zaman farkındalığını güçlendirmiş gibi görünüyor
(Bu arada web sitesi tasarımı aşırı tatlı - metinde soldan sağa degrade efekti bile var)
Flamingo ile ilgili makale bağlantısı
Bu gerçekten çok havalı
Makaleye bakınca bu tekniğin zaman serisi verisine dayalı soru-cevapta iyi çalıştığı görülüyor
Tıbbi yapay zeka alanında bana en ilginç gelen şey, insanların da fark edemediği hastalık sinyallerini tespit etmesi
Mesela kardiyologların bile yapamadığı şekilde ECG'den ejeksiyon fraksiyonu tahmini yapmak (ama algoritma zaten RCT ile doğrulanmış durumda)
İlgili makale bağlantısı
OpenTSLM zaman serisi verisini LLM gömme uzayında tokenize ediyor; bu sürecin böyle ince sinyalleri yakalayıp yakalayamayacağını merak ediyorum
Ya da bu yaklaşımın böyle kullanım senaryolarına uygun şekilde genişletilip genişletilemeyeceğini soruyorum
Araştırmanın erken aşamalarındaki en büyük motivasyon buydu
Modelde ham zaman serisi verisi çapraz dikkat yoluyla entegre ediliyor ve ham zaman serisi kodlayıcısında özgül zaman serisi temsilleri öğreniliyor
Modelin zaman serisi işlemesi gerekiyorsa, bir TS kütüphanesini çağıran bir betik üretip bunu çalıştırıcıya vermesi daha iyi olur
İnsan da muhtemelen böyle yapardı
Bu işlevi modelin içine gömmek gerçekten gerekli mi emin değilim
Modelde yerel TS işleme varsa, bunun araç çağrısıyla yapılamayan neyi mümkün kıldığını merak ediyorum
Anthropic de Claude Agent SDK ile ilgili son duyurusunda “modele script yazdırın” yaklaşımını öneriyor
Kod üretimi açık, yeniden kullanılabilir ve birleştirilebilir olduğu için karmaşık görevleri güvenilir biçimde yerine getirmede ideal
Ajan geliştirirken hangi işlerin kod olarak ifade edilmeye uygun olduğunu düşünmek yeni kapılar açıyor
Claude Agent SDK ile ilgili bağlantı
Sanırım asıl noktayı kaçırıyorsunuz
Görüntü açıklaması için bir görüntü analiz kütüphanesi çağırmanın mı, yoksa görüntüyü doğrudan zaman serisi olarak anlayıp üzerinde akıl yürütmenin mi daha iyi olacağını düşünün
Makalede yer alan grafiklere bakarsanız bu tür modellerin neler yapabildiğini görebilirsiniz
Temelde gerçekten bir “zaman kavramı” olup olmadığını ve nedenselliği anlayıp anlamadığını merak ediyorum
Bugün eve gider gitmez bunu mutlaka deneyeceğim
Ben büyük miktarda ses zaman serisi verisiyle çalışıyorum (ortada kelimeler de yok ve çok sayıda ince değişim var), bu yeni yaklaşımın geleneksel istatistiksel yöntemlerle kıyaslandığında ne kadar iyi performans verdiğini görmek istiyorum
Bunlar huggingface'te bir depo açıp model ağırlıklarının bir kısmını yüklemiş
Ama resmi ana sayfada, makalede ya da Github'da henüz o bağlantı görünmüyor
OpenTSLM huggingface sayfası
Keşke claude code benim kalp atışı zaman serimi gerçek zamanlı izleyip yatakta dönüp durduğum süreyi bile tespit etse diye hayal ediyorum
Doğru anladıysam bu model zaman serisi sınıflandırması ve yorumlaması için eğitilmiş gibi görünüyor; peki tahminleme (forecasting) tarafında da kıyaslama yapıldı mı merak ediyorum
Açıklama ve öneri çoğu zaman tahminle yakından bağlantılı olduğundan, modelin özellikleri burada da ortaya çıkacaktır
Eğlenceli bir turnusol testi olarak S&P500 trendini çıkarıp bunu 500 hissenin bileşenlerine ayırarak her hissenin ne kadar katkı yaptığını analiz edip sıralayabilirsiniz
Ama böyle bir çalışmayla Rentec ya da NSA'de iş bulmak zor
Ticari ve tıbbi alanlarda sinyaller çoğunlukla durağandır ve white (ilişkisiz) noise ile birlikte ele alınır; NSA ve Rentec'te ise çoğunlukla durağan olmayan (non-stationary) sinyaller, rejim değişimi (regime change) ve korelasyonlu gürültü söz konusudur
Bu tür sinyaller bilgi kaybı olmadan gürültüden arındırılamaz
Bu tür analizlerin amacı bir sonraki tick'i tahmin etmekten çok, örüntü değişimini (rejim değişimini) mümkün olan en hızlı şekilde tespit edip bunu mevcut hisse alım satım örüntüleri ya da istihbarat faaliyet örüntüleriyle eşleştirmektir