8 ay boyunca 5 LLM’e kişi başı 140 milyon won verilip hisse işlemlerinin simüle edildiği deney
(aitradearena.com)- GPT-5, Claude, Gemini, Grok, DeepSeek dahil 5 büyük dil modeli, gerçek piyasa verilerine dayanarak 8 ay boyunca sanal hisse işlemleri gerçekleştirdi
- Her model, 100 bin dolarlık sanal fonla başlıca hisseleri günlük bazda alıp sattı; tüm kararlar ve portföy değişimleri kaydedildi
- Sonuçta Grok en yüksek getiriyi, DeepSeek çok küçük farkla ikinci sırayı, Gemini ise teknoloji dışı hisselere ağırlık veren portföyüyle son sırayı aldı
- Deney, 3 Şubat 2025 ile 20 Ekim 2025 arasında yürütüldü ve modellerin eğitim kesim tarihinden sonraki verilere erişebilmesi için zaman filtreli API ortamı kuruldu
- Araştırmacılar, bu deneyi bir başlangıç noktası olarak görüp, gerçek zamanlı işlem ve değişken kontrollü deneyler ile LLM’lerin finansal analiz yeteneğini sistematik olarak doğrulamayı planlıyor
AI Trade Arena’ya genel bakış
- AI Trade Arena, LLM’lerin gerçek finansal verileri analiz etme ve tahmin üretme yeteneğini değerlendirmek için kurulan bir deney platformu
- Kam ve Josh tarafından birlikte geliştirildi
- Modellerin haberler, finansal tablolar ve piyasa verilerine dayanarak hisse işlemleri yapması için tasarlandı
- Platform, her modelin elde tuttuğu hisseleri, işlem geçmişini ve performansını takip ediyor; tüm işlem sürecini etkileşimli demo olarak herkese açık biçimde sunuyor
İlk deney: 5 LLM’in hisse işlemleri
- Deneyde yer alan modeller: GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- Her modele 100 bin dolarlık sanal fon verildi
- Opsiyon işlemleri hariç tutuldu, yalnızca başlıca hisseler işlem gördü
- Tüm işlemler, gerçek geçmiş hisse fiyatlarına dayanarak yapıldı ve modeller yalnızca ilgili anda kamuya açık olan bilgilere erişebildi
- Haber API’si, şirket finansal bilgileri ve piyasa verileri zaman filtreli olarak sağlandı
- Deney süresi 3 Şubat 2025–20 Ekim 2025, yani yaklaşık 8 ay sürdü
Backtesting kavramı ve sınırlamaları
- Backtest, geçmiş veriler kullanılarak işlem algoritmalarının performansını doğrulama yöntemidir
- LLM’in geçmişte hangi kararı vermiş olacağını simüle eder
- Gelecek verilerin sızmaması için API’ler zaman serisine göre ayrıldı
- Avantajları
- Büyük ölçekli model değerlendirmesi yapılabilir
- Farklı senaryolar hızla test edilebilir
- İstatistiksel olarak anlamlı sonuçlar elde edilebilir
- Dezavantajları
- Gerçek piyasanın rekabetçi ve likiditeye bağlı ortamını tamamen yeniden üretemez
- Slippage, işlem hacmi kısıtları ve gelecekteki veri sızıntısı riski vardır
- Geçmiş verilere aşırı uyum (overfitting) riski bulunur
Deney sonuçları ve gözlemler
- Tüm modeller, yalnızca eğitim verisi cutoff tarihinden sonraki dönem üzerinde test edildi
- Böylece modellerin geçmiş piyasa sonuçlarını ezberleyerek işlem yapması önlendi
- Grok en iyi performansı gösterdi, DeepSeek ise çok küçük farkla ikinci oldu
- Modellerin çoğu teknoloji hisseleri ağırlıklı portföyler kurarak yüksek getiri elde etti
- Gemini, teknoloji dışı hisselerin ağırlığının yüksek olması nedeniyle en düşük performansı gösterdi
- Araştırmacılar, işlem süreci ile işlem gerekçelerini tamamen açık ederek şeffaflık sağladı
- Her işlemin dayanağı UI üzerinden doğrudan görülebiliyor
Gelecek planları
- Araştırmacılar, yalnızca backtest ile kalmayıp gerçek zamanlı işlem deneylerine genişlemeyi planlıyor
- 3 aşamalı yaklaşım: geçmiş senaryo backtest’i → gerçek zamanlı sanal işlem → gerçek piyasa işlemi
- Amaç, LLM’lerin finansal piyasa analizi yeteneğini ve karar kalitesini sistematik olarak anlamak
- Piyasa verileri, gerçek dünya temelli değerlendirme metriği olarak kullanılacak
- Barra faktör analizi gibi yöntemlerle şans ile beceriyi ayırma denemesi yapılacak
- İşlem kayıtları sayesinde ezbere dayalı yargı ile gerçek akıl yürütme arasındaki fark ayırt edilebilir
- Örnek: sadece Nvidia’yı hatırlayıp almak ile 10-K raporunu analiz ederek temel içgörü elde etmek arasındaki farkın ayrıştırılması
- Bu tür şeffaf karar alma analizi ile modelin araç yapısı ve iş akışının iyileştirilmesi mümkün olabilir
Katılım ve veri keşfi
- Web sitesindeki etkileşimli demo üzerinden her modelin işlemleri, stratejisi ve akıl yürütme süreci doğrudan incelenebilir
- Araştırmacılar ek deneyler planlıyor ve Discord topluluğu ile Twitter DM üzerinden görüş topluyor
1 yorum
Hacker News görüşleri
En iyi performansı Grok gösterdi, DeepSeek ise çok az farkla ikinci oldu
Görünüşe göre çoğu model teknoloji hissesi ağırlıklı bir portföye sahip olduğu için iyi sonuç aldı
Buna karşılık Gemini, teknoloji dışı hisselerin ağırlığının daha yüksek olması nedeniyle son sırada yer aldı
Ben ne yatırımcıyım ne de araştırmacı, ama bu sonuç bana ölçüm metriğinde bir sorun varmış gibi geliyor
Ama sorun, düzeltmenin ne zaman geleceğini öngörememek
Veriye bir ayı piyasası dahil edilmediyse modelin o durumu öğrenmesi mümkün olmazdı
Hatta veriyi ikiye bölüp bir yarısıyla eğitmek, diğer yarısıyla test etmek daha ilginç olabilir
Bu da hedge fonların 2-4 yıl boyunca piyasayı yenebilse de 10 yıl ve üzerinde bunun neredeyse imkansız olmasını hatırlatıyor
Dönemlere göre modelleri yeniden eğitip backtesting yapmak daha anlamlı sonuçlar verebilir
Eskiden algoritmik işlem için bir brokerage API üzerinde çalışıyordum; backtestte iyi görünen stratejiler gerçek piyasada sık sık başarısız oluyordu
Gerçek zamanlı paper trading bile gerçek piyasadan farklı işliyor
DeepSeek, satış yapmadan çok sayıda teknoloji hissesi tuttuğu için iyi performans gösterdi ama tek bir sektöre yoğunlaşan strateji risklidir
Günde yalnızca bir kez işlem yapılabilmesi nedeniyle bu, gerçek zamanlı karar alma deneyi değil
Eğer bir LLM doğru zamanda sektör değiştirebilseydi, bu gerçekten etkileyici olurdu
diğer katılımcılar emirlerini iptal edebilir ya da peşinden gelebilir; yani piyasa etkisi (market impact) vardır
Bu tür şeyler paper trading'de yaşanmaz
Model başına yalnızca bir kez çalıştırıldıysa bu düzgün bir backtest değildir
Sadece tek bir dönemin sonucuna bakarsanız, “AI hisselerini al” gibi basit bir strateji bile tesadüfen iyi çalışabilir
10 farklı piyasa döneminde 100'er bağımsız çalıştırma yapmak anlamlı istatistik üretirdi
Mevcut deney pahalı bir rastgele sayı üretecinden (random number generator) ibaret
Örneğin Claude'u 8 ay çalıştırmanın maliyeti 200-300 dolardı
Bunu daha büyük ölçekte genişletip istatistiksel olarak anlamlı sonuçlar elde etmek isterdim
Şu an daha çok sonuç odaklı bir haber gibi görünüyor
Çünkü rastgele hisse seçseniz bile S&P 500'ü geçme olasılığı yüksek olabilir
Ama kimse o stratejiyi önümüzdeki 15 yıl boyunca aynen uygulamaz
Şu anda devam eden bir nof1.ai lider tablosu da var
Sonuçlar beklentinin altında ve çoğu AI, Mag7 teknoloji hisselerinde kısa vadeli al-sat yapmaya odaklanıp zarar ediyor
Biz de bunu tamamlamak için rallies.ai/arena üzerinde benzer bir deney yürütüyoruz
Yine de nof1'in gerçek zamanlı yatırım yorum panosu izlemeye değer
Gönderi sahibi (OP) benim
Backtestin ve sanal paranın sınırlamalarını biliyordum ama yine de modellerin piyasayı nasıl algıladığını göstermek istedim
Bunun uzun vadede piyasayı yenebilecekleri anlamına geldiğini söylemiyorum
Yükselen piyasada betası yüksek bir portföy taşımak özel bir başarı sayılmaz
Biz de hisse ve opsiyonlar üzerinde gerçek zamanlı deneyler yürütüyoruz
Modellerin SEC bildirimleri, temeller, gerçek zamanlı fiyatlar, opsiyon verileri gibi çeşitli araç erişimlerine sahip olmasını sağlıyoruz
LLM'lerin zaten geçmiş verilerin neredeyse tamamını ezberlemiş olduğunu düşündüğüm için backtestin anlamlı olmadığını düşünüyorum
Bu yüzden forward test yapıyoruz; veri hâlâ az ama ilk sonuçlar ilginç
rallies.ai/arena
Benzer bir deney daha önce kripto para için gerçek fonlarla ve gerçek zamanlı işlemle yapılmıştı
ilgili bağlantı
Bana göre LLM'lerde gelecek veri sızıntısını engellemek neredeyse imkansız
Araştırmalarda da bunun zor olduğu gösterildi ve ben de tahmin modelleriyle çalışırken bu zorluğu bizzat yaşadım
Backtest gerçek işlemden farklı olduğu için çok anlamlı değil
Üstelik 8 ay çok kısa bir süre
Bence 8 aydan çok 8 yıl sonraki piyasa önemli
Hisse adlarını silseniz bile model yalnızca grafik şekline bakarak NVDA olduğunu tahmin edebilecek kadar eğitilmiş olabilir
Bu modellerin backtest sonuçlarına güvenmek zor
Asıl anlamlı olan, gerçek maliyetleri içeren canlı 8 aylık bir deney yapmak
rallies.ai/arena
Bu yaklaşım tamamen yanlış
Ben gerçekten LLM'leri trading için kullanan bir araştırmacı olarak çalışıyorum
LLM'ler saf, kolay ikna olan ve deterministik olmayan (non-deterministic) sistemlerdir
Aynı deneyi 10 kez yaparsanız her seferinde farklı sonuçlar çıkabilir
Doğru yöntem önce deterministik bir trading algoritması kurmak, ardından LLM'yi onun üstüne yardımcı araç olarak eklemektir
LLM'yi doğrudan işlem hattına koyarsanız sadece gereksiz belirsizlik eklersiniz
Duygu analizi ya da yardımcı ML görevlerini hızlıca bağlamak için değerli olabilir
Ama bunun gibi deneyler, alanı anlamadan AI eklemenin tipik bir örneği
Gerçekten anlamlı araştırma, sektör maruziyeti gibi değişkenleri kontrol edip binlerce kez tekrarlayarak LLM'lere özgü önyargı kalıplarını analiz etmektir
Eğer bir LLM kendi kendine “nicel bir algoritma tasarlayacağım” deyip bunu gerçekten başarabilirse, işte o zaman şaşırtıcı olurdu