- GPT-5, Claude, Gemini, Grok, DeepSeek dahil 5 büyük dil modeli, gerçek piyasa verilerine dayanarak 8 ay boyunca sanal hisse işlemleri gerçekleştirdi
- Her model, 100 bin dolarlık sanal fonla başlıca hisseleri günlük bazda alıp sattı; tüm kararlar ve portföy değişimleri kaydedildi
- Sonuçta Grok en yüksek getiriyi, DeepSeek çok küçük farkla ikinci sırayı, Gemini ise teknoloji dışı hisselere ağırlık veren portföyüyle son sırayı aldı
- Deney, 3 Şubat 2025 ile 20 Ekim 2025 arasında yürütüldü ve modellerin eğitim kesim tarihinden sonraki verilere erişebilmesi için zaman filtreli API ortamı kuruldu
- Araştırmacılar, bu deneyi bir başlangıç noktası olarak görüp, gerçek zamanlı işlem ve değişken kontrollü deneyler ile LLM’lerin finansal analiz yeteneğini sistematik olarak doğrulamayı planlıyor
AI Trade Arena’ya genel bakış
- AI Trade Arena, LLM’lerin gerçek finansal verileri analiz etme ve tahmin üretme yeteneğini değerlendirmek için kurulan bir deney platformu
- Kam ve Josh tarafından birlikte geliştirildi
- Modellerin haberler, finansal tablolar ve piyasa verilerine dayanarak hisse işlemleri yapması için tasarlandı
- Platform, her modelin elde tuttuğu hisseleri, işlem geçmişini ve performansını takip ediyor; tüm işlem sürecini etkileşimli demo olarak herkese açık biçimde sunuyor
İlk deney: 5 LLM’in hisse işlemleri
- Deneyde yer alan modeller: GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- Her modele 100 bin dolarlık sanal fon verildi
- Opsiyon işlemleri hariç tutuldu, yalnızca başlıca hisseler işlem gördü
- Tüm işlemler, gerçek geçmiş hisse fiyatlarına dayanarak yapıldı ve modeller yalnızca ilgili anda kamuya açık olan bilgilere erişebildi
- Haber API’si, şirket finansal bilgileri ve piyasa verileri zaman filtreli olarak sağlandı
- Deney süresi 3 Şubat 2025–20 Ekim 2025, yani yaklaşık 8 ay sürdü
Backtesting kavramı ve sınırlamaları
- Backtest, geçmiş veriler kullanılarak işlem algoritmalarının performansını doğrulama yöntemidir
- LLM’in geçmişte hangi kararı vermiş olacağını simüle eder
- Gelecek verilerin sızmaması için API’ler zaman serisine göre ayrıldı
- Avantajları
- Büyük ölçekli model değerlendirmesi yapılabilir
- Farklı senaryolar hızla test edilebilir
- İstatistiksel olarak anlamlı sonuçlar elde edilebilir
- Dezavantajları
- Gerçek piyasanın rekabetçi ve likiditeye bağlı ortamını tamamen yeniden üretemez
- Slippage, işlem hacmi kısıtları ve gelecekteki veri sızıntısı riski vardır
- Geçmiş verilere aşırı uyum (overfitting) riski bulunur
Deney sonuçları ve gözlemler
- Tüm modeller, yalnızca eğitim verisi cutoff tarihinden sonraki dönem üzerinde test edildi
- Böylece modellerin geçmiş piyasa sonuçlarını ezberleyerek işlem yapması önlendi
- Grok en iyi performansı gösterdi, DeepSeek ise çok küçük farkla ikinci oldu
- Modellerin çoğu teknoloji hisseleri ağırlıklı portföyler kurarak yüksek getiri elde etti
- Gemini, teknoloji dışı hisselerin ağırlığının yüksek olması nedeniyle en düşük performansı gösterdi
- Araştırmacılar, işlem süreci ile işlem gerekçelerini tamamen açık ederek şeffaflık sağladı
- Her işlemin dayanağı UI üzerinden doğrudan görülebiliyor
Gelecek planları
- Araştırmacılar, yalnızca backtest ile kalmayıp gerçek zamanlı işlem deneylerine genişlemeyi planlıyor
- 3 aşamalı yaklaşım: geçmiş senaryo backtest’i → gerçek zamanlı sanal işlem → gerçek piyasa işlemi
- Amaç, LLM’lerin finansal piyasa analizi yeteneğini ve karar kalitesini sistematik olarak anlamak
- Piyasa verileri, gerçek dünya temelli değerlendirme metriği olarak kullanılacak
- Barra faktör analizi gibi yöntemlerle şans ile beceriyi ayırma denemesi yapılacak
- İşlem kayıtları sayesinde ezbere dayalı yargı ile gerçek akıl yürütme arasındaki fark ayırt edilebilir
- Örnek: sadece Nvidia’yı hatırlayıp almak ile 10-K raporunu analiz ederek temel içgörü elde etmek arasındaki farkın ayrıştırılması
- Bu tür şeffaf karar alma analizi ile modelin araç yapısı ve iş akışının iyileştirilmesi mümkün olabilir
Katılım ve veri keşfi
- Web sitesindeki etkileşimli demo üzerinden her modelin işlemleri, stratejisi ve akıl yürütme süreci doğrudan incelenebilir
- Araştırmacılar ek deneyler planlıyor ve Discord topluluğu ile Twitter DM üzerinden görüş topluyor
Henüz yorum yok.