11 puan yazan GN⁺ 2025-12-06 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GPT-5, Claude, Gemini, Grok, DeepSeek dahil 5 büyük dil modeli, gerçek piyasa verilerine dayanarak 8 ay boyunca sanal hisse işlemleri gerçekleştirdi
  • Her model, 100 bin dolarlık sanal fonla başlıca hisseleri günlük bazda alıp sattı; tüm kararlar ve portföy değişimleri kaydedildi
  • Sonuçta Grok en yüksek getiriyi, DeepSeek çok küçük farkla ikinci sırayı, Gemini ise teknoloji dışı hisselere ağırlık veren portföyüyle son sırayı aldı
  • Deney, 3 Şubat 2025 ile 20 Ekim 2025 arasında yürütüldü ve modellerin eğitim kesim tarihinden sonraki verilere erişebilmesi için zaman filtreli API ortamı kuruldu
  • Araştırmacılar, bu deneyi bir başlangıç noktası olarak görüp, gerçek zamanlı işlem ve değişken kontrollü deneyler ile LLM’lerin finansal analiz yeteneğini sistematik olarak doğrulamayı planlıyor

AI Trade Arena’ya genel bakış

  • AI Trade Arena, LLM’lerin gerçek finansal verileri analiz etme ve tahmin üretme yeteneğini değerlendirmek için kurulan bir deney platformu
    • Kam ve Josh tarafından birlikte geliştirildi
    • Modellerin haberler, finansal tablolar ve piyasa verilerine dayanarak hisse işlemleri yapması için tasarlandı
  • Platform, her modelin elde tuttuğu hisseleri, işlem geçmişini ve performansını takip ediyor; tüm işlem sürecini etkileşimli demo olarak herkese açık biçimde sunuyor

İlk deney: 5 LLM’in hisse işlemleri

  • Deneyde yer alan modeller: GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
    • Her modele 100 bin dolarlık sanal fon verildi
    • Opsiyon işlemleri hariç tutuldu, yalnızca başlıca hisseler işlem gördü
  • Tüm işlemler, gerçek geçmiş hisse fiyatlarına dayanarak yapıldı ve modeller yalnızca ilgili anda kamuya açık olan bilgilere erişebildi
    • Haber API’si, şirket finansal bilgileri ve piyasa verileri zaman filtreli olarak sağlandı
  • Deney süresi 3 Şubat 2025–20 Ekim 2025, yani yaklaşık 8 ay sürdü

Backtesting kavramı ve sınırlamaları

  • Backtest, geçmiş veriler kullanılarak işlem algoritmalarının performansını doğrulama yöntemidir
    • LLM’in geçmişte hangi kararı vermiş olacağını simüle eder
    • Gelecek verilerin sızmaması için API’ler zaman serisine göre ayrıldı
  • Avantajları
    • Büyük ölçekli model değerlendirmesi yapılabilir
    • Farklı senaryolar hızla test edilebilir
    • İstatistiksel olarak anlamlı sonuçlar elde edilebilir
  • Dezavantajları
    • Gerçek piyasanın rekabetçi ve likiditeye bağlı ortamını tamamen yeniden üretemez
    • Slippage, işlem hacmi kısıtları ve gelecekteki veri sızıntısı riski vardır
    • Geçmiş verilere aşırı uyum (overfitting) riski bulunur

Deney sonuçları ve gözlemler

  • Tüm modeller, yalnızca eğitim verisi cutoff tarihinden sonraki dönem üzerinde test edildi
    • Böylece modellerin geçmiş piyasa sonuçlarını ezberleyerek işlem yapması önlendi
  • Grok en iyi performansı gösterdi, DeepSeek ise çok küçük farkla ikinci oldu
    • Modellerin çoğu teknoloji hisseleri ağırlıklı portföyler kurarak yüksek getiri elde etti
    • Gemini, teknoloji dışı hisselerin ağırlığının yüksek olması nedeniyle en düşük performansı gösterdi
  • Araştırmacılar, işlem süreci ile işlem gerekçelerini tamamen açık ederek şeffaflık sağladı
    • Her işlemin dayanağı UI üzerinden doğrudan görülebiliyor

Gelecek planları

  • Araştırmacılar, yalnızca backtest ile kalmayıp gerçek zamanlı işlem deneylerine genişlemeyi planlıyor
    • 3 aşamalı yaklaşım: geçmiş senaryo backtest’i → gerçek zamanlı sanal işlem → gerçek piyasa işlemi
  • Amaç, LLM’lerin finansal piyasa analizi yeteneğini ve karar kalitesini sistematik olarak anlamak
    • Piyasa verileri, gerçek dünya temelli değerlendirme metriği olarak kullanılacak
    • Barra faktör analizi gibi yöntemlerle şans ile beceriyi ayırma denemesi yapılacak
  • İşlem kayıtları sayesinde ezbere dayalı yargı ile gerçek akıl yürütme arasındaki fark ayırt edilebilir
    • Örnek: sadece Nvidia’yı hatırlayıp almak ile 10-K raporunu analiz ederek temel içgörü elde etmek arasındaki farkın ayrıştırılması
  • Bu tür şeffaf karar alma analizi ile modelin araç yapısı ve iş akışının iyileştirilmesi mümkün olabilir

Katılım ve veri keşfi

  • Web sitesindeki etkileşimli demo üzerinden her modelin işlemleri, stratejisi ve akıl yürütme süreci doğrudan incelenebilir
  • Araştırmacılar ek deneyler planlıyor ve Discord topluluğu ile Twitter DM üzerinden görüş topluyor

Henüz yorum yok.

Henüz yorum yok.