11 puan yazan GN⁺ 2025-12-06 | 1 yorum | WhatsApp'ta paylaş
  • GPT-5, Claude, Gemini, Grok, DeepSeek dahil 5 büyük dil modeli, gerçek piyasa verilerine dayanarak 8 ay boyunca sanal hisse işlemleri gerçekleştirdi
  • Her model, 100 bin dolarlık sanal fonla başlıca hisseleri günlük bazda alıp sattı; tüm kararlar ve portföy değişimleri kaydedildi
  • Sonuçta Grok en yüksek getiriyi, DeepSeek çok küçük farkla ikinci sırayı, Gemini ise teknoloji dışı hisselere ağırlık veren portföyüyle son sırayı aldı
  • Deney, 3 Şubat 2025 ile 20 Ekim 2025 arasında yürütüldü ve modellerin eğitim kesim tarihinden sonraki verilere erişebilmesi için zaman filtreli API ortamı kuruldu
  • Araştırmacılar, bu deneyi bir başlangıç noktası olarak görüp, gerçek zamanlı işlem ve değişken kontrollü deneyler ile LLM’lerin finansal analiz yeteneğini sistematik olarak doğrulamayı planlıyor

AI Trade Arena’ya genel bakış

  • AI Trade Arena, LLM’lerin gerçek finansal verileri analiz etme ve tahmin üretme yeteneğini değerlendirmek için kurulan bir deney platformu
    • Kam ve Josh tarafından birlikte geliştirildi
    • Modellerin haberler, finansal tablolar ve piyasa verilerine dayanarak hisse işlemleri yapması için tasarlandı
  • Platform, her modelin elde tuttuğu hisseleri, işlem geçmişini ve performansını takip ediyor; tüm işlem sürecini etkileşimli demo olarak herkese açık biçimde sunuyor

İlk deney: 5 LLM’in hisse işlemleri

  • Deneyde yer alan modeller: GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
    • Her modele 100 bin dolarlık sanal fon verildi
    • Opsiyon işlemleri hariç tutuldu, yalnızca başlıca hisseler işlem gördü
  • Tüm işlemler, gerçek geçmiş hisse fiyatlarına dayanarak yapıldı ve modeller yalnızca ilgili anda kamuya açık olan bilgilere erişebildi
    • Haber API’si, şirket finansal bilgileri ve piyasa verileri zaman filtreli olarak sağlandı
  • Deney süresi 3 Şubat 2025–20 Ekim 2025, yani yaklaşık 8 ay sürdü

Backtesting kavramı ve sınırlamaları

  • Backtest, geçmiş veriler kullanılarak işlem algoritmalarının performansını doğrulama yöntemidir
    • LLM’in geçmişte hangi kararı vermiş olacağını simüle eder
    • Gelecek verilerin sızmaması için API’ler zaman serisine göre ayrıldı
  • Avantajları
    • Büyük ölçekli model değerlendirmesi yapılabilir
    • Farklı senaryolar hızla test edilebilir
    • İstatistiksel olarak anlamlı sonuçlar elde edilebilir
  • Dezavantajları
    • Gerçek piyasanın rekabetçi ve likiditeye bağlı ortamını tamamen yeniden üretemez
    • Slippage, işlem hacmi kısıtları ve gelecekteki veri sızıntısı riski vardır
    • Geçmiş verilere aşırı uyum (overfitting) riski bulunur

Deney sonuçları ve gözlemler

  • Tüm modeller, yalnızca eğitim verisi cutoff tarihinden sonraki dönem üzerinde test edildi
    • Böylece modellerin geçmiş piyasa sonuçlarını ezberleyerek işlem yapması önlendi
  • Grok en iyi performansı gösterdi, DeepSeek ise çok küçük farkla ikinci oldu
    • Modellerin çoğu teknoloji hisseleri ağırlıklı portföyler kurarak yüksek getiri elde etti
    • Gemini, teknoloji dışı hisselerin ağırlığının yüksek olması nedeniyle en düşük performansı gösterdi
  • Araştırmacılar, işlem süreci ile işlem gerekçelerini tamamen açık ederek şeffaflık sağladı
    • Her işlemin dayanağı UI üzerinden doğrudan görülebiliyor

Gelecek planları

  • Araştırmacılar, yalnızca backtest ile kalmayıp gerçek zamanlı işlem deneylerine genişlemeyi planlıyor
    • 3 aşamalı yaklaşım: geçmiş senaryo backtest’i → gerçek zamanlı sanal işlem → gerçek piyasa işlemi
  • Amaç, LLM’lerin finansal piyasa analizi yeteneğini ve karar kalitesini sistematik olarak anlamak
    • Piyasa verileri, gerçek dünya temelli değerlendirme metriği olarak kullanılacak
    • Barra faktör analizi gibi yöntemlerle şans ile beceriyi ayırma denemesi yapılacak
  • İşlem kayıtları sayesinde ezbere dayalı yargı ile gerçek akıl yürütme arasındaki fark ayırt edilebilir
    • Örnek: sadece Nvidia’yı hatırlayıp almak ile 10-K raporunu analiz ederek temel içgörü elde etmek arasındaki farkın ayrıştırılması
  • Bu tür şeffaf karar alma analizi ile modelin araç yapısı ve iş akışının iyileştirilmesi mümkün olabilir

Katılım ve veri keşfi

  • Web sitesindeki etkileşimli demo üzerinden her modelin işlemleri, stratejisi ve akıl yürütme süreci doğrudan incelenebilir
  • Araştırmacılar ek deneyler planlıyor ve Discord topluluğu ile Twitter DM üzerinden görüş topluyor

1 yorum

 
GN⁺ 2025-12-06
Hacker News görüşleri
  • En iyi performansı Grok gösterdi, DeepSeek ise çok az farkla ikinci oldu
    Görünüşe göre çoğu model teknoloji hissesi ağırlıklı bir portföye sahip olduğu için iyi sonuç aldı
    Buna karşılık Gemini, teknoloji dışı hisselerin ağırlığının daha yüksek olması nedeniyle son sırada yer aldı
    Ben ne yatırımcıyım ne de araştırmacı, ama bu sonuç bana ölçüm metriğinde bir sorun varmış gibi geliyor

    • Teknoloji sektörünün yükselmeye devam edeceğine inanırsanız piyasa ortalamasını yenebilirsiniz
      Ama sorun, düzeltmenin ne zaman geleceğini öngörememek
      Veriye bir ayı piyasası dahil edilmediyse modelin o durumu öğrenmesi mümkün olmazdı
      Hatta veriyi ikiye bölüp bir yarısıyla eğitmek, diğer yarısıyla test etmek daha ilginç olabilir
      Bu da hedge fonların 2-4 yıl boyunca piyasayı yenebilse de 10 yıl ve üzerinde bunun neredeyse imkansız olmasını hatırlatıyor
    • Daha geçerli bir yaklaşım, her model için 100 portföy oluşturup Monte Carlo simülasyonu çalıştırmak ve ortalama performansa bakmak olurdu
    • Bu araştırmanın bir ayı piyasasında (bear market) da tekrarlanması iyi olurdu
    • S&P 500 de teknoloji hissesi ağırlığı yüksek ve uzun vadede yenilmesi zor bir endeks
    • Bu deney, dönemsel bağlamı dikkate almadan sadece yakın dönem performansını gösteriyor gibi duruyor
      Dönemlere göre modelleri yeniden eğitip backtesting yapmak daha anlamlı sonuçlar verebilir
  • Eskiden algoritmik işlem için bir brokerage API üzerinde çalışıyordum; backtestte iyi görünen stratejiler gerçek piyasada sık sık başarısız oluyordu
    Gerçek zamanlı paper trading bile gerçek piyasadan farklı işliyor
    DeepSeek, satış yapmadan çok sayıda teknoloji hissesi tuttuğu için iyi performans gösterdi ama tek bir sektöre yoğunlaşan strateji risklidir
    Günde yalnızca bir kez işlem yapılabilmesi nedeniyle bu, gerçek zamanlı karar alma deneyi değil
    Eğer bir LLM doğru zamanda sektör değiştirebilseydi, bu gerçekten etkileyici olurdu

    • Gerçek piyasada emirler piyasa yapıcılar tarafından önden koşulabilir (front running) ve
      diğer katılımcılar emirlerini iptal edebilir ya da peşinden gelebilir; yani piyasa etkisi (market impact) vardır
      Bu tür şeyler paper trading'de yaşanmaz
    • Ortada gerçek para olduğunda duygusal faktörler devreye girer ve makinenin kararına tamamen güvenmek zorlaşır
    • Yeterince çok strateji denerseniz, tesadüfen geçmiş veriye uyan bir strateji bulabilirsiniz; bu yüzden sadece backtest yapmak anlamsızdır
    • Ben de ThinkOrSwim ile paper trading yaparken paramı ikiye üçe katlamıştım ama gerçek piyasada tamamen başarısız oldum
  • Model başına yalnızca bir kez çalıştırıldıysa bu düzgün bir backtest değildir
    Sadece tek bir dönemin sonucuna bakarsanız, “AI hisselerini al” gibi basit bir strateji bile tesadüfen iyi çalışabilir
    10 farklı piyasa döneminde 100'er bağımsız çalıştırma yapmak anlamlı istatistik üretirdi
    Mevcut deney pahalı bir rastgele sayı üretecinden (random number generator) ibaret

    • Bütçe kısıtlı olduğu için modelleri birden fazla kez çalıştırmak mümkün olmadı
      Örneğin Claude'u 8 ay çalıştırmanın maliyeti 200-300 dolardı
      Bunu daha büyük ölçekte genişletip istatistiksel olarak anlamlı sonuçlar elde etmek isterdim
    • Makalede de sonuçların istatistiksel olarak anlamlı olmadığı açıkça belirtilmiş, ama bunun daha fazla vurgulanması gerekirdi
      Şu an daha çok sonuç odaklı bir haber gibi görünüyor
    • Toplam getiri dışında başka metrikler olmaması da sorun
      Çünkü rastgele hisse seçseniz bile S&P 500'ü geçme olasılığı yüksek olabilir
    • Uç bir örnek olarak, “1 Ocak 2010'da hangi hisseleri alsam 15 yıl sonra en yüksek getiriyi elde ederdim?” gibi bir deney de yapılabilir
      Ama kimse o stratejiyi önümüzdeki 15 yıl boyunca aynen uygulamaz
    • Tek seferlik bir çalıştırmanın sonucu esasen bir random walktan ibaret
  • Şu anda devam eden bir nof1.ai lider tablosu da var
    Sonuçlar beklentinin altında ve çoğu AI, Mag7 teknoloji hisselerinde kısa vadeli al-sat yapmaya odaklanıp zarar ediyor

    • nof1'in sınırlamalarından biri, gerçek yatırımcıların yararlanacağı şirket analiz verilerini neredeyse hiç kullanmaması
      Biz de bunu tamamlamak için rallies.ai/arena üzerinde benzer bir deney yürütüyoruz
    • Dün X'te (Twitter) gündem olunca nof1 sonucu sandım ama tamamen farklı bir deneymiş
      Yine de nof1'in gerçek zamanlı yatırım yorum panosu izlemeye değer
    • Siteye bakınca modellerin yalnızca az sayıda teknoloji hissesi ve XYZ100 coin işlemi yapabildiği anlaşılıyor
    • Acaba o “gizemli model” kendi modelleri olabilir mi diye düşünüyorum
    • Fiyat bilgisinin çok hızlı yayılması nedeniyle sonuçlar büyük ölçüde ajan mimarisine ve geri bildirim döngüsüne bağlı
  • Gönderi sahibi (OP) benim
    Backtestin ve sanal paranın sınırlamalarını biliyordum ama yine de modellerin piyasayı nasıl algıladığını göstermek istedim
    Bunun uzun vadede piyasayı yenebilecekleri anlamına geldiğini söylemiyorum

    • İnsan katılımcılarla karşılaştırmalı bir kontrollü deney de yapılabilir
    • Gerçek para dönmediği için piyasa etkisi hiç yok
    • Risk ayarlı getiri açıklanmadıkça sonucun anlamı zayıf kalır
      Yükselen piyasada betası yüksek bir portföy taşımak özel bir başarı sayılmaz
    • “DeepSeek came close to second” yerine “came in a close second” doğru ifade olur
    • Sermaye piyasaları araştırması alanında doktora sahibi biri olarak, gerçek fazla performansı değerlendirmek için anormal getiri (alpha) hesaplanması gerektiğini düşünüyorum
  • Biz de hisse ve opsiyonlar üzerinde gerçek zamanlı deneyler yürütüyoruz
    Modellerin SEC bildirimleri, temeller, gerçek zamanlı fiyatlar, opsiyon verileri gibi çeşitli araç erişimlerine sahip olmasını sağlıyoruz
    LLM'lerin zaten geçmiş verilerin neredeyse tamamını ezberlemiş olduğunu düşündüğüm için backtestin anlamlı olmadığını düşünüyorum
    Bu yüzden forward test yapıyoruz; veri hâlâ az ama ilk sonuçlar ilginç
    rallies.ai/arena

    • Kod ya da promptlar açık kaynak değilse buna güvenmek zor olmaz mı diye soruluyor
    • Qwen'in neden diğer modellere göre çok daha kötü performans gösterdiği merak ediliyor
  • Benzer bir deney daha önce kripto para için gerçek fonlarla ve gerçek zamanlı işlemle yapılmıştı
    ilgili bağlantı
    Bana göre LLM'lerde gelecek veri sızıntısını engellemek neredeyse imkansız
    Araştırmalarda da bunun zor olduğu gösterildi ve ben de tahmin modelleriyle çalışırken bu zorluğu bizzat yaşadım

  • Backtest gerçek işlemden farklı olduğu için çok anlamlı değil
    Üstelik 8 ay çok kısa bir süre
    Bence 8 aydan çok 8 yıl sonraki piyasa önemli

    • LLM backtesti yapacaksanız geçmiş veriyi tamamen white-wash etmeniz gerekir
      Hisse adlarını silseniz bile model yalnızca grafik şekline bakarak NVDA olduğunu tahmin edebilecek kadar eğitilmiş olabilir
  • Bu modellerin backtest sonuçlarına güvenmek zor
    Asıl anlamlı olan, gerçek maliyetleri içeren canlı 8 aylık bir deney yapmak

    • Biz şu anda hisse ve opsiyonlar için canlı deney yürütüyoruz
      rallies.ai/arena
  • Bu yaklaşım tamamen yanlış
    Ben gerçekten LLM'leri trading için kullanan bir araştırmacı olarak çalışıyorum
    LLM'ler saf, kolay ikna olan ve deterministik olmayan (non-deterministic) sistemlerdir
    Aynı deneyi 10 kez yaparsanız her seferinde farklı sonuçlar çıkabilir
    Doğru yöntem önce deterministik bir trading algoritması kurmak, ardından LLM'yi onun üstüne yardımcı araç olarak eklemektir
    LLM'yi doğrudan işlem hattına koyarsanız sadece gereksiz belirsizlik eklersiniz
    Duygu analizi ya da yardımcı ML görevlerini hızlıca bağlamak için değerli olabilir
    Ama bunun gibi deneyler, alanı anlamadan AI eklemenin tipik bir örneği
    Gerçekten anlamlı araştırma, sektör maruziyeti gibi değişkenleri kontrol edip binlerce kez tekrarlayarak LLM'lere özgü önyargı kalıplarını analiz etmektir
    Eğer bir LLM kendi kendine “nicel bir algoritma tasarlayacağım” deyip bunu gerçekten başarabilirse, işte o zaman şaşırtıcı olurdu