8 ay boyunca 5 LLM’e kişi başı 140 milyon won verilip hisse işlemlerinin simüle edildiği deney

(aitradearena.com)

11 puan yazan GN⁺ 2025-12-06 | 1 yorum | WhatsApp'ta paylaş

GPT-5, Claude, Gemini, Grok, DeepSeek dahil 5 büyük dil modeli, gerçek piyasa verilerine dayanarak 8 ay boyunca sanal hisse işlemleri gerçekleştirdi
Her model, 100 bin dolarlık sanal fonla başlıca hisseleri günlük bazda alıp sattı; tüm kararlar ve portföy değişimleri kaydedildi
Sonuçta Grok en yüksek getiriyi, DeepSeek çok küçük farkla ikinci sırayı, Gemini ise teknoloji dışı hisselere ağırlık veren portföyüyle son sırayı aldı
Deney, 3 Şubat 2025 ile 20 Ekim 2025 arasında yürütüldü ve modellerin eğitim kesim tarihinden sonraki verilere erişebilmesi için zaman filtreli API ortamı kuruldu
Araştırmacılar, bu deneyi bir başlangıç noktası olarak görüp, gerçek zamanlı işlem ve değişken kontrollü deneyler ile LLM’lerin finansal analiz yeteneğini sistematik olarak doğrulamayı planlıyor

AI Trade Arena’ya genel bakış

AI Trade Arena, LLM’lerin gerçek finansal verileri analiz etme ve tahmin üretme yeteneğini değerlendirmek için kurulan bir deney platformu
- Kam ve Josh tarafından birlikte geliştirildi
- Modellerin haberler, finansal tablolar ve piyasa verilerine dayanarak hisse işlemleri yapması için tasarlandı
Platform, her modelin elde tuttuğu hisseleri, işlem geçmişini ve performansını takip ediyor; tüm işlem sürecini etkileşimli demo olarak herkese açık biçimde sunuyor

İlk deney: 5 LLM’in hisse işlemleri

Deneyde yer alan modeller: GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- Her modele 100 bin dolarlık sanal fon verildi
- Opsiyon işlemleri hariç tutuldu, yalnızca başlıca hisseler işlem gördü
Tüm işlemler, gerçek geçmiş hisse fiyatlarına dayanarak yapıldı ve modeller yalnızca ilgili anda kamuya açık olan bilgilere erişebildi
- Haber API’si, şirket finansal bilgileri ve piyasa verileri zaman filtreli olarak sağlandı
Deney süresi 3 Şubat 2025–20 Ekim 2025, yani yaklaşık 8 ay sürdü

Backtesting kavramı ve sınırlamaları

Backtest, geçmiş veriler kullanılarak işlem algoritmalarının performansını doğrulama yöntemidir
- LLM’in geçmişte hangi kararı vermiş olacağını simüle eder
- Gelecek verilerin sızmaması için API’ler zaman serisine göre ayrıldı
Avantajları
- Büyük ölçekli model değerlendirmesi yapılabilir
- Farklı senaryolar hızla test edilebilir
- İstatistiksel olarak anlamlı sonuçlar elde edilebilir
Dezavantajları
- Gerçek piyasanın rekabetçi ve likiditeye bağlı ortamını tamamen yeniden üretemez
- Slippage, işlem hacmi kısıtları ve gelecekteki veri sızıntısı riski vardır
- Geçmiş verilere aşırı uyum (overfitting) riski bulunur

Deney sonuçları ve gözlemler

Tüm modeller, yalnızca eğitim verisi cutoff tarihinden sonraki dönem üzerinde test edildi
- Böylece modellerin geçmiş piyasa sonuçlarını ezberleyerek işlem yapması önlendi
Grok en iyi performansı gösterdi, DeepSeek ise çok küçük farkla ikinci oldu
- Modellerin çoğu teknoloji hisseleri ağırlıklı portföyler kurarak yüksek getiri elde etti
- Gemini, teknoloji dışı hisselerin ağırlığının yüksek olması nedeniyle en düşük performansı gösterdi
Araştırmacılar, işlem süreci ile işlem gerekçelerini tamamen açık ederek şeffaflık sağladı
- Her işlemin dayanağı UI üzerinden doğrudan görülebiliyor

Gelecek planları

Araştırmacılar, yalnızca backtest ile kalmayıp gerçek zamanlı işlem deneylerine genişlemeyi planlıyor
- 3 aşamalı yaklaşım: geçmiş senaryo backtest’i → gerçek zamanlı sanal işlem → gerçek piyasa işlemi
Amaç, LLM’lerin finansal piyasa analizi yeteneğini ve karar kalitesini sistematik olarak anlamak
- Piyasa verileri, gerçek dünya temelli değerlendirme metriği olarak kullanılacak
- Barra faktör analizi gibi yöntemlerle şans ile beceriyi ayırma denemesi yapılacak
İşlem kayıtları sayesinde ezbere dayalı yargı ile gerçek akıl yürütme arasındaki fark ayırt edilebilir
- Örnek: sadece Nvidia’yı hatırlayıp almak ile 10-K raporunu analiz ederek temel içgörü elde etmek arasındaki farkın ayrıştırılması
Bu tür şeffaf karar alma analizi ile modelin araç yapısı ve iş akışının iyileştirilmesi mümkün olabilir

Katılım ve veri keşfi

Web sitesindeki etkileşimli demo üzerinden her modelin işlemleri, stratejisi ve akıl yürütme süreci doğrudan incelenebilir
Araştırmacılar ek deneyler planlıyor ve Discord topluluğu ile Twitter DM üzerinden görüş topluyor

1 yorum

GN⁺ 2025-12-06

Hacker News görüşleri

En iyi performansı Grok gösterdi, DeepSeek ise çok az farkla ikinci oldu
Görünüşe göre çoğu model teknoloji hissesi ağırlıklı bir portföye sahip olduğu için iyi sonuç aldı
Buna karşılık Gemini, teknoloji dışı hisselerin ağırlığının daha yüksek olması nedeniyle son sırada yer aldı
Ben ne yatırımcıyım ne de araştırmacı, ama bu sonuç bana ölçüm metriğinde bir sorun varmış gibi geliyor
- Teknoloji sektörünün yükselmeye devam edeceğine inanırsanız piyasa ortalamasını yenebilirsiniz
  Ama sorun, düzeltmenin ne zaman geleceğini öngörememek
  Veriye bir ayı piyasası dahil edilmediyse modelin o durumu öğrenmesi mümkün olmazdı
  Hatta veriyi ikiye bölüp bir yarısıyla eğitmek, diğer yarısıyla test etmek daha ilginç olabilir
  Bu da hedge fonların 2-4 yıl boyunca piyasayı yenebilse de 10 yıl ve üzerinde bunun neredeyse imkansız olmasını hatırlatıyor
- Daha geçerli bir yaklaşım, her model için 100 portföy oluşturup Monte Carlo simülasyonu çalıştırmak ve ortalama performansa bakmak olurdu
- Bu araştırmanın bir ayı piyasasında (bear market) da tekrarlanması iyi olurdu
- S&P 500 de teknoloji hissesi ağırlığı yüksek ve uzun vadede yenilmesi zor bir endeks
- Bu deney, dönemsel bağlamı dikkate almadan sadece yakın dönem performansını gösteriyor gibi duruyor
  Dönemlere göre modelleri yeniden eğitip backtesting yapmak daha anlamlı sonuçlar verebilir
Eskiden algoritmik işlem için bir brokerage API üzerinde çalışıyordum; backtestte iyi görünen stratejiler gerçek piyasada sık sık başarısız oluyordu
Gerçek zamanlı paper trading bile gerçek piyasadan farklı işliyor
DeepSeek, satış yapmadan çok sayıda teknoloji hissesi tuttuğu için iyi performans gösterdi ama tek bir sektöre yoğunlaşan strateji risklidir
Günde yalnızca bir kez işlem yapılabilmesi nedeniyle bu, gerçek zamanlı karar alma deneyi değil
Eğer bir LLM doğru zamanda sektör değiştirebilseydi, bu gerçekten etkileyici olurdu
- Gerçek piyasada emirler piyasa yapıcılar tarafından önden koşulabilir (front running) ve
  diğer katılımcılar emirlerini iptal edebilir ya da peşinden gelebilir; yani piyasa etkisi (market impact) vardır
  Bu tür şeyler paper trading'de yaşanmaz
- Ortada gerçek para olduğunda duygusal faktörler devreye girer ve makinenin kararına tamamen güvenmek zorlaşır
- Yeterince çok strateji denerseniz, tesadüfen geçmiş veriye uyan bir strateji bulabilirsiniz; bu yüzden sadece backtest yapmak anlamsızdır
- Ben de ThinkOrSwim ile paper trading yaparken paramı ikiye üçe katlamıştım ama gerçek piyasada tamamen başarısız oldum
Model başına yalnızca bir kez çalıştırıldıysa bu düzgün bir backtest değildir
Sadece tek bir dönemin sonucuna bakarsanız, “AI hisselerini al” gibi basit bir strateji bile tesadüfen iyi çalışabilir
10 farklı piyasa döneminde 100'er bağımsız çalıştırma yapmak anlamlı istatistik üretirdi
Mevcut deney pahalı bir rastgele sayı üretecinden (random number generator) ibaret
- Bütçe kısıtlı olduğu için modelleri birden fazla kez çalıştırmak mümkün olmadı
  Örneğin Claude'u 8 ay çalıştırmanın maliyeti 200-300 dolardı
  Bunu daha büyük ölçekte genişletip istatistiksel olarak anlamlı sonuçlar elde etmek isterdim
- Makalede de sonuçların istatistiksel olarak anlamlı olmadığı açıkça belirtilmiş, ama bunun daha fazla vurgulanması gerekirdi
  Şu an daha çok sonuç odaklı bir haber gibi görünüyor
- Toplam getiri dışında başka metrikler olmaması da sorun
  Çünkü rastgele hisse seçseniz bile S&P 500'ü geçme olasılığı yüksek olabilir
- Uç bir örnek olarak, “1 Ocak 2010'da hangi hisseleri alsam 15 yıl sonra en yüksek getiriyi elde ederdim?” gibi bir deney de yapılabilir
  Ama kimse o stratejiyi önümüzdeki 15 yıl boyunca aynen uygulamaz
- Tek seferlik bir çalıştırmanın sonucu esasen bir random walktan ibaret
Şu anda devam eden bir nof1.ai lider tablosu da var
Sonuçlar beklentinin altında ve çoğu AI, Mag7 teknoloji hisselerinde kısa vadeli al-sat yapmaya odaklanıp zarar ediyor
- nof1'in sınırlamalarından biri, gerçek yatırımcıların yararlanacağı şirket analiz verilerini neredeyse hiç kullanmaması
  Biz de bunu tamamlamak için rallies.ai/arena üzerinde benzer bir deney yürütüyoruz
- Dün X'te (Twitter) gündem olunca nof1 sonucu sandım ama tamamen farklı bir deneymiş
  Yine de nof1'in gerçek zamanlı yatırım yorum panosu izlemeye değer
- Siteye bakınca modellerin yalnızca az sayıda teknoloji hissesi ve XYZ100 coin işlemi yapabildiği anlaşılıyor
- Acaba o “gizemli model” kendi modelleri olabilir mi diye düşünüyorum
- Fiyat bilgisinin çok hızlı yayılması nedeniyle sonuçlar büyük ölçüde ajan mimarisine ve geri bildirim döngüsüne bağlı
Gönderi sahibi (OP) benim
Backtestin ve sanal paranın sınırlamalarını biliyordum ama yine de modellerin piyasayı nasıl algıladığını göstermek istedim
Bunun uzun vadede piyasayı yenebilecekleri anlamına geldiğini söylemiyorum
- İnsan katılımcılarla karşılaştırmalı bir kontrollü deney de yapılabilir
- Gerçek para dönmediği için piyasa etkisi hiç yok
- Risk ayarlı getiri açıklanmadıkça sonucun anlamı zayıf kalır
  Yükselen piyasada betası yüksek bir portföy taşımak özel bir başarı sayılmaz
- “DeepSeek came close to second” yerine “came in a close second” doğru ifade olur
- Sermaye piyasaları araştırması alanında doktora sahibi biri olarak, gerçek fazla performansı değerlendirmek için anormal getiri (alpha) hesaplanması gerektiğini düşünüyorum
Biz de hisse ve opsiyonlar üzerinde gerçek zamanlı deneyler yürütüyoruz
Modellerin SEC bildirimleri, temeller, gerçek zamanlı fiyatlar, opsiyon verileri gibi çeşitli araç erişimlerine sahip olmasını sağlıyoruz
LLM'lerin zaten geçmiş verilerin neredeyse tamamını ezberlemiş olduğunu düşündüğüm için backtestin anlamlı olmadığını düşünüyorum
Bu yüzden forward test yapıyoruz; veri hâlâ az ama ilk sonuçlar ilginç
rallies.ai/arena
- Kod ya da promptlar açık kaynak değilse buna güvenmek zor olmaz mı diye soruluyor
- Qwen'in neden diğer modellere göre çok daha kötü performans gösterdiği merak ediliyor
Benzer bir deney daha önce kripto para için gerçek fonlarla ve gerçek zamanlı işlemle yapılmıştı
ilgili bağlantı
Bana göre LLM'lerde gelecek veri sızıntısını engellemek neredeyse imkansız
Araştırmalarda da bunun zor olduğu gösterildi ve ben de tahmin modelleriyle çalışırken bu zorluğu bizzat yaşadım
Backtest gerçek işlemden farklı olduğu için çok anlamlı değil
Üstelik 8 ay çok kısa bir süre
Bence 8 aydan çok 8 yıl sonraki piyasa önemli
- LLM backtesti yapacaksanız geçmiş veriyi tamamen white-wash etmeniz gerekir
  Hisse adlarını silseniz bile model yalnızca grafik şekline bakarak NVDA olduğunu tahmin edebilecek kadar eğitilmiş olabilir
Bu modellerin backtest sonuçlarına güvenmek zor
Asıl anlamlı olan, gerçek maliyetleri içeren canlı 8 aylık bir deney yapmak
- Biz şu anda hisse ve opsiyonlar için canlı deney yürütüyoruz
  rallies.ai/arena
Bu yaklaşım tamamen yanlış
Ben gerçekten LLM'leri trading için kullanan bir araştırmacı olarak çalışıyorum
LLM'ler saf, kolay ikna olan ve deterministik olmayan (non-deterministic) sistemlerdir
Aynı deneyi 10 kez yaparsanız her seferinde farklı sonuçlar çıkabilir
Doğru yöntem önce deterministik bir trading algoritması kurmak, ardından LLM'yi onun üstüne yardımcı araç olarak eklemektir
LLM'yi doğrudan işlem hattına koyarsanız sadece gereksiz belirsizlik eklersiniz
Duygu analizi ya da yardımcı ML görevlerini hızlıca bağlamak için değerli olabilir
Ama bunun gibi deneyler, alanı anlamadan AI eklemenin tipik bir örneği
Gerçekten anlamlı araştırma, sektör maruziyeti gibi değişkenleri kontrol edip binlerce kez tekrarlayarak LLM'lere özgü önyargı kalıplarını analiz etmektir
Eğer bir LLM kendi kendine “nicel bir algoritma tasarlayacağım” deyip bunu gerçekten başarabilirse, işte o zaman şaşırtıcı olurdu

8 ay boyunca 5 LLM’e kişi başı 140 milyon won verilip hisse işlemlerinin simüle edildiği deney

AI Trade Arena’ya genel bakış

İlk deney: 5 LLM’in hisse işlemleri

Backtesting kavramı ve sınırlamaları

Deney sonuçları ve gözlemler

Gelecek planları

Katılım ve veri keşfi

İlgili okumalar

1 yorum

Hacker News görüşleri