廣告

Alpha Arena : 哪個 AI 工具能在加密市場勝出?

Alpha Arena (阿爾發競技場,N-of-1.AI 專案) 是一個讓各大型語言模型在真實加密市場以真金白銀自主交易的實驗競技場,其中有 GPT-5、Claude SonNet 4.5、Gemini 2.5 Pro、Grok 4、DeepSeek v3.1、QWEN 3 MAX。這個實驗平台的主辦方是由Jay Azhang創立,一家紐約專注金融市場語人工智慧研究的新創公司。

nof1意思是N-of-1 trial,也就是讓多個大型語言模型在同一套規則、同一交易所/市場環境下交易,來看試驗結果。此實驗只餵數值行情資料,不提供新聞、社群情緒等多模態訊號;因此較能控變,但也使「消息面」反應成為盲點。

為何叫 N-of-1? 傳統在醫學裡,N-of-1 trial 是對同一受試者反覆操作變因、觀察效果。Alpha Arena 把概念「移植」到交易:同一組規則、同一交易所/資料來源與提示詞,讓不同大型語言模型在可比較條件下做決策,觀察其行為差異。

這個平台認為「市場是下個世代AI的最佳訓練環境」,他們給每個大型語言模型相同的起始資金 USD $10,000,在去中心化交易所 Hyperliquid DEX 進行自主交易。以同一套提示詞與同一組輸入資料,藉此讓不同模型在可比較條件下做決策交易標的以加密資產大盤為主:BTC、ETH、SOL、BNB、DOGE、XRP 等。績效、持倉與交易明細公開上鏈與排行榜展示,以提升可驗證性。

損益與總帳戶價值是最直觀的輸出;同時也觀察部位大小、槓桿使用、持有時間、風險曲線(如回撤)等行為差異。Alpha Arena 於 10/18 宣布並開跑,結束日為 11/03。


目前看到的結果,以總帳戶價值來看,名次依序為 DeepSeek V3.1、QWEN3 MAXClaude SonNet 4.5、Grok 4、Gemini 2.5 Pro、GPT-5。前四名的績效是正數,後兩名的績效是負值,很令人出乎意料的是,GPT-5竟然是最後一名。不過這個排名屬於動態觀察,並非最終排名,名次與淨值隨時波動,請以官方排行榜為準。

但是別只看原始報酬,請同時關注回撤、槓桿、持有時間、清算事件等行為指標。 Alpha Arena 把 Alpha Arena 視為真實市場壓力測試,而非靜態「準確率」基準;短線好壞不代表可持續超額報酬。

如下圖,可以看到 DeepSeek V3.1 的各數據


[結論]

Alpha Arena 的真正啟示不是「哪個模型短線賺最多」,而是「在相同提示與資料、真金白銀與可驗證上鏈的約束下,哪些模型展現出可持續的風險控管與決策紀律」。

在目前賽程可觀察到:DeepSeek V3.1 與 Qwen3 Max 長時間居前、Claude Sonnet 4.5、Grok 4居中、Gemini 2.5 Pro 與 GPT-5多次落後,但名次會隨盤勢變動,解讀應以官方排行榜為準。

只是大家應該很好奇,為何Gemini 2.5 Pro 與 GPT-5落後這麼多呢? 

專家認為在這個比賽環境中,過度激進導致回撤放大與清算,或是過度保守錯過趨勢、在震盪中反覆受傷——這兩大原因都會把淨值往後段拉。

換句話說,不是能力弱,而是該賽制下的交易—風險控制習性表現不如對手

[後記]

我們來看看市面上對於這個實驗的看法 : 


GPT 比較保守,初期錯過市場反彈,後期雖然學習轉為多頭策略,但已處於虧損狀態。由於決策推理鏈比較長,越長就越容易放大偏差,這是它決策失誤很重要的一個因素,虧損幅度較大。Gemini 交易頻次非常高,這在交易領域是大忌,因為高頻交易會放大決策錯誤,也就是說要求決策要極為準確。

並且,Polymarket 數據顯示,目前市場押注 OpenAI 為最大輸家的機率為 50%,Google 為 45%,顯然普遍認為OpenAI與Google應該分居殿後無誤。



這一爭議引出了一個疑問:什麼是智能的終極測試?根據 Grok 4 的創造者、鋼鐵俠愛好者埃隆·馬斯克的說法,預測未來是智能的終極衡量標準。

而且我們得承認,沒有比加密貨幣的短期價格更不確定的未來了。用 Azhang 的話說,「我們 Alpha Arena 的目標是讓基準測試更接近現實世界,而市場對此來說是完美的。它們是動態的、對抗性的、開放式的且永遠不可預測的。它們以靜態基準測試無法做到的方式挑戰 AI。市場是 AI 的終極測試。」

文章也談到一個交易者,比如說 Qwen3,連續整整一週都很幸運,這是完全正常且可能的!因此爲了讓 Alpha Arena 產生有價值的數據,它實際上必須運行很長時間,並且其模式和結果也需要獨立地進行復制,同時涉及真實資本的風險,然後才能被認定爲與隨機交易是不同的。

我們在 Alpha Arena 比賽終結後,再來看看最後哪個能夠勝出吧。

張貼留言

0 留言