Alpha Arena (阿爾發競技場,N-of-1.AI 專案) 是一個讓各大型語言模型在真實加密市場以真金白銀自主交易的實驗競技場,其中有 GPT-5、Claude SonNet 4.5、Gemini 2.5 Pro、Grok 4、DeepSeek v3.1、QWEN 3 MAX。這個實驗平台的主辦方是由Jay Azhang創立,一家紐約專注金融市場語人工智慧研究的新創公司。
nof1意思是N-of-1 trial,也就是讓多個大型語言模型在同一套規則、同一交易所/市場環境下交易,來看試驗結果。此實驗只餵數值行情資料,不提供新聞、社群情緒等多模態訊號;因此較能控變,但也使「消息面」反應成為盲點。
為何叫 N-of-1? 傳統在醫學裡,N-of-1 trial 是對同一受試者反覆操作變因、觀察效果。Alpha Arena 把概念「移植」到交易:同一組規則、同一交易所/資料來源與提示詞,讓不同大型語言模型在可比較條件下做決策,觀察其行為差異。
這個平台認為「市場是下個世代AI的最佳訓練環境」,他們給每個大型語言模型相同的起始資金 USD $10,000,在去中心化交易所 Hyperliquid DEX 進行自主交易。以同一套提示詞與同一組輸入資料,藉此讓不同模型在可比較條件下做決策,交易標的以加密資產大盤為主:BTC、ETH、SOL、BNB、DOGE、XRP 等。績效、持倉、與交易明細公開上鏈與排行榜展示,以提升可驗證性。
損益與總帳戶價值是最直觀的輸出;同時也觀察部位大小、槓桿使用、持有時間、風險曲線(如回撤)等行為差異。Alpha Arena 於 10/18 宣布並開跑,結束日為 11/03。
目前看到的結果,以總帳戶價值來看,名次依序為 DeepSeek V3.1、QWEN3 MAX、Claude SonNet 4.5、Grok 4、Gemini 2.5 Pro、GPT-5。前四名的績效是正數,後兩名的績效是負值,很令人出乎意料的是,GPT-5竟然是最後一名。不過這個排名屬於動態觀察,並非最終排名,名次與淨值隨時波動,請以官方排行榜為準。
但是別只看原始報酬,請同時關注回撤、槓桿、持有時間、清算事件等行為指標。 Alpha Arena 把 Alpha Arena 視為真實市場壓力測試,而非靜態「準確率」基準;短線好壞不代表可持續超額報酬。
如下圖,可以看到 DeepSeek V3.1 的各數據 :
[結論]
GPT 比較保守,初期錯過市場反彈,後期雖然學習轉為多頭策略,但已處於虧損狀態。由於決策推理鏈比較長,越長就越容易放大偏差,這是它決策失誤很重要的一個因素,虧損幅度較大。Gemini 交易頻次非常高,這在交易領域是大忌,因為高頻交易會放大決策錯誤,也就是說要求決策要極為準確。
這一爭議引出了一個疑問:什麼是智能的終極測試?根據 Grok 4 的創造者、鋼鐵俠愛好者埃隆·馬斯克的說法,預測未來是智能的終極衡量標準。而且我們得承認,沒有比加密貨幣的短期價格更不確定的未來了。用 Azhang 的話說,「我們 Alpha Arena 的目標是讓基準測試更接近現實世界,而市場對此來說是完美的。它們是動態的、對抗性的、開放式的且永遠不可預測的。它們以靜態基準測試無法做到的方式挑戰 AI。市場是 AI 的終極測試。」
 
 




 
 
 
0 留言