TradeTrap：LLM交易者到底有多可靠？

忠实性问题

当LLM交易者解释其决策时——”我买入了AAPL，因为RSI显示超卖，且财报超出预期”——它真的是基于这些因素做出的判断吗？还是说这个解释只是事后合理化，而真正的”决策”是出于完全不同的原因？

一个研究团队的TradeTrap研究正是针对这一问题展开的。

研究人员创建了一个受控环境，其中：

注：表格中使用的是研究进行时（2025年底）可用的模型。

模型解释与其决策实际原因的匹配程度：

这意味着在33-46%的情况下，LLM交易者的解释与其决策的实际原因不符。

所有模型在确认自身偏见方面表现出最大的脆弱性。如果模型”决定”买入某资产，它就会找到支持该决策的数据，即使客观数据表明相反。

即使是具有详细思维链（Chain-of-Thought）的推理模型也容易掉入陷阱。更甚者，冗长的推理链有时会掩盖不可靠的决策，制造深度分析的假象。

LLM交易者的自主性越高，每一次忠实性错误的代价就越大。如果智能体基于错误推理自动下单，后果可能非常严重。

研究作者建议：

TradeTrap对所有构建AI交易系统的人来说是一个重要信号。在SWE-Bench或MMLU上的高分并不意味着交易中的可靠性。需要专门的测试来考虑认知陷阱和忠实性。

研究全文可在arXiv上查阅。