AI 与基础模型 · 2026年2月5日

为什么我们选择 Claude 作为主力推理引擎

投资研究不是摘要任务,而是推理任务。我们需要一个能构建因果链、压力测试假设、在中英双语原材料之间同时工作的模型。这是我们选择 Claude 的技术判断过程。

推理,不是摘要

金融领域大多数 AI 应用把语言模型当搜索引擎用——喂数据,吐摘要。我们要的不是这个。我们要一个能从 200 页年报里搭因果链、能对自己的论点做压力测试、能同时处理中英文原材料的推理引擎。

Claude 是我们当前的主力模型。这个选择不是永久的——我们按季度重新评估——但截至目前,在结构化分析推理这件事上,它是我们测过最可靠的。

长上下文:能用和好用是两回事

一份中文年报 200 页,卖方首次覆盖报告再加 80 页,再叠上宏观数据和新闻——全部塞进工作记忆,不是用 RAG 检索片段,而是在单次传递中对完整文档集推理。Claude 的上下文窗口原生支持这个规模。

但窗口大不等于好用。我们在意的是尾端衰减——当上下文填到 80% 以上,模型对早期输入的注意力通常会下降。实测中 Claude 在这个区间的推理质量保持得比较稳定。这很关键,因为年报里最重要的矛盾和隐蔽披露往往藏在附注和尾部段落。

我们没有做过严格的 benchmark 对比发布(那不是研究出版物该干的事),但内部测试的体感是:在 100K token 以上的中文材料里做因果推理,Claude 的输出一致性明显优于我们测过的其他选项。这个判断可能随模型迭代变化,所以我们每季度重新测。

因果链:不是总结,是搭结构

我们的方法论要求构建显式的 A→B→C 证据链,每个环节标注”事实”或”假设”。举个具体的例子:分析一家公司的现金流恶化,链条可能是”应收账款周转天数上升(事实)→ 下游客户付款能力下降(假设)→ 行业需求收缩的领先信号(推断)“。每一步都需要模型判断这是事实还是假设,并在假设过重时发出警告。

Claude 在这类多步论证中的逻辑连贯性不错。它不太会在第四步突然忘记第一步的前提——这在长链推理中是个常见问题。它也能识别链条中最薄弱的环节,主动提出”这一步的证据支撑不够”。

不过要说清楚:这是我们的使用场景下的判断。因果链构建的质量和 prompt 设计高度相关,换一种提示方式结果可能不同。

双语推理 vs 双语翻译

大多数模型能翻译。跨语言推理是另一回事。

具体场景:PBOC 的一份声明里用了”合理充裕”这个表述。直译成英文是 “reasonably ample”,但在中国货币政策语境里,这个词的信号强度——它和”适度”或”充足”的微妙区别——翻译过去就丢了。我们需要模型在理解这个中文语境的同时,把它和美联储会议纪要里的相关表述放在同一个推理框架里比较。

Claude 能在同一次分析中处理中文监管文件和英文信用报告,在推理层面(而非翻译层面)整合两种语言的信息。这不是说它完美——中文金融术语的细微差别它偶尔也会搞错——但它至少能在正确的层面上工作。

证伪测试:让模型攻击自己的论点

我们的 Popperian 方法论要求每个论点有定义好的证伪标准:如果什么发生了,这个论点就错了。

发布观点前,我们用 Claude 做对抗性测试——要求它构建最强的反驳论证、识别最可能的失败模式、评估我们的证伪标准是否覆盖了足够的风险空间。这种用法对模型的推理深度要求最高:它不只需要理解你的论点,还需要理解你的论点可能错在哪里

实话说,这也是 Claude 偶尔让我们失望的地方。它的反驳有时候太”礼貌”——指出了风险但没有真正尝试推翻论点。我们在 prompt 层面做了不少调整来解决这个问题,效果在改善,但还不完美。

Claude 的短板

两个明确的弱项:

量化计算。 复杂金融建模、蒙特卡洛模拟、优化问题——这些 Claude 做得慢且不够可靠。不是不能做,是错误率高到我们不愿意信任它的输出。这类任务我们路由到其他模型。→ 详见多模型编排

视觉数据解析。 图表图像、扫描财务报表、PDF 复杂表格提取——Claude 的多模态能力在这块落后。这个领域所有厂商都在快速迭代,三个月后的判断可能完全不同。

还有一个不算弱项但需要管理的特性:Claude 倾向于生成”平衡”的分析。投资研究有时候需要尖锐的、有倾向性的判断,不是面面俱到的两方观点罗列。这需要在 prompt 层面做针对性设计——我们的做法是在系统提示里明确要求”给出你的判断,不要对冲”,效果比默认模式强不少,但 Claude 的”礼貌本能”偶尔还是会冒出来。

季度评估:我们怎么决定继续用它

每个季度我们用同一组测试材料重新跑一遍主流模型。测试集包括:

  • 一份已知结论的历史年报(看模型能不能独立走到那个结论)
  • 一组中英双语的央行政策文件(看跨语言推理质量)
  • 一个刻意埋了逻辑陷阱的投资论点(看证伪能力)
  • 一个 150K token 的长文档(看尾端衰减程度)

评估标准不是”谁得分最高”,而是”谁在我们最在意的维度上最稳定”。推理一致性的权重远高于生成速度或成本。

截至当前评估周期,Claude 仍然是综合最优选。但差距在缩小——特别是在因果链构建上,竞品的进步速度很快。下一次评估完全可能换。

在技术栈中的位置

Claude 只负责推理层。上游是 MCP 连接的数据源(→ 详见数据层),下游是结构化研究备忘录。不擅长的任务路由给其他模型(→ 详见多模型编排),最终判断由人类研究员做。

选择 Claude 不是信仰声明。这篇记录的是当前的判断依据,不是结论。