为什么我们选择 Claude 作为主力推理引擎

推理，不是摘要

金融领域大多数 AI 应用把语言模型当搜索引擎用——喂数据，吐摘要。我们要的不是这个。我们要一个能从 200 页年报里搭因果链、能对自己的论点做压力测试、能同时处理中英文原材料的推理引擎。

Claude 是我们当前的主力模型。这个选择不是永久的——我们按季度重新评估——但截至目前，在结构化分析推理这件事上，它是我们测过最可靠的。

长上下文：能用和好用是两回事

一份中文年报 200 页，卖方首次覆盖报告再加 80 页，再叠上宏观数据和新闻——全部塞进工作记忆，不是用 RAG 检索片段，而是在单次传递中对完整文档集推理。Claude 的上下文窗口原生支持这个规模。

但窗口大不等于好用。我们在意的是尾端衰减——当上下文填到 80% 以上，模型对早期输入的注意力通常会下降。实测中 Claude 在这个区间的推理质量保持得比较稳定。这很关键，因为年报里最重要的矛盾和隐蔽披露往往藏在附注和尾部段落。

我们没有做过严格的 benchmark 对比发布（那不是研究出版物该干的事），但内部测试的体感是：在 100K token 以上的中文材料里做因果推理，Claude 的输出一致性明显优于我们测过的其他选项。这个判断可能随模型迭代变化，所以我们每季度重新测。

因果链：不是总结，是搭结构

我们的方法论要求构建显式的 A→B→C 证据链，每个环节标注”事实”或”假设”。举个具体的例子：分析一家公司的现金流恶化，链条可能是”应收账款周转天数上升（事实）→ 下游客户付款能力下降（假设）→ 行业需求收缩的领先信号（推断）“。每一步都需要模型判断这是事实还是假设，并在假设过重时发出警告。

Claude 在这类多步论证中的逻辑连贯性不错。它不太会在第四步突然忘记第一步的前提——这在长链推理中是个常见问题。它也能识别链条中最薄弱的环节，主动提出”这一步的证据支撑不够”。

不过要说清楚：这是我们的使用场景下的判断。因果链构建的质量和 prompt 设计高度相关，换一种提示方式结果可能不同。

双语推理 vs 双语翻译

大多数模型能翻译。跨语言推理是另一回事。

具体场景：PBOC 的一份声明里用了”合理充裕”这个表述。直译成英文是 “reasonably ample”，但在中国货币政策语境里，这个词的信号强度——它和”适度”或”充足”的微妙区别——翻译过去就丢了。我们需要模型在理解这个中文语境的同时，把它和美联储会议纪要里的相关表述放在同一个推理框架里比较。

Claude 能在同一次分析中处理中文监管文件和英文信用报告，在推理层面（而非翻译层面）整合两种语言的信息。这不是说它完美——中文金融术语的细微差别它偶尔也会搞错——但它至少能在正确的层面上工作。

证伪测试：让模型攻击自己的论点

我们的 Popperian 方法论要求每个论点有定义好的证伪标准：如果什么发生了，这个论点就错了。

发布观点前，我们用 Claude 做对抗性测试——要求它构建最强的反驳论证、识别最可能的失败模式、评估我们的证伪标准是否覆盖了足够的风险空间。这种用法对模型的推理深度要求最高：它不只需要理解你的论点，还需要理解你的论点可能错在哪里。

实话说，这也是 Claude 偶尔让我们失望的地方。它的反驳有时候太”礼貌”——指出了风险但没有真正尝试推翻论点。我们在 prompt 层面做了不少调整来解决这个问题，效果在改善，但还不完美。

Claude 的短板

两个明确的弱项：

量化计算。 复杂金融建模、蒙特卡洛模拟、优化问题——这些 Claude 做得慢且不够可靠。不是不能做，是错误率高到我们不愿意信任它的输出。这类任务我们路由到其他模型。→ 详见多模型编排

视觉数据解析。 图表图像、扫描财务报表、PDF 复杂表格提取——Claude 的多模态能力在这块落后。这个领域所有厂商都在快速迭代，三个月后的判断可能完全不同。

还有一个不算弱项但需要管理的特性：Claude 倾向于生成”平衡”的分析。投资研究有时候需要尖锐的、有倾向性的判断，不是面面俱到的两方观点罗列。这需要在 prompt 层面做针对性设计——我们的做法是在系统提示里明确要求”给出你的判断，不要对冲”，效果比默认模式强不少，但 Claude 的”礼貌本能”偶尔还是会冒出来。

季度评估：我们怎么决定继续用它

每个季度我们用同一组测试材料重新跑一遍主流模型。测试集包括：

一份已知结论的历史年报（看模型能不能独立走到那个结论）
一组中英双语的央行政策文件（看跨语言推理质量）
一个刻意埋了逻辑陷阱的投资论点（看证伪能力）
一个 150K token 的长文档（看尾端衰减程度）

评估标准不是”谁得分最高”，而是”谁在我们最在意的维度上最稳定”。推理一致性的权重远高于生成速度或成本。

截至当前评估周期，Claude 仍然是综合最优选。但差距在缩小——特别是在因果链构建上，竞品的进步速度很快。下一次评估完全可能换。

在技术栈中的位置

Claude 只负责推理层。上游是 MCP 连接的数据源（→ 详见数据层），下游是结构化研究备忘录。不擅长的任务路由给其他模型（→ 详见多模型编排），最终判断由人类研究员做。

选择 Claude 不是信仰声明。这篇记录的是当前的判断依据，不是结论。