AI 与基础模型 · 2026年2月5日

为什么我们选择 Claude 作为主力推理引擎

投资研究不是摘要任务,而是推理任务。我们需要一个能构建因果链、压力测试假设、在中英双语原材料之间同时工作的模型。这是我们选择 Claude 的技术判断过程。

问题

投资研究不是摘要任务。它是推理任务。这个区别很重要,因为金融领域大多数 AI 应用把语言模型当作精密搜索引擎——输入数据,输出摘要。在 KSINQ,我们需要根本不同的东西:一个能构建因果链、压力测试假设、识别共识观点可能错在哪里的模型——并且在中英文原材料之间同时完成这一切。

我们需要为这个工作流选择一个主力推理引擎。选择不是显然的,也不是永久的——我们按季度重新评估。但截至今日,Anthropic 的 Claude 是我们核心分析推理的主力模型。以下是原因。

为什么是 Claude

真正可用的长上下文。 一份中文年报可以超过 200 页。一份卖方首次覆盖报告再加 80 页。与宏观数据和新闻交叉引用需要在工作记忆中同时持有所有这些信息——不是通过 RAG 检索片段,而是在单次传递中对完整文档集进行推理。Claude 的上下文窗口原生处理这个需求。更重要的是,它在长上下文尾端的推理质量不会显著下降——而最重要的矛盾和隐蔽披露往往就在那里。

因果链构建。 我们的研究方法论要求构建显式的 A→B→C 证据链,每个环节标注”事实”或”假设”。Claude 在这类结构化分析推理中表现出色——跨多步论证维持逻辑连贯性,在假设承载的工作超出证据支持时提出警示,识别链条最薄弱的环节。这是三重视角框架中基本面分析视角的核心。

双语推理,不是双语翻译。 跨境投资研究需要用两种语言思考,而不是在两种语言之间翻译。PBOC 声明中的政策信号在原始中文中有翻译丢失的细微差别。美联储会议纪要的含义需要母语级英文理解力。Claude 在推理层面处理两种语言——它可以在同一分析传递中分析一份中文监管文件和一份英文信用报告,不丢失影响投资决策的语境细微差别。

证伪测试。 我们的 Popperian 方法论要求每个论点有定义好的证伪标准。我们用 Claude 在发布观点前压力测试论点——要求它构建最强的反驳论证、识别最可能的失败模式、评估我们的证伪标准是否充分覆盖了风险空间。这种对抗性使用模型是其推理深度最重要的地方。

Claude 不做好什么

没有模型在所有方面都出色,对局限的知识诚实本身就是一种技术判断力。

Claude 不是我们进行大量量化计算的首选——复杂金融建模、蒙特卡洛模拟或优化问题。这些任务我们路由到专门工具或 OpenAI o 系列中为数学推理优化的模型。Claude 也不是解析视觉金融数据的最佳选择——图表图像、扫描财务报表或 PDF 中的复杂表格提取。多模态能力在这个领域跨所有提供商快速演进,我们对每个具体的视觉解析任务使用最佳可用工具。

关键不是 Claude 是”最好的模型”。 关键是对于跨双语长文档的结构化分析推理这一特定任务——我们研究流程的核心——它是我们测试过的最可靠引擎。

Claude 在技术栈中的位置

Claude 是推理层,不是整个技术栈。它位于我们的数据摄取层(MCP 连接的数据源提供市场数据、新闻和研究)和输出层(生成结构化投资备忘录)之间。它不是孤立运作——它在编排的工作流中运作,其中其他模型、工具和人类判断各自扮演定义好的角色。本系列的下一篇文章解释这种编排。