为什么不能只用一个模型
“选最好的模型,所有东西都走它”——这是最常见的偷懒做法。问题和让一个分析师同时干宏观、信用、量化、执行一样:每个任务的认知特征不同,没有一个模型全部最优。
我们运行多模型架构。哪个模型处理哪个任务,这个路由决策本身就是分析质量的一部分。
模型阵容与分工
Claude —— 核心推理。 论点构建、证据链、对抗性压力测试、跨语言综合——工作流中风险最高的认知环节。为什么选它、它哪里不行 → 详见 Claude 推理引擎评测。
OpenAI o 系列(o3 / o4-mini)—— 数学与量化推理。 期权收益结构建模、带概率分布的情景分析、研报中量化声明的验证。o 系列擅长的是每一步都必须逻辑验证的多步数学推理——这和 Claude 擅长的自然语言推理是不同的认知能力。
一个具体场景:风险评估视角需要衡量论点的不对称结构——“正确的话路径回报 4 倍,错了的话信心折损 1 倍”。这个 4:1 结构的数学验证走 o 系列,论点本身的逻辑构建走 Claude。两个模型各做各擅长的部分。
GPT-4.1 —— 视觉数据解析。 盈利演示文稿里的嵌入图表、扫描的监管文件、航运单据图像、卫星图像——这些纯文本模型处理不了。GPT-4.1 从视觉来源提取结构化数据,输出再输入 Claude 做推理。拆开来看就是:解析是一个任务,推理是另一个任务,最好的解析模型不一定是最好的推理模型。
Gemini —— 预处理和分类。 初步新闻过滤、低优先级来源的摘要、常规翻译、元数据提取。这些任务不需要前沿模型,用能力足够但更便宜的选项就行。省下来的预算集中到模型质量真正影响结果的分析环节。
路由逻辑
模型选择不是随机的也不是手动的。我们定义了任务类别和显式路由规则。
- 结构化分析推理(论点构建、证据链、对抗性审查)→ Claude
- 量化验证和数学建模 → OpenAI o 系列
- 视觉数据提取 → GPT-4.1
- 预处理、分类和常规提取 → Google Gemini
路由发生在工作流层面,不是对话层面。单个研究流程可能依次调用三四个模型:Gemini 用于初步新闻分类,GPT-4.1 用于解析航运报告的视觉数据,Claude 用于构建分析论点,o 系列用于验证量化风险评估。每个阶段的输出输入下一阶段。人类研究员审核最终综合,而非中间路由。
为什么这对投资质量重要
多模型方法不是技术奢侈。它是对分析质量的直接投资。当你强制推理优化模型做量化计算时,你得到更慢且更不可靠的结果。当你强制视觉模型做长篇分析推理时,你得到浅薄的分析。当你用前沿模型做常规预处理时,你烧掉了本可以分配给模型质量会产生实质差异的任务的预算。
打个比方:我们不会让基本面分析师替风险评估做判断,同理也不会让推理模型替量化模型算数。模型分工的逻辑和分析分工的逻辑是一回事。
路由本身的成熟度问题
坦白说,上面写的路由规则看起来很干净,实际跑起来没那么利索。
几个还没完全解决的工程问题:
任务边界模糊。 “这个任务该走推理还是走量化?“——不是每次都判断得清楚。比如一份信用分析报告里既有定性的行业判断,又有 DCF 模型的参数敏感度测试。拆成两个子任务分别路由是对的,但怎么拆、在哪里切,目前还靠人工判断。自动化程度不够。
模型迭代导致路由失效。 上个季度 o3 在某类概率推理上表现最好,这个季度 Claude 更新后可能追上了。路由规则不是写一次就完事——每次主要模型更新都得重新跑 benchmark,决定是否调整分工。我们按季度做,但理想状态应该是持续的。
错误传播。 上游模型的输出喂给下游模型,如果上游出了错(比如 GPT-4.1 从图表里提取了一个错误数字),下游 Claude 会在错误数据上构建看起来很合理的因果链。目前靠人类研究员在关键节点抽查,还没有自动化的跨模型一致性校验。
成本不线性。 理论上预处理走便宜模型、核心推理走贵模型能省钱。实际上,当一个研究流程调用四个模型、每个模型跑多轮迭代时,总成本比”全部走一个好模型”未必低多少。省的是质量风险,不一定是钱。
这些问题没有让我们放弃多模型架构——单模型方案的天花板更低——但值得记录下来,免得把实际运行中的毛糙说得太光滑。