从 Bayes 的原始概率定理到 Black-Litterman 的投资组合观点融合,再到 Tetlock 的超级预测方法论。这条谱系定义了我们论点追踪系统的数学内核:信念是概率,证据更新信念,校准是可以训练的技能。
系统中所有概率推理的原始定理。在 AI 从业者把"先验"和"后验"挂在嘴边的 260 年前,Bayes 就建立了从观测数据反推原因概率的框架。我们的论点追踪系统本质上是在做同样的事——从市场证据更新对论点的信心。
将贝叶斯推断带入投资管理的里程碑论文。Black-Litterman 模型解决了 Markowitz 均值-方差优化的实用性问题:不再要求精确的收益预期,而是让投资者表达"观点"(先验),然后与市场均衡(似然)融合。我们的论点追踪架构直接借鉴了这个框架——论点就是观点,市场数据就是似然,系统持续融合两者。
层次贝叶斯模型和后验更新的数学圣经。当我们需要在多个相关论点之间共享信息时(比如同一行业的多家公司),层次模型让部分汇聚成为可能——每个论点有自己的参数,但参数本身从上层分布中采样。这本书提供了从理论到计算的完整路径。
从 Good Judgment Project 的实证研究中提炼出的校准预测操作手册。Tetlock 发现最好的预测者有共同特征:频繁小幅更新(而不是大幅转向)、区分已知和未知、主动寻找反面证据。这些原则直接编码进了我们的 Prior Assignment 和 Evidence Accumulation 系统。
市场研究中最危险的错误是把相关性当因果性。这条谱系提供了从时间序列因果检验到结构因果模型的完整工具链,让我们在每次"A 导致了 B"的判断前都有方法论依据。
时间序列预测因果性的开创性定义:如果 X 的历史值能改善对 Y 的预测,则 X "Granger 因果" Y。虽然不是真正的因果关系,但在金融信号检测中极其实用——我们的信号检测管线大量使用 Granger 因果检验作为初筛。
潜在结果框架(Rubin Causal Model):因果效应定义为"处理组结果 vs 未处理时的反事实结果"。金融研究中我们无法做 RCT,但这个框架让我们严谨地思考反事实——"如果这个政策没有实施,市场会怎样?"
因果图(DAG)和 do-演算的系统理论。Pearl 的因果阶梯——关联(看)、干预(做)、反事实(想)——提供了比统计回归更深层的因果推理框架。我们的因果链可视化工具让分析师画出 DAG,系统检查是否存在混杂、中介或碰撞偏差。
工具变量(IV)、断点回归(RDD)、双重差分(DiD)——当 RCT 不可能时的因果推断实战方法。这些不是理论工具,是我们压力测试和时间鲁棒性检验的实际操作方法。当分析师声称发现了因果关系时,系统要求展示控制策略。
如果你无法表述什么会证明你是错的,你的论点不够严谨到可以发布。这条谱系从科学哲学到统计方法论,定义了我们对"什么是好的研究"的标准。
可证伪性作为科学与非科学的划界标准。Popper 的核心洞察:一个无法被证伪的理论不是一个科学理论。我们的 Popperian Exit Protocol 直接来自这个原则——每个论点在发布前必须定义自己的"死亡条件"。
比 Popper 更细致的科学方法论:研究纲领有"硬核"和"保护带",可以暂时容忍异常而不立即放弃。这解释了为什么我们的证伪触发不是非黑即白的——论点可以在一定时间窗口内承受负面证据,但保护带不能无限膨胀。
如何设计真正有检验力的统计测试。Mayo 的"严格检验"概念:一个好的检验不仅能在假设为真时通过,更重要的是在假设为假时有能力拒绝。我们的量化压力测试从这里获得理论支撑——检验的价值不在于确认,而在于其拒绝假假设的能力。
从 Knight 对风险和不确定性的根本性区分,到 Markowitz 的量化框架,再到 Taleb 对正态分布假设的系统性批判——这条谱系塑造了我们对"什么可以建模、什么不能"的认知。
风险(可计算概率的随机性)和不确定性(无法赋概率的未知)之间的根本性区分。这个区分在 105 年后依然是金融分析的基石——我们的系统明确区分"可建模风险"和"不可建模不确定性",对后者保持谦逊。
均值-方差优化的开山之作,量化风险管理的起源。虽然后续研究(尤其是 Taleb)证明正态分布假设在极端市场条件下失效,但 Markowitz 建立的"风险-收益权衡"思维框架依然是一切组合分析的起点。
肥尾风险、模型过拟合、以及为什么压力测试是不可谈判的。Taleb 的核心论点:极端事件的影响远超正态分布模型的预期,而金融系统恰恰最脆弱于这些事件。这直接驱动了我们对蒙特卡洛模拟和敏感性分析的执着——必须考虑模型之外的可能性。
超越韧性的概念:反脆弱系统不仅承受冲击,还从冲击中获益。我们的自我改进管线(每次错误产生永久规则,系统随时间变强)就是在追求反脆弱性——不是避免错误,而是让每次错误都让系统变得更好。
人类认知的局限性和系统性偏差不是缺陷——它们是架构设计的输入。理解 System 1/System 2 让我们知道何时用快速模型(Gemini)何时用深度推理(Claude),理解工作记忆极限让我们知道上下文窗口为什么重要。
有限理性:人类(和 AI)不是最优化器,而是满意化器——寻找"足够好"的解,而不是全局最优解。这个洞察直接影响了我们的系统设计:不追求单一最优模型,而是为每个认知任务找到"足够好"的模型分配。
工作记忆容量极限:人类一次只能处理约 7 个信息块。AI 的上下文窗口是类似的约束——1M token 的 Claude 可以同时处理更多信息块,但仍然有注意力分散的问题。我们的认知负载优化直接来自 Miller 的研究。
前景理论揭示了人类在不确定性下的系统性偏差:损失厌恶、锚定效应、确定性效应。这些偏差不仅存在于人类分析师中,也可能被编码进 AI 的训练数据中。我们的 Red Team Analysis 专门设计来检测这类偏差。
System 1(快速、直觉、自动)和 System 2(慢速、深思、有意识)的双系统理论。这直接映射到我们的模型架构:Gemini Flash / Haiku 是 System 1(快速分流、情绪标注、新闻筛选),Claude Opus 是 System 2(深度推理、因果分析、论点构建)。
从信息论的数学基础到 Transformer 架构到 Constitutional AI 到模型上下文协议——技术栈每一层都有学术根源。我们不是在"使用 AI 工具",是在一个有理论依据的计算框架中做研究。
信息论的奠基之作。Shannon 的核心概念——信息熵、信道容量、冗余——直接驱动了我们的信号-噪声过滤系统。当一条新闻到达时,系统衡量的不是"是否重要",而是"携带了多少新信息"——这就是 Shannon 信息论的操作化。
Transformer 架构论文——我们技术栈中每一个模型(Claude、GPT、Gemini、Llama、DeepSeek、Mistral)的底层架构。自注意力机制让模型能够在长序列中建立远距离依赖,这是处理完整年报和跨文档交叉引用的计算基础。
RAG 范式:将检索和生成结合,让模型访问外部知识而不仅靠参数记忆。我们的向量存储和语义搜索系统直接来自这个范式——模型不需要"记住"所有研究报告,只需要在推理时检索相关上下文。
AI 监督 AI 的理论基础。Constitutional AI 证明了 AI 系统可以通过自我监督机制改进输出质量。我们的自我改进错误日志(每次错误生成永久规则)就是这个原则的应用——系统用过去的错误约束未来的行为。
AI-工具集成的通用连接器标准。MCP 让 AI 模型能够以标准化方式访问外部工具和数据源——不是每个数据源写一个自定义集成,而是所有数据源通过统一协议暴露给所有模型。我们的 MCP Server Mesh 完全建立在这个标准上。
通过稀疏自编码器从 Claude 中提取数百万可解释特征。这项研究证明了 AI 模型内部不是不可理解的黑箱——特定神经元确实对应可解释的概念。对于高风险金融应用,这种可解释性是信任的基础。
AI 能力进步快于可解释性研究——如果我们不能看到模型怎么思考,就不能信任它的结论。这直接驱动了我们对 extended thinking 审计轨迹的坚持:每一条推理链都必须可见、可审查、可追溯。
垃圾进,垃圾出——无论模型多强大。这条谱系从关系数据模型到金融研究的数据清洗标准,定义了"干净数据"在我们系统中的含义。
关系数据模型的奠基之作。Codd 的规范化理论(消除冗余、保证一致性)是我们标准化数据层的概念祖先——虽然我们处理的是非结构化和半结构化数据,但底层的"一个事实只存储一次"原则不变。
这篇论文隐式建立了金融研究的数据清洗标准:存活偏差(survivorship bias)、退市偏差(delisting bias)、异常值处理。我们的数据去噪管线中的退市偏差修正和异常值检测直接来自 Fama-French 确立的最佳实践。
整洁数据原则:每个变量一列,每个观测一行,每种观测类型一个表。看似简单,但在跨市场数据(不同交易日历、不同会计准则、不同币种)的标准化中,这些原则是保持数据一致性的锚点。
数据质量问题的系统分类法:缺失值、重复、不一致、过期。这个分类框架是我们数据管线质量保证体系的学术骨架——每一类问题都有对应的检测和修复策略。
最新的一条谱系:从 agent 记忆架构到多智能体辩论,再到金融领域的实证验证。这些 2023-2025 年的论文直接塑造了我们的 agent 协作架构和"AI 辅助判断,不替代判断"的定位。
双层 agent 记忆架构:工作记忆(当前上下文)和长期记忆(跨 session 持久化)。我们的自我改进错误日志和跨 session 机构记忆直接来自 MemGPT/Letta 的设计思路——agent 不仅在单次对话中学习,还在多次对话间积累知识。
最接近我们 agent 架构的已发表类比:多个 LLM agent 模拟交易公司中的不同角色(分析师、交易员、风控),通过多空辩论达成交易决策。关键发现:多 agent 辩论的决策质量显著优于单 agent。
纯强化学习训练的推理模型,在数学推理基准上达到 OpenAI o1 水平且无需人工标注数据。我们将 DeepSeek-R1 本地部署用于量化验证——数据主权和严格数学推理的双重需求,恰好匹配这个模型的设计目标。
多智能体辩论在可解释因子发现领域的实证验证。FactorMAD 证明了辩论机制不仅提升因子质量,还提升可解释性——与我们的对抗性审查管线哲学一致:辩论产生的不只是更好的结论,还有更透明的推理过程。
对 LLM 交易能力的系统性基准测试。核心发现:多数 LLM agent 无法跑赢简单的买入持有策略。这不是对 AI 的否定,而是对我们定位的验证——AI 辅助人类判断,而不是替代人类判断。自主交易不是目标,增强分析能力才是。