学术文献

学术根基

每个系统组件背后都有经过同行评审的学术传统。这不是参考文献列表——是知识基因图谱,每一个设计决策都可以追溯到一个具体的思想传统。

谱系 1 · 贝叶斯传统

从 Bayes 的原始概率定理到 Black-Litterman 的投资组合观点融合,再到 Tetlock 的超级预测方法论。这条谱系定义了我们论点追踪系统的数学内核:信念是概率,证据更新信念,校准是可以训练的技能。

Bayes, T. (1763). An Essay towards Solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society of London.

系统中所有概率推理的原始定理。在 AI 从业者把"先验"和"后验"挂在嘴边的 260 年前,Bayes 就建立了从观测数据反推原因概率的框架。我们的论点追踪系统本质上是在做同样的事——从市场证据更新对论点的信心。

Black, F. & Litterman, R. (1992). Global Portfolio Optimization. Financial Analysts Journal, 48(5), 28-43.

将贝叶斯推断带入投资管理的里程碑论文。Black-Litterman 模型解决了 Markowitz 均值-方差优化的实用性问题:不再要求精确的收益预期,而是让投资者表达"观点"(先验),然后与市场均衡(似然)融合。我们的论点追踪架构直接借鉴了这个框架——论点就是观点,市场数据就是似然,系统持续融合两者。

Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A. & Rubin, D.B. (2013). Bayesian Data Analysis. 3rd edition, CRC Press.

层次贝叶斯模型和后验更新的数学圣经。当我们需要在多个相关论点之间共享信息时(比如同一行业的多家公司),层次模型让部分汇聚成为可能——每个论点有自己的参数,但参数本身从上层分布中采样。这本书提供了从理论到计算的完整路径。

Tetlock, P. (2015). Superforecasting: The Art and Science of Prediction. Crown.

从 Good Judgment Project 的实证研究中提炼出的校准预测操作手册。Tetlock 发现最好的预测者有共同特征:频繁小幅更新(而不是大幅转向)、区分已知和未知、主动寻找反面证据。这些原则直接编码进了我们的 Prior Assignment 和 Evidence Accumulation 系统。

谱系 2 · 因果推断

市场研究中最危险的错误是把相关性当因果性。这条谱系提供了从时间序列因果检验到结构因果模型的完整工具链,让我们在每次"A 导致了 B"的判断前都有方法论依据。

Granger, C. (1969). Investigating Causal Relations by Econometric Models and Cross-spectral Methods. Econometrica, 37(3), 424-438.

时间序列预测因果性的开创性定义:如果 X 的历史值能改善对 Y 的预测,则 X "Granger 因果" Y。虽然不是真正的因果关系,但在金融信号检测中极其实用——我们的信号检测管线大量使用 Granger 因果检验作为初筛。

Rubin, D. (1974). Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies. Journal of Educational Psychology, 66(5), 688-701.

潜在结果框架(Rubin Causal Model):因果效应定义为"处理组结果 vs 未处理时的反事实结果"。金融研究中我们无法做 RCT,但这个框架让我们严谨地思考反事实——"如果这个政策没有实施,市场会怎样?"

Pearl, J. (2009). Causality: Models, Reasoning, and Inference. 2nd edition, Cambridge University Press.

因果图(DAG)和 do-演算的系统理论。Pearl 的因果阶梯——关联(看)、干预(做)、反事实(想)——提供了比统计回归更深层的因果推理框架。我们的因果链可视化工具让分析师画出 DAG,系统检查是否存在混杂、中介或碰撞偏差。

Angrist, J. & Pischke, J. (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.

工具变量(IV)、断点回归(RDD)、双重差分(DiD)——当 RCT 不可能时的因果推断实战方法。这些不是理论工具,是我们压力测试和时间鲁棒性检验的实际操作方法。当分析师声称发现了因果关系时,系统要求展示控制策略。

谱系 3 · 证伪与科学方法

如果你无法表述什么会证明你是错的,你的论点不够严谨到可以发布。这条谱系从科学哲学到统计方法论,定义了我们对"什么是好的研究"的标准。

Popper, K. (1934/1959). The Logic of Scientific Discovery. Routledge.

可证伪性作为科学与非科学的划界标准。Popper 的核心洞察:一个无法被证伪的理论不是一个科学理论。我们的 Popperian Exit Protocol 直接来自这个原则——每个论点在发布前必须定义自己的"死亡条件"。

Lakatos, I. (1978). The Methodology of Scientific Research Programmes. Cambridge University Press.

比 Popper 更细致的科学方法论:研究纲领有"硬核"和"保护带",可以暂时容忍异常而不立即放弃。这解释了为什么我们的证伪触发不是非黑即白的——论点可以在一定时间窗口内承受负面证据,但保护带不能无限膨胀。

Mayo, D. (2018). Statistical Inference as Severe Testing: How to Get Beyond the Statistics Wars. Cambridge University Press.

如何设计真正有检验力的统计测试。Mayo 的"严格检验"概念:一个好的检验不仅能在假设为真时通过,更重要的是在假设为假时有能力拒绝。我们的量化压力测试从这里获得理论支撑——检验的价值不在于确认,而在于其拒绝假假设的能力。

谱系 4 · 风险与不确定性

从 Knight 对风险和不确定性的根本性区分,到 Markowitz 的量化框架,再到 Taleb 对正态分布假设的系统性批判——这条谱系塑造了我们对"什么可以建模、什么不能"的认知。

Knight, F. (1921). Risk, Uncertainty and Profit. Houghton Mifflin.

风险(可计算概率的随机性)和不确定性(无法赋概率的未知)之间的根本性区分。这个区分在 105 年后依然是金融分析的基石——我们的系统明确区分"可建模风险"和"不可建模不确定性",对后者保持谦逊。

Markowitz, H. (1952). Portfolio Selection. Journal of Finance, 7(1), 77-91.

均值-方差优化的开山之作,量化风险管理的起源。虽然后续研究(尤其是 Taleb)证明正态分布假设在极端市场条件下失效,但 Markowitz 建立的"风险-收益权衡"思维框架依然是一切组合分析的起点。

Taleb, N.N. (2007). The Black Swan: The Impact of the Highly Improbable. Random House.

肥尾风险、模型过拟合、以及为什么压力测试是不可谈判的。Taleb 的核心论点:极端事件的影响远超正态分布模型的预期,而金融系统恰恰最脆弱于这些事件。这直接驱动了我们对蒙特卡洛模拟和敏感性分析的执着——必须考虑模型之外的可能性。

Taleb, N.N. (2012). Antifragile: Things That Gain from Disorder. Random House.

超越韧性的概念:反脆弱系统不仅承受冲击,还从冲击中获益。我们的自我改进管线(每次错误产生永久规则,系统随时间变强)就是在追求反脆弱性——不是避免错误,而是让每次错误都让系统变得更好。

谱系 5 · 认知与行为

人类认知的局限性和系统性偏差不是缺陷——它们是架构设计的输入。理解 System 1/System 2 让我们知道何时用快速模型(Gemini)何时用深度推理(Claude),理解工作记忆极限让我们知道上下文窗口为什么重要。

Simon, H. (1955). A Behavioral Model of Rational Choice. Quarterly Journal of Economics, 69(1), 99-118.

有限理性:人类(和 AI)不是最优化器,而是满意化器——寻找"足够好"的解,而不是全局最优解。这个洞察直接影响了我们的系统设计:不追求单一最优模型,而是为每个认知任务找到"足够好"的模型分配。

Miller, G. (1956). The Magical Number Seven, Plus or Minus Two. Psychological Review, 63(2), 81-97.

工作记忆容量极限:人类一次只能处理约 7 个信息块。AI 的上下文窗口是类似的约束——1M token 的 Claude 可以同时处理更多信息块,但仍然有注意力分散的问题。我们的认知负载优化直接来自 Miller 的研究。

Kahneman, D. & Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica, 47(2), 263-292.

前景理论揭示了人类在不确定性下的系统性偏差:损失厌恶、锚定效应、确定性效应。这些偏差不仅存在于人类分析师中,也可能被编码进 AI 的训练数据中。我们的 Red Team Analysis 专门设计来检测这类偏差。

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

System 1(快速、直觉、自动)和 System 2(慢速、深思、有意识)的双系统理论。这直接映射到我们的模型架构:Gemini Flash / Haiku 是 System 1(快速分流、情绪标注、新闻筛选),Claude Opus 是 System 2(深度推理、因果分析、论点构建)。

谱系 6 · AI 与计算

从信息论的数学基础到 Transformer 架构到 Constitutional AI 到模型上下文协议——技术栈每一层都有学术根源。我们不是在"使用 AI 工具",是在一个有理论依据的计算框架中做研究。

Shannon, C. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

信息论的奠基之作。Shannon 的核心概念——信息熵、信道容量、冗余——直接驱动了我们的信号-噪声过滤系统。当一条新闻到达时,系统衡量的不是"是否重要",而是"携带了多少新信息"——这就是 Shannon 信息论的操作化。

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.

Transformer 架构论文——我们技术栈中每一个模型(Claude、GPT、Gemini、Llama、DeepSeek、Mistral)的底层架构。自注意力机制让模型能够在长序列中建立远距离依赖,这是处理完整年报和跨文档交叉引用的计算基础。

Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.

RAG 范式:将检索和生成结合,让模型访问外部知识而不仅靠参数记忆。我们的向量存储和语义搜索系统直接来自这个范式——模型不需要"记住"所有研究报告,只需要在推理时检索相关上下文。

Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic.

AI 监督 AI 的理论基础。Constitutional AI 证明了 AI 系统可以通过自我监督机制改进输出质量。我们的自我改进错误日志(每次错误生成永久规则)就是这个原则的应用——系统用过去的错误约束未来的行为。

Anthropic (2024). Model Context Protocol (MCP). Open standard specification.

AI-工具集成的通用连接器标准。MCP 让 AI 模型能够以标准化方式访问外部工具和数据源——不是每个数据源写一个自定义集成,而是所有数据源通过统一协议暴露给所有模型。我们的 MCP Server Mesh 完全建立在这个标准上。

Olah, C. et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropic.

通过稀疏自编码器从 Claude 中提取数百万可解释特征。这项研究证明了 AI 模型内部不是不可理解的黑箱——特定神经元确实对应可解释的概念。对于高风险金融应用,这种可解释性是信任的基础。

Amodei, D. (2025). The Urgency of Interpretability. darioamodei.com.

AI 能力进步快于可解释性研究——如果我们不能看到模型怎么思考,就不能信任它的结论。这直接驱动了我们对 extended thinking 审计轨迹的坚持:每一条推理链都必须可见、可审查、可追溯。

谱系 7 · 数据工程

垃圾进,垃圾出——无论模型多强大。这条谱系从关系数据模型到金融研究的数据清洗标准,定义了"干净数据"在我们系统中的含义。

Codd, E.F. (1970). A Relational Model of Data for Large Shared Data Banks. Communications of the ACM, 13(6), 377-387.

关系数据模型的奠基之作。Codd 的规范化理论(消除冗余、保证一致性)是我们标准化数据层的概念祖先——虽然我们处理的是非结构化和半结构化数据,但底层的"一个事实只存储一次"原则不变。

Fama, E.F. & French, K.R. (1992). The Cross-Section of Expected Stock Returns. Journal of Finance, 47(2), 427-465.

这篇论文隐式建立了金融研究的数据清洗标准:存活偏差(survivorship bias)、退市偏差(delisting bias)、异常值处理。我们的数据去噪管线中的退市偏差修正和异常值检测直接来自 Fama-French 确立的最佳实践。

Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1-23.

整洁数据原则:每个变量一列,每个观测一行,每种观测类型一个表。看似简单,但在跨市场数据(不同交易日历、不同会计准则、不同币种)的标准化中,这些原则是保持数据一致性的锚点。

Chu, X. et al. (2016). Data Cleaning: Overview and Emerging Challenges. SIGMOD 2016.

数据质量问题的系统分类法:缺失值、重复、不一致、过期。这个分类框架是我们数据管线质量保证体系的学术骨架——每一类问题都有对应的检测和修复策略。

谱系 8 · Agentic AI 与金融智能体

最新的一条谱系:从 agent 记忆架构到多智能体辩论,再到金融领域的实证验证。这些 2023-2025 年的论文直接塑造了我们的 agent 协作架构和"AI 辅助判断,不替代判断"的定位。

Packer, C. et al. (2023 → 2025). MemGPT → Letta: Operating System for LLMs. UC Berkeley.

双层 agent 记忆架构:工作记忆(当前上下文)和长期记忆(跨 session 持久化)。我们的自我改进错误日志和跨 session 机构记忆直接来自 MemGPT/Letta 的设计思路——agent 不仅在单次对话中学习,还在多次对话间积累知识。

Xiao, Y. et al. (2024). TradingAgents: Multi-Agents LLM Financial Trading Framework. arXiv 2412.20138.

最接近我们 agent 架构的已发表类比:多个 LLM agent 模拟交易公司中的不同角色(分析师、交易员、风控),通过多空辩论达成交易决策。关键发现:多 agent 辩论的决策质量显著优于单 agent。

DeepSeek AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv 2501.12948.

纯强化学习训练的推理模型,在数学推理基准上达到 OpenAI o1 水平且无需人工标注数据。我们将 DeepSeek-R1 本地部署用于量化验证——数据主权和严格数学推理的双重需求,恰好匹配这个模型的设计目标。

Duan, Y. et al. (2025). FactorMAD: Multi-Agent Debate Framework for Alpha Factor Mining. ACM ICAIF 2025.

多智能体辩论在可解释因子发现领域的实证验证。FactorMAD 证明了辩论机制不仅提升因子质量,还提升可解释性——与我们的对抗性审查管线哲学一致:辩论产生的不只是更好的结论,还有更透明的推理过程。

Chen et al. (2025). StockBench: Can LLM Agents Trade Stocks Profitably? arXiv 2510.02209.

对 LLM 交易能力的系统性基准测试。核心发现:多数 LLM agent 无法跑赢简单的买入持有策略。这不是对 AI 的否定,而是对我们定位的验证——AI 辅助人类判断,而不是替代人类判断。自主交易不是目标,增强分析能力才是。