学术文献 — KSINQ

谱系 1 · 贝叶斯传统

从 Bayes 的原始概率定理到 Black-Litterman 的投资组合观点融合，再到 Tetlock 的超级预测方法论。这条谱系定义了我们论点追踪系统的数学内核：信念是概率，证据更新信念，校准是可以训练的技能。

Bayes, T. (1763). An Essay towards Solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society of London.

系统中所有概率推理的原始定理。在 AI 从业者把"先验"和"后验"挂在嘴边的 260 年前，Bayes 就建立了从观测数据反推原因概率的框架。我们的论点追踪系统本质上是在做同样的事——从市场证据更新对论点的信心。

Black, F. & Litterman, R. (1992). Global Portfolio Optimization. Financial Analysts Journal, 48(5), 28-43.

将贝叶斯推断带入投资管理的里程碑论文。Black-Litterman 模型解决了 Markowitz 均值-方差优化的实用性问题：不再要求精确的收益预期，而是让投资者表达"观点"（先验），然后与市场均衡（似然）融合。我们的论点追踪架构直接借鉴了这个框架——论点就是观点，市场数据就是似然，系统持续融合两者。

Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A. & Rubin, D.B. (2013). Bayesian Data Analysis. 3rd edition, CRC Press.

层次贝叶斯模型和后验更新的数学圣经。当我们需要在多个相关论点之间共享信息时（比如同一行业的多家公司），层次模型让部分汇聚成为可能——每个论点有自己的参数，但参数本身从上层分布中采样。这本书提供了从理论到计算的完整路径。

Tetlock, P. (2015). Superforecasting: The Art and Science of Prediction. Crown.

从 Good Judgment Project 的实证研究中提炼出的校准预测操作手册。Tetlock 发现最好的预测者有共同特征：频繁小幅更新（而不是大幅转向）、区分已知和未知、主动寻找反面证据。这些原则直接编码进了我们的 Prior Assignment 和 Evidence Accumulation 系统。

谱系 2 · 因果推断

市场研究中最危险的错误是把相关性当因果性。这条谱系提供了从时间序列因果检验到结构因果模型的完整工具链，让我们在每次"A 导致了 B"的判断前都有方法论依据。

Granger, C. (1969). Investigating Causal Relations by Econometric Models and Cross-spectral Methods. Econometrica, 37(3), 424-438.

时间序列预测因果性的开创性定义：如果 X 的历史值能改善对 Y 的预测，则 X "Granger 因果" Y。虽然不是真正的因果关系，但在金融信号检测中极其实用——我们的信号检测管线大量使用 Granger 因果检验作为初筛。

Rubin, D. (1974). Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies. Journal of Educational Psychology, 66(5), 688-701.

潜在结果框架（Rubin Causal Model）：因果效应定义为"处理组结果 vs 未处理时的反事实结果"。金融研究中我们无法做 RCT，但这个框架让我们严谨地思考反事实——"如果这个政策没有实施，市场会怎样？"

Pearl, J. (2009). Causality: Models, Reasoning, and Inference. 2nd edition, Cambridge University Press.

因果图（DAG）和 do-演算的系统理论。Pearl 的因果阶梯——关联（看）、干预（做）、反事实（想）——提供了比统计回归更深层的因果推理框架。我们的因果链可视化工具让分析师画出 DAG，系统检查是否存在混杂、中介或碰撞偏差。

Angrist, J. & Pischke, J. (2009). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press.

工具变量（IV）、断点回归（RDD）、双重差分（DiD）——当 RCT 不可能时的因果推断实战方法。这些不是理论工具，是我们压力测试和时间鲁棒性检验的实际操作方法。当分析师声称发现了因果关系时，系统要求展示控制策略。

谱系 3 · 证伪与科学方法

如果你无法表述什么会证明你是错的，你的论点不够严谨到可以发布。这条谱系从科学哲学到统计方法论，定义了我们对"什么是好的研究"的标准。

Popper, K. (1934/1959). The Logic of Scientific Discovery. Routledge.

可证伪性作为科学与非科学的划界标准。Popper 的核心洞察：一个无法被证伪的理论不是一个科学理论。我们的 Popperian Exit Protocol 直接来自这个原则——每个论点在发布前必须定义自己的"死亡条件"。

Lakatos, I. (1978). The Methodology of Scientific Research Programmes. Cambridge University Press.

比 Popper 更细致的科学方法论：研究纲领有"硬核"和"保护带"，可以暂时容忍异常而不立即放弃。这解释了为什么我们的证伪触发不是非黑即白的——论点可以在一定时间窗口内承受负面证据，但保护带不能无限膨胀。

Mayo, D. (2018). Statistical Inference as Severe Testing: How to Get Beyond the Statistics Wars. Cambridge University Press.

如何设计真正有检验力的统计测试。Mayo 的"严格检验"概念：一个好的检验不仅能在假设为真时通过，更重要的是在假设为假时有能力拒绝。我们的量化压力测试从这里获得理论支撑——检验的价值不在于确认，而在于其拒绝假假设的能力。

谱系 4 · 风险与不确定性

从 Knight 对风险和不确定性的根本性区分，到 Markowitz 的量化框架，再到 Taleb 对正态分布假设的系统性批判——这条谱系塑造了我们对"什么可以建模、什么不能"的认知。

Knight, F. (1921). Risk, Uncertainty and Profit. Houghton Mifflin.

风险（可计算概率的随机性）和不确定性（无法赋概率的未知）之间的根本性区分。这个区分在 105 年后依然是金融分析的基石——我们的系统明确区分"可建模风险"和"不可建模不确定性"，对后者保持谦逊。

Markowitz, H. (1952). Portfolio Selection. Journal of Finance, 7(1), 77-91.

均值-方差优化的开山之作，量化风险管理的起源。虽然后续研究（尤其是 Taleb）证明正态分布假设在极端市场条件下失效，但 Markowitz 建立的"风险-收益权衡"思维框架依然是一切组合分析的起点。

Taleb, N.N. (2007). The Black Swan: The Impact of the Highly Improbable. Random House.

肥尾风险、模型过拟合、以及为什么压力测试是不可谈判的。Taleb 的核心论点：极端事件的影响远超正态分布模型的预期，而金融系统恰恰最脆弱于这些事件。这直接驱动了我们对蒙特卡洛模拟和敏感性分析的执着——必须考虑模型之外的可能性。

Taleb, N.N. (2012). Antifragile: Things That Gain from Disorder. Random House.

超越韧性的概念：反脆弱系统不仅承受冲击，还从冲击中获益。我们的自我改进管线（每次错误产生永久规则，系统随时间变强）就是在追求反脆弱性——不是避免错误，而是让每次错误都让系统变得更好。

谱系 5 · 认知与行为

人类认知的局限性和系统性偏差不是缺陷——它们是架构设计的输入。理解 System 1/System 2 让我们知道何时用快速模型（Gemini）何时用深度推理（Claude），理解工作记忆极限让我们知道上下文窗口为什么重要。

Simon, H. (1955). A Behavioral Model of Rational Choice. Quarterly Journal of Economics, 69(1), 99-118.

有限理性：人类（和 AI）不是最优化器，而是满意化器——寻找"足够好"的解，而不是全局最优解。这个洞察直接影响了我们的系统设计：不追求单一最优模型，而是为每个认知任务找到"足够好"的模型分配。

Miller, G. (1956). The Magical Number Seven, Plus or Minus Two. Psychological Review, 63(2), 81-97.

工作记忆容量极限：人类一次只能处理约 7 个信息块。AI 的上下文窗口是类似的约束——1M token 的 Claude 可以同时处理更多信息块，但仍然有注意力分散的问题。我们的认知负载优化直接来自 Miller 的研究。

Kahneman, D. & Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica, 47(2), 263-292.

前景理论揭示了人类在不确定性下的系统性偏差：损失厌恶、锚定效应、确定性效应。这些偏差不仅存在于人类分析师中，也可能被编码进 AI 的训练数据中。我们的 Red Team Analysis 专门设计来检测这类偏差。

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

System 1（快速、直觉、自动）和 System 2（慢速、深思、有意识）的双系统理论。这直接映射到我们的模型架构：Gemini Flash / Haiku 是 System 1（快速分流、情绪标注、新闻筛选），Claude Opus 是 System 2（深度推理、因果分析、论点构建）。

谱系 6 · AI 与计算

从信息论的数学基础到 Transformer 架构到 Constitutional AI 到模型上下文协议——技术栈每一层都有学术根源。我们不是在"使用 AI 工具"，是在一个有理论依据的计算框架中做研究。

Shannon, C. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

信息论的奠基之作。Shannon 的核心概念——信息熵、信道容量、冗余——直接驱动了我们的信号-噪声过滤系统。当一条新闻到达时，系统衡量的不是"是否重要"，而是"携带了多少新信息"——这就是 Shannon 信息论的操作化。

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017.

Transformer 架构论文——我们技术栈中每一个模型（Claude、GPT、Gemini、Llama、DeepSeek、Mistral）的底层架构。自注意力机制让模型能够在长序列中建立远距离依赖，这是处理完整年报和跨文档交叉引用的计算基础。

Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.

RAG 范式：将检索和生成结合，让模型访问外部知识而不仅靠参数记忆。我们的向量存储和语义搜索系统直接来自这个范式——模型不需要"记住"所有研究报告，只需要在推理时检索相关上下文。

Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic.

AI 监督 AI 的理论基础。Constitutional AI 证明了 AI 系统可以通过自我监督机制改进输出质量。我们的自我改进错误日志（每次错误生成永久规则）就是这个原则的应用——系统用过去的错误约束未来的行为。

Anthropic (2024). Model Context Protocol (MCP). Open standard specification.

AI-工具集成的通用连接器标准。MCP 让 AI 模型能够以标准化方式访问外部工具和数据源——不是每个数据源写一个自定义集成，而是所有数据源通过统一协议暴露给所有模型。我们的 MCP Server Mesh 完全建立在这个标准上。

Olah, C. et al. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Anthropic.

通过稀疏自编码器从 Claude 中提取数百万可解释特征。这项研究证明了 AI 模型内部不是不可理解的黑箱——特定神经元确实对应可解释的概念。对于高风险金融应用，这种可解释性是信任的基础。

Amodei, D. (2025). The Urgency of Interpretability. darioamodei.com.

AI 能力进步快于可解释性研究——如果我们不能看到模型怎么思考，就不能信任它的结论。这直接驱动了我们对 extended thinking 审计轨迹的坚持：每一条推理链都必须可见、可审查、可追溯。

谱系 7 · 数据工程

垃圾进，垃圾出——无论模型多强大。这条谱系从关系数据模型到金融研究的数据清洗标准，定义了"干净数据"在我们系统中的含义。

Codd, E.F. (1970). A Relational Model of Data for Large Shared Data Banks. Communications of the ACM, 13(6), 377-387.

关系数据模型的奠基之作。Codd 的规范化理论（消除冗余、保证一致性）是我们标准化数据层的概念祖先——虽然我们处理的是非结构化和半结构化数据，但底层的"一个事实只存储一次"原则不变。

Fama, E.F. & French, K.R. (1992). The Cross-Section of Expected Stock Returns. Journal of Finance, 47(2), 427-465.

这篇论文隐式建立了金融研究的数据清洗标准：存活偏差（survivorship bias）、退市偏差（delisting bias）、异常值处理。我们的数据去噪管线中的退市偏差修正和异常值检测直接来自 Fama-French 确立的最佳实践。

Wickham, H. (2014). Tidy Data. Journal of Statistical Software, 59(10), 1-23.

整洁数据原则：每个变量一列，每个观测一行，每种观测类型一个表。看似简单，但在跨市场数据（不同交易日历、不同会计准则、不同币种）的标准化中，这些原则是保持数据一致性的锚点。

Chu, X. et al. (2016). Data Cleaning: Overview and Emerging Challenges. SIGMOD 2016.

数据质量问题的系统分类法：缺失值、重复、不一致、过期。这个分类框架是我们数据管线质量保证体系的学术骨架——每一类问题都有对应的检测和修复策略。

谱系 8 · Agentic AI 与金融智能体

最新的一条谱系：从 agent 记忆架构到多智能体辩论，再到金融领域的实证验证。这些 2023-2025 年的论文直接塑造了我们的 agent 协作架构和"AI 辅助判断，不替代判断"的定位。

Packer, C. et al. (2023 → 2025). MemGPT → Letta: Operating System for LLMs. UC Berkeley.

双层 agent 记忆架构：工作记忆（当前上下文）和长期记忆（跨 session 持久化）。我们的自我改进错误日志和跨 session 机构记忆直接来自 MemGPT/Letta 的设计思路——agent 不仅在单次对话中学习，还在多次对话间积累知识。

Xiao, Y. et al. (2024). TradingAgents: Multi-Agents LLM Financial Trading Framework. arXiv 2412.20138.

最接近我们 agent 架构的已发表类比：多个 LLM agent 模拟交易公司中的不同角色（分析师、交易员、风控），通过多空辩论达成交易决策。关键发现：多 agent 辩论的决策质量显著优于单 agent。

DeepSeek AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv 2501.12948.

纯强化学习训练的推理模型，在数学推理基准上达到 OpenAI o1 水平且无需人工标注数据。我们将 DeepSeek-R1 本地部署用于量化验证——数据主权和严格数学推理的双重需求，恰好匹配这个模型的设计目标。

Duan, Y. et al. (2025). FactorMAD: Multi-Agent Debate Framework for Alpha Factor Mining. ACM ICAIF 2025.

多智能体辩论在可解释因子发现领域的实证验证。FactorMAD 证明了辩论机制不仅提升因子质量，还提升可解释性——与我们的对抗性审查管线哲学一致：辩论产生的不只是更好的结论，还有更透明的推理过程。

Chen et al. (2025). StockBench: Can LLM Agents Trade Stocks Profitably? arXiv 2510.02209.

对 LLM 交易能力的系统性基准测试。核心发现：多数 LLM agent 无法跑赢简单的买入持有策略。这不是对 AI 的否定，而是对我们定位的验证——AI 辅助人类判断，而不是替代人类判断。自主交易不是目标，增强分析能力才是。

学术根基