用 AKShare 和全球金融数据源构建跨境数据层

跨境数据问题

多数投研基础设施为单一区域构建。传统全球终端在中国数据深度有限；国内的 Wind、Choice 深耕中国但全球覆盖浅。每个跨境研究者都熟悉这种碎片化——他们同时开着三个终端、花半天在它们之间搬运数据。

KSINQ 的数据层就是为解决这个特定问题而构建的：如何创建一个单一分析环境，使中国和全球市场数据同样可访问、同样可查询、同样整合进推理过程？

架构：两个支柱

AKShare —— 中国支柱。 AKShare 是一个开源金融数据库，覆盖 A 股、港股、内地期货、基金数据（包括 QDII/LOF 净值和溢价数据）以及来自国家统计局、央行和外管局的中国宏观指标。我们选择 AKShare 而非商业替代品（Wind、Choice）有三个特定于 AI 原生工作流的原因。

第一，API 优先设计。 AKShare 是作为一个 Python 库构建的，不是 GUI 终端。这意味着它自然地集成到程序化工作流中——当”用户”是通过 MCP 发出实时数据请求的 AI 模型而非点击桌面应用的人类时，这是关键要求。商业终端有 API，但它们是终端产品的事后补丁。AKShare 的 API 就是产品。

第二，开源透明。 当我们的模型向 AKShare 查询一家公司的财务数据时，我们可以检查确切的数据源、解析逻辑和转换管道。使用专有终端时，数据是一个黑盒——你得到一个数字，但你无法从原始文件到显示值验证链条。对于一个建立在可证伪性基础上的研究流程，这种透明度不是可选的。

第三，成本结构。 AI 原生研究工作流的数据请求量比人类分析师高几个数量级。一个为板块筛选跨 50 家公司的 10 个财务指标查询的工作流，在几秒内生成 500 次 API 调用。商业终端许可按人类使用模式定价，而非 AI 规模吞吐量。AKShare 的开源模式消除了这个约束。

全球金融数据层 —— 全球支柱。 全球支柱通过一家授权的跨境金融数据提供商接入——覆盖美国和国际股票、固定收益、衍生品、宏观经济指标、信用评级和 ESG 数据。通过 MCP 集成，Claude 可以直接查询这些数据：在同一分析传递中拉取美国同行财务、全球板块基准和宏观指标，就在它查询 AKShare 获取中国数据的时候。

两个支柱的组合大于各部分之和。 一个单一的研究对话可以从 AKShare 数据开始，显示一家中国化工公司的毛利率已连续三个季度扩张，然后转向全球数据源显示其美国同行的利润率在同一时期正在压缩，然后问：“什么解释了这种分歧，它是可持续的吗？” 模型跨两个数据集推理，不需要研究员切换工具、导出文件或手动对齐数据格式。

解决难题

数据标准化。 中国公司按中国会计准则（CAS）报告，这与 US GAAP 和 IFRS 在收入确认、租赁会计和政府补贴的处理上不同。我们的数据层包含一个标准化模块，在执行跨境比较时调整这些差异。这不是一个琐碎的问题——调整是上下文依赖的，有时需要模型必须标记供人类审核的判断调用。

时间对齐。 中国上市公司半年报（加 Q1/Q3 中期更新），而美国公司季报。财年结束日期不同。我们的数据层通过标准化到过去十二个月（TTM）指标处理时间对齐以便比较，并明确标记当时间错位超过一个季度时。

QDII/LOF 溢价数据。 这是 KSINQ 最具差异化的数据能力。AKShare 提供 QDII 和 LOF 基金的实时和历史 NAV 数据，我们将其与市场价格数据结合以计算溢价/折价率。这直接输入我们的 QDII 溢价监控工具和我们的跨境研究分析。

数据层之上

清洗和标准化之后的数据通过 MCP 协议接入 Claude 的推理环境。MCP 怎么工作、为什么选这个协议而不是自建 API → 详见 MCP 用于投研。

定性信息（卖方报告、新闻、学术文献）的摄取和编排不在数据层范围内。Readwise 如何通过 MCP 接入研究流程 → 详见 MCP 用于投研。工作流编排（Dify 管道、晨间简报生成）→ 详见研究工作流。

局限和未解决的问题

这套数据层不完美。几个已知问题：

CAS-GAAP 调整的判断边界。 标准化模块能处理机械性差异——租赁资本化、折旧方法。但涉及政府补贴分类、关联交易定价这类需要商业判断的调整，模块会标记出来交给人审。我们还没找到完全自动化的方法，短期内也不打算找——这些判断本身就是研究价值的一部分。

AKShare 的数据质量不均匀。 A 股主板数据覆盖和及时性都不错，但创业板和北交所的数据偶尔有延迟或缺失。期货数据的历史深度也不如商业终端。我们的做法是关键数据点交叉验证，不把 AKShare 当唯一真相来源。

QDII 溢价的实时性。 溢价率的计算依赖 NAV 和市场价格的时间差。QDII 基金的 NAV 通常 T+1 甚至 T+2 才公布，而市场价格是实时的。这意味着我们计算的”实时溢价”其实是个滞后指标。我们在输出中明确标注 NAV 时间戳，让使用者自己判断这个时滞是否影响结论。