从 Data Archive 到 TSDB：工业数据底座为何必须重构

Jeff Tao

2026-03-19 / 技术文章 - 时序数据库, IDMP工业数据管理平台, 爱倒腾的程序员

在上一篇文章中，我们讨论了工业数据基础设施的整体演进路径：从工业实时数据库，到工业数据平台，再到 AI 原生工业数据底座。这一演进不仅是功能的增强，更是底层架构的重构。在这一过程中，一个最核心、却常常被忽视的变化，是数据存储层本身正在发生根本性替代。

长期以来，Data Archive 一直是工业实时数据库的核心组件，它承担了最基础的职责：接收来自现场的时序数据，并进行压缩存储与查询访问。在很长一段时间里，这种架构运行稳定，并成功支撑了工业系统的发展。

但当我们站在今天，从工业互联网、物联网以及 AI 的角度重新审视 Data Archive，就会发现，它所依赖的设计前提已经发生了变化。

Data Archive 的优势与时代局限

Data Archive 的设计，是在计算资源和存储成本都非常有限的时代完成的，其核心目标是以尽可能低的成本，实现对工业时序数据的长期保存。在这一目标下，它采用了类似“旋转门算法（swinging door algorithm）”的压缩方式，通过丢弃冗余数据点来减少数据量，同时尽量保持趋势形状。

这种方式在当时具有极高的工程价值。它使系统能够在有限的磁盘和计算资源条件下，保存更长时间跨度的数据，同时仍然能够还原整体趋势。这也是工业实时数据库能够在早期快速普及的重要原因之一。

从 Data Archive 到 TSDB：工业数据底座为何必须重构 - TDengine Database 时序数据库

旋转门压缩算法原理图

但从今天的视角来看，这种设计也带来了明显的局限。首先，这种压缩方式本质上是一种有损压缩，原始数据并不会被完整保留。对于依赖趋势观察的场景来说，这种损失是可以接受的，但在 AI 时代，这一点开始变得关键。无论是模型训练、异常检测还是精细化分析，对数据完整性的要求都更高，原始数据的丢失会直接影响分析精度，甚至导致误判。

其次，在数据访问方式上，Data Archive 并没有采用开放的查询模型。它通常不支持标准 SQL，而是依赖专有接口或特定工具进行数据访问。这种设计在早期有助于保证系统的一致性和性能，但也使数据被“锁定”在系统内部。一旦需要与其他系统（如 BI 工具、可视化平台、数据平台或 AI 系统）集成，就必须引入额外的中间层或定制开发，增加了系统复杂度和维护成本。

在架构层面，Data Archive 也并不是为分布式扩展设计的。它更偏向于单机或有限扩展的架构模型，这在数据规模相对可控的时代并没有问题。但随着工业互联网的发展，设备数量和数据采集点（Tag）呈指数级增长，数据写入频率持续提升，传统架构在扩展性和性能上的压力逐渐显现。

综合来看，Data Archive 的设计很好地解决了“如何高效存储数据”的问题，但它是在一个以“存储优先、系统封闭、资源受限”为前提的时代做出的最优解。而在今天这个强调数据开放性、可扩展性以及 AI 应用能力的环境中，这些设计正在逐渐从优势转变为约束。

TSDB：为规模化、开放性与现代基础设施而生

现代时序数据库（TSDB）是在云计算和大数据时代背景下发展起来的，其设计目标不再只是高效存储数据，而是支撑大规模数据处理、开放集成以及面向未来的数据应用能力。

在数据存储方面，TSDB 通常采用列式存储结构，并结合多阶段压缩机制，在保证数据完整性的前提下实现更高的压缩率。TDengine TSDB 还采取独特的“一个数据采集点一张表”的建模方式，获取更高的数据压缩率。这意味着不仅可以获得比传统 Data Archive 更优的存储效率，同时原始数据也能够被完整保留。这一点在 AI 时代尤为重要，因为无论是模型训练、异常检测还是行为分析，都依赖高保真的数据输入。

列式存储的工作原理图

在查询能力上，TSDB 普遍支持标准 SQL。这不仅仅是语法层面的便利，更意味着工业数据可以直接融入现代数据生态。工程师可以使用统一的语言进行分析，同时数据可以无缝接入 BI 工具、可视化系统以及各类数据平台，而不再依赖专有接口或中间转换层。这种能力，使工业数据第一次真正具备了“可流动性”。

在架构层面，TSDB 从设计之初就支持分布式架构，通过横向扩展来应对数据规模的持续增长。在工业互联网场景下，设备数量和数据采集点呈指数级增长，数据写入频率不断提升，只有具备分布式能力的系统，才能长期支撑这种增长趋势。TDengine 的客户里，有家用户的测点数已经超过三千万。

TDengine 分布式架构设计，能支持10亿个测点

更重要的是，TSDB 天然适配现代基础设施。它可以运行在 Linux 环境之上，支持容器化部署，并能够无缝运行在云环境中。这一点与传统依赖 Windows 和专有环境的工业实时数据库形成鲜明对比。在云原生架构逐渐成为主流的今天，系统是否能够在云上运行、是否能够通过容器和自动化方式部署，已经成为基础能力，而不是可选项。

同时，TSDB 通常具备开放的接口和良好的生态兼容性，可以轻松接入数据管道、消息系统以及各类分析工具。这使其不再是一个孤立的数据存储系统，而是现代数据基础设施中的一个核心节点。

从这些角度来看，TSDB 并不仅仅是 Data Archive 的替代品，而是面向新一代工业场景构建的数据基础引擎。它解决的不只是“数据存得更好”，而是“数据如何被更高效地使用、流动与扩展”。

Data Archive 诞生于“资源受限的时代”，
TSDB 诞生于“数据爆炸的时代”。

TSDB 仍不够：走向 TSDB + IDMP 的工业数据底座

尽管 TSDB 在数据存储、查询能力以及扩展性方面全面优于 Data Archive，但它本质上仍然只是一个数据引擎，而不是完整的工业数据底座。

工业数据的价值，并不来源于“数据本身”，而是来源于数据所处的上下文。一个温度、压力或振动信号，只有在明确其所属设备、工艺流程以及运行状态时，才具有真正的意义。如果缺乏这些上下文，即使数据存储得再完整、查询再高效，工程师仍然需要花大量时间去理解数据，AI 也难以生成有效的分析结果。

这也意味着，仅仅拥有一个强大的 TSDB，并不能真正解决工业数据问题。TSDB 可以很好地解决“数据如何存储和访问”的问题，但无法回答“数据代表什么”“数据之间有什么关系”“系统当前处于什么状态”这些更关键的问题。

真正的工业数据底座，需要在 TSDB 之上构建更高层的能力，包括以资产为核心的数据建模、事件建模与分析、实时数据处理、面向工程师的可视化，以及基于上下文的数据分析与 AI 能力。这些能力共同作用，才能让数据从“可用”变成“可理解”。

因此，工业数据基础设施的演进，并不是简单地用 TSDB 替代 Data Archive，而是进一步走向 TSDB 与 IDMP（Industrial Data Management Platform）的结合。在这一架构中，TSDB 提供高性能、可扩展的数据存储与访问能力，而 IDMP 负责数据的组织、语义建模以及分析与应用能力。

这种分层架构，使系统既具备现代数据平台的开放性和扩展性，又能够保留工业数据所必需的上下文语义。同时，它也为 AI 提供了真正可用的数据基础，因为 AI 所依赖的，不只是数据量，而是结构化、可理解并具备语义的数据。

从这个角度看，TSDB 是必要条件，但不是充分条件。只有当 TSDB 与 IDMP 结合，工业数据基础设施才真正演进为面向 AI 的数据底座。