在上一篇文章中,我们讨论了工业数据基础设施的整体演进路径:从工业实时数据库,到工业数据平台,再到 AI 原生工业数据底座。这一演进不仅是功能的增强,更是底层架构的重构。在这一过程中,一个最核心、却常常被忽视的变化,是数据存储层本身正在发生根本性替代。
长期以来,Data Archive 一直是工业实时数据库的核心组件,它承担了最基础的职责:接收来自现场的时序数据,并进行压缩存储与查询访问。在很长一段时间里,这种架构运行稳定,并成功支撑了工业系统的发展。
但当我们站在今天,从工业互联网、物联网以及 AI 的角度重新审视 Data Archive,就会发现,它所依赖的设计前提已经发生了变化。
Data Archive 的优势与时代局限
Data Archive 的设计,是在计算资源和存储成本都非常有限的时代完成的,其核心目标是以尽可能低的成本,实现对工业时序数据的长期保存。在这一目标下,它采用了类似“旋转门算法(swinging door algorithm)”的压缩方式,通过丢弃冗余数据点来减少数据量,同时尽量保持趋势形状。
这种方式在当时具有极高的工程价值。它使系统能够在有限的磁盘和计算资源条件下,保存更长时间跨度的数据,同时仍然能够还原整体趋势。这也是工业实时数据库能够在早期快速普及的重要原因之一。

旋转门压缩算法原理图
但从今天的视角来看,这种设计也带来了明显的局限。首先,这种压缩方式本质上是一种有损压缩,原始数据并不会被完整保留。对于依赖趋势观察的场景来说,这种损失是可以接受的,但在 AI 时代,这一点开始变得关键。无论是模型训练、异常检测还是精细化分析,对数据完整性的要求都更高,原始数据的丢失会直接影响分析精度,甚至导致误判。
其次,在数据访问方式上,Data Archive 并没有采用开放的查询模型。它通常不支持标准 SQL,而是依赖专有接口或特定工具进行数据访问。这种设计在早期有助于保证系统的一致性和性能,但也使数据被“锁定”在系统内部。一旦需要与其他系统(如 BI 工具、可视化平台、数据平台或 AI 系统)集成,就必须引入额外的中间层或定制开发,增加了系统复杂度和维护成本。
在架构层面,Data Archive 也并不是为分布式扩展设计的。它更偏向于单机或有限扩展的架构模型,这在数据规模相对可控的时代并没有问题。但随着工业互联网的发展,设备数量和数据采集点(Tag)呈指数级增长,数据写入频率持续提升,传统架构在扩展性和性能上的压力逐渐显现。
综合来看,Data Archive 的设计很好地解决了“如何高效存储数据”的问题,但它是在一个以“存储优先、系统封闭、资源受限”为前提的时代做出的最优解。而在今天这个强调数据开放性、可扩展性以及 AI 应用能力的环境中,这些设计正在逐渐从优势转变为约束。
TSDB:为规模化、开放性与现代基础设施而生
现代时序数据库(TSDB)是在云计算和大数据时代背景下发展起来的,其设计目标不再只是高效存储数据,而是支撑大规模数据处理、开放集成以及面向未来的数据应用能力。
在数据存储方面,TSDB 通常采用列式存储结构,并结合多阶段压缩机制,在保证数据完整性的前提下实现更高的压缩率。TDengine TSDB 还采取独特的“一个数据采集点一张表”的建模方式,获取更高的数据压缩率。这意味着不仅可以获得比传统 Data Archive 更优的存储效率,同时原始数据也能够被完整保留。这一点在 AI 时代尤为重要,因为无论是模型训练、异常检测还是行为分析,都依赖高保真的数据输入。

列式存储的工作原理图
在查询能力上,TSDB 普遍支持标准 SQL。这不仅仅是语法层面的便利,更意味着工业数据可以直接融入现代数据生态。工程师可以使用统一的语言进行分析,同时数据可以无缝接入 BI 工具、可视化系统以及各类数据平台,而不再依赖专有接口或中间转换层。这种能力,使工业数据第一次真正具备了“可流动性”。
在架构层面,TSDB 从设计之初就支持分布式架构,通过横向扩展来应对数据规模的持续增长。在工业互联网场景下,设备数量和数据采集点呈指数级增长,数据写入频率不断提升,只有具备分布式能力的系统,才能长期支撑这种增长趋势。TDengine 的客户里,有家用户的测点数已经超过三千万。

TDengine 分布式架构设计,能支持10亿个测点
更重要的是,TSDB 天然适配现代基础设施。它可以运行在 Linux 环境之上,支持容器化部署,并能够无缝运行在云环境中。这一点与传统依赖 Windows 和专有环境的工业实时数据库形成鲜明对比。在云原生架构逐渐成为主流的今天,系统是否能够在云上运行、是否能够通过容器和自动化方式部署,已经成为基础能力,而不是可选项。
同时,TSDB 通常具备开放的接口和良好的生态兼容性,可以轻松接入数据管道、消息系统以及各类分析工具。这使其不再是一个孤立的数据存储系统,而是现代数据基础设施中的一个核心节点。
从这些角度来看,TSDB 并不仅仅是 Data Archive 的替代品,而是面向新一代工业场景构建的数据基础引擎。它解决的不只是“数据存得更好”,而是“数据如何被更高效地使用、流动与扩展”。
Data Archive 诞生于“资源受限的时代”,
TSDB 诞生于“数据爆炸的时代”。
TSDB 仍不够:走向 TSDB + IDMP 的工业数据底座
尽管 TSDB 在数据存储、查询能力以及扩展性方面全面优于 Data Archive,但它本质上仍然只是一个数据引擎,而不是完整的工业数据底座。
工业数据的价值,并不来源于“数据本身”,而是来源于数据所处的上下文。一个温度、压力或振动信号,只有在明确其所属设备、工艺流程以及运行状态时,才具有真正的意义。如果缺乏这些上下文,即使数据存储得再完整、查询再高效,工程师仍然需要花大量时间去理解数据,AI 也难以生成有效的分析结果。
这也意味着,仅仅拥有一个强大的 TSDB,并不能真正解决工业数据问题。TSDB 可以很好地解决“数据如何存储和访问”的问题,但无法回答“数据代表什么”“数据之间有什么关系”“系统当前处于什么状态”这些更关键的问题。
真正的工业数据底座,需要在 TSDB 之上构建更高层的能力,包括以资产为核心的数据建模、事件建模与分析、实时数据处理、面向工程师的可视化,以及基于上下文的数据分析与 AI 能力。这些能力共同作用,才能让数据从“可用”变成“可理解”。
因此,工业数据基础设施的演进,并不是简单地用 TSDB 替代 Data Archive,而是进一步走向 TSDB 与 IDMP(Industrial Data Management Platform)的结合。在这一架构中,TSDB 提供高性能、可扩展的数据存储与访问能力,而 IDMP 负责数据的组织、语义建模以及分析与应用能力。
这种分层架构,使系统既具备现代数据平台的开放性和扩展性,又能够保留工业数据所必需的上下文语义。同时,它也为 AI 提供了真正可用的数据基础,因为 AI 所依赖的,不只是数据量,而是结构化、可理解并具备语义的数据。
从这个角度看,TSDB 是必要条件,但不是充分条件。只有当 TSDB 与 IDMP 结合,工业数据基础设施才真正演进为面向 AI 的数据底座。
小结
Data Archive 在工业发展过程中发挥了重要作用,但它的设计属于一个资源受限、系统封闭的时代。
随着工业互联网、物联网以及 AI 的发展,数据规模、使用方式以及价值预期都发生了根本变化。
在这一背景下,TSDB 正在取代 Data Archive,成为新的数据基础引擎。但更关键的是,只有当 TSDB 与 IDMP 结合,工业数据基础设施才真正完成从“存数据”到“理解数据”的跃迁。
这不仅是一次技术升级,更是工业数据体系的一次代际更替。

























