从工业实时数据库到 AI 原生工业数据底座

工业数据基础设施正在经历一场深刻的变革。

在过去几十年中,工业实时数据库一直是工业运行体系的核心基础设施。它解决了工业计算中最关键、也最困难的问题之一:如何从设备与控制系统中持续采集、存储,并高效访问海量的时序数据。像 PI System 这样的系统,已经成为工厂、电厂和炼化企业中不可或缺的一部分。

但如今,工业数据所处的环境已经发生了变化。现代 IT 架构、云计算,以及人工智能的发展,正在重新定义企业对运行数据的使用方式。问题不再只是“如何存储数据”,而是“如何从数据中获得洞察、形成智能,并支持决策”。

与此同时,另一个问题也变得越来越明显:许多传统工业实时数据库是以相对封闭的体系构建的,这使得工业数据很难融入现代 IT 基础设施之中。

要理解工业数据基础设施将走向何方,首先需要回到它的起点。

工业实时数据库的诞生

工业实时数据库诞生于上世纪 80 年代末至 90 年代初,当时工业自动化系统开始产生海量运行数据。

来自传感器、PLC 和 SCADA 系统的数据,会持续不断地生成时间序列信号,例如温度、压力、流量以及设备状态等。传统的关系型数据库并不适合处理这类数据:

  • 高频时序数据
  • 持续不断的数据流写入
  • 海量数据规模
  • 长周期历史存储

工业实时数据库正是为了解决这一问题而诞生的。它们提供了专门针对时序数据优化的存储引擎,用于支持高效的数据写入、压缩和查询。

这使得工业企业第一次可以长期保存运行历史数据,并基于这些数据进行故障排查、性能分析和持续优化。

工业实时数据库做对了什么

工业实时数据库之所以能够成为工业系统的核心基础设施,是因为它在下面几个关键方面表现非常出色。

  • 可靠的时序数据存储:工业实时数据库能够持续接收高吞吐的数据流,并通过高效压缩实现长期存储。
  • 与工业系统的集成能力:它可以直接对接 SCADA 系统、PLC 和各类工业协议,使数据采集过程简单可靠。
  • 长期运行可视能力:工程师可以回看数月甚至数年的历史数据,用于分析问题和理解系统行为。
  • 运行监控能力:操作人员可以通过趋势图和仪表盘观察系统状态。

正是这些能力,使工业实时数据库在几十年的时间里成为工业领域最重要的基础设施之一。

然而,这类系统本质上是作为一个相对封闭的运行系统设计的,而不是一个面向开放生态的数据平台。

工业实时数据库的典型架构

典型的工业实时数据库通常采用分层架构。以 PI System 为例,其系统中通常包含几个核心组件。

从工业实时数据库到 AI 原生工业数据底座 - TDengine Database 时序数据库

Data Archive

系统的核心是 Data Archive,用于存储来自工业设备的时序数据。

其主要职责包括:

  • 高吞吐数据写入
  • 时序数据压缩
  • 长期历史存储
  • 高效查询

这一组件解决的是工业数据存储的核心问题。

数据采集接口

工业实时数据库依赖一组接口来连接工业设备与系统。

这些接口可以从以下来源采集数据:

  • OPC / OPC-UA
  • PLC 与控制器
  • SCADA 系统
  • 各类工业通信协议

这些接口会持续将现场数据流写入数据库。

但这些接口往往是厂商定制或专有实现,使得系统与其他数据平台的集成变得更加复杂。

资产模型(Asset Framework)

现代工业实时数据库中一个重要的创新是资产模型(AF)。

它不再以“信号列表”为中心,而是以工业设备和资产为组织方式。

例如:

从工业实时数据库到 AI 原生工业数据底座 - TDengine Database 时序数据库

这种以资产为中心的结构,使运行数据更容易被工程师理解。

分析与事件检测

工业实时数据库通常提供分析能力,使工程师可以在数据上定义计算逻辑与检测规则。

这些能力包括:

  • 派生计算
  • KPI 指标
  • 规则驱动分析
  • 事件检测(例如 Event Frames)

这一层使原始数据可以转化为有意义的运行信息。

可视化工具

最后,可视化工具(如 PI Vision)为操作人员与工程师提供趋势图、仪表盘与报表。

这些工具构成了工业数据的人机交互界面。

在很长一段时间里,这种架构运行良好,并成为工业数据管理的标准模式。

但工业数据环境已经发生变化。

世界已经改变

在过去十年中,IT 基础设施发生了巨大的变化。

企业运行在以下环境中:

  • 云计算
  • 分布式数据平台
  • 实时数据管道
  • 机器学习
  • AI 驱动分析

工业企业也越来越希望:

  • 将运行数据与企业系统打通
  • 进行高级数据分析
  • 构建预测模型
  • 实现实时决策

然而,传统工业实时数据库并不是为开放数据生态设计的。将其中的数据接入现代系统,往往需要额外接口、定制集成或数据复制流程。结果是,工业数据仍然被隔离在系统内部。

OT 与 IT 融合的尝试

在过去十年中,许多企业尝试弥合 OT 与 IT 之间的差距。

工业物联网平台开始出现,云厂商也推出了用于接入工业数据的服务。同时,像 Databricks 和 Snowflake 这样的现代数据平台逐渐流行,因为它们具备良好的扩展性和强大的分析能力。

这些平台在数据处理能力上非常强大,能够处理海量数据、支持大规模机器学习,并融入现代数据体系。

从工业实时数据库到 AI 原生工业数据底座 - TDengine Database 时序数据库

但它们并不是为工业运行场景设计的。从 OT 工程师的角度来看,这些平台带来了新的挑战。

首先,它们是为数据工程师设计的,而不是为操作人员或工艺工程师设计的。数据管道构建、模式管理以及复杂查询虽然功能强大,但学习成本较高。

其次,工业数据具有自身特性,这些特性在通用数据平台中并没有被很好地支持:

  • 高频时序信号
  • 持续流式更新
  • 数据缺失与不规则采样
  • 资产、工艺与事件之间的强关联

通用数据平台通常将工业数据当作普通数据集处理,缺乏对时序语义和工业上下文的原生支持。

更重要的是,工业数据本身并不具备意义。

一个“温度”数据,只有在与以下信息关联时才有意义:

  • 所属设备
  • 所属工艺
  • 运行工况
  • 相关事件

如果缺乏这些上下文,工程师必须手动重建数据关系,才能进行分析。

换句话说,OT 与 IT 之间的差距,不只是性能或扩展性的问题。本质上是上下文表达能力、可用性,以及数据架构开放性的问题。

在 AI 时代,这一问题更加突出

在 AI 时代,这些问题被进一步放大。

AI 并不只是需要数据量,它更需要具备上下文的数据。

温度、压力、振动这些信号,只有在系统能够理解以下内容时才有意义:

  • 数据来自哪个设备
  • 所属工艺流程
  • 发生了哪些事件
  • 设备运行行为

如果缺乏这些上下文,AI 很难产生有效洞察。这也是为什么许多工业 AI 项目难以落地。

下一阶段:AI 原生工业数据底座

工业数据基础设施正在进入一个新的阶段。

这一演进可以总结为三步:

从工业实时数据库到 AI 原生工业数据底座 - TDengine Database 时序数据库

一个现代工业数据底座需要具备以下能力:

  • 高性能时序数据存储
  • 以资产为中心建模
  • 实时流处理
  • 事件建模
  • 现代的可视化
  • 高级分析能力
  • AI 集成能力
  • 开放架构

系统的目标不再只是存储数据,而是将数据转化为洞察、预测与决策。

同样重要的是,系统必须是开放的,使工业数据能够自然融入企业数据平台、分析工具和 AI 系统。

TDengine 的定位

2017 年涛思数据成立之日,就专注开发一款高性能、水平扩展的时序数据库TDengine TSDB。但两年前,在TSDB基础上,涛思数据开始布局新产品TDengine IDMP工业数据管理平台的开发,解决工业数据的标准化、情景化等系列问题。 TDengine TSDB与 IDMP 无缝集成在一起,成为一个开放的工业数据底座,具备如下能力:

  • 高性能的时序数据管理
  • 资产建模
  • 事件建模、分析与管理
  • 高级数据分析(包含预测、异常检测、补全、相关性、回归等)
  • 以资产为核心,同时又兼顾现代风格的可视化
  • AI 驱动的数据洞察
  • 开放的体系架构

这种架构使工业数据既能够保持上下文语义,又能够与现代 IT 系统集成。

在这个系列中,我们将从多个维度对现代工业数据平台与传统工业实时数据库进行对比分析。

通过这些分析,可以更清晰地理解工业数据基础设施为何在 AI 时代需要快速演进。

关键结论

工业实时数据库解决了数据“可用”的问题。

但在 AI 时代,不仅数据规模大幅增加,仅仅存储数据已经远远不够。

企业需要的是一个开放、可扩展、AI 原生的数据底座,它能够理解资产、事件与运行上下文,从而支撑下一代工业智能系统。

传统工业实时数据库让数据可用,现代数据平台让数据可扩展,而 AI 原生数据底座让数据真正被理解。