无问智推,让数据自己说话

无问智推,让数据自己说话

TDengine 可以基于采集的数据,无需人的干预,自动生成业务洞察所需要的实时面板和报表。即使您没有积累足够的业务知识,不懂SQL, 不懂如何使用分析工具,TDengine 也能让您了解业务运行是否正常,效率是否有提升的空间,安全是否存在隐患,帮您大幅降低数据价值挖掘的门槛。

与传统数据分析以及 Chat BI 的对比

使用正常的BI或可视化工具来分析数据,您需要理解数据的来源、数据的结构和每个字段的含义;需要知道如何对数据进行清洗与转换;需要理解星型、雪花型模型,理解事实表与维度表;需要创建并管理表与表之间的关系;理解并会定义业务的各种指标;掌握一些数据分析的方法和算法;熟练掌握各种图表类型及其适用场景,熟悉各种图标格式的设置;甚至要掌握 SQL、Python/R 脚本语言等;还要掌握工具本身的很多使用技巧,有相当的技术和业务门槛。

随着 LLM 的发展,市场上涌现了很多 Chat BI 工具,用户只需要用自然语言描述要做的分析,看板或报表就能自动生成,或使用 Co-Pilot 协助设计看板和报表,效率得到大幅提升。但它依然依赖提问人对业务知识的掌握程度,因为“提出问题就解决了问题的一半”。很遗憾的是,即便是熟悉业务的专业人士也因经验、关注点等局限性,不能通过提问挖掘数据“全面价值”。因此数据价值挖掘还无法真正大众化,依然有门槛。

TDengine 也具备 Chat BI 的能力,但在 Chat BI 的基础上更进一步,它不需要您提问,它基于您采集的数据以及数据上下文,通过 LLM,自动感知应用场景,再由 LLM 推荐出该应用场景下所需要的实时分析、面板或报表。您可以选择 Like 或 Dislike,让系统根据您的喜爱推荐更适合您的分析。最后,您如果点击创建,TDengine 就会自动创建出面板、报表或实时分析的配置文件,再将最后的报表、面板直接呈现给您。相对于“智能问数”的 Chat BI 而言,TDengine 的这项功能被称之为“无问智推”。

AI Agent 的主要流程

自动生成面板、报表、分析的核心组件是 TDengine 内置的能处理多任务的 AI Agent。这个 AI Agent 工作的主要流程如下:

无问智推,让数据自己说话 - TDengine Database 时序数据库

  1. AI Agent 从数据平台获取每个设备或每个逻辑实体的表结构,包括表的名字、描述信息,列的名字、列的数据类型、描述信息、物理单位等辅助性的元数据,同时获取每个实体的子系统的相应信息。
  2. AI Agent 基于从数据平台获取的元数据,构建提示词,要求 LLM 基于描述的场景给出该场景下需要有的实时面板、报表和分析,并按照指定的 JSON 格式提供。
  3. LLM 在深度思考后,给出回应,AI Agent 做必要的合法性检查,过滤掉错误的内容输出。
  4. AI Agent 基于 LLM 的回复,自动构建出可视化/报表模块所需要的配置文件,发送给可视化/报表模块。
  5. 可视化/报表模块基于获得的配置信息,从数据平台获取数据,将最终结果呈现给用户。

为什么TDengine 能做到“无问智推”?

上述的流程看上去很简单,也是很多人能想到的,但实现它有相当大的工程技术的挑战,因为数据平台里往往有很多数据库,很多表,在工业场景里,测点数可能超过千万,设备种类都是数千个,要让LLM把这些库、表之间的关联关系,每张表以及每个字段的业务意义理解挖掘出来是极为困难的。对于复杂查询而言,由 LLM 完成 Text to SQL 的任务是相当有挑战的。那为什么 TDengine 能做到呢?有几点:

  1. TDengine 有独特的存储模型,采用“一个设备一张表”的建模方式。如果你有一百万个设备,就需要建立一百万张表。即使一个设备有不同的子系统,每个子系统的采集频次完全不一样,甚至采集点不停增删改变,通过 TDengine 创新的“虚拟表”设计,逻辑上仍然能将一个设备用一张表来描述。而且 TDengine 提出创新的“超级表”的设计,能将同类设备数据的聚合简化为一张超级表的查询。通过“虚拟表”与“超级表”,极大的减少了 JOIN 操作,简化了 SQL 查询,让 SQL 自动生成成为可能。
  2. TDengine 的内核是一个高性能、分布式时序数据库TSDB,它能汇聚、清洗、转换并存储各种数据源的数据,包括 MQTT, Kafka, OPC-UA, OPC-DA 等等。而且它内置有强大的流式计算引擎,提供定时窗口、滑动窗口、事件窗口、状态窗口、会话窗口、计数窗口等多种触发方式,提供表达式计算、时间窗口聚合计算、不同流之间的聚合计算,它还能主动将窗口的触发以及计算的结果通知给应用。而且用户是通过 SQL 语句来创建和管理流计算的,这样便于 APP 来使用,更便于 LLM 生成。
  3. TDengine 在 TSDB 基础上,推出了工业数据管理平台,让用户构建统一的数据目录,能够对存储的数据进行标准化和情景化处理。它容许配置各种设备、属性、面板、分析、通知的模版,提供物理单位的自动转换,支持计算表达式、命名模式、字符串构建、数据引用等等,让数据实现标准化;同时容许给每个设备、每个属性配置描述信息、极限值、位置、物理单位、标签等等,让数据具有业务意义,实现数据的情境化。同时它还提供树状层次结构模型,帮用户把数据目录建立起来,不仅便于浏览数据,更是帮助建立物理或逻辑实体之间的关系。

通过这些基础性的工作,存储在 TDengine 数据平台里的海量数据成为 AI-Ready 的数据集。如果仅仅是一个通用型的时序数据库,没有“超级表”“虚拟表”带来的 SQL 简化,没有内置的流式计算带来的实时分析,没有数据标准化、情景化带来的数据业务语义,自动生成实时面板、报表没有可能。

从拉到推,数据消费范式的改变

TDengine 的创新和工程技术的实现带来的是数据消费范式的改变(Data Consumption Paradigm Shift)。数据分析,历来都是由用户主动发出请求(比如SQL查询), 然后由系统返回给用户。现在依靠 LLM,AI Agent 让数据自己说话,主动将业务分析洞察的结果推送给你,将分析由“Pull”变成”Push”,用户的数据消费变为被动消费,数据分析进入”抖音”时代,数据分析的门槛直接降为零。

通过一系列的数据处理的基础性工作,借助 LLM,数据平台就可以成为了一个自治的数据平台,成为了一个自我驱动(Self Driving)的实时分析平台,不再依赖用户的知识积累和工具使用技能。TDengine 只是开了行业的先河,相信今后有很多类似系统的出现,而且流行起来。

TDengine 将更进一步,将 AI-Ready 的数据通过开放的 API 给第三方应用提供。它提供的不再是传统的数据库的SQL查询结果,而是带有数据业务语义、带有数据上下文的 AI-Ready 的查询结果,赋能给众多的 AI 应用,让数据的拥有者能最大程度的挖掘出数据的价值。

10 倍以上工作效率的提升

数据消费范式的改变带来的是工作效率的指数级提升。在过去,数据分析严重依赖数据分析师或 IT 工程师与业务人员的沟通交流。因为真正懂业务知识的业务主管往往不懂数据分析和工具的使用,而工程师又往往不懂业务,两个人群之间存在一个巨大的缝隙,导致业务提出分析的需求,无法实时满足。流程压缩和快速获取数据结论,会使洞察更深入,及时,决策更快更准。

另外一方面,业务人员需要有行业知识的积累。一个行业,特别是传统行业,比如钢铁、石油、电力等,往往需要至少五年到十年的行业知识的积累,才能真正提出有价值的分析需求。现在对于普通的分析,不再需要多年知识和技能的积累,几天就够。对更高级的分析,往往依赖管理和技术的创新,还需要专家的深度参与。

对于一个物联网、工业数据平台的建设,您只要采用 TDengine, 把数据源的管理做好,制定好数据治理的标准,通过 TDengine 提供的工具实现数据的标准化、情景化,一切工作就完成了。