小 T 导读
TDgpt 支持用户使用 SQL 语句直接调用统计分析、机器学习及深度学习等多种算法模型,带来极大便利。作为 TDengine TSDB 的用户,2024 年云鼎科技在其煤矿安全生产综合管控平台中选用了 TDengine,实现数据的全面监控、分析与应用,并利用数据订阅功能减少中间件使用,提升了系统的可用性与数据分发效率。如今,云鼎科技再次与涛思数据合作,将新产品 TDgpt 引入风力发电场景进行验证。
业务背景
为确保煤矿生产过程安全可靠,我们打造了安全生产综合管控平台。该数据湖项目覆盖 75 对矿井、23 类 1100 余个系统的工业数据采集,旨在实现数据的实时采集、全面监控、深入分析和应用,挖掘数据价值,提升煤矿生产的安全性与效率。
经过系统调研与产品对比,我们在煤矿安全生产综合管控平台中选用了 TDengine TSDB,实现数据的全面监控、分析和应用。通过数据订阅功能,该项目成功减少中间件的使用,提升了系统的整体可用性,并进一步优化了数据分发效率。
在具体应用中,各生产单位的采集系统先将数据汇聚至本地 TDengine TSDB,再由 IoT 平台同步至集团端 TDengine TSDB 集群。经集团端数据治理系统处理后,工业数据为上层应用提供数据服务支撑。这一方案成功实现了对煤炭领域工业数据的采集、存储和分析应用,为生产过程提供了可靠的数据支持,并进一步提升了生产效率和管理水平。

目前,以 TDengine TSDB 作为物联网平台时序数据存储的核心,我们已构建起云端协同的时序数据存储和传输体系,在满足各生产单位时序数据使用需求的同时,也支撑了集团时序数据分析应用的建设。生产单位与集团端均部署了 TDengine TSDB 实例,既保障各方独立使用,也确保了最优性能表现。

数据订阅
在集团侧,我们利用 TDengine TSDB 的数据订阅功能,实时获取 30 多个 topic 的数据,并供后续应用进行分析处理。

流计算
同时,我们在集团侧的 TDengine TSDB 中建立了近 30 个流计算任务,分别对不同机组、地区的风机电流、给水温度、给水流量、热耗、输出功率等多种参数进行转换计算、最新值获取等处理。

关于 TDengine TSDB 在我们煤矿场景的具体应用,可参考这篇文章:https://www.taosdata.com/tdengine-user-cases/25459.html
初识 TDgpt
涛思数据发布新产品 TDgpt 后不久,我们便关注到了这一产品,产生了对数据库领域 AI 功能探索的兴趣。正好有实际业务需求,我们便以风力发电场景为切入点,验证 TDgpt 协变量分析预测(co-variate forecasting)功能在风力发电预测中的实际效果。
我们借助 TDgpt,可以使用 SQL 语句直接调用统计分析、机器学习、深度学习、时序数据基础模型及大语言模型等多种分析能力,并将这些分析能力转化为 SQL 语句调用,通过异常检测和预测函数应用于时序数据。
TDgpt 与 TDengine TSDB 的关系
TDgpt 是与 TDengine TSDB 主进程 taosd 适配的外置式时序数据分析智能体,能够将时序数据分析服务无缝集成在 TDengine TSDB 的查询执行流程中。TDgpt 是一个无状态平台,内置了 Statsmodel、Pycularity 等经典统计分析模型库,内嵌了 PyTorch/Keras 等机器/深度学习框架,并通过请求转发和适配方式直接调用涛思数据自研的时序数据基础大模型 TDtsfm。

使用 TDgpt
使用小结
- 未来 4 小时预测的 MAPE 约为 0.3%。
- 从实际功率曲线来看,4 小时原始数据在 [330500,332500] 区间内波动;而 72 小时及整月原始数据则出现多次明显波峰波谷,且经常出现从波峰骤降至 0 的情况。但这些波动与 126m 风速的变化规律并不完全吻合,猜测可能存在人为检修等停机情况。以 4 月 9 日 18:00 至 4 月 14 日 18:00 共 120 小时的数据为例,可以看到期间一直有风且风力不小,但发电功率出现了数次明显的波峰波谷,说明除天气因素外,还有其他因素在影响发电。
- 在现有数据条件下,使用 moirai 模型的预测结果如上。如需进一步提升长周期预测的 MAPE,建议将停机数据作为输入之一纳入分析。
- 风力发电量与天气预报数据等其他数据高度相关,若要获得更准确的预测结果,需要进行更大量数据的预训练和验证。
- 在本文中,基于 TDgpt 构建时序数据分析,能够以 SQL 方式实现与应用的便捷集成,还可以用 Grafana 进行展示,大大降低了开发和应用时序数据预测、异常检测的成本。
以下记录了我们实际使用过程中的主要预测场景。
环境准备
使用 TDgpt 的高级时序数据分析功能,需要在 TDengine TSDB 集群中安装部署 AI node(anode)。anode 运行在 Linux 平台上,对部署环境有以下要求:
- Python:3.10 或 3.11 及以上版本
- TDengine TSDB:需使用 3.3.6.0 或以上版本
- C 编译器:因依赖 uWSGI,部署环境需包含 C 编译器
分析模型
时序数据基础模型是专门为处理时间序列数据预测、异常检测、数据补齐等高级时序数据分析功能而训练的基础模型。继承了通用大模型的优良泛化能力,时序基础模型无需设置复杂的输入参数,即可根据输入数据进行预测分析。
| 序号 | 参数 | 说明 |
| 1 | tdtsfm_1 | 涛思时序数据基础模型 v1.0 |
| 2 | time-moe | MoE 时序基础模型 |
| 3 | moirai | SalesForce 开源的时序基础模型 |
| 4 | chronos | Amazon 开源的时序基础模型 |
| 5 | timesfm | Google 开源的时序基础模型 |
TDgpt 集成了时序基础模型的预测能力,无需设置模型相关参数,使用 SQL 语句即可轻松调用时序基础模型进行预测。
- 调用涛思时序基础模型(tdtfm)预测数据,返回 10 条预测记录:
SELECT _frowts, FORECAST(i32, "algo=tdtsfm_1,rows=10") from foo
- 调用 TimeMoE 时序基础模型预测数据,返回 10 条预测记录:
SELECT _frowts, FORECAST(i32, "algo=timemoe-fc,rows=10") from foo
SHOW ANODES FULL;
taos> show anodes full;
id | type | algo |
============================================================================
1 | anomaly-detection | grubbs |
1 | anomaly-detection | lof |
1 | anomaly-detection | shesd |
1 | anomaly-detection | ksigma |
1 | anomaly-detection | iqr |
1 | anomaly-detection | sample_ad_model |
1 | forecast | arima |
1 | forecast | holtwinters |
1 | forecast | tdtsfm_1 |
1 | forecast | timemoe-fc |
Query OK, 10 row(s) in set (0.028750s)
单变量分析预测
使用客户真实数据集,参考以下方法,使用 TDtsfm_1 算法预测发电功率: 基于 TDgpt 时序数据智能体的风力发电预测
启动服务
启动涛思时序数据基础模型 TDtsfm:
# 启动涛思时序数据基础模型
start-tdtsfm
未来 4h 预测
/* 预测4月30日零点以后的渤洁的发电功率,采样间隔为15min,4h内 */
select to_iso8601(_frowts, '+08:00') ts, forecast(qcyggl, 'algo=tdtsfm_1,rows=16') f_qcyggl from (select _wend ts, avg(qcyggl) qcyggl from dyhf_bjshdqfjdjxx where ts < '2025-04-30T00:00:00+08:00' interval(15m)) >> bj_f_qcyggl_4h.csv;

未来协变量分析预测
查询 4 月 21 日之后的发电功率并写入新表
use ep_iot;
/* 创建超级表 future_power,存储发电功率未来值。forecasted 表示是否为预测值,hours 表示数据量对应的时间长度 */
create stable future_power (ts timestamp, ssyg float) TAGS (forecasted bool, hours int);
/* 渤清发电功率的实际未来值,用作对比 */
create table bq_power_4h using future_power TAGS(0, 4);
create table bq_power_72h using future_power TAGS(0, 72);
/* 渤清发电功率的预测未来值 */
create table bq_predict_4h using future_power TAGS(1, 4);
create table bq_predict_72h using future_power TAGS(1, 72);
/* 创建虚拟表,用于对比实际值与预测值 */
create stable vstb_bq (ts timestamp, ssyg float, f_ssyg float) TAGS (hours int) virtual 1;
create vtable vtb_bq_4h (ssyg from bq_power_4h.ssyg, f_ssyg from bq_predict_4h.ssyg) using vstb_bq TAGS (4);
create vtable vtb_bq_72h (ssyg from bq_power_72h.ssyg, f_ssyg from bq_predict_72h.ssyg) using vstb_bq TAGS (72);
/* 查询4月21日零点以后的渤清实际发电功率,采样间隔为15min,写入新表 */
insert into bq_power_4h select _wend ts, avg(ssyg) ssyg from dyhf_bqhzfjdjxx where ts >= '2025-04-21' interval(15m) limit 16;
insert into bq_power_72h select _wend ts, avg(ssyg) ssyg from dyhf_bqhzfjdjxx where ts >= '2025-04-21' interval(15m) limit 288;
导出 4 月 21 日之后的天气(未来协变量)
/* 查询4月21日零点以后的渤清的天气,采样间隔为15min,分别导出4h(16行)、72h(288行) */
select _wend ts, avg(pjfs126m) pjfs126m, avg(pjfx126m) pjfx126m, avg(sd) sd, avg(wd) wd, avg(qy) qy from dyhf_cft where ts >= '2025-04-21' interval(15m) limit 16 >> weather_4h.csv;
select _wend ts, avg(pjfs126m) pjfs126m, avg(pjfx126m) pjfx126m, avg(sd) sd, avg(wd) wd, avg(qy) qy from dyhf_cft where ts >= '2025-04-21' interval(15m) limit 288 >> weather_72h.csv;
创建 Dashboard 直观展示预测对比
ssyg 表示实际值,f_ssyg 表示预测值。


模型有效性评估工具
在使用之前,我们可以利用 TDgpt 企业版提供的预测分析模型和异常检测模型有效性评估工具 analytics_compare,使用 TDengine TSDB 中的时序数据作为回测依据,评估不同预测模型的有效性。具体可参考:https://docs.taosdata.com/advanced/TDgpt/tools/
在不同的实际场景下,需要针对数据特点对模型算法进行选择和参数调优。
- 模型选择器:可以自动根据历史数据集对所有模型进行准确性评估,帮助选择最适合业务场景的模型或算法进行部署应用。
- TDtsfm_1 自研模型的重训练及微调:TDtsfm_1 基于海量时序数据进行了预训练,在大部分场景下相比传统机器学习和统计预测模型具有显著的准确率优势。如果对模型预测准确度有更高要求,TDgpt 企业版提供预训练服务,使用客户自身场景的历史数据进行预训练,在特定场景下可获得更佳的预测效果。
- 第三方解决方案:涛思数据联合国内外时序分析/异常检测专业厂商和研究机构,为用户提供专业的分析解决方案,包括落地实施服务等。
结语
通过本次在风力发电场景下的验证实践,我们对 TDgpt 的产品能力与适用边界有了更深入的理解。作为一款以 SQL 语句直接调用各类分析模型的创新工具,TDgpt 在集成便捷性和开发效率方面展现了显著优势,成功实现了以低代码、标准化方式快速构建时序数据预测流程。
同时,本次验证也让云鼎科技认识到时序数据预测在实际工业场景中的复杂性。风力发电功率受到风速、风向、温度、气压、设备状态、人为调度、停机维护等多重因素交织影响,属于典型的强波动、多干扰场景。在当前数据条件下,模型在短期预测中表现较为稳定,而在更长周期或波动剧烈时段,预测精度仍有提升空间。这进一步说明,在高噪声、多协变量的工业环境中,若要获得更精准、可靠的预测结果,通常需要结合更丰富的特征工程、更贴合场景的模型微调,以及纳入停机标记、运维计划等业务知识进行综合建模。
展望未来,我们相信以 TDgpt 为代表的新一代智能数据分析平台,为时序数据的深度应用开辟了更友好的路径。它极大地降低了高级分析功能的使用门槛,使业务团队能够更快速地进行概念验证和初步洞察。我们期待涛思数据能够持续迭代产品,并携手生态伙伴,共同推动时序智能技术在能源、工业等复杂场景中的扎实落地。我们也将持续关注时序数据分析技术的发展,在合适的业务场景中继续探索和引入先进工具,以数据驱动业务,助力安全生产与运营效率的不断提升。
关于公司
云鼎科技股份有限公司是山东能源集团有限公司旗下专注于信息技术服务和工业智能化应用的高科技 A 股上市企业(证券代码”SZ000409″),总股本 6.64 亿股。公司着力构建矿山、化工、电力、新能源、园区等行业数字化解决方案,形成数字科技服务生态体系,致力于成为一流的数智化解决方案提供商。云鼎科技是煤炭行业信息技术细分领域头部企业,也是山东省首批网络安全重点企业。公司拥有发明专利 38 项,软件著作权 346 项。
作者:娄亚童、侯令晨

























