TDinsight ——基于 Grafana 的 TDengine 零依赖监控解决方案

作为基础组件,TDengine本身的平稳运行至关重要,所以在实际应用过程中,我们也需要监控它的各项运行指标。

TDengine启动后,会自动创建一个监测数据库log,并自动将服务器的CPU、内存、硬盘空间、带宽、请求数、磁盘读写速度、慢查询等信息定时写入该数据库。

TDengine还会将重要的系统操作(比如登录、创建、删除数据库等)日志以及各种错误报警信息记录下来存放在log库中。系统管理员可以通过命令行直接查看这个数据库,也可以通过Web以图形化界面查看这些监测信息。这些监测信息的采集缺省是打开的,但可以修改配置文件里的选项monitor来控制。

为进一步提升TDengine自身的监控和运维能力,涛思数据开发了TDinsight,这是基于Grafana的一个零依赖监控解决方案。TDinsight可以配合TDengine 2.3.3.0及以上版本使用。

TDinsight提供了丰富的监控选项,其完整的界面视图如下:

TDinsight完整界面视图

TDinsight仪表盘旨在提供TDengine相关资源(如DNodes、MNodes和VNodes)的使用情况,或数据库的使用情况及状态。我们依次来看一下。

集群状态(Cluster Status)

集群状态

这部分包括集群当前信息和状态,告警信息也在此处(从左到右,从上到下)。在这里可以看到集群的情况、数据库个数、当前连接数,像DNodes/MNodes/VGroups/VNodes之类每种资源的总数和存活数等。

DNodes概览(DNodes Overview)

DNodes

在这里可以看到DNode的生命周期、数量变化等信息,如果有任何DNode的状态为离线,则还会显示离线的原因。

MNodes概览(MNodes Overview)

MNodes

可以查看MNode的状态和数量等信息。

请求(Requests)

Requests

可以查看插入请求数、插入记录数随时间的变化情况,平均每秒插入次数,查询请求数及变化率(count of second),以及HTTP请求数和请求速率(count of second)。

数据库(Database)

Database

数据库使用情况,对变量 $database 的每个值即每个数据库进行重复多行展示,具体包括超级表数量、所有表数量、所有超级表子表的数量、所有普通表数量随时间变化图以及每个VGroups包含的表数量。

DNode 资源使用情况(DNode Usage)

Dnode Usage

数据节点资源使用情况展示,对变量 $fqdn 即每个数据节点进行重复多行展示,具体包括:从创建DNode开始经过的时间、当前DNode是否为MNode、CPU核数、当前DNode的VNode数量、处于master角色的VNode数量、taosd进程的CPU使用率、taosd进程的内存使用情况、taosd数据目录的总磁盘使用百分比、进程和系统CPU使用率、磁盘IO速率和网络IO等。

此外还有登录历史(Login History)信息。

TDinsight的安装部署非常简单,为方便用户,我们提供了一个自动化脚本 TDinsight.sh 。更多使用细节,可以参考相关文档

快来下载试用吧!