当前位置：首页 > article >正文

TDEngine在煤矿综采管控平台中的应用

article 2024/11/20 7:14:48

一、行业背景

智能综采管控平台，是将煤矿综采工作面传感器数据采集，通过可视化界面展示。实现综采工作面的透明化展示，并基于历史的传感器数据进行机器学习的训练，了解工作面周期来压，设备故障检测等数据应用。因此针对于综采工作面的数据采集具有很深刻的应用。

二、现状

综采工作面是井工煤矿采煤的最重要的系统，是煤矿主要关注的系统之一，同时也是井工煤矿最危险的区域。因此针对于综采工作面的可视化，已经相关的研究是十分重要的。下面我将介绍煤矿综采工作面的相关数据情况。

数据种类

煤矿综采工作面一般由以下几个部分组成：液压支架系统，采煤机，刮板机系统，运输机，转载机、破碎机、乳化泵、清水泵等一系列设备及其系统组成。其中：

液压支架系统主要用于支护整个工作面，我们需要采集其中的压力等一系列的传感器，其中压力数据可以用于研究周期来压等一系列研究
采煤机系统主要是用于割煤，我们同时要采集其中数据，针对于采煤机工况数据进行设备故障检测等功能。
其他系统类似，我就不一一赘述了。

数据量

根据实际矿山应用，综采工作面的传感器大概在12000~20000个，如果是大型煤矿其中传感器数量会更多。
按照我们现在的采集频率，我们一秒钟采集一次所有的数据，采集的内容包括:哥哥传感器的感知数据、设备的开关故障的信号、电流、电压等一系列数据。
按照上述的采集数据，我们平均一天会产生十亿条以上的原始数据。平均一天会产生原始数据50G以上。

在这里插入图片描述
上图为一天采集原始数据量截图。

数据应用

针对于数据应用有两个方面，一方面是用于管控平台的可视化展示，另一个是针对于数据进行挖掘，将数据应用于算法模型训练。

三、技术选型

针对于这个规模大数据的存储，我们针对于技术进行了选型

MySQL

MySQL作为一个十分常用的关系型数据库，其核心采用平衡树进行数据的存储，当数据量大于2000万条时，二叉树会分裂，索引会增加一层。因此当MySQL数据量大于2000万条后，其查询效率是急剧下滑的。为了应对这个情况，我们也做了一些优化措施，类似于分库分表、以及保留变化值等方式。其效果永远都不理想，因此我们放弃了MySQL的方案。

Hadoop方案

Hadoop作为一个大规模数据存储方案，常应用于大数据等解决方案，其中对于大规模数据的存储的优势十分明显。虽然Hadoop可以存储这个数据，但是其中MapReduce的查询速度还是太慢。虽然我们通过替换MapReduce的处理引擎为Spark显著提高了数据查询的效率，但是Hadoop集群的部署成本以及维护成本十分的高。我们因此放弃了Hadoop的方案

TDengine

最后我们调研了时序数据库TDengine，其中的技术优势十分适合我们

TDengine的维护成本远远小于hadoop，并且还可以存储大量的数据
TDengine的文档齐全，技术学习成本比较小
TDengine的超级表可以实现我们不同类型的设备进行建模，通过设备子表来分别存储设备的数据
TDengine采用了高性能的数据压缩格式，在不影响查询效率的情况实现了数据压缩的功能，从而减少了数据存储的成本。
TDengine具有高性能的查询能力，其中毫秒级的查询速度满足管控平台的应用。

四、技术方案

数据架构

下面我将介绍系统的整体架构设计，我将分为四个部分介绍整体数据架构设计：1.设备层；2.协议层；3.数据库；4.数据应用
在这里插入图片描述

上图为整体的数据架构图，其中：

设备端：综采系统各个应用子系统，该层为数据的产生端
协议层：协议层为工业协议层，该协议层将设备端的数据进行转化和收集
数据库：该层主要存储设备端产生的数据，其中消息中间件为数据暂存
数据应用层：该层为设备端的数据应用，例如提供给管控平台使用等。

数据采集、清洗治理流程图

说完了数据的整体架构，下面我将介绍数据采集、数据清洗治理的整体的流程，我们使用的数据平台采用的lambda架构，通过历史库的数据来校准实时库数据。
在这里插入图片描述
上图为数据整体流程图，我将详细介绍各个流程中的作用

设备端产生数据，我们撰写数据采集软件，通过工业协议进行相关数据的采集
采集软件将采集的数据的数据进行处理后，发送到消息中间的同时，并将数据输出到文件中
通过Spark Streaming程序处理消息中间件的数据，一部分存储到TDEngine中，另一部分发送到Redis中。其中发送到TDEngine中的数据为实时库，该实时库主要为管控平台使用。Redis数据库通过唯一key，只保留最新的一条传感器数据，应用于大屏监控。
采集软件采集的数据文件，经过加工处理后存储到TDEngine中，该TDEngine为历史库，其主要作用是校准实时库和为算法模型训练使用。

消息中间件数据和主题设计以及数据处理方式

为了更好的进行数据数据拆分，因此我们针对于消息中间的主题进行划分，进而实现综采工作面的子系统数据的划分，具体划分规则如下：

按照设备类别创建数据主题，同一类型的数据发送到同一的消息中间件主题中
发送到消息中间件的数据字段中包含有设备编号，通过区别设备编号与消息中间件topic名称拼接，通过查询设备编号和设备子表的映射关系，实现数据的分发。该流程为Spark Streaming程序，经过该流程可以实现无效数据的过滤。
针对于Redis中的设备数据的key设计规则为：设备类别+编号+传感器标签，中间使用分隔符”|“进行拼接的方式建立唯一索引。
针对于采集软件备份的数据，我们通过定时任务（T+1）进行Spark数据处理任务的调度，通过批处理的方式来校准历史数据。

TDEngine中的数据库设计以及数据建模

为了更好的管理和查询数据，我们需要针对于传感器数据进行建模。由于TDEngine存在有超级表和子表的概念，因此我们针对于该基础下，建立了以下的数据模型。下面，我将用液压支架系统演示数据建模的。

-- 创建超级表
CREATE STABLE YYZJ (
    ts timestamp, 
    QZ_Pressure float,
    HZ_Pressure float,
    Valve01_status int, 
    Valve01_Failed int,
    ...
) TAGS (
    bracket_id int
);

-- 创建子表
CREATE TABLE YYZJ0001
USING YYZJ (
    bracket_id
) TAGS (
    1
);