时序数据分析:工业时序数据的特点
时序数据挖掘和一般数据挖掘的本质相同,寻找表面数据背后种的不变量(Invariant),这种不变量可能为变量的分布范围,也可能是多个变量间的关系函数。时序数据与独立同分布数据集的重要区别:相邻点间的时间依赖性,其复杂性来自于两方面,一是多尺度,不同尺度上的依赖性不同,不同尺度上的机制不同;二是多变量交互作用。时序算法的本质:如何刻画这种依赖性,如何利用这些依赖性(动态性或周期性)。
在工业应用,时序分析有如下额外的特点,使得其和一般时序分析有所不同。
1)变量间关系存在着部分先验知识,可由定性的因果图或静态/动态方程刻画,为分析建模提供了部分输入;
2)存在外生变量的影响(工况)或未知影响因素,例如设备的本身一些状态、一些临时性未被记录的操作动作,数据和模型都需要从业务场景的角度去审视,提高思考的全面性;
3)标记数据缺乏或不完备,数据类别严重不均衡;
4)时序数据经常存在着中断。常见的时序监督学习问题见表。
时间序列分类常常用于设备异常类型、工况状态识别等场景,用以判断每个给定时序段的类型。根据分类对象,可分为两种情况:
1)连续序列中的点分类问题,即判断每个时间点的类型,例如基于设备的连续状态监测数据,判断设备是否处于正常状态,或出现了某种故障状态;
2)短时序的分类问题,即判断一个时序的类别,例如根据检测数据(如手持仪器的检测数据)进行设备状态类别研判,又如,根据批次生产过程数据(例如每支钢轨的轧制过程、生物发酵过程),研判产品质量。
基础的时序结构处理方法包括:
1)隐含状态及其转移规律的提取,采用ARIMA、HMM、状态方程、LSTM等算法;
2)获取典型形态,例如Subsequence Pattern Template(Shapelet)、SAX等方法;
3)频域特征或时频域特征,通常采用FFT、Wavelet等算法;
4)结构简化,典型算法包括Sparse FFT、Sparse PCA、PCA、SOM、RBM等。
在多尺度、多变量、时序依赖度等维度上,也有不少常用的算法组合策略,例如,用Wavelet提取多尺度的时空特征,然后采用PCA/CNN做特征降维或提取;利用SOM/RBM进行子空间(Subspace)提取,然后利用CNN等分类算法进行建模。