首页> 中国专利> 基于分段正交多项式分解的时序数据最近邻分类方法

基于分段正交多项式分解的时序数据最近邻分类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于分段正交多项式分解的时序数据最近邻分类方法，首先，基于时间序列编码识别转折点，将时间序列切分为包含完整波动趋势的子序列；然后，利用第一类切比雪夫多项式分解子序列，提取切比雪夫系数作为子序列特征，构造子序列特征向量；最后，在最近邻分类器中，以基于局部模式匹配的动态规划算法作为距离度量函数实现分类。本发明在分类精度和分类效率方面都以较大的程度优于其他最近邻分类器，在人们的日常活动和工业生产中可发挥重要作用，如在金融交易、交通监管、空气质量和温度监测、工业流程监控、医疗诊断等应用中，对大规模采样数据或高速动态数据流进行分类、预测、异常检测、在线模式识别等处理。

著录项

公开/公告号CN104794484A

专利类型发明专利
公开/公告日2015-07-22

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201510160913.4
发明设计人蔡青林;陈岭;孙建伶;陈蕾英;
展开▼

申请日2015-04-07
分类号
代理机构杭州求是专利事务所有限公司;
代理人邱启旺
地址 310058 浙江省杭州市西湖区余杭塘路866号
入库时间 2023-12-18 09:57:47

法律信息

法律状态公告日

法律状态信息

法律状态
2018-03-06

授权

授权
2015-08-19

实质审查的生效 IPC(主分类):G06K9/62 申请日:20150407

实质审查的生效
2015-07-22

公开

公开

说明书

技术领域

本发明涉及数据库、数据挖掘、机器学习、信息检索等领域，尤其涉及时间序列数据分析和挖掘。

背景技术

时间序列广泛存在于人们的日常生活及工业生产中，如基金或股票的实时交易数据，零售市场的日销量数据，流程工业的传感器监测数据，天文观测数据，航空航天雷达、卫星监测数据，实时天气温度及空气质量指数等。为了充分利用海量的时序数据，工业界通常需要对其做分类处理，才能从中发现有价值的信息和知识。因此，时间序列分类方法在工业界有着广泛的应用需求。

目前，工业界常用的分类器有人工神经网络、支持向量机、朴素贝叶斯分类器、最近邻分类器等。人工神经网络是由大量处理单元互联组成的非线性模型，通过调整内部节点的互联关系，分析掌握输入输出数据之间的潜在规律，实现为新数据推算结果。该方法具有较强的自学习和自适应能力，但缺少对推理过程的解释能力。支持向量机是在高维空间中寻找一个最优超平面，在保证分类精度的前提下，使超平面两侧的空白间距最大化。理论上支持向量机可对线性可分数据做最优划分，但是却只能处理二分类问题。朴素贝叶斯分类器是基于贝叶斯公式，利用对象的先验概率计算其所属类别的后验概率而实现分类。虽然该方法的理论简单，操作性较强，但是要保证较高的准确度，需要采用大规模训练集训练模型。最近邻分类器是一种基于距离度量的方法，它通过在训练集中查找与分类对象距离最小的近邻实现分类。该分类方法不仅具有很好的可解释性和易操作性，而且无需训练数据模型，即具有很强的灵活性和数据适应性。由于最近邻分类器以距离度量函数作为内核，所以它对时间序列数据的分类精度和效率完全由时间序列距离度量方法决定。

目前工业界常用的时间序列距离度量方法可分为锁步度量方法和弹性度量方法。前者采用了一对一的度量方式，即时间序列T₁和T₂之间的距离是通过严格比较T₁和T₂在各自第i 个位置的点对，再累加所有点对的距离得到。该类方法最常见的有曼哈顿距离、欧氏距离和切比雪夫距离，它们都是L_p-norms距离在p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参等优点；但是，其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感，并且只能用于度量等长的时间序列。弹性度量方法采用了一对多的度量方式，即时间序列T₁的一个点可以与T₂的多个连续点相对应，通过动态规划方法遍历T₁和T₂的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离(DTW)和编辑距离的变种(如LCSS、EDR、ERP)等。与锁步度量相比，弹性度量能够实现两条时间序列的最佳对齐匹配，可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化，对噪声和异常点具有鲁棒性，因此，弹性度量具有较高的度量精度。但是，该类方法具有较高的计算复杂度，当度量高维的时间序列时会导致高昂的时间开销，难以在工业生产中处理大规模的时间序列或高速的动态数据流。

基于时间序列的特征计算弹性度量是改进其高计算复杂度的一种有效方法，即首先采用数据表示方法将原始时间序列映射到低维的特征空间，然后进行弹性度量。目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者，变换参数不受单独的时间序列影响，而始终保持不变；该类表示大多基于频谱分解实现，如离散傅里叶变换、离散小波变换、离散余弦变换，它们主要通过对原始时间序列做相应的频域变换，提取主要的频谱系数作为特征；该类方法各有缺陷，如离散傅里叶变换只能提取总体形态特征而忽略了局部特征，离散小波变换只能处理长度为2的指数次的时间序列，离散余弦变换的信息丢失较多，对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身；通过增加数据敏感的选择处理过程，可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等，前三种都需要先对原始时间序列进行分段，然后对每一子段单独处理：分段聚集近似是对各段求平均值；分段线性近似是对各段做线段拟合；符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号；由于它们所提取的特征较为单一，使其对时间序列波动模式的表达能力较弱。奇异值分解和主成分分析是通过对所有时间序列做统一的特征矩阵分解实现的；这两类方法的典型缺陷是，它们具有很高的计算复杂度，而且分解过程只能在内存完成，数据规模的可扩展性很低。

发明内容

本发明要解决的问题是如何准确高效地分类时间序列。为了解决该问题，本发明提出了基于分段正交多项式分解的时序数据最近邻分类方法。

本发明的目的是通过以下技术方案实现的：一种基于分段正交多项式分解的时序数据最近邻分类方法，包括以下步骤：

(1)自适应性分段，具体包括以下子步骤：

(1.1)依次读取数据库的每条时间序列T；

(1.2)对时间序列T做Z-规范化处理，得到规范化的时间序列T'；

(1.3)对规范化的时间序列T'做移动平滑处理，得到平滑时间序列T"；

(1.4)基于滑动窗口依次截取T"的相邻3点，并计算平均值，通过判断各点与平均值的大小关系对其编码，得到T的编码序列C_T，并定义转折模式表TP_table；

(1.5)顺序扫描C_T，对每对相邻编码组合查询TP_table中的转折模式，如果模式匹配，则将该编码组合所在位置作为分段点；

(1.6)扫描完毕，将T分为N段子序列，得到子序列集合S＝{S₁,...,S_N}；

(2)因式分解，具体包括以下子步骤：

(2.1)依次读取T的每条子序列S_i；

(2.2)采用第一类切比雪夫多项式分解S_i，计算前a个多项式系数c_i，构造子序列特征向量V_i＝[c₁,c₂,...,c_a]；

(2.3)扫描完毕，得到T的分段切比雪夫近似表示PCHA(T)＝{V₁,...,V_N}，并存入数据库；

(3)最近邻分类，具体包括以下子步骤：

(3.1)读取测试集中切分为M段子序列的时间序列Q的分段切比雪夫近似表示 PCHA(Q)＝{V₁,...,V_M}；

(3.2)依次读取训练集的每条时间序列T的分段切比雪夫近似表示PCHA(T)＝{V'₁,..., V'_N}；

(3.3)初始化动态规划表Table＝cell(M,N)；

(3.4)依次计算PCHA(Q)的第1个子序列特征向量V₁与PCHA(T)的N个子序列特征向量V'₁～V'_N之间的规范化距离{dist(V₁,V'₁),...,dist(V₁,V'_N)}，并存入Table的第1行Table(1,1:N)；

(3.5)依次计算PCHA(T)的第1个子序列特征向量V'₁与PCHA(Q)的M个子序列特征向量V₁～V_M之间的规范化距离{dist(V₁,V'₁),...,dist(V_M,V'₁)}，并存入Table的第1列Table(1:M,1)；

(3.6)利用动态规划方法，依次扫描PCHA(Q)的第2到第M个子序列特征向量V₂～V_M和PCHA(T)的第2到第N个子序列特征向量V'₂～V'_N，基于规范化距离计算Table(2:M,2:N)的每个单元值，包括以下子步骤：

(3.6.1)顺序扫描V₂～V_M，对于第i个子序列特征向量V_i，依次计算它与V'₂～V'_N之间的规范化距离{dist(V_i,V'₂),...,dist(V_i,V'_N)}；

(3.6.2)根据先行后列的顺序扫描Table(2:M,2:N)，在每个单元Table(i,j)中，首先比较 Table(i-1,j)、Table(i,j-1)和Table(i-1,j-1)的大小，选择最小值记为min，然后计算dist(V_i,V'_j)+min 的值赋予Table(i,j)；

(3.7)返回Table(M,N)的值作为T和Q的距离度量结果并保存；

(3.8)训练集扫描完毕，选择与Q距离最小的时间序列T_min的类标签作为Q的类标签，完成分类。

本发明的有益效果是：

1、在自适应性分段阶段，采用了简单有效的编码方法和转折模式识别方法，可高效识别转折点，保证了切分出的子序列具有完整的波动趋势。

2、在因式分解阶段，采用了切比雪夫多项式拟合原始时间序列，具有更小的拟合误差，并且以切比雪夫系数作为特征，可捕捉时间序列的波动信息用于相似性度量。

3、在最近邻分类阶段，基于局部模式层次的动态规划计算，克服了时间弯曲造成的局部模式之间的相位偏移问题，实现了较高的时间序列全局模式匹配，由此使得最近邻分类更加高效准确。

附图说明

图1为基于分段正交多项式分解的时序数据最近邻分类方法流程图；

图2为自适应性分段时间序列的流程图；

图3为采用分段切比雪夫近似表示时间序列的流程图；

图4为时间序列最近邻分类流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明基于分段正交多项式分解的时序数据最近邻分类方法，包括以下步骤：

(1)自适应性分段，如图2所示，具体包括以下子步骤：

(1.1)依次读取数据库的每条时间序列T＝{t₁,t₂,…,t_i,…,t_n}；

(1.2)计算T的采样点的平均值m和标准差σ，根据公式(1)对T做Z-规范化处理，得到规范化的时间序列T'＝{t'₁,t'₂,…,t'_i,…,t'_n}；

${t^{'}}_{i} = \frac{t_{i} - m}{σ} - - - (1)$

(1.3)依次计算T'相邻3点的平均值，对其做移动平滑处理，得到平滑时间序列T"＝{t"₁, t"₂,…,t"_i,…,t"_n}；

(1.4)基于滑动窗口依次截取T"的相邻3点并计算平均值，通过判断各点与平均值的大小关系对其编码，得到T的编码序列C_T，并定义转折模式表TP_table，该过程包括以下子步骤：

(1.4.1)采用滑动窗口W，依次截取T"的相邻3点<t"_i-1,t"_i,t"_i+1>，并计算平均值m^t_i；

(1.4.2)判断<t"_i-1,t"_i,t"_i+1>的各点与平均值m^t_i的关系，若t"_i>m^t_i，则code(t"_i)＝1；否则code(t"_i)＝0，由此将<t"_i-1,t"_i,t"_i+1>编码为d^t_i＝<c^t_i-1,c^t_i,c^t_i+1>，得到T的编码序列C_T＝{d^t₁, d^t₂,...,d^t_n}；

(1.4.3)根据编码定义所有转折模式TP，得到转折模式表TP_table＝{上升-下降：001-100, 001-110,011-100,011-110,001/011-010-100/110；下降-上升：100-001,100-011,110-001,110-011, 100/110-101-001/011}；

(1.5)顺序扫描C_T，对每对相邻编码组合<d^t_i,d^t_i+1>查询TP_table，如果模式匹配，则将 i作为分段点，得到T的第i条子序列S_i；

(1.6)对T扫描完毕，得到T的子序列集合S＝{S₁,S₂,...,S_N}；

(2)因式分解，如图3所示，具体包括以下子步骤：

(2.1)扫描S，依次读取T的每条子序列S_i；

(2.2)初始化T的分段切比雪夫近似表示PCHA(T)为空集，根据公式(2)～(4)，对S_i做切比雪夫因式分解，提取前a(<10)个切比雪夫系数c_i作为特征，构造S_i的子序列特征向量 V_i＝[c₁,c₂,...,c_a]，并插入PCHA(T)；

F_δ(cos(t))＝cos(δ·t) (2)

$S_{i} (t) ≅ Σ_{i = 0}^{δ} c_{i} F_{i} (t) - - - (3)$

$c_{i} = \frac{k}{δ} Σ_{j = 1}^{δ} S_{i} (t_{j}) F_{i} (t_{j}) - - - (4)$

其中，δ表示切比雪夫多项式的阶数，当δ＝0时，k＝1，否则，k＝2；

(2.3)对S扫描完毕，得到T的分段切比雪夫近似表示PCHA(T)＝{V₁,...,V_N}，并存入数据库；

(3)最近邻分类，如图4所示，具体包括以下子步骤：

(3.1)读取测试集中切分为M段子序列的时间序列Q的分段切比雪夫近似表示 PCHA(Q)＝{V₁,...,V_M}；

(3.2)依次读取训练集的每条时间序列T的分段切比雪夫近似表示PCHA(T)＝{V'₁,..., V'_N}；

(3.3)初始化动态规划表Table＝cell(M,N)；

(3.4)根据公式(5)，依次计算PCHA(Q)的第1个子序列特征向量V₁与PCHA(T)的N个子序列特征向量V'₁～V'_N之间的规范化距离{dist(V₁,V'₁),...,dist(V₁,V'_N)}，并依次存入Table的第 1行Table(1,1:N)；

$dist (V, V^{'}) = Σ_{i = 1}^{m} \frac{| c_{i} | - | {c^{'}}_{i} |}{| c_{i} + {c^{'}}_{i} |} - - - (5)$

(3.5)根据公式(5)，依次计算PCHA(T)的第1个子序列特征向量V'₁与PCHA(Q)的M个子序列特征向量V₁～V_M之间的规范化距离{dist(V₁,V'₁),...,dist(V_M,V'₁)}，并依次存入Table的第 1列Table(1:M,1)；

(3.6)利用动态规划方法，基于公式(5)计算Table(2:M,2:N)的每个单元值，该过程包括以下子步骤：

(3.6.1)顺序扫描V₂～V_M，对于PCHA(Q)的第i个子序列特征向量V_i，依次计算它与V'₂～V'_N之间的规范化距离{dist(V_i,V'₂),...,dist(V_i,V'_N)}；

(3.6.2)当扫描V_i与V'_j时，首先比较Table(i-1,j)、Table(i,j-1)和Table(i-1,j-1)的大小，选择最小值记为min，然后计算dist(V_i,V'_j)+min的值赋予Table(i,j)。

(3.7)返回Table(M,N)的值作为T和Q的距离度量结果并保存；

(3.8)训练集扫描完毕，选择与Q距离最小的时间序列T_min的类标签作为Q的类标签，完成分类。

时间序列分类在人们的日常活动及工业生产中可发挥重要作用，有着广泛的应用需求。本发明针对工业界所面临的时间序列分类问题，提出了基于分段正交多项式分解的时序数据最近邻分类方法，可以对时序数据进行适应性分段，以及提取时间序列的波动信息用于相似性度量，由此实现对时间序列的高效高精度的分类。本发明在对大规模采样数据或高速动态数据流进行分类、预测、异常检测、在线模式识别等任务中可发挥重要作用，极大的满足了工业生产的应用需求。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于分段正交多项式分解的时序数据最近邻分类方法 [P] . 中国专利： CN104794484B . 2018.03.06
2. 基于分段正交多项式分解的时序数据最近邻分类方法 [P] . 中国专利： CN104794484A . 2015-07-22
3. METHOD FOR SEGMENTATION IN AN N-DIMENSIONAL CHARACTERISTIC SPACE AND METHOD FOR CLASSIFICATION ON THE BASIS OF GEOMETRIC CHARACTERISTICS OF SEGMENTED OBJECTS IN AN N-DIMENSIONAL DATA SPACE [P] . 欧洲知识产权局专利： EP1938270A2 . 2008-07-02

机译： N维特征空间中的分段方法和基于N维数据空间中分段对象的几何特征的分类方法
4. METHOD FOR SEGMENTATION IN AN N-DIMENSIONAL CHARACTERISTIC SPACE AND METHOD FOR CLASSIFICATION ON THE BASIS OF GEOMETRIC CHARACTERISTICS OF SEGMENTED OBJECTS IN AN N-DIMENSIONAL DATA SPACE [P] . 世界知识产权组织专利： WO2007042195A3 . 2007-09-07

机译： N维特征空间中的分段方法和基于N维数据空间中分段对象的几何特征的分类方法
5. METHOD FOR SEGMENTATION IN AN N-DIMENSIONAL CHARACTERISTIC SPACE AND METHOD FOR CLASSIFICATION ON THE BASIS OF GEOMETRIC CHARACTERISTICS OF SEGMENTED OBJECTS IN AN N-DIMENSIONAL DATA SPACE [P] . 世界知识产权组织专利： WO2007042195A2 . 2007-04-19

机译： N维特征空间中的分段方法和基于N维数据空间中分段对象的几何特征的分类方法