法律状态公告日
法律状态信息
法律状态
2022-09-16
实质审查的生效 IPC(主分类):G05B19/418 专利申请号:2022106637357 申请日:20220613
实质审查的生效
技术领域
本发明涉及废水处理过程出水指标的预测方法,具体涉及一种基于时空卷积潜变量优化近邻成分分析的质量指标预测方法。
背景技术
在工业生产过程中,为保证产品质量以及生产过程安全,往往需要对质量指标进行及时监测。而在实际生产过程中,大量的质量指标通过在线传感器进行测量的方式往往存在较大的时间之后,甚至部分质量指标无法使用传感器进行测量,这给工业过程的控制带来了极大的挑战。近年来,随着集散控制系统的使用以及数据分析技术的发展,通过数据驱动的方法建立预测模型进行预测为质量指标的在线监测提供了可能。
当前对质量指标的在线预测主要有机理分析、时间序列分析、机器学习三种方法。由于实际工业过程往往随生产工况的改变而发生变化,因此采集自实际工业过程的数据往往并非服从单一分布。近邻成分分析用于回归模型的建立时,引入了参考点的概念,这使得数据点的预测取决于近邻域内的参考点,使得模型受数据分布影响较小,因而具有更强的鲁棒性。然而,由于其建模过程忽略了工业过程数据的非线性以及时滞性,因此使得模型的性能存在局限性。
为解决非线性问题,通常使用核映射的方法,将原始数据空间的非线性问题转为高维空间的线性问题进行求解。而对于时滞性问题则通常通过递归建模、构建动态矩阵等方法进行解决。然而,单一方法往往难以同时获得数据中的非线性特征和时滞动态特征。此外,当映射特征维数过高时,若模型训练数据量不足则模型的建立存在陷入过拟合的风险。
发明内容
本发明针对现有技术中存在的问题,提供一种基于时空卷积潜变量优化近邻成分分析的质量指标预测方法,所述方法包括以下步骤:
S1.数据预处理:对输入数据及输出数据进行标准化,通过数据的标准化消除数据的量纲;并划分数据为训练集与测试集。将训练集用于模型的构建及训练,测试集用于对模型的评估。
S2.构建深度卷积神经网络特征提取模型,来提取原始数据中的深层非线性时空特征:为解决近邻成分分析模型对于非线性、时滞性数据的局限性,在此基础上引入了深度时空卷积神经网络特征提取模型。
S3.构建潜变量模型:对深度时空卷积神经网络提取到的深层非线性时空特征,使用偏最小二乘法提取潜变量,从而大幅减少近邻成分分析的运算复杂度。
S4.构建时空卷积潜变量优化近邻成分分析模型:将偏最小二乘法提取的潜变量作为近邻成分分析的输入,构建近邻成分分析模型,以此克服实际工业过程数据中存在的非单一分布问题,提升模型对质量指标预测的准确性。
S5.对数据进行反标准化,并完成模型预测能力的评估:将测试集数据带入训练后的模型进行预测,根据输入数据的预测值与真实值计算出决定系数、均方根误差以及平均绝对百分比误差,完成模型预测能力的评估。
该方法的优势在于,在近邻成分分析模型的基础上,结合深度卷积神经网络时空特征提取模型和偏最小二乘潜变量模型,使得建立的时空卷积潜变量优化近邻成分分析质量指标预测模型可以更有效地针对数据的时滞性、非线性以及多分布的情况。因此,在面对复杂的工业生产过程,该模型具有较高的预测精度以及泛化能力,且相较于传统的质量指标预测模型,该模型具有更高的可靠性。
采用上述方案后,本发明与现有技术相比具有如下效果:
与现有技术相比,基于时空卷积潜变量优化近邻成分分析的预测模型的提出,对工业过程的质量指标监测的有益效果是:通过数据驱动建模的方法,克服了实际工业中在线仪表成本较高、难以维护的缺点,同时解决了离线检测具有较大时间滞后的问题;并通过二维深度卷积神经网络的特征提取,获取原始数据中潜在的深层非线性时空特征,使得模型可以有效适应工业过程数据的时滞性以及非线性特征;再通过偏最小二乘潜变量模型的构建,使得近邻成分分析的过程仅考虑代替深层特征中大部分方差信息的潜变量,大幅提升模型的运行效率;最后与近邻成分分析相结合,有助于模型对实际过程数据不服从单一分布的问题,能够保证工业过程中的质量预测模型具有较高的精度及泛化能力。
附图说明
图1是基于卷积潜变量优化的近邻成分分析的建模方法流程图。
图2是使用1-6个卷积模块时对应模型的损失函数变化图。
图3是卷积潜变量优化的近邻成分分析模型分别在训练集和测试集上对质量指标的建模预测结果图。
具体实施方式
下面将对本发明进行更清楚、完整的进一步描述,显然,所描述的实例仅仅是本发明的一部分实例,而不是全部的实施例。
本发明提供的对废水处理的出水指标预测所采取的技术方案是:
S1.数据预处理:根据公式(1)完成输入数据X及输出数据Y的标准化处理;并划分训练集与测试集,训练集用于模型的构建,测试集用于模型性能的评估;
S2.构建深度卷积神经网络特征提取模型:构建原始输入数据与输出数据之间的深度卷积神经网络模型,并使用全连接层的输入特征作为网络提取的深层时空特征,以解释数据的深层非线性时空特征;
S3.构建潜变量模型:将深度卷积神经网络提取的深层时空特征作为输入数据,原始输出数据作为输出数据建立偏最小二乘模型,并根据累计方差贡献率选择提取的潜变量个数;在工业过程数据中累计方差贡献率超过80%的潜变量通常包含原始数据中的大部分有效信息,故选择此时的潜变量作为模型的潜变量个数;
S4.构建时空卷积潜变量优化近邻成分分析模型:将通过特征提取后的潜变量作为近邻成分分析的输入,构建近邻成分分析模型,完成对新的输入数据的预测;
S5.对数据进行反标准化,并完成模型预测能力的评估。将测试集数据带入模型进行预测,根据输入数据的预测值与真实值计算出决定系数、均方根误差以及平均绝对百分比误差,完成模型预测能力的评估。
步骤S1中,将数据标准化为均值为0,方差为1的标准数据。标准化公式如下:
式中,X
步骤S2中,深度卷积神经网络特征提取模型的构建如下:
S21:构建输入样本,在某t时刻,取时间间隔q,将每个时刻的输入向量依次排列得到输入样本的二维矩阵为:
S22:对输入样本进行卷积操作:
式中,x表示卷积的输入,w表示卷积核,C表示卷积的输出即特征图。
S23:对卷积后的特征进行最大池化操作,在滑动过程中依次选择池化窗口内的最大值输出。
S24:使用非线性激活函数Leaky-Relu对卷积和池化操作后的特征进行映射:
式中,k为一个很小的值,表示对输入负信号的线性修正。
S25:使用批量标准化对数据分布进行重新调整:
式中,N表示一个批次的样本数,x
S26:将各特征节点与输出节点进行全连接,建立深度卷积神经网络模型。
S27:以Y作为输出变量,对卷积神经网络权重进行误差反馈调整:
S271:Dropout定义为:
式中,p表示随机屏蔽节点的概率。
S272:Adadelta优化器定义为:
x
式中,g
S273:MSE损失函数定义为:
式中,n表示当前批次样本数量。
使用S272对应的Adadelta优化器对卷积神经网络中的权重参数进行调整,以S273中的MSE损失作为目标函数,迭代至其收敛,并取收敛时的全连接层的特征输出作为模型提取的深度时空特征。
步骤S3中,根据深度卷积神经网络提取的深度时空特征,通过偏最小二乘法构建潜变量模型提取特征中的关键信息:
S31:潜变量模型构建如下:
将X投影至p方向记为Xp,同理将Y投影至q方向记为Yq,为满足p与q之间的关联最大,则:
记X的得分为t=Xp,则:
分别将X和Y向垂直于p方向和垂直于t方向进行投影,可以得到:
通过迭代,可将X和Y按下式进行分解:
Y
S32:提取潜变量模型分解得到的T作为潜变量矩阵,并根据累计方差贡献率选择T中的潜变量个数。
步骤S4中,构建时空卷积潜变量优化近邻成分分析模型:
S41:将潜变量模型提取到的潜变量作为近邻成分分析模型的输入变量X,原始输出变量作为输出变量Y,将X与Y合并为样本空间S。
S42:将数据集划分为训练集与测试集,使用训练集进行近邻成分分析模型的训练。
S43:计算训练集中选择样本集S中的点x
式中,k为一个核函数,d
式中,w
S44:定义近邻成分分析的优化目标函数如下:
其中,l(*)表示S273中的均方误差损失函数,w表示特征的权重向量,n表示观测样本的数量,p表示输入变量的数量,p
S45:根据优化后的度量空间对测试集中的质量指标进行预测。
步骤S5中,对数据进行反标准化,并完成模型预测能力的评估;
将测试集数据带入模型进行预测,根据输入数据的预测值与真实值计算出决定系数(R
式中,y
实施例1:
以某废水处理厂的废水处理过程为例。用于建模预测的废水处理数据包含31个输入变量和一个输出变量,输入变量为入水质量变量及处理过程变量,输出变量为关键质量指标出水生化需氧量(BOD),数据共包含380个样本点。结合图1对本发明做进一步论述:
第一步:将380组数据分为训练集与测试集,前228组为训练集用于模型的建立,后152组为测试集用于模型性能的检验。
第二步:分别使用不同数量的卷积模块建立卷积神经网络,用以确定更适用于工业过程的卷积神经网络特征提取架构。使用不同卷积模块数量建立模型对应的训练集以及验证集损失变化情况如图2所示。通过对比,可以发现使用5个卷积模块时在收敛步数以及收敛时损失值大小两方面均可取得最为满意的结果。因此,选择5个卷积模块并进行细节优化,设计深度卷积神经网络特征提取模型结构及各层参数列于表1中。
表1 深度卷积神经网络特征提取模型结构及其参数
第三步:将深度卷积网络模型中提取到的深层时空特征作为潜变量模型的输入,获取可以代替高维特征中大部分方差信息的潜变量。在本实例中,当潜变量个数为30时,累积方差贡献量达到了80.56%。因此在本实例中设置潜变量个数为30。
第四步:将潜变量模型获取的潜变量作为近邻成分分析的输入对模型进行训练,并用训练后得到的深度卷积潜变量优化的近邻成分分析模型完成对测试集数据的预测;
第五步:将预测后的数据进行反标准化,完成模型预测能力的评估。并将深度卷积潜变量优化的近邻成分分析模型与近邻成分分析模型、偏最小二乘回归模型、二维卷积神经网络模型、潜变量近邻成分分析模型及卷积近邻成分分析模型进行预测准确性的对比。
表2列出了6种模型对出水BOD分别在训练集和测试集上的性能对比,结果表明:卷积潜变量优化的近邻成分分析模型在训练集及测试集中均取得了最优结果。与经典性能指标预测方法偏最小二乘回归相比,卷积潜变量优化的近邻成分分析模型在测试集上的R
表2 不同模型对出水BOD建模预测性能对比
考虑到废水处理过程中数据存在的非线性、时滞性以及工业过程数据非单一分布等特性,使得传统的预测模型难以达到较好地预测效果。本发明方法通过深度卷积神经网络来更好的解释数据的深层非线性时空特征,并通过潜变量模型的构建使用低维潜变量来解释高维特征的主要方差信息;且与近邻成分分析模型进行结合,使卷积潜变量优化的近邻成分分析模型更好的适应实际工业过程的关键质量指标预测。
以上描述了本发明的基本原理、主要特征及本发明的优势所在。以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不局限于此,本行业的技术人员在本发明展示的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该由所附的权利要求书及其等效物界定。
机译: 潜变量优化装置,滤波系数优化装置,潜变量优化方法,滤波系数优化方法,和程序
机译: 潜变量优化装置,滤波系数优化装置,潜变量优化方法,滤波系数优化方法,程序
机译: 一种基于模型的在线优化方法来限制车辆的状态变量,该方法用于预测车辆的状态变量