法律状态公告日
法律状态信息
法律状态
2022-08-30
实质审查的生效 IPC(主分类):G01N21/31 专利申请号:2022102767050 申请日:20220321
实质审查的生效
技术领域
本发明主要涉及水质检测技术领域,具体为一种水质多参数的光谱数据Stacking融合模型及水质测量方法。
背景技术
随着社会的发展和城市化进程的加快,大量含氮废水被直接排入水中,严重威胁人类的生存环境,不利于实现社会的可持续发展。城市及周边地表水中的有机污染物主要来自陆地生活源、地表径流、工业、服务业、养殖业和水生生物源污染,以蛋白质、氨基酸、腐殖酸、脂肪等有机污染物为主。环境监测技术通过化学需氧量(CODCr)、高锰酸盐指数(CODMn)、氨氮(NH3-N)、总磷(TP)、总氮(TN)和五日生化需氧量(BOD5)等指标表征水体有机污染,其中 CODCr、CODMn、BOD5通常用于表示水体中有机污染物总量;NH3-N、TN、TP的含量升高会导致水体富营养化,破坏生物多样性并产生臭味。
传统化学法水质监测存在干扰物多、选择性差、实验条件苛刻、分析时间长、需要消耗化学试剂等问题,难以满足实际应用的要求。紫外-可见吸收光谱法是基于紫外和可见波段 (200~800nm)的光谱数据对物质进行分析的一种方法。光谱法具有化学法无可比拟的优势,即样品无需处理、无污染、操作简便、实时等,现已广泛应用于环境监测、污染物分析、药品检验、食品安全等领域。随着光学仪器越来越精密,光谱仪采集到的光谱数据越来越完善,更加能反映复杂水体的组成成分。
紫外吸收光谱结合化学计量学方法已广泛应用于COD、色度、浊度等水质监测指标中,但随着样品组分的增多以及样品光谱信息复杂度的提高,仅仅通过单一模型进行预测得到的结果准确率通常较低或者不够稳定。集成学习通过某种策略可以将多个子模型进行融合,融合模型相比于子模型具有更高的稳定性以及更好的预测性能。将集成学习应用于光谱法水质检测能够提升现有模型的上限,具有极大的应用潜力。
发明内容
本发明的目的是:提供一种水质多参数的光谱数据Stacking融合模型及水质测量方法,用来解决复杂水体单一模型预测结果准确率较低或者不够稳定的问题以及传统水体有机物检测操作复杂、成本高、容易引起第二次污染、预测模型精度不高等缺陷问题。
为实现本发明的目的所采用的技术方案是:
1.使用紫外-可见吸收光谱法作为传统化学检测法的替代;
2.建立紫外-可见吸收光谱数据与化学值建立回归关系;
3.使用Stacking融合模型保证回归预测的稳定。
与现有技术相比,本发明的有益效果是:
1.本发明说明了紫外-可见光谱技术用于监测水质污染状况的可行性,可为地表水的快速、原位、高效监测提供解决方案;
2.解决了传统实验方法操作复杂、可能造成二次污染等缺陷问题;
3.解决了单一模型对水质有机物预测结果准确率通常较低或者不够稳定的问题。
附图说明
图1为模型建立过程及使用过程;
图2为模型1建立流程图;
图3为模型2建立流程图;
图4为模型3建立流程图;
图5为模型4建立流程图;
图6为Stacking融合过程示意图;
图7为水质硝态氮训练集和测试集模型的拟合结果
图8为模型融合示意图
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
结合图1至7所示,以水质硝态氮模型建立为例,本发明提供如下技术方案:
样本采集:
对9个地表水监测断面进行多次水样采集,使用直立采样器采集水面下深处的水体,按照水质采样规范平行分装在棕色玻璃瓶中,经多次采样共获得72个样本,用去离子水稀释后共获得162个样本,静置30min后取上层清液;
化学分析:
为保证化学分析与光谱分析的样品一致,将样品摇匀并静置30min后取上层清液进行检测,检测方法参照相关国标和行业标准。水质硝态氮的化学分析采用GB7480-1987中的方法进行测量。
S1、紫外-可见吸收光谱测量:
紫外-可见吸收光谱的采集装置主要包括光源、光谱仪、样品槽、光纤等。光源采用氘卤灯(爱万提斯,AvaLight-DHc),光源的出射光经光纤耦合到样品槽。为提高入射光和出射光的传输效率,样品槽采用10×10mm的石英比色皿。产生的透射光经光纤光谱仪(复享光学,波长范围为197~987nm,波长分辨率为0.73nm)接收。采集到的紫外-可见光谱数据通过数据线传输至计算机中进行数据处理与建模分析。
数据模型算法建立:
本发明采用python构建水质指标预测模型,训练集与测试集样本的划分采用随机抽样法,抽取30%的样本作为测试集,用于评价模型的泛化能力和预测效果,剩余样本作为训练集用于建立预测模型。
S21、数据预处理
处理S1采集的光谱数据,依次对光谱数据使用SG滤波、趋势校正进行处理。
S22、数据预处理
处理S3采集的光谱数据,依次对光谱数据使用SG滤波、消除常数量偏移、一阶导数、趋势校正进行处理;
S3、S4数据特征工程及基模型建立
基模型1的流程图如图2所示。使用KPCA-XGBoost对步骤S21预处理后的光谱数据进行降维,将降维后的数据作为特征输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用XGBoost算法建立回归预测模型。使用网格搜索和交叉验证相结合对XGBoost的超参数进行优化,以交叉验证集的均方根误差(CVMSE)最小作为优化目标;
基模型2建立
基模型2的流程图如图3所示。使用RFE-XGBoost对步骤S21预处理后的光谱数据进行特征选择。将选择出的特征波长输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用XGBoost算法建立回归预测模型。使用网格搜索和交叉验证相结合对XGBoost的超参数进行优化,以交叉验证集的均方根误差(CVMSE)最小作为优化目标;
基模型3建立
基模型3的流程图如图4所示。使用KPCA-SVR对步骤S22预处理后的光谱数据进行降维,将降维后的数据作为特征输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用SVR算法建立回归预测模型。使用优化算法和交叉验证相结合对SVR的超参数进行优化,以交叉验证集的均方根误差(CVRMSE)最小作为优化目标;
基模型4建立
基模型4的流程图如图5所示。使用RFE-XGBoost对步骤S22预处理后的光谱数据进行特征选择。将选择出的特征波长输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用SVR算法建立回归预测模型。使用优化算法和交叉验证相结合对SVR的超参数进行优化,以交叉验证集的均方根误差(CVRMSE)最小作为优化目标;
S5、融合模型建立
融合过程示意图如图6所示。对四种基模型的输出结果进行融合,使用线性回归建立四种模型输出结果和化学分析结果的回归方程。各基模型的输出需要交叉验证以防止线性回归过拟合;
S6、模型预测输出
将训练集的光谱数据经预处理和特征工程再输入至S5所建立的融合模型中,记录模型输出结果;使用决定系数R
所述式1为:
所述式2为:
式1、2中,
S5、结合算法、各类标准数据进行水质指标模型建立,从而进行实时检测、监测地表水质污染状况。
基于全波段光谱模型的水质硝态氮指标预测结果如表1所示,可以看出经过基模型的堆叠融合,Stacking融合模型表现有较大的提升,测试集R
图7为训练集和测试集的建模的拟合结果。训练集和测试集拟合曲线的决定系数R
表1模型预测结果
本发明的一种水质多参数的光谱数据Stacking融合模型及水质测量方法,包括如下步骤:
S101、紫外-可见吸收光谱测量:采用光谱仪采集待测水样的光谱数据;
S102、数据预处理:对采集到的光谱数据进行预处理;
S103、数据特征工程:对预处理后的数据进行特征工程;
S104、输入模型计算:将经过特征工程的输入所述的数据融合模型中,模型输出结果。
其中,步骤S102数据预处理具体为:
S1021、预处理方案1:处理S1采集的光谱数据,依次对光谱数据使用SG滤波、趋势校正进行处理;
S1022、预处理方案2:处理S1采集的光谱数据,依次对光谱数据使用SG滤波、消除常数量偏移、一阶导数、趋势校正进行处理.
其中,所述的数据特征工程S103步骤包括,
S1031、特征工程方案1:使用KPCA-XGBoost对步骤S1021预处理后的光谱数据进行降维;
S1032、特征工程方案2:使用RFE-XGBoost对步骤S1021预处理后的光谱数据进行特征选择;
S1033、特征工程方案3:使用KPCA-SVR对步骤S1022预处理后的光谱数据进行降维;
S1034、特征工程方案4:使用RFE-XGBoost对权步骤S1022预处理后的光谱数据进行特征选择。
其中,步骤S104基模型建立具体为:
S1041、基模型1建立:将步骤S1031中特征工程方案1降维后的特征输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用XGBoost算法建立回归预测模型,使用网格搜索和交叉验证相结合对XGBoost的超参数进行优化,以交叉验证集的均方根误差(CVMSE)最小作为优化目标;
S1042、基模型2建立:将步骤S1032中特征工程方案2筛选出的特征输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用XGBoost算法建立回归预测模型,使用网格搜索和交叉验证相结合对XGBoost的超参数进行优化,以交叉验证集的均方根误差(CVMSE)最小作为优化目标;
S1043、基模型3建立:将步骤S1033中特征工程方案3降维后的特征输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用XGBoost算法建立回归预测模型,使用网格搜索和交叉验证相结合对XGBoost的超参数进行优化,以交叉验证集的均方根误差(CVMSE)最小作为优化目标;
S1044、基模型4建立:将步骤S1034中特征工程方案4筛选出的特征输入到算法,以各类水质指标的化学分析结果作为算法的目标值,使用XGBoost算法建立回归预测模型,使用网格搜索和交叉验证相结合对XGBoost的超参数进行优化,以交叉验证集的均方根误差(CVMSE)最小作为优化目标。
通过多模型融合的方式可以提升单一模型的预测精度,融合模型相比于单一模型具有更高的精度、更强的鲁棒性以及更好的泛化能力。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 用于多参数水质监测的多激发多发射荧光光谱仪
机译: 多参数水质数据测量总磷的方法
机译: 多参数水质传感器