技术领域
本发明涉及一种基于长短期记忆神经网络的生物气溶胶浓度预测方法,属于空气污染预测领域。
背景技术
大气污染物暴露与呼吸系统疾病、心脑血管疾病、神经退化性疾病之间的关系已被大量流行病学和基于动物、细胞的毒理学所确认。然而,在与霾污染相关的大气气溶胶研究中,大多数都讨论气溶胶的理化性质,关注其生物成分及性质的研究十分有限。悬浮于大气中的固体和液体微粒中,有相当部分是由陆地和水生环境的生物活动所产生的,这些含有微生物或其代谢物质(包括细菌、真菌、病毒、尘螨、花粉、孢子、动植物碎片等)的具有生命活性的微小粒子统称为生物气溶胶。生物气溶胶是大气气溶胶的一个重要组成部分,在大气中的扩散、传播会引发人类的急慢性疾病、传染病以及动植物疾病,还可以间接影响全球气候变化,并对大气化学和物理过程有着潜在的重要影响。
空气中的生物气溶胶浓度受气象因素(如环境温度,相对湿度,降雨,风速和风向)和地理位置的影响。Hass等人观察到,澳大利亚的真菌孢子的浓度在秋季达到最大,而冬季浓度最低。Bowers等人发现美国科罗拉多州的真菌浓度的最大值出现在初春和夏末,而细菌浓度在夏末和初秋达到最大值。Bovallius等人研究表明,在瑞典乡村地区,夏季的生物气溶胶中微生物浓度最高,秋季次之,而冬季最低。Borodulin等人研究发现,在西伯利亚南部地区不同高度上生物气溶胶的分布存在一定的季节性变化规律。在我国华北的北京地区,夏季的微生物气溶胶浓度要高于冬季。在沿海的青岛地区,生物气溶胶中的微生物浓度在秋季达到最高值,春夏次之,冬季最低。而在内陆的西安地区,生物气溶胶浓度在秋冬季明显高于春夏季。在生物气溶胶的浓度水平和粒径分布方面已经存在许多研究,然而在预测方面,尚缺乏相关研究对其浓度水平变化进行准确、有效的预测。
发明内容
为了填补生物气溶胶在预测研究方面的空缺,本发明提出了一种基于长短期记忆神经网络的生物气溶胶浓度预测方法,首先,整合多源异构数据集,包括过去时刻空气质量数据集、气象数据集和生物气溶胶采样数据集;其次,将整合后的数据集转换为监督学习的数据格式,并且划分数据集为训练集和测试集;再次,将训练集的数据作为输入,利用长短期记忆神经网络进行训练,提取数据的隐藏特征;最后,在测试集上实现生物气溶胶的浓度预测,并与真实数据进行比对,验证模型的有效性。本发明提供了以下技术方案:
一种基于长短期记忆神经网络的生物气溶胶浓度预测方法,具体步骤如下:
步骤1:获取过去时刻空气质量数据和气象数据;对生物气溶胶数据进行采样,得到生物气溶胶中各微生物的浓度数据;
步骤2:对数据集进行预处理,包括异常值剔除、数据的缺失处理,多源异构数据集整合以及数据的归一化处理;
步骤3:转换数据格式、划分数据集;从序列数据到输入和输出对;将数据划分为训练集和测试集;
步骤4:构建长短期记忆神经网络结构(LSTM)并初始化各种参数,将训练集的数据输入到长短期记忆神经网络中进行训练,直至网络收敛,调节网络超参数,得出最优参数值;
步骤5:在测试集上进行数据预测,与真实数据进行比对检验模型效果,得到生物气溶胶中各微生物(主要为细菌气溶胶和真菌气溶胶)的浓度预测值。
预测结果评估:
为了避免评价指标的单一性,我们分别使用了三个误差评价指标,平均绝对误差(Mean Absolute Error,简称MAE)、均方根误差(Root Mean Squared Error,简称RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error,简称MAPE),同时使用R-square作为回归分析的评价指标,MAE、RMSE、MAPE和R-square的计算公式分别如下所示:
其中,y
本发明具有以下有益效果:
本发明实现了对空气中生物气溶胶各微生物(主要为细菌气溶胶和真菌气溶胶)的浓度预测,在目前尚缺相关研究的气溶胶领域来说,本发明具有本质上的创新。
本发明通过对生物气溶胶自身采样数据及对影响生物气溶胶的各种影响因子(空气质量数据、气象数据等)进行综合分析和处理,实现对其浓度的精准预测。
本发明基于生物气溶胶浓度预测从另一视角提供环境污染源的实时情况,为环境保护部门对空气质量的进一步监控提供直接依据。
附图说明
图1是基于长短期记忆神经网络的生物气溶胶浓度预测方法的流程图;
图2是整体预测方法的模型架构图;
图3是LSTM循环单元结构。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1和2所示,本发明的基于长短期记忆神经网络的生物气溶胶浓度预测方法,具体步骤如下:
步骤1:获取过去时刻空气质量数据和气象数据;对生物气溶胶数据进行采样,得到生物气溶胶中各微生物的浓度数据;
步骤2:对数据集进行预处理,包括异常值剔除、数据的缺失处理,多源异构数据集整合以及数据的归一化处理;
步骤3:转换数据格式、划分数据集;从序列数据到输入和输出对;将数据划分为训练集和测试集;
步骤4:构建长短期记忆神经网络结构(LSTM)并初始化各种参数,将训练集的数据输入到长短期记忆神经网络中进行训练,直至网络收敛,调节网络超参数,得出最优参数值;
步骤5:在测试集上进行数据预测,与真实数据进行比对检验模型效果,得到生物气溶胶中各微生物(主要为细菌气溶胶和真菌气溶胶)的浓度预测值。
进一步地,所述步骤1具体为:
步骤1.1:获取过去时刻空气质量数据,包括PM
步骤1.2:获取气象数据,包括温度、露点、压强、风向和风速5个特征数据。
步骤1.3:获取生物气溶胶采样数据,包括细菌气溶胶浓度、真菌气溶胶浓度、病毒气溶胶浓度、细菌粒径大小、真菌粒径大小、病毒粒径大小、采样城市7个特征数据。
进一步地,所述步骤2具体为:
步骤2.1:异常值剔除,直接删除数据中存在明显异常值的记录;
步骤2.2:数据的缺失处理,数据记录中缺失的数值采用插值的方法进行填充;
步骤2.3:多源异构数据集整合,将空气质量数据集、气象数据集和生物气溶胶采样数据集进行整合,整合后的数据集为时间序列数据集,用R来表示,R中的记录按照时间顺序依次排列,每一个时刻的记录包含20个特征数据,表示为:
r=[bacteria,fungi,virus,bact_size,fun_size,vir_size,sampling-city,pm
其中bacteria,fungi,virus分别代表生物气溶胶中细菌气溶胶浓度、真菌气溶胶浓度和病毒气溶胶浓度;sampling-city表示采样城市;bact_size,fun_size,vir_size分别表示细菌、真菌以及病毒气溶胶的粒径大小;pm
步骤2.4:数据归一化处理,将数据缩放为[0,1]。
进一步地,所述步骤3具体为:
步骤3.1:转换数据格式,将原始数据序列转化为监督学习序列的格式,从时间序列到输入和输出序列对,该模型所用到的时间序列为多变量时间序列,通过指定输入和输出序列的长度,将多变量时间序列用于序列预测;给模型指定D为输入的时间步长,N为输出的时间步长,通过t-D,t-D+1,…,t-1这些时刻的所有数据特征来预测t,t+1,…,t+N时刻的值;
步骤3.2:划分数据集,按照7:3的比例将整合后的时间序列数据集划分为训练集和测试集。
进一步地,所述步骤4具体为:
步骤4.1:搭建LSTM的网络结构,如图2所示。包括输入层、隐藏层、全连接层(输出层);设置最大纪元,隐藏层数及每层的神经元数,设置完全连接层及其神经元的数量;
步骤4.2:LSTM循环单元结构如图3所示,初始化LSTM神经单元的细胞状态和隐藏层状态;
步骤4.3:计算当前神经元的输入门、遗忘门、输出门的权值及当前记忆候选值;
步骤4.4:计算当前神经元的隐藏状态和记忆状态,传递到下一个神经元,并更新细胞状态;
给定按序列输入的学习数据X={X
式中h称为循环神经网络的系统状态(system status),s是内部状态(internalstatus),f
步骤4.5:选定损失函数,优化算法,循环往复直至模型收敛;
步骤4.6:对比调参,获取最优参数并保存;包括最大纪元、神经元数、学习率、小批量大小、L2正则化系数、权重向量和偏向量。
进一步地,所述步骤5具体为:
步骤5.1:在测试集上使用训练好的预测模型对生物气溶胶中各微生物浓度值(主要细菌气溶胶和真菌气溶胶)进行预测;
步骤5.2:将所有的预测结果同真实数据进行对比,利用MAPE、MAE、RMSE、R
步骤5.3:最终的预测模型用于空气中生物气溶胶浓度(主要为细菌气溶胶和真菌气溶胶)的预测。
以上所述仅是基于长短期记忆神经网络的生物气溶胶浓度预测方法的优选实施方式,基于长短期记忆神经网络的生物气溶胶浓度预测方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
机译: 长短期记忆神经网络的空气质量预测方法
机译: 二氧化碳浓度预测装置,二氧化碳浓度预测方法,嗜睡度预测装置以及嗜睡度预测方法
机译: 基于协作滤波的煤气浓度预测方法,以及装置和冰箱