首页> 中国专利> 基于生态环境变化的人群健康评估方法及系统

基于生态环境变化的人群健康评估方法及系统

摘要

本发明提供一种基于生态环境变化的人群健康评估方法及系统,其中的方法包括:对获取的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据;基于矢量边界数据、与统计年鉴数据相对应的生态环境数据和历史疾病发病率数据,确定模型训练集数据和验证集数据;基于模型训练集数据和验证集数据,构建并训练人群健康预测模型;基于训练完成后的人群健康预测模型对人群进行对应疾病的健康预测。利用上述发明能够定量分析统计年鉴和生态环境对人群健康的影响,提高疾病发病率预测的准确度。

著录项

  • 公开/公告号CN112669976A

    专利类型发明专利

  • 公开/公告日2021-04-16

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202110288401.1

  • 申请日2021-03-18

  • 分类号G16H50/30(20180101);G16H50/70(20180101);

  • 代理机构11327 北京鸿元知识产权代理有限公司;

  • 代理人王迎;袁文婷

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2023-06-19 10:38:35

说明书

技术领域

本发明涉及人群健康评估领域,更为具体地,涉及一种基于生态环境变化的人群健康评估方法及系统。

背景技术

生态环境变化是目前全球变化研究的核心问题之一,与气候变化、生物多样性、生态环境演变以及人类健康等密切相关。近百年来,土地利用变化打破当前城市生态系统的能量流动和物质循环平衡,造成了严重的社会经济和生态环境问题,并使人类受到由城市化引发的各种疾病的威胁,已成为世界各国关注的重要问题。

但是,目前对生态环境变化与人群健康的关系缺乏定量研究,特别是缺乏社会经济数据与生态环境数据的配合使用。中国统计年鉴数据是国内研究中的重要统计数据来源,而随着科技的发展和多领域交叉学科的应用,统计数据的空间化问题越来越受到重视,已经成为当前地理科学和社会科学共同研究的热点问题之一。如何将统计数据与地理分布结合起来以探究空间上的变化影响已经成为亟待解决的研究困境。

然而,现如今的统计年鉴数量众多,如《中国卫生健康统计年鉴》、《中国人口年鉴》、《中国农业年鉴》、《中国城市统计年鉴》、《中国林业统计年鉴》等,这些年鉴为全国性的统计,设计范围广泛,包含的变量众多,对于年鉴数据的收集整理成为一个繁琐的工作。不仅如此,从史至今的统计年鉴中的行政单元在历史变迁中,因为各地的行政区划边界变动和行政区划名称变动,与已有的地理单元矢量图在空间上的不匹配,导致很难满足自然科学和社会科学之间交叉学科的研究需要。

目前,已有研究主要专注于统计数据的空间化,但研究对象主要集中在人口与国内生产总值指标等某个领域或者几个领域,对于像中国统计年鉴这种多领域多变量的数据空间化并不适用。另外,目前的已有研究大多专注在某个区域(如天津市、朝阳区),对于大范围(如中国统计年鉴中的国内各个地级市和县级单位)的空间化并没有受到重视,在具体地理位置的像素级别的差异鲜有研究;因此,亟需一种在此基础上配以生态环境数据开展健康影响的评估建模方案。

发明内容

鉴于上述问题,本发明的目的是提供一种基于生态环境变化的人群健康评估方法及系统,以解决目前关于健康影响研究存在的领域单一、空间区域受限、影响评估效果等问题。

本发明提供的基于生态环境变化的人群健康评估方法,包括:对获取的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据;基于矢量边界数据、与统计年鉴数据相对应的生态环境数据和历史疾病发病率数据,确定模型训练集数据和验证集数据;基于模型训练集数据和验证集数据,构建并训练人群健康预测模型;基于训练完成后的人群健康预测模型对人群进行对应疾病的健康预测及评估。

此外,优选的技术方案是,对获取的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据的步骤包括:获取所有的统计年鉴数据,统计年鉴数据包括地级市和县级单元的年鉴数据信息;将统计年鉴数据整理至excel表格中,通过excel表格的标准行列号码规范统计年鉴数据;同时,获取地级市和县级单元的地图图集,并对地图图集进行矢量化处理,获取与地图图集对应的矢量数据;基于矢量数据对规范后的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据。

此外,优选的技术方案是,获取所有的统计年鉴数据的过程包括:利用CNKI数据库进行统计年鉴的搜索,并下载搜索到的统计年鉴数据;对搜索到的统计年鉴数据进行数据补充,以形成所有的统计年鉴数据;其中,数据补充包括从数据网和国家图书馆年间书本中抄录的统计年鉴数据。

此外,优选的技术方案是,统计年鉴数据的规范过程包括:对统计年鉴数据进行数字化处理;对数字化处理后的统计年鉴数据建立excel表格的时空行列标注;其中,每一个excel表格表示一个变量,每个excel表格中的行表示空间上的同步地级市和县级单元,列表示不同的时间信息。

此外,优选的技术方案是,获取地级市和县级单元的地图图集,并对地图图集进行矢量化处理,获取与地图图集对应的矢量数据的过程包括:扫描纸质的地图图集,并以图形格式存盘;其中,当地图图集存在行政区划调整时,通过新版行政区划地图和地名沿革对照表记录变化;基于扫描后的地图图集,建立一个新图层,并将新图层设为可见、可编辑模式;在新图层上调用ArcGIS工具进行路径绘制,并对绘制后的所有新图层进行汇总及拓扑检查;对拓扑检查后的新图层添加矢量属性,获取与地图图集对应的矢量数据。

此外,优选的技术方案是,基于矢量数据对规范后的统计年鉴数据进行像素化处理的过程包括:基于中国逐年土地利用数据对全国的土地情况进行划分,确定每年地级市和县级单元的土地分布情况;同时,获取预设年限内的像素化的辅助数据,并判断统计年鉴中的变量的空间化类型;基于变量的空间化类型以及excel表格中每年对应的每个地级市和县级单元的标准行列号码,对统计年鉴数据进行像素化。

此外,优选的技术方案是,辅助数据包括人口数据、年龄结构数据以及夜间灯光数据;变量的空间化类型包括:仅人口密度相关、土地利用和夜间灯光数据结合分配、人口密度和土地利用结合分配、人口密度和年龄结构结合分配、不具有地理分配特性。

此外,优选的技术方案是,生态环境数据包括行政区经纬度数据、大气污染数据、生物气候数据和生物多样性数据。

此外,优选的技术方案是,确定模型训练集数据和验证集数据的过程包括:基于矢量边界数据,获取地级市和县级单元的空间权重矩阵;基于空间权重矩阵,以历史疾病发病率为变量,获取单变量局部的空间自相关指数;根据空间自相关指数,获取地级市和县级单元与历史疾病发病率之间的空间关系;其中,空间关系包括高-高空间聚类、低-低空间聚类、高-低空间聚类和低-高空间聚类;基于对空间关系、矢量边界数据、生态环境数据进行聚类处理,构建所述模型训练集数据和验证集数据。

根据本发明的另一方面,还提供一种基于生态环境变化的人群健康评估系统,该系统包括:矢量边界数据获取单元,用于对获取的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据;训练及验证数据获取单元,用于基于矢量边界数据、与统计年鉴数据相对应的生态环境数据和历史疾病发病率数据,确定模型训练集数据和验证集数据;模型构建及训练单元,用于基于模型训练集数据和验证集数据,构建并训练人群健康预测模型;健康预测及评估单元,用于基于训练完成后的人群健康预测模型对人群进行对应疾病的健康预测及评估。

利用上述基于生态环境变化的人群健康评估方法及系统,对获取的统计年鉴数据进行像素化处理,获取对应的矢量边界数据,然后基于矢量边界数据、生态环境数据和历史疾病发病率数据,获取模型训练集数据和验证集数据,并据此构建并训练人群健康预测模型,能够揭示地级市、县级行政单元内部社会经济数据的分布特征和规律,以便更加深入、细致、全面地分析社会经济数据在地理位置上的确切值,为各领域的空间分析提供精确像素级别的数据支持,为研究长时间多地域之间多因素分析提供数据和技术指导。

为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:

图1为根据本发明实施例的基于生态环境变化的人群健康评估方法的流程图;

图2为根据本发明实施例的基于生态环境变化的人群健康评估方法的原理方框示意图;

图3为根据本发明实施例的基于生态环境变化的人群健康评估系统的逻辑框图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。

为详细描述本发明的基于生态环境变化的人群健康评估方法及系统,以下将结合附图对本发明的具体实施例进行详细描述。

图1和图2分别示出了根据本发明实施例的基于生态环境变化的人群健康评估方法的流程和原理。

如图1和图2共同所示,本发明实施例提供的基于生态环境变化的人群健康评估方法,包括以下步骤:

S110:对获取的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据。

其中,对获取的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据的步骤包括:

S111:获取所有的统计年鉴数据,统计年鉴数据包括地级市和县级单元的年鉴数据信息;

S112:将统计年鉴数据整理至excel表格中,通过excel表格的标准行列号码规范统计年鉴数据;同时,

S113:获取地级市和县级单元的地图图集,并对地图图集进行矢量化处理,获取与地图图集对应的矢量数据;

S114:基于矢量数据对规范后的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据。

在上述各步骤中,步骤S111进一步包括:利用CNKI数据库进行统计年鉴的搜索,并下载搜索到的统计年鉴数据;对搜索到的统计年鉴数据进行数据补充,以形成所有的统计年鉴数据;其中,数据补充包括从数据网和国家图书馆年间书本中抄录等统计年鉴数据。

步骤S112进一步包括:对统计年鉴数据进行数字化处理;对数字化处理后的统计年鉴数据建立excel表格的时空行列标注;其中,每一个excel表格表示一个变量,每个excel表格中的行表示空间上的同步地级市和县级单元,列表示不同的时间信息(年份)。

步骤S113进一步包括:扫描纸质的地图图集,并以图形格式存盘;其中,当地图图集存在行政区划调整时,通过新版行政区划地图和地名沿革对照表记录变化;基于扫描后的地图图集,建立一个新图层,并将新图层设为可见、可编辑模式;在新图层上调用ArcGIS工具进行路径绘制,并对绘制后的所有新图层进行汇总及拓扑检查;对拓扑检查后的新图层添加矢量属性,获取与地图图集对应的矢量数据。

具体地,首先将纸质的地图图集用扫描仪扫描后,以图形格式存盘。如遇有行政区划调整的情况,可通过新版行政区划地图和地名沿革对照表记录变化。其中,扫描图件在专业化图像处理软件中打开,然后可对扫描后的地图图集利用ArcGIS建立一个新图层,并将该图层设为可见、可以编辑。然后,在新建的图层上参考扫描地图图片调用ArcGIS工具绘制点、线、折线、圆弧、多边形、矩形等进行描路径;最后,将绘制后的所有图层汇总到一起,拓扑检查完毕后添加矢量属性,对比每年的统计年鉴数据中的地级市、县级单元的名称和区划,对每年的矢量地图进行统一。如遇有行政区划调整的情况,可单独编辑有变化的多边形,并于周边多边形保持拓扑关系。

其中,地图图集可搜集从1949年以来尽可能全面的中国地级市和县级单元的地图图集,扫描后进行地图矢量化。其中,所谓地图矢量化,就是把图像数据转换成矢量数据的处理过程。然后,利用处理后的矢量数据,参考像素化土地利用数据等遥感山歌数据,对统计年鉴数据进行像素化,这里的像素化,即在栅格像素水平上的统计数据空间化,是将Excel表格中整理的统计数据按照栅格位置放置在地图空间上的过程。

步骤S114进一步包括:基于中国逐年土地利用数据对全国的土地情况进行划分,确定每年地级市和县级单元的土地分布情况;同时,获取预设年限内的像素化的辅助数据,并判断统计年鉴中的变量的空间化类型;基于变量的空间化类型以及excel表格中每年对应的每个地级市和县级单元的标准行列号码,对统计年鉴数据进行像素化,以获取与统计年鉴数据对应的矢量边界数据。

其中,辅助数据包括人口数据、年龄结构数据以及夜间灯光数据;变量的空间化类型包括:仅人口密度相关、土地利用和夜间灯光数据结合分配、人口密度和土地利用结合分配、人口密度和年龄结构结合分配、不具有地理分配特性。

具体地,使用中国逐年土地利用数据对全国的土地情况进行划分,确定每年每个地级市和县级单元的土地分布情况,然后下载多年内的像素化的人口数据、年龄结构数据以及夜间灯光数据等辅助数据,并判断统计年鉴数据中的变量(包括:地区生产总值、地区生产总值增长率、人均地区生产总值、地方公共财政收入、地方公共财政支出、年末户籍人口、自然增长率、医院&卫生院床位数(张)、医院/卫生院数(个)、第三产业——卫生/社会保障/社会福利业年末城镇单位从业人员、工业二氧化硫产生量(吨)、工业二氧化硫排放量、工业废水排放量 (万吨)、工业烟(粉)尘产生量、工业烟(粉)尘排放量)的空间化类型,根据多方专家的先验知识和统计数据的表征含义分为a.仅人口密度相关、b.土地利用和夜间灯光数据结合分配、c.人口密度和土地利用结合分配、d.人口密度和年龄结构结合分配、e.不具有地理分配特性等空间化类型;然后,利用每个变量的上述分类情况,使用Excel中的每年对应的每个地级市和县级单元(行政单元)的数字,根据此变量所在的类别进行空间化,具体为将空间化类型内遥感数据在每个像素的值作为权重,再把该行政单元的变量值总额根据权重分配到每一个像素点上去,完成统计数据的像素化处理,获取矢量边界数据。

S120:基于矢量边界数据、与统计年鉴数据相对应的生态环境数据和历史疾病发病率数据,确定模型训练集数据和验证集数据。

具体地,生态环境数据包括行政区经纬度数据、大气污染数据、生物气候数据和生物多样性数据等,历史疾病发病率数据包括以发表文献和统计年鉴中收集的县级的对应疾病发病率数据。可知,该历史疾病可以为传染病、心血管疾病等多种类型的慢性病。

其中,行政区经纬度数据可基于2015年的全国区县边界,以十进制为单位提取各区县质心的经纬度坐标来获取,具体的年限可根据疾病类型或者评估需求进行设定。

其中,生物气候数据可基于月温度和月降水量产生,具有重要的生物学意义,可以反映年度趋势、季节性以及极端或限制性环境因素。例如,可入19种生物气候变量,如以下内容中的BIO1~BIO19,并计算1970-2000年的各生物气候数据的均值。变量缩写和对应的含义的关系如下:Amphibians-两栖类物种丰富度;bareland-裸地面积百分比;BC- BC排放量;BIO1-年平均气温;BIO2-平均日较差(月平均值(最高温度-最低温度));BIO3-等温性(BIO2/BIO7)(×100);BIO4-温度季节性(标准差×100);BIO5-最暖月份的最高温度;BIO6-最冷月份的最低温度;BIO7-温度年范围(BIO5-BIO6);BIO8-最湿季度的平均温度;BIO9-最干燥季度的平均温度;BIO10-最暖季度的平均温度;BIO11-最冷季度的平均温度;BIO12-年降水量;BIO13-最湿月份的降水量;BIO14-最干旱月份的降水量;BIO15-降水季节性(变异系数);BIO16-最湿季度的降水量;BIO17-最干旱季度的降水量;BIO18-最暖季度的降水量;BIO19-最冷季度的降水量;Birds-鸟类物种丰富度;CO- CO排放量;CO2- CO2排放量;cropland-农田面积百分比;dmsp-夜间灯光;forest-森林面积百分比;GDP-地区生产总值;GDP_rate-地区生产总值增长率;grassland-草地面积百分比;hospital_bednum-医院&卫生院床位数;hospital_num-医院&卫生院数;household_pop-年末户籍人口;impervious-不透水层面积百分比;lat-中心经度;lon-中心经度;Mammals-哺乳类物种丰富度;NH3-NH3排放量;NOx- NOx排放量;OC- OC排放量;PAHs- PAHs排放量;per_GDP-人均地区生产总值;PM10- PM10排放量;PM2.5- PM2.5排放量;pop_growthrate-人口自然增长率;revenue_in-公共财政收入;revenue_out-公共财政支出;S02_production-工业SO2产生量;shrubland-灌丛面积百分比;smoke_emission-工业烟(粉)尘排放量;smoke_production-工业烟(粉)尘产生量;SO2- SO2排放量;SO2_emission-工业SO2排放量;srtm90-高程;srtmMtpi-多尺度地形位置指数;srtmTopographicDiversity-地形多样性;tertiary_industry-第三产业(卫生&社会保障&社会福利业)年末城镇单位从业人员;TSP- TSP排放量;tundra-冻原面积百分比;wastewater_emission-工业废水排放量;water-水体面积百分比;wetland-湿地面积百分比。

其中,大气污染数据,也可称为大气污染物排放数据,包括黑炭(BC)、一氧化碳(CO)、二氧化碳(CO2)、氨气(NH3)、氮氧化物(NOx)、有机碳(OC)、多环芳烃(PAHs)、可吸入颗粒物(PM10)、细颗粒物(PM2.5)、二氧化硫(SO2)、总悬浮颗粒物(TSP)。可基于2004-2014年的上述大气污染物逐月排放数据(单位:g/km2/month),对该数据进行进一步处理,计算2004-2014年各类大气污染物的逐年排放总量,并且获取该时间序列下各类大气污染物的平均排放总量,来确定大气污染数据。

其中,生物多样性数据,包括但不限于三类物种的生物多样性总丰富度数据,包括:鸟类、哺乳类、两栖类。其中,鸟类和哺乳类的数据可更新于2018年,两栖类的数据可更新于2017年。该数据在全球范围内分别统计了10035种鸟类、5270哺乳类和6188两栖类的分布,具有较高的精确度,应用广泛,在本发明提供的基于生态环境变化的人群健康评估中,可获取全国各区县鸟类、哺乳类和两栖类的平均丰富度,以作为人群健康预测模型的输入变量。

进一步地,获取模型训练集数据和验证集数据的过程包括:基于矢量边界数据,获取地级市和县级单元的空间权重矩阵;基于空间权重矩阵,以历史疾病发病率为变量,获取单变量局部的空间自相关指数;根据空间自相关指数,获取地级市和县级单元与历史疾病发病率之间的空间关系;其中,空间关系包括高-高空间聚类、低-低空间聚类、高-低空间聚类和低-高空间聚类;基于对所述空间关系、所述矢量边界数据、生态环境数据进行聚类处理,构建所述模型训练集数据和验证集数据。

具体地,本发明中人群健康预测模型可通过空间关联的局部指标(Localindicators of spatial association, LISA),检验统计具有显著效应的万人发病率空间关系。基于空间分析软件GeoDa,实现对中国全区县的空间自相关分析。考虑到若采用全局分析,可能忽略较为明显的空间异质性,因此本发明采用局部空间自相关,以分析各区县与其领域区县的空间特征差异,充分体现局部区域的空间异质性与不稳定性。

首先,采用基于空间距离权重的自适应核方法,基于中国全区县的矢量边界数据,获取空间权重矩阵,该矩阵反映了各区县间的空间依赖关系。之后,基于区县的空间权重矩阵,以平均万人发病率为变量,计算单变量局部的Moran’s I,以反映各区县与其领域区县在万人发病率这一特征上的空间差异。Moran’s I指数的取值范围为[-1,1],该指数大于0时,所研究变量呈现空间正相关,即具有相似特征的空间对象聚集在一起,且该空间自相关指数值越大,空间相关性越明显。利用本发明的人群健康预测模型计算得到的空间自相关指数Moran’s I为0.539,该指数大于0,表明万人发病率这一特征呈现空间正相关,且具有较高的空间自相关性。

最后,还可识别各区县万人发病率这一特征的空间聚集情况。基于999次蒙特卡洛随机模拟,以0.05为标准完成显著性检验。若区县的p值>0.05,表明该区县与其领域区县的万人发病率没有显著的空间关系;若区县的p值<=0.05,表明该区县与其领域区县的万人发病率具有显著的空间关系,空间关系可以分为四类:高-高空间聚类、低-低空间聚类、高-低空间聚类和低-高空间聚类。其中,高-高空间聚类代表该区县及其领域区县都具有高万人发病率;低-低空间聚类代表该区县及其领域区县都具有低万人发病率;高-低空间聚类代表具有高万人发病率的区县,其领域区县具有低万人发病率;低-高空间聚类代表具有低万人发病率的区县,其领域区县具有高万人发病率。

此外,需要说明的是,为了提高人群健康预测模型的评估准确度,还可以将社会经济数据作为人群健康预测模型的输入变量。其中,社会经济数据包括至少15种社会经济数据,包括:地区生产总值、地区生产总值增长率、人均地区生产总值、地方公共财政收入、地方公共财政支出、年末户籍人口、自然增长率、医院&卫生院床位数(张)、医院&卫生院数(个)、第三产业——卫生&社会保障&社会福利业年末城镇单位从业人员、工业二氧化硫产生量(吨)、工业二氧化硫排放量、工业废水排放量 (万吨)、工业烟(粉)尘产生量、工业烟(粉)尘排放量。对于每个区县,计算其上述15个指标在2004-2015年的平均值,即可获取该社会经济数据。

换言之,人群健康预测模型的输入变量可包括矢量边界数据、生态环境数据,以及根据历史疾病发病率数据获取的训练集数据和验证集数据等;其中,在对统计年鉴数据进行像素化处理过程中,还需要土地覆盖地图以及人口密度地图,该土地覆盖地图以及人口密度地图可理解为上述地图图集。其中,土地覆盖数据可通过Google Earth Engine平台,基于中国逐年土地覆盖数据,提取2004-2015年逐年各区县的9种土地覆盖类型所占面积比例,包括:农地、森林、草地、灌木、湿地、水体、冻原、不透水层、荒地。基于美国国防气象卫星(Defense Meteorological Satellite Program, DMSP)夜间灯光数据,提取了各区县的2004-2015年的夜间灯光信息,该信息包含来自城市、城镇和其他具有持续照明的场所的灯光,而短暂的灯光事件,例如火灾,不被考虑在内。基于校正过的航天飞机雷达地形测绘使命(Shuttle Radar Topography Mission, SRTM)时间序列数据,提取2004-2015年逐年各区县的多尺度地形位置指数(Topographic Position Index, TRI),地形多样性(Topographic Diversity)和高程。对个各区县,提取的数据包括:9种土地覆盖类型、夜间灯光数据、地形位置指数、地形多样性数据、高程数据,共计13个指标,分别计算在2004-2015年间的平均值。

S130:基于模型训练集数据和验证集数据,构建并训练人群健康预测模型。

S140:基于训练完成后的人群健康预测模型对人群进行对应疾病的健康预测及评估。

作为具体示例,以下将以传染病为示例,阐述人群健康预测模型的构建及训练过程。

首先,基于空间系相关分析,选取总万人发病率属于高-高聚类的497个区县和属于低-低聚类的807个区县,即一共1304个区县作为样本。

从上述1304个样本中,随机抽取70%的样本作为训练样本(训练集数据),另外30%的样本作为测试样本(验证集数据),构建随机森林,并分别测试以下这8个组合:

a1:经纬度2+土地13 -> 总万人发病率

a2:经纬度2+土地13+生物多样性3 -> 总万人发病率

b1:经纬度2+土地13+气候19+生物多样性3 -> 总万人发病率

b2:经纬度2+土地13+气候19 -> 总万人发病率

c1:经纬度2+土地13+气候19+大气污染11 -> 总万人发病率

c2:经纬度2+土地13+气候19+大气污染11+生物多样性3 -> 总万人发病率;

d1:经纬度2+土地13+气候19+大气污染11+社会经济15 -> 总万人发病率;

d2:经纬度2+土地13+气候19+大气污染11+社会经济15+生物多样性3 -> 总万人发病率

注:每一类型数据其后的数字,代表该类型数据所包含的变量数量。

然后,为尽可能减少随机森林的不确定性,本人群健康预测模型,以下简称模型,重复执行了10次随机森林算法并取平均,以检验各个组合预测结果的可靠性,并实现各个输入变量的重要性分析。

其中,在每一次运行模型时,本模型分别针对上述8个组合,构建8个随机森林。每个随机森林所包含的决策树数目设定为1000;采用随机森林回归模型,用于决策树的变量个数设为输入该随机森林的变量个数的三分之一。对于每一个组合,计算并且记录10次运行中每一次该组合预测结果与验证样本之间的皮尔逊相关系数r,进一步计算10个r的均值和样本方差。如下表1所示,8个组合各自的10个r值之间的样本方差,其量级都在e-05以下,说明每组r值的变异程度很低;8个组合的r均值都超过0.6,并且随着输入模型变量个数的增多,r均值整体呈现增大的趋势,说明输入的变量越大,模型可靠性越高。

另外,下表2为每次运行模型时,每个组合相关性计算所对应的检验p值,发明里显著性水平的p值设为0.01,8个组合的p均值都远小于0.001,通过了显著性检验,因此r值所代表的相关性具有显著性。

此外,本模型还通过两个指标,即IncMSE和IncNodePurity,评估全部63个输入变量的重要性。其中,IncMSE代表对每一个变量随机赋值时预测结果均方误差(MSE)的增加量,该值越大,代表该变量对预测结果的影响越大,重要性越高;IncNodePurity反应每个变量RSS(残差平方和)的减少,IncNodePurity增加代表基尼指数减少,该值越大,对应变量的重要性越大。

鉴于IncMSE和IncNodePurity都与变量重要性呈现正相关,为了更加直观地表示各输入变量的重要性,本模型分别根据IncMSE和IncNodePurity,将各变量按降序排列,并记录其排名。即排名为1的变量,在所有变量中具有最高的重要性。在每次模型运行中,可得到8组变量重要性排名(对应于8个输入变量组合),计算各个变量所具有的8个排名的均值。鉴于8个组合的输入变量数目不同,只有d2组包含全部63个变量,因此计算变量均值时,忽略空值,仅计算包含当前变量的所有组合,其对应排名的均值。

综上所述,基于IncMSE和IncNodePurity两个指标,确定63个变量在模型中的重要性,其流程如下:

首先,得到每次模型运行时,各变量在8个组合中的重要性排名均值,将该均值视为对应变量在本次模型运行中的最终重要性排名;其次,进一步计算模型运行10次时,每个变量所具有的10个最终重要性排名的均值。其特征重要性排序如下表3-1、表3-2、表3-3、表4-1、表4-2和表4-3所示,上述各表中变脸代表的含义可参考以上变量缩写和对应的含义的关系。

可知,基于上述IncMSE和IncNodePurity的两套重要性排序,在重要性排名前十的变量中,有9个重合变量,分别为:lon,cropland,BIO13,dmsp,BIO16,GDP_rate,BIO18,BIO12,BIO14,说明这些变量是评估传染病发病率的关键变量。

根据本发明提供的基于生态环境变化的人群健康评估方法,可以揭示地级市、县级行政单元内部社会经济数据的分布特征和规律,以便更加深入、细致、全面地分析社会经济数据在地理位置上的确切值,为各领域的空间分析提供精确像素级别的数据支持,为研究长时间多地域之间多因素分析提供数据和技术指导。

与上述基于生态环境变化的人群健康评估方法相对应,本发明还提供一种基于生态环境变化的人群健康评估系统。

图3示出了根据本发明实施例的基于生态环境变化的人群健康评估系统的逻辑。

如图3所示,本发明实施例的基于生态环境变化的人群健康评估系统200,包括:矢量边界数据获取单元210,用于对获取的统计年鉴数据进行像素化处理,以获取与统计年鉴数据对应的矢量边界数据;训练及验证数据获取单元220,用于基于矢量边界数据、与统计年鉴数据相对应的生态环境数据和历史疾病发病率数据,确定模型训练集数据和验证集数据;模型构建及训练单元230,用于,基于模型训练集数据和验证集数据,构建并训练人群健康预测模型;健康预测及评估单元240,用于基于训练完成后的人群健康预测模型对人群进行对应疾病的健康预测及评估。

需要说明的是,本发明提供的基于生态环境变化的人群健康评估系统200的实施例可参考上述基于生态环境变化的人群健康评估方法实施例中的阐述,此处不再一一赘述。

根据本发明上述提供的基于生态环境变化的人群健康评估方法及系统,利用CNKI数据库和其他数据来源的方式,最大程度地保证数据的完整准确性和可靠性,同时根据时间、空间、变量三维度建立Excel数字化统计年鉴数据库,按照实际需求对扫描中国地级市、县级地图图库,并进行矢量化和修正,最终依靠土地利用数据、人口数据、年龄结构数据、夜间灯光数据等像素级遥感数据的支持,通过上面的步骤和方法,实现了全国县级、地市级行政单元的统计年鉴数据的空间像素化。能够揭示地级市、县级行政单元内部社会经济数据的分布特征和规律,以便更加深入、细致、全面地分析社会经济数据在地理位置上的确切值,为各领域的空间分析提供精确像素级别的数据支持,为研究长时间多地域之间多因素分析提供数据和技术指导。

如上参照附图以示例的方式描述根据本发明的基于生态环境变化的人群健康评估方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于生态环境变化的人群健康评估方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号