首页> 中国专利> 无监督降维密度聚类的农作物供应链危害物风险判断方法及系统

无监督降维密度聚类的农作物供应链危害物风险判断方法及系统

摘要

本发明提出了一种无监督降维密度聚类的农作物供应链危害物风险判断方法,所述方法包括:获取数据样本集合,所述数据样本集合中包含有风险指标;对所述数据样本集合中的风险指标进行向量编码化及标准归一化预处理获得包含有标准化数据向量的数据样本集合;对所述包含有标准化数据向量的数据样本集合进行特征降维,获得包含有高维度特征向量的数据样本集合;对所述包含有高维度特征向量的数据样本集合进行聚类计算筛选获得风险等级聚类中心;对所述风险等级聚类中心周边数据进行邻域搜索,获得风险判断结果。本发明能够对不同农作物及食品的风险情况进行分级评估。

著录项

  • 公开/公告号CN113159546A

    专利类型发明专利

  • 公开/公告日2021-07-23

    原文格式PDF

  • 申请/专利权人 北京工商大学;

    申请/专利号CN202110386361.4

  • 申请日2021-04-12

  • 分类号G06Q10/06(20120101);G06K9/62(20060101);G06N3/08(20060101);G06Q50/02(20120101);

  • 代理机构11955 北京文慧专利代理事务所(特殊普通合伙);

  • 代理人戴丽伟

  • 地址 100036 北京市海淀区阜成路33号

  • 入库时间 2023-06-19 11:57:35

说明书

技术领域

本申请涉及食品安全领域,尤其涉及一种无监督降维密度聚类的农作物供应链危害物风险判断方法及系统。

背景技术

农作物是人们日常生活中不可或缺的产品,包括粮食作物与经济作物,影响着国家主权安全及经济、社会稳定发展。然而近些年农作物质量安全问题多有发生,为减少食源性风险威胁,风险分级评价正逐渐成为强化粮食食品安全体系的有力保障。其基本内容指基于科学层面对危害物及潜在危害可能产生的风险进行技术性评估,是结合食品特性、食品的污染水平、膳食暴露等各项因素对食源性危害物的污染水平进行等级划分,在众多复杂食品安全问题中量化风险级别、识别风险优先次序。世界卫生组织(WHO)和联合国粮农组织(FAO)指出食品安全风险分级评价是一个结构化的决策过程,和风险管理、风险交流、风险防控等密切相关,可以帮助风险评估者准确把握不同危害物的风险概率差异,指导风险管理明确优先及重点监管对象,合理分配资源决策相应管理措施。目前风险分级评价方法主要包括两方面:

1)指标体系法:从食品抽检、调研统计等数据中,抽取显著因素及潜在因素,构建风险分级评价指标体系进行风险量化分级。该类方法需要综合化学性危害物、食源性疾病的暴发流行病学数据特性,对相应区域食品安全监督抽检数据进行评定,依托定性或半定性风险评估机理为基础,构建食品风险分级指标体系,分析评价出需要重点关注的食品安全高风险组合。

2)分级模型方法:考虑食品的多样性、危害物的多样性、各危害物毒性差异和评价指标关联性,兼顾生长及扩散等因素,以定量或半定量方式对风险发生的可能性和严重程度进行量化赋值、权重计算和等级排序。常见模型包括概率暴露评估模型、决策评估模型、sQMRA模型、FIRRM模型、iRisk方法、模糊综合评价法、集对分析法等,这些方法在综合考虑了食品、危害物的多样性以及危害物毒性的差异性基础上,运用各类统计分析及机器学习算法构建相应危害物风险评价模型,挖掘各类指标间的内在关联,探究不同各类别危害物的风险等级及概率指数。

目前,各类风险评价技术在食品安全评估、预防及监管工作中获得了一定的应用,但农作物供应是一个涉及种植、生产加工、流通仓储、销售消费等多环节的过程,其中任何一个环节都存在不同类别和程度的危害物风险因素,且每个因素受到食品多样性、数据多源异构、地区分布差异、时间变化性等影响。而农作物供应链危害物的风险分级评价所涉及指标众多,且灾害程度及对社会稳定造成的影响是多方面,传统风险分级方法难以适用。特别是上述传统方法在风险分析过程中依赖的是计量数据及统计数据,且其分析过程中指标量化和权重分配存在过多人为设定,缺乏真实抽检监督客观数据验证,忽略了供应链环节内多维异构食品数据对危害物风险作用机理过程,难以在实际应用中挖掘危害物在供应链环节内的耦合作用机理,导致容易从数理统计上获取违背实际关联规律的伪结论。

发明内容

为解决上述技术问题之一,本发明提供了一种无监督降维密度聚类的农作物供应链危害物风险判断方法及系统。

本发明实施例第一方面提供了一种无监督降维密度聚类的农作物供应链危害物风险判断方法,所述方法包括:

获取数据样本集合,所述数据样本集合中包含有风险指标;

对所述数据样本集合中的风险指标进行向量编码化及标准归一化预处理获得包含有标准化数据向量的数据样本集合;

对所述包含有标准化数据向量的数据样本集合进行特征降维,获得包含有高维度特征向量的数据样本集合;

对所述包含有高维度特征向量的数据样本集合进行聚类计算筛选获得风险等级聚类中心;

对所述风险等级聚类中心周边数据进行邻域搜索,获得风险判断结果。

本发明实施例第二方面提供了一种无监督降维密度聚类的农作物供应链危害物风险判断系统,所述系统包括处理器,所述处理器,其被配置有处理器可执行的操作指令,以执行如下操作:

获取数据样本集合,所述数据样本集合中包含有风险指标;

对所述数据样本集合中的风险指标进行向量编码化及标准归一化预处理获得包含有标准化数据向量的数据样本集合;

对所述包含有标准化数据向量的数据样本集合进行特征降维,获得包含有高维度特征向量的数据样本集合;

对所述包含有高维度特征向量的数据样本集合进行聚类计算筛选获得风险等级聚类中心;

对所述风险等级聚类中心周边数据进行邻域搜索,获得风险判断结果。

本发明的有益效果如下:本发明针对供应链中存在的主要危害物,构件了一种无监督降维密度聚类的危害物风险判断方法,能够对不同农作物及食品的风险情况进行分级评估。本发明无需人工提前设定的风险评价指标,以纯粹地数据驱动方式挖掘各类危害物在不同供应链环节分布的内在关联,自适应地计算危害物因素的风险权重,更科学地评价农作物各供应链环节上各类危害物的风险分级情况,避免主观预定风险等级数量和划分限值干扰,为供应链危害物风险重点确定、监管优先秩序安排等工作提供针对性可信方案,提高管理效率,减少相关食品安全事故的发生。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本发明实施例1所述的无监督降维密度聚类的农作物供应链危害物风险判断方法的流程图;

图2为主成分分析法的原理示意图;

图3为本发明实施例1所述的核主成分分析法的原理示意图;

图4为本发明实施例1所述的局部密度示意图;

图5为本发明实施例1所述的综合评价参数筛选聚类中心原理示意图;

图6为本发明实施例1所述的密度峰值聚类原理示意图,其中,(a)为二维数据聚类,(b)为聚类中心划分图;

图7为实例中所述的风险等级密度聚类结果示意图;

图8为实例中所述的风险等级密度聚类结果三维图;

图9为实例中所述的部分危害物风险等级统计结果示意图;

图10为实例中所述的农作物供应链中各类危害物风险等级分布情况示意图;

图11为实例中所述的各供应链环节内危害物风险等级分布情况示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示,本实施例提出了一种无监督降维密度聚类的农作物供应链危害物风险判断方法,该方法包括:

S101、获取数据样本集合。

具体的,本实施例以食品安全抽检数据为基础,针对供应链中存在的主要危害物(重金属、真菌毒素、农药残留和食品添加剂等),构建一种无监督降维密度聚类的危害物风险判断方法。以全国主要农业生产省市的各类危害物进行实例分析。搜集整理国家粮食局、国家质检总局等网站公布的信息和数据,按照重金属、真菌毒素、微生物、食品添加剂、农药残留等危害物安全问题类别及其供应链环节来源进行分类整理和预处理,收集一段时间内的大量粮食加工品抽检数据的危害物类别及其来源,涵盖中国粮食食品的主要产区和消费大省。

鉴于粮食安全受到政策法规、经济和社会等等众多因素影响,而粮食供应链涵盖从种植、生产加工、仓储物流,到最后在商场、超市及其他餐饮场所销售消费等众多环节,各环节都可能出现安全隐患和风险因素。本实施例可通过对文献和食品行业专业网站、新闻媒体信息的分析及预处理,得到一段时间内食品安全事故的危害物类别及其来源数据(例如2013-2018年期间),将其并入抽检数据中完成数据扩容,构建一个共有21027个样本的数据集合,每个数据样本包含了30个风险指标,反映供应链中各个风险因素情况。

S102、对所述数据样本集合中的风险指标进行向量编码化及标准归一化预处理获得包含有标准化数据向量的数据样本集合。

具体的,鉴于数据样本集合中各风险指标中既存在英文、汉字、占位符等类别差异,又存在数值型、逻辑性、字符型及浮点型等多种结构类型数据。如果将这些风险指标直接输入到云平台服务器或计算机中进行处理,将直接导致没法存储和分析。此外,各风险指标值均不符合近似正态分布,直接输入危害物风险判断模型会导致较差的等级划分结果。因此,需要先对不同类别和结构的风险指标进行编码,使半结构化、结构化数据转化为结构化数值型。

本实施例采用独立热编码(One Hot Encoder)和Embedding编码对数据样本集合进行编码,使不同风险指标之间的高维距离趋近相同。首先采用独立热编码将数据样本集合中的每列风险指标的不同类型的特征值进行0/1二值化处理。以生产省份指标为例,选择河南、山东、黑龙江、江苏、安徽这5个类型特征为基础,经过向量编码操作之后,变成了北京10000、湖南01000、河北00100、湖北00010、广西00001,非结构化的地区指标编码为结构化的数字类型特征,而且不存在数字大小的问题。然而考虑食品数据中生产省份包含众多地区,随着维度急剧增加,会产生大量冗余的稀疏矩阵,加重了计算机的计算量,使得计算机做一些无用的操作,却对危害物风险判断过程本身也没有性能提升作用。因此,本实施例继续采用Embedding编码进行矩阵权重嵌入,将样本中某个指标第i个特征值投影到高维空间进行编码,如下式所示:

其中,δ是克罗内克函数,α表示风险指标内所有特征值,当α=x

使用Embedding编码嵌入来表示所有类别特征之后,所有连续变量的输入被映射连接起来,与独热编码相比,不仅减少了特征维度,也有效避免大量计算资源和内存使用,便于后续的数据处理和判断模型训练。

通过数据样本集合可以看到,不同样本的各个风险指标含义以及数值范围都不尽相同,而同个风险指标的特征取值也相差甚远,一些异常大小数据以及离散分布规律会导致模型正确训练。为了让不同的属性指标具有可比性,模型更好的理解数据的含义,同时消除属性量纲的影响,本实施例对向量编码后得到的数值型属性进行线性归一化和标准化处理。对数值型属性进行线性变化,使结果映射到[0,1]的范围,实现对数值型属性的等比缩放。归一化过程如下式所示:

其中

其中,μ为训练集的平均标准值,s训练集标准均方差,y为标准归一化后数据结果,最终将所有风险指标取值相差较远的数据限制到相同范围内。

S103、对所述包含有标准化数据向量的数据样本集合进行特征降维,获得包含有高维度特征向量的数据样本集合。

具体的,鉴于数据样本集合呈现非线性、多源异构分布等特性,过多维度和数据结构有时过犹不及,在实际分析应用中反而会产生更坏的性能。传统的简单线性的主成分分析(Principal Component Analysis,PCA)方法对原向量空间中两两相关的变量通过映射的方式变换到一个新的坐标中成为互不相关的新向量,能够极大的保留原变量的信息。如图2所示,PCA将n维的数据集合特征降到新组成的p个主成分向量,如果得到主成分向量间有最大方差,表示所含有信息量也最大。设输入数据集合X=(X

其中a

(x

其中x

引入核函数,使得输入的原始样本点变换为高维特征空间中的样本点,得到特征空间协方差矩阵如下式所示:

求解特征方程的特征值λ以及对应的特征向量ν如下式所示:

λ(Φ(x

由于特征向量可以由数据集线性表示,则ν可以由Φ(x

其中,s

本实施例通过该隶属度值计算每个数据样本距离正类和负类的类中心,通过比较样本点到正类和负类之间的欧氏距离来判断其隶属情况。隶属度函数表示为:

当正类样本到正类中心的距离小于到负类中心的距离时,则视为“有用点”,隶属度为1,当到正类中心距离大于到负类中心距离时,则视为“噪点”,其隶属度取值根据距离函数来计算,如此将不同数据更合理地划分到相应特征向量中去。

本实施例通过隶属度优化的核主成分分析方法,将包含有标准化数据向量的数据样本集合集合投影到非线性可分的高维空间中,提取出各个指标中表征关键风险因素的主成分分类,实现无监督地维度降低和数据量、计算量压缩,为自适应挖掘供应链危害物的风险判断等级提供了基础。

S104、对所述包含有高维度特征向量的数据样本集合进行聚类计算筛选获得风险等级聚类中心,对所述风险等级聚类中心周边数据进行邻域搜索,获得风险判断结果。

具体的,在对各指标不同特征值降维处理、提取关键风险因素的主成分分量基础上,选用数据驱动的密度峰值聚类方法对各类危害物的风险分布及等级进行无监督聚类分析,依据三个基本原则自动筛选出风险等级聚类中心:(1)风险聚类中心所在的特征空间内局部密度较大,任何一个风险聚类中心周围被其他密度较小且距离较近的样本包围;(2)风险聚类中心与具有更高密度的其他样本具有比较大的距离,也就是不同风险等级的聚类中心之间的距离较远;(3)存在离群噪音的样本的局部密度更小,且比其他的样本的距离更远。具体实现过程如下:

S1041、局部密度非线性估计。

基于密度峰值聚类方法对危害物的风险分布情况进行描述,设风险等级局部密度值为ρ

其中,D

其中,w表示维度常数,而f表示非参数核函数。约束核函数表达式满足原点对称约束,且核函数的不定积分总值为1,得到高斯估计的核函数:

带入高斯核函数,得到局部密度的高斯核密度估计形式:

从上式可知,对于某个特征向量的局部密度,其非参数核估计结果的优劣受到截断距离直接影响。当D

S1042、高密度距离最小值计算。

在确定截断距离最优解后,比如某样本v

δ

其中,δ

v

其中,ρ

v

S1043、综合评价参数优化聚类中心筛选

在局部密度值和高密度距离最小值两个参数构建的二维平面中,传统密度峰值聚类方法可以通过需要人为观察情况,经验性设置局部密度阈值ρ

γ

可以看出,当γ

其中u

γ

计算每个样本的综合评价函数值,按照升序排列如下式所示:

γ

按照每个样本的综合评价函数值确定了聚类中心后,对于不是聚类中心的样本,按照其所属的升序标签序号绘制γ

当c个样本为聚类中心,则需要将数据集中的其他样本,按其所属的局部密度划分到相应的类簇中。假设综合评价参数分析出v

V

C

其中存在k个风险等级聚类中心集合{v

实施例2

对应实施例1,本实施例提出了一种无监督降维密度聚类的农作物供应链危害物风险判断系统,所述系统包括处理器,所述处理器,其被配置有处理器可执行的操作指令,以执行如下操作:

获取数据样本集合,所述数据样本集合中包含有风险指标;

对所述数据样本集合中的风险指标进行向量编码化及标准归一化预处理获得包含有标准化数据向量的数据样本集合;

对所述包含有标准化数据向量的数据样本集合进行特征降维,获得包含有高维度特征向量的数据样本集合;

对所述包含有高维度特征向量的数据样本集合进行聚类计算筛选获得风险等级聚类中心;

对所述风险等级聚类中心周边数据进行邻域搜索,获得风险判断结果。

其中,该系统的具体工作原理以及计算过程可参照实施例1所记载的内容,在此不再进行赘述。

本申请在编码及标准化数据预处理基础上,使用高斯核主成方法对原始数据进行降维处理,提取多源异构指标中的关键风险因素,降低了原始输入数据的复杂度与计算难度;继而使用了优化的密度峰值聚类方法来进行无监督聚类分析,设计综合评价函数来选定优化聚类中心点筛选及邻域搜索过程,减少了人为主观因素干扰影响,以无监督数据驱动方式实现农作物供应链中各类危害物风险等级自主评价及高低分布排序,有效解决传统评价方法准确率低、运行时间长、需要大量人工成本等问题,提高政府监管机构、企业商家及消费者对农作物供应链风险评价准确率和可靠性,有力保证农作物质量安全及供应链生产。下面,结合实例进一步具体说明本申请的实际应用效果。

首先对实验所使用的数据进行说明,实验使用的是包括30个风险指标、包含21027个样本数量的粮食数据集。本实例的目的是如何在没有人为添加标签的情况下实现对供应链危害物的风险等级的自动评估,供应链中的风险指标如表1所示。

表1

从表1中可以看出风险指标中存在着生产、消费等可以被量化的指标,也存在着食品类别、环节等无法量化的风险指标,因此使用了独立热编码与Embedding编码对数据进行数字化。为了让不同的属性指标具有可比性,模型更好的理解数据的含义,同时消除属性量纲的影响,对预处理得到的数值型属性进行线性归一化和标准化处理,处理后的部分数据如表2所示。

表2

从表2中可以看出,经过了独立热编码与Embedding编码以及归一化、标准化后的数据中的食品类别、环节等这些非数字量表示的风险指标已经变成了数字化表示,并且所有的数据都被收缩到了0-1的区间内。

使用KPCA方法对包含30个风险指标以及21027个样本数量的多维异构数据进行降维处理,经过KPCA的提取,我们得到了风险指标成分的总方差数据如表3所示以及风险指标成分矩阵如表4所示。

表3

从表3中可以看出在初始特征一栏大于1的特征值只有前面6个成分,前6个成分构成的信息占总信息的93.325%,基本上保留了原变量的信息,所以提取前6个成分为主成分。根据主成分的权重计算方式能够计算出主成分的权重,计算方式如下式所示:

其中,ω

设提取的第i个主成分的得分为F

F

其中,m

表4

再根据各主成分的权重建立综合评价得分数学模型,公式如下所示:

其中,Q代表综合得分,ω

根据对某些危害物的风险等级案列分析,下面展示了根据综合评价得分得出的不同区域环节的危害物风险等级,通过对比每个危害物总得分,划分为安全等级I,较安全等级II,预警等级III,较低危险等级IV,中危险等级V,较高危险等级VI,高危险等级VII、超高危险等级VIII共8个等级。如表5所示:

表5

根据危害物的风险等级,对粮食数据中的真菌毒素、重金属、微生物和非法添加剂在农村和城市的风险等级进行数据统计,如表6所示。

可以看出,城市中的玉米赤霉烯酮、铬的风险等级低于农村,其余部分危害物的风险高于农村危害物的风险等级或者持平,这是因为城市的粮食供应链相对更加复杂。整体来看,非法添加剂的风险等级最高,微生物的风险等级最低,位于中间的是真菌毒素和重金属的风险等级。

表6

根据核主成成分分析方法提取出风险主成分进行特征降维表征,采用基于无监督密度峰值聚类从数据中自适应挖掘供应链危害物风险评价。采用基于Python开发环境的scikit-learn机器学习库,进过无监督聚类运算后分为八类,结果如图7所示。

通过观察图8的三维散点图可见,各个类别被很好的区分开来。基于无监督密度峰值聚类实现了无监督聚类风险等级自动划分,分别为安全等级I,较安全等级II,预警等级III,较低危险等级IV,中危险等级V,较高危险等级VI,高危险等级VII、超高危险等级VIII共8个等级,安全等级I的风险等级最低,超高危险等级VIII的风险等级最高,风险等级划分如表7所示。

表7

可以得到安全等级I共有7200个,较安全等级II共有7025个,预警等级III共有2917个,低危险等级IV共有1884个,中危险等级V共有764个,较高危险等级VI共有482个,高危险等级VII共有450个、超高危险等级VIII共有305个。不同类整体上明显分开,有两类有交叉重叠部分,聚类效果良好,可见通过无监督的聚类方式,实现了风险等级的自动划分。在21027个样本中危险等级比重占比不大,说明近几年我国粮食安全风险从总体来看情况乐观,这主要与近年来我国相关的法律法规越来越完善,食品安全监控体系不断健全的原因有关。但预警等级还是存在,因此需要继续建立健全相关法规,并对一些高危险地区的食品进行重点监管,保障粮食供应链的安全。

本实例采用轮廓系数来评价聚类结果的质量,给定一点p,对该点的轮廓系数定义如下所示:

其中a(p)是点p和同一簇中的其他点p之间的距离,b(p)是点p与另一个不同簇中的之间的最小平均距离。a(p)反映的是p所属簇中数据的紧凑程度,b(p)反映的是该簇与其他临近簇的分离程度。显然,b(p)越大,a(p)越小,对应的聚类质量越好,所以采用轮廓系数s(p)求平均值来衡量最终聚类结果的好坏。轮廓系数取值范围是[-1,1],同类样本距离相近且不同类别样本距离越远,分数就越高。经计算本实例聚类的轮廓系数为0.56,说明了聚类质量好。

图9展示了本实例统计部分样本中各危害物的占比,观察可知在统计的样本中,铝的残留量、镉的含量在绝大部分的样本中均被检测到,是危害物风险检测的重点对象;图10展示了通过本实例的聚类方法统计的部分的样本的危害物等级情况,可以看出铝与镉的含量属于安全级别(II)的占比非常低,说明在供应链中应该对铝与镉的含量进行重点检测。

另外通过统计各危害物的风险等级,还可以分析供应链各环节中风险等级的分布,如图11所示。可以看到,在不同的供应链环节中,危害物的风险等级分布不一。整体来看,安全等级I在各个环节所占比重较大,而风险等级VIII在生产环节中较大,说明了在生产阶段比较容易产生一些危害物风险,在消费环节很少出现风险高的样本,说明了供应链消费环节的风险控制比较好。根据该结果能够对容易出现高风险的环节进行重点把控。

综上,根据实例的实验结果可以看出,本申请通过无监督密度峰值聚类的方法可以实现根据各项指标对农作物供应链中危害物风险的自适应分级,实施农作物安全预警。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号