首页> 中国专利> 广义模糊K调和均值聚类的生菜贮藏时间判定方法

广义模糊K调和均值聚类的生菜贮藏时间判定方法

摘要

本发明公开一种广义模糊K调和均值聚类的生菜贮藏时间判定方法,首先用近红外光谱仪采集不同贮藏期的生菜样本的近红外光谱,然后用后向间隔偏最小二乘判别分析进行光谱波段选择和降维处理,再用线性判别分析提取近红外光谱的鉴别信息,对鉴别信息运行模糊C-均值聚类得到初始聚类中心,最后用广义模糊K调和均值聚类方法对生菜贮藏时间进行判定,具有检测速度快,判定准确率高,无污染,对生菜不造成损坏等优点。

著录项

  • 公开/公告号CN104573739A

    专利类型发明专利

  • 公开/公告日2015-04-29

    原文格式PDF

  • 申请/专利权人 江苏大学;

    申请/专利号CN201410745142.0

  • 发明设计人 武小红;武斌;嵇港;孙俊;

    申请日2014-12-09

  • 分类号G06K9/66;G06K9/46;

  • 代理机构南京经纬专利商标代理有限公司;

  • 代理人楼高潮

  • 地址 212013 江苏省镇江市京口区学府路301号

  • 入库时间 2023-12-18 08:25:28

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-22

    未缴年费专利权终止 IPC(主分类):G06K9/66 授权公告日:20180417 终止日期:20181209 申请日:20141209

    专利权的终止

  • 2018-04-17

    授权

    授权

  • 2015-05-27

    实质审查的生效 IPC(主分类):G06K9/66 申请日:20141209

    实质审查的生效

  • 2015-04-29

    公开

    公开

说明书

技术领域

  本发明涉及一种生菜贮藏时间判定方法,具体涉及一种广义模糊K调和均值聚类方法和近红外光谱技术的生菜贮藏时间判定方法。

背景技术

生菜中含有丰富的营养物质,它是人们经常食用的蔬菜之一。随着人们生活水平的不断提高,对生菜的品质要求越来越高。另一方面,随着社会的进步,工作繁忙的人们没有时间买菜,喜欢一次买很多蔬菜放在冰箱里慢慢吃,但是随着贮藏时间的增加,生菜中的亚硝酸盐和微生物会递增从而破坏了生菜品质而导致不能食用。所以贮藏时间是影响生菜品质的重要因素,因此研究一种简单、快速、非破坏的生菜贮藏时间的判定方法是非常必要的。

近红外光谱技术是根据样品内有机官能团(O-H、C-H、N-H、S-H)的自身振动吸收近红外光谱区相应波长的能量,从而在光谱中产生能量跃迁的表现。近红外光谱分析技术源起于20世纪70年代,是一种高效、快速的现代分析技术。其综合运用了光谱技术、计算机技术和化学计量学等多个学科的最新研究成果,因其独特的优点从而广泛应用于多个领域,特别是在农产品和食品的无损检测领域。

在近红外光谱定性建模分析中,偏最小二乘判别分析(PLSDA)是常用的定性建模分析方法。然而PLSDA是利用全光谱区域建立定性模型,这就导致在建模过程中容易受到光谱中的噪声信息以及其他一些冗余信息的干扰,这些无关信息在预处理中很难全部消除,最终影响了预测模型的预测准确度。

模糊K调和均值聚类(赵恒,杨万海,张高煜. 模糊K-Harmonic Means 聚类算法,西安电子科技大学学报(自然科学版),2005,32(4):603-606.)是将模糊的概念应用到K调和均值聚类(B. Zhang, M. Hsu, U. Dayal, K-harmonic means – a data clustering algorithm, Technical Report HPL-1999-124, Hewlett-Packard Laboratories, 1999.),保留了K调和均值聚类对初始值不敏感的优点,同时提高了聚类准确度。模糊K调和均值聚类采用欧式距离作为度量方式,欧式距离适合簇形状是超椭球,对于有锐角的“盒状”簇则聚类效果不理想(Bobrowski L, Bezedek JC. C-means clustering with the l1 and l norms. IEEE Trans. on SMC, 1991,21(3): 545~554.)。

在生菜检测时获取的近红外光谱一般为高维数据,经过维数压缩和特征提取后数据的簇拓扑结构不一定满足超椭球形状,若用模糊K调和均值聚类进行数据分类时还用欧式距离来度量则聚类效果欠佳。

发明内容

针对上述现有的模糊K调和均值聚类方法的缺陷以及现有生菜检测技术的不足,本发明提出一种基于广义模糊K调和均值聚类和近红外光谱的生菜贮藏时间判定方法,采用后向间隔偏最小二乘判别分析进行光谱波段优选,采用基于P范数距离的广义模糊K调和均值聚类进行生菜近红外数据的分类,以解决偏最小二乘判别分析的冗余信息干扰问题以及模糊K调和均值聚类方法只能聚类超椭球簇的问题,扩展模糊K调和均值聚类方法的数据适用范围。

本发明采用的技术方案是包括以下步骤:

1)将每个贮藏时间的生菜样本分为训练样本和测试样本,用近红外光谱仪获取训练样本和测试样本的近红外漫反射光谱;

2)建立训练样本类别信息矩阵,将训练样本的近红外光谱平均地划分为若干个等宽的子光谱区域,每次去除1个子光谱区域,使剩余的光谱区域中的训练样本光谱值与类别信息矩阵进行偏最小二乘回归所得交互验证均方根误差最小,最后1个子光谱区域;根据均方根误差最小原则选取训练样本的数个子光谱区域,测试样本选取的数个子光谱区域和训练样本选取的数个子光谱区域相同;将选取的子光谱区域的训练样本光谱值与类别信息矩阵进行偏最小二乘回归得到特征向量,将选取的子光谱区域的测试样本投影到特征向量后得到光谱波段优选和维数降低的测试样本;

3)采用线性判别分析提取经过光谱波段选择和降维处理后的生菜样本近红外光谱的生菜不同储藏时间的鉴别信息;

4)对鉴别信息运行模糊C-均值聚类以得到初始聚类中心;

5)根据初始聚类中心运行广义模糊K调和均值聚类方法得到在第r次迭代终止时的模糊隶属度                                                   ,根据第i个样本中模糊隶属度   的最大值所对应的j值,即判定第i个样本属于第j类,以此实现生菜贮藏时间的判定; i=1,2,……。n j=1,2,……,k,n是生菜近红外漫反射光谱样本数,k是样本类别数。

本发明用近红外光谱技术获取生菜的近红外光谱,用后向间隔偏最小二乘判别分析进行光谱波段选择和降维处理,用线性判别分析提取鉴别信息,运行模糊C-均值聚类以得到初始聚类中心,用广义模糊K调和均值聚类方法进行生菜贮藏时间的判定。本发明可实现生菜贮藏时间的准确判定,具有检测速度快,判定准确率高,无污染,对生菜不造成损坏等优点。

附图说明

图1是本发明的流程图;

图2是生菜样本的漫反射近红外光谱图;

图3是后向间隔偏最小二乘判别分析选择的子光谱区域;

图4 是LDA特征提取后得到的二维数据图。

图5 是广义模糊K调和均值聚类的模糊隶属度图。

具体实施方式

生菜的近红外漫反射光谱包含了生菜内部品质信息,贮藏时间不同的生菜其内部品质不同,所对应的近红外漫反射光谱也不相同。参见图1,本发明首先用近红外光谱仪采集不同贮藏期的生菜样本的近红外光谱,然后用后向间隔偏最小二乘判别分析进行光谱波段选择和降维处理,再用线性判别分析提取近红外光谱的鉴别信息,对鉴别信息运行模糊C-均值聚类得到初始聚类中心,最后用广义模糊K调和均值聚类方法对生菜贮藏时间进行判定。具体如下:

生菜样本近红外光谱的采集:采集不同贮藏时间的生菜样本,将每个贮藏时间的生菜样本分为训练样本和测试样本,用近红外光谱仪获取训练样本和测试样本的近红外漫反射光谱。

用后向间隔偏最小二乘判别分析进行光谱波段选择和降维处理。具体是:

1. 用标准正态变量变换(SNV)预处理方法对生菜样本的近红外漫反射光谱进行预处理

2. 建立训练样本类别信息矩阵   :   ,其中,     为训练样本数,   为类别数,   (i, j )= 1 表示第i 个样本属于第j类,反之   (i, j )= 0表示第i 个样本不属于第j类。

3.将训练样本的近红外光谱区域平均地划分为若干个等宽的子光谱区域,然后每次去除1个子光谱区域,使剩余的光谱区域中的训练样本光谱值与类别信息矩阵Ytrain进行偏最小二乘回归所得交互验证均方根误差(RMSECV)最小,直至最后1个子光谱区域。根据均方根误差最小原则选取训练样本的数个子光谱区域。然后根据选取的训练样本的数个子光谱区域确定测试样本的数个子光谱区域,即测试样本选取的数个子光谱区域和训练样本选取的数个子光谱区域相同。

4.根据选取的子光谱区域的训练样本光谱值与类别信息矩阵Ytrain进行偏最小二乘回归得到特征向量,将选取的子光谱区域的测试样本投影到特征向量后得到光谱波段优选和维数降低的测试样本。

光谱波段选择和降维处理后,采用线性判别分析(LDA)提取经过光谱波段选择和降维处理后的生菜样本近红外光谱的鉴别信息。先对经过光谱波段选择和降维处理后的训练样本光谱进行线性判别分析得到LDA的鉴别矢量集,然后将经过光谱波段选择和降维处理后的测试样本光谱投影到LDA的鉴别矢量集得到测试样本的鉴别信息,该鉴别信息是体现生菜不同储藏时间的鉴别信息。

对鉴别信息运行模糊C-均值聚类以得到初始聚类中心。模糊C-均值聚类的参数设置为:类别数为3,权重指数为2,最大迭代数为100次,误差上限为0.00001。模糊C-均值聚类迭代终止后得到聚类中心作为广义模糊K调和均值聚类方法的初始聚类中心。

用广义模糊K调和均值聚类方法进行生菜贮藏时间的判定。根据得到的初始聚类中心运行广义模糊K调和均值聚类方法得到模糊隶属度,根据模糊隶属度可实现生菜贮藏时间的判定。具体是:

1.初始化

固定生菜近红外光谱样本数n),样本类别数   ,权重指数   )和范数

     ,最大迭代数   ,误差上限值   ,将运行模糊C-均值聚类以得到的初始聚类中心作为广义模糊K调和均值聚类方法的初始聚类中心    ,=1。

2.计算第rr=1,2,……,   )次迭代时的隶属度值   

 。隶属度值   表示第r次迭代计算时第ii=1,2,……,n)个样本隶属于第jj=1,2,……,k)类的隶属度值,   ,    为    的   范数距离,    为第i个样本,    为第r-1次迭代时第j类的类中心,   ,    为第r-1次迭代时第l类的类中心,l=1,2,……,k

3.计算第r次迭代时的类中心    (j=1,2,……,k),

 ,其中    为第r次迭代时第j类的类中心;

当    或者   时,迭代结束;否则,r=r+1,返回步骤2继续迭代计算。

根据模糊隶属度可实现生菜贮藏时间的判定,若在第r次迭代终止时的模糊隶属度为    ,则第i个样本中的最大值所对应的j值,即判定第i个样本属于第j类。

以下提供本发明的一个实施例。

实施例

本发明的一种广义模糊K调和均值聚类的近红外光谱生菜贮藏时间判定方法适用于生菜的贮藏时间辨别,实施流程如图1所示。因为贮藏时间不同的生菜,其漫反射近红外光谱是不相同的,所以本发明可以实现。

步骤一、生菜样本近红外光谱采集:采集新鲜生菜样本60个,将生菜清理干净后放入贴有标签的保鲜袋中,再放入4℃冰箱里储藏,在接下来的时间里每隔12小时检测生菜的近红外光谱,共检测三次。则共得到60×3=180条近红外数据。采集光谱时实验室温度为保持在15℃±2℃,相对湿度在70%左右,Antaris II近红外光谱分析仪开机预热1个小时。采用反射积分球模式采集生菜近红外光谱,近红外光谱分析仪扫描每个样品32次以获取样品的漫反射光谱均值。光谱扫描的波数为10000~4000cm-1,扫描间隔为3.856cm-1,采集到每个样品的光谱是1557维的数据。为减少误差,每个样本采样3次,取其平均值作为最终的实验数据。生菜样本的漫反射近红外光谱图如图2所示。

步骤二、用后向间隔偏最小二乘判别分析进行光谱波段选择和降维处理方法如下: 

1. 用标准正态变量变换(SNV)预处理方法对生菜样本的近红外漫反射光谱进行预处理。

2. 建立训练样本类别信息矩阵Ytrain

其中, 为训练样本数,=60,(取训练集样本数为60个(即每类20个),测试集样本数120(即每类40个))为类别数,=3,Ytrain (i, j )= 1 表示第i 个样本属于第j类,反之Ytrain (i, j )= 0表示第i 个样本不属于第j类。

3. 将生菜的训练集样本近红外光谱区域平均地划分为L个等宽的子光谱区域,然后每次去除1个子光谱区域,使剩余的光谱区域中的训练样本光谱值与类别信息矩阵Ytrain进行偏最小二乘回归所得交互验证均方根误差(RMSECV)最小,直至最后1个子光谱区域。根据均方根误差最小原则选取若干个子光谱区域。

这里设置L=20,运行结果如表1所示。根据表1可知,均方根误差最小为0.1471所对应的子光谱区域为5,9,12,15,18和19。图3是后向间隔偏最小二乘判别分析选择的子光谱区域。表1 后向间隔近红外光谱区域选择结果:

 。

4.根据选取的子光谱区域的训练样本光谱值与类别信息矩阵Ytrain进行偏最小二乘回归得到特征向量,将选取的子光谱区域的测试样本投影到特征向量后得到光谱波段优选和维数降低的测试样本。得到的120个测试样本是20维数据。

步骤三、提取生菜样本近红外光谱的鉴别信息:采用线性判别分析(LDA)提取步骤二的20维数据的鉴别信息。鉴别向量数为2,LDA将20维的测试样本数据投影到其鉴别向量上可得到2维数据如图4所示。在图4中“储藏时间1”表示第1次采集生菜近红外光谱,“储藏时间2”表示第1次采集后经过12小时第2次采集生菜近红外光谱,“储藏时间3” 表示第2次采集后经过12小时第3次采集生菜近红外光谱。

步骤四、运行模糊C-均值聚类以得到初始聚类中心:对步骤三的二维测试样本数据运行模糊C-均值聚类(FCM),得到初始聚类中心如下:

 步骤五、用广义模糊K调和均值聚类方法进行生菜贮藏时间的判定:

1.初始化

固定生菜近红外光谱样本数n=120,样本类别数=3,权重指数 =2.0和范数=4,最大迭代数    =100,误差上限值=0.00001,初始聚类中心   j=1,2,3)。

2.计算第rr=1,2,……,   )次迭代时的隶属度值   

 。隶属度值   表示第r次迭代计算时第ii=1,2,……,n)个样本隶属于第jj=1,2,3)类的隶属度值,   ,   为    的范数距离,为第个样本,    为第r-1次迭代时第j类的类中心,    ,    为第r-1次迭代时第l类的类中心。

实验结果:迭代终止时(此时r=13)时的隶属度值    的数值如图5所示,取第i个样本中    的最大值所对应的j值,即判定第i个样本属于第j类。

3.计算第r次迭代时的类中心   j=1,2,……,k

 , 其中   为第r次迭代时第j类的类中心;

当    或者r=   -1时,迭代结束;否则,r=r+1,返回步骤2继续迭代计算。

实验结果:迭代终止时r=13,    为:

最后,根据隶属度值实现生菜的“储藏时间1”, “储藏时间2”和“储藏时间3”三个不同储藏时间的判定,辨别准确率达到98.3%。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号