首页> 中国专利> 一种基于流行性感冒智能认知模型的系统及设备

一种基于流行性感冒智能认知模型的系统及设备

摘要

本发明提供了一种基于流行性感冒智能认知模型的系统及设备,包括文本预处理单元、文本表示单元、模型建立单元和学习更新单元;文本预处理单元获取流行性感冒症状描述的文本,采用词组为特征单位对症状描述的文本进行分词处理,并将待分类的文本输入文本表示单元中;文本表示单元将待分类文本表示为观测序列,由高维空间映射到低维空间,得到维数约简后的待分类文本;将维数约简后的各待分类文本分别向量化,得到观测序列;获取引发流行性感冒症状所有对应的类型,转换为状态序列,将观测序列和状态序列构成训练集并输入模型建立单元中;模型建立单元通过上述观测序列和状态序列构建线链条件随机场,计算观测序列中的观测向量所对应的状态值。

著录项

  • 公开/公告号CN112242200A

    专利类型发明专利

  • 公开/公告日2021-01-19

    原文格式PDF

  • 申请/专利权人 吾征智能技术(北京)有限公司;

    申请/专利号CN202011060346.2

  • 发明设计人 杜登斌;杜小军;杜乐;

    申请日2020-09-30

  • 分类号G16H50/80(20180101);G06F40/216(20200101);G06F40/289(20200101);G06K9/62(20060101);

  • 代理机构42247 武汉红观专利代理事务所(普通合伙);

  • 代理人李季

  • 地址 100000 北京市海淀区西三旗沁春家园1号楼、2号楼、3号楼3层301-3045室

  • 入库时间 2023-06-19 09:36:59

说明书

技术领域

本发明涉及机器学习技术领域,尤其涉及一种基于流行性感冒智能认知模型的系统及设备。

背景技术

流行性感冒,它是由病毒引起的一种呼吸灯疾病,发病后症状非常多样,患者会有发热、头痛、肌肉酸痛、食欲减退、流涕、咽痛等各种症状,严重的还会有咳嗽、呼吸急促等表现,还可能引起腹泻、呕吐等症状,患者各人外在的表现差异极大,患者在症状描述后通常由人工进行对比和筛查,由于个人症状描述口语化,而且是非公开的语料,不如网页文本、图书期刊的编排规范,其随机性很强,传统人工筛查无法准确提取症状描述中的内容。

发明内容

有鉴于此,本发明提出了一种基于马尔科夫随机场模型提取流行性感冒的症状描述、对非公开随机的语料中的特征的匹配的流行性感冒智能认知模型的系统及设备。

本发明的技术方案是这样实现的:

一方面,本发明提供了一种基于流行性感冒智能认知模型的系统,其特征在于:包括文本预处理单元、文本表示单元、模型建立单元和学习更新单元;

文本预处理单元,获取流行性感冒症状描述的文本,采用词组为特征单位对症状描述的文本进行分词处理,将症状描述的文本用词组来表示,去掉其中的停用词,得到待分类的文本,并将待分类的文本输入文本表示单元中;

文本表示单元,将待分类文本表示为观测序列,由高维空间映射到低维空间,得到维数约简后的待分类文本;将维数约简后的各待分类文本分别向量化,得到观测序列X,X={x

模型建立单元,通过上述观测序列X和状态序列Y构建线链条件随机场,计算观测序列中的观测向量所对应的状态值;

学习更新单元,对线链条件随机场进行迭代学习,并获取观测向量中有效特征词组的数量和词组频率,按词组频率的高低进行排序。

在以上技术方案的基础上,优选的,所述分词处理,是采用中文分词工具jieba分词进行搜索引擎模式分词处理。

进一步优选的,所述对待分类的文本的维数约简,是采用t-SNE降维算法,将待分类的文本的维数约简为3维—5维,具体内容为:

令高维空间的条件概率

更进一步优选的,所述σ

再进一步优选的,所述构建线链条件随机场,是令状态值y

其中f

更进一步的优选的,所述线链条件随机场通过迭代学习,并获取观测向量中有效特征词组的数量和词组频率,是定义观测序列X中的观测向量对应的标记个数m,令第一个局部状态为δ

另外定义一个局部状态ψ

用ψ

另一方面,本发明还提供了一种基于流行性感冒智能认知模型的系统的设备,包括至少一个处理器和存储器,所述处理器用于接收文本,并实现上述的文本预处理单元、文本表示单元、模型建立单元和学习更新单元的功能,并将输出的状态值发送至存储器中进行保存。

本发明提供的一种基于流行性感冒智能认知模型的系统及设备,相对于现有技术,具有以下有益效果:

(1)本发明基于流感症状描述这种非公开的语料,进行文本输入、分词、文本表示的降维压缩,并构建观测向量及可能对应的分类的状态值,通过构建线链条件随机场,求取分类对应的概率,采用特定数据训练该模型,提高模型对特定非公开语料文本数据的识别、分析和归类能力;

(2)采用降维处理,可以更直观、更简洁的观测向量进行归类,提高计算效率;

(3)通过采用线链条件随机场,可进行自动优化和迭代,准确标记相应的分类的状态值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种基于流行性感冒智能认知模型的系统及设备的系统框图。

具体实施方式

下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

如图1所示,一方面,本发明提供了一种基于流行性感冒智能认知模型的系统,其特征在于:包括文本预处理单元、文本表示单元、模型建立单元和学习更新单元;

文本预处理单元,获取流行性感冒症状描述的文本,采用词组为特征单位对症状描述的文本进行分词处理,将症状描述的文本用词组来表示,去掉其中的停用词,得到待分类的文本,并将待分类的文本输入文本表示单元中;

上述分词处理,是采用中文分词工具jieba分词进行搜索引擎模式分词处理。其来源是https://github.com/fxsjy/jieba。其可以通过基于前缀词典实现高效的词图扫描、利用动态规划查找最大概率路径,找出基于词频的最大切分组合以及对于未登录词采用基于汉字成词能力的HMM模型进行计算,非常适合文本分析。

文本表示单元,将待分类文本表示为观测序列,由高维空间映射到低维空间,得到维数约简后的待分类文本;将维数约简后的各待分类文本分别向量化,得到观测序列X,X={x

具体的,对待分类的文本的维数约简,是采用t-SNE降维算法,将待分类的文本的维数约简为3维—5维,具体内容为:

令高维空间的条件概率

模型建立单元,通过上述观测序列X和状态序列Y构建线链条件随机场,计算观测序列中的观测向量所对应的状态值。线链条件随机场是一种特殊的马尔科夫随机场,观测序列X和状态序列Y具有相同的结构。

具体的,构建线链条件随机场,是令状态值y

其中f

学习更新单元,对线链条件随机场进行迭代学习,并获取观测向量中有效特征词组的数量和词组频率,按词组频率的高低进行排序。

上述线链条件随机场通过迭代学习,并获取观测向量中有效特征词组的数量和词组频率,是定义观测序列X中的观测向量对应的标记个数m,令第一个局部状态为δ

另外定义一个局部状态ψ

用ψ

另外,本发明还提供了一种基于流行性感冒智能认知模型的系统的设备,包括至少一个处理器和存储器,所述处理器用于接收文本,并实现上述的文本预处理单元、文本表示单元、模型建立单元和学习更新单元的功能,并将输出的状态值发送至存储器中进行保存。

以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号