首页> 中国专利> 一种基于词向量发现单味药与疾病之间的治疗关系的方法

一种基于词向量发现单味药与疾病之间的治疗关系的方法

摘要

本发明公开了一种基于词向量的单味药与疾病之间的治疗关系的发现方法。首先需要选择训练集,本发明采用《中华本草》书籍中8980味药作为治疗关系的主体,对于其主治描述提取疾病概念,作为治疗关系的客体,形成“药、治疗、疾病”的三元组,其次采用Google公布的Word2Vec工具作为词向量训练工具,百度百科资源作为训练语料,最后利用训练得到的词向量利用SVM训练出所需要的模型。输入单味药和疾病,该模型可以判断二者是否具有治疗关系。

著录项

  • 公开/公告号CN104572624A

    专利类型发明专利

  • 公开/公告日2015-04-29

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201510027487.7

  • 发明设计人 张引;魏宝刚;庄越挺;黎磊;姚亮;

    申请日2015-01-20

  • 分类号G06F17/27;G06F17/30;

  • 代理机构杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-12-18 08:30:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-29

    授权

    授权

  • 2015-05-27

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20150120

    实质审查的生效

  • 2015-04-29

    公开

    公开

说明书

技术领域

本发明涉及中医药中单味药与疾病之间治疗关系发现领域,是中医药与计算机科学相结 合相交叉的产物,尤其涉及一种基于词向量以及SVM对于治疗关系发现的方法。

背景技术

中医药领域中单味药与疾病之间存在治疗关系这是有据可循的,通过权威书籍和教材都 可以查询得到,然而如何发现更多的治疗关系却一直没有一个有效的方法。随着计算机科学 的飞速发展,机器学习方法的不断深化与完善为解决中医药领域问题提供了新的思路。特别 是词向量的提出,针对每个词都有个向量空间,极大扩展了单词含义,并且单词向量的差值 也有一定含义,为关系发现奠定了基础。

发明内容

本发明的目的在于针对现有技术的不足,提供一种基于词向量发现单味药与疾病之间的 治疗关系的方法,利用机器学习的方式来发现中医药领域中药物与疾病之间的治疗关系。

本发明的目的是通过以下技术方案来实现的:一种基于词向量的单味药与疾病之间的治 疗关系的发现方法,包括以下步骤:

(1)对《中华本草》进行OCR处理,提取其主治属性;

(2)对主治属性进行三次预处理,第一次预处理按照标点符号分割,得到第一次候选集; 第二次预处理将第一次得到的候选集中的所有词汇作为关键字访问百度百科、互动百科以及 维基百科,若三者其一包含该关键字的页面,即认为该关键字是某种疾病,加入到疾病集合 中,否则加入第二次候选集中;第三次预处理首先利用语法分析器对第二次候选集的词汇进 行语法分析,找出结果为形容词+名词的形式,将其名词部分作为关键字访问百度百科、互动 百科以及维基百科,若三者其一包含该关键字的页面,即认为该形容词+名词是某种疾病的具 体形式,同样加入到疾病集合中,其余的单词做舍弃处理;经过三次预处理,构造出药与疾 病的治疗关系三元组;

(3)将百科数据利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉停用 词、介词和数量词等无用词项,构建词向量的训练集;利用Word2Vec(google的开源工具) 构造出词向量矩阵,即对每一个单词,用一个向量来表示;

(4)针对步骤3得到的三元组,找出药和疾病分别对应的词向量,按照单味药向量减去 疾病向量的方式构造治疗关系的词向量;

(5)将步骤4构造的治疗关系词向量作为训练元组,其向量维数作为SVM的特征空间, 利用SVM进行训练,得到训练模型;

(6)输入单味药和疾病,在步骤3构造的词向量矩阵中找到单味药和疾病分别对应的词 向量,用单味药的词向量减去疾病的词向量得到关系向量作为步骤5训练出的模型的输入, 根据训练模型输出结果判断二者是否含有治疗关系。

本发明的有益效果:本发明从权威书籍中经过三遍处理步骤得到标准“单味药、治疗、 疾病”三元组,利用百度百科数据和google开源工具word2vec训练出词向量,将三元组与 词向量相结合利用SVM分类器进行训练,最终准确的判断了单味药与疾病是否存在治疗关系, 并可以有效的揭示一些隐藏的治疗关系,对于中医药转接有很大的参考价值;同时,所阐述 的方法具有一般性,只要训练数据集准备充分,可以适用于一般关系的挖掘。

附图说明

图1为本发明方法整体流程图;

图2以“紫野苏”为例,第一遍预处理过程图;

图3以“紫野苏”为例,第二遍预处理过程图;

图4以“紫野苏”为例,第三遍预处理过程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

如图1所示,本发明一种基于词向量发现单味药与疾病之间的治疗关系的方法,包括以 下步骤:

(1)对《中华本草》进行OCR处理,提取其主治属性;

(2)对主治属性进行三次预处理,第一次预处理按照标点符号分割,得到第一次候选集, 如图2所示,紫叶苏的主治属性为“主暑天感冒;头痛身重;夫汗恶寒;腹痛吐泻;水肿; 疮痈肿毒;蛲虫病;阴道滴虫”,经过第一遍处理之后得到的候选集为“暑天感冒头痛身 重夫汗恶寒腹痛吐泻水肿疮痈肿毒蛲虫病阴道滴虫”;第二次预处理将第一次得到 的候选集中的所有词汇首先访问本地疾病数据库,若存在,则认为该关键字是疾病概念,否 则,作为关键字访问百度百科、互动百科以及维基百科,若三者其一包含该关键字的页面, 即认为该关键字是某种疾病,加入到疾病集合中,同时爬取该词条释义加入至本地数据库中, 否则加入第二次候选集中,如图3所示,百科包括的词汇为“水肿”,“疮痈肿毒”,“蛲 虫病”,这些词汇被加入到疾病集合中,剩余词汇加入到第二次候选集中;第三次预处理首 先利用语法分析器对第二次候选集的词汇进行语法分析,找出结果为名词+动词和名词+名词 的形式,对名词+动词格式的词汇,将其名词部分作为关键字访问百度百科、互动百科以及维 基百科,若三者其一包含该关键字的页面,即认为该名词+动词格式的词汇是某种疾病的具体 形式,加入到疾病集合中,同时爬取该词条释义加入至本地数据库中,对名词+名词格式的词 汇,对每一个名词部分作为关键字访问百度百科、互动百科以及维基百科,若三者其一包含 该关键字的页面,即认为该名词+名词格式的词汇是疾病概念的并列形式,也加入到疾病集合 中同时爬取该词条释义加入至本地数据库中,其余的单词做舍弃处理,如图4所示,“腹痛吐 泻”“暑天感冒”,“头痛身重”,“阴道滴虫”被解析为动词+名词的形式,分别为“腹痛 吐泻”“暑天感冒”“头痛身重”“阴道滴虫”,百科包括的词汇为“吐泻”“感冒”“身 重”“滴虫”因此这四个词汇也被加入到疾病候选集中,剩余的“夫汗恶寒”做丢弃处理; 经过三次预处理,构造出药与疾病的治疗关系三元组;

(3)将百科数据利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉停用 词、介词和数量词等无用词项,构建词向量的训练集;利用Word2Vec(google的开源工具) 构造出词向量矩阵,即对每一个单词,用一个向量来表示;

(4)针对步骤3得到的三元组,找出药和疾病分别对应的词向量,按照单味药向量减去 疾病向量的方式构造治疗关系的词向量;

(5)将步骤4构造的治疗关系词向量作为训练元组,其向量维数作为SVM的特征空间, 利用SVM进行训练,得到训练模型;

(6)输入单味药和疾病,在步骤3构造的词向量矩阵中找到单味药和疾病分别对应的词 向量,用单味药的词向量减去疾病的词向量得到关系向量作为步骤5训练出的模型的输入, 根据训练模型输出结果判断二者是否含有治疗关系。也可以输入单味药,模型输出其可能治 疗的疾病,举例如下表:

标准集中已存在治疗关系的疾病 通过模型新发现的疾病 生姜 风寒感冒,恶寒发热,头痛,鼻塞,呕吐,痰饮,咳喘,泄泻 咳嗽,哮喘,胃痛 白术 小便不利,水肿,痰饮,气虚自汗 腹胀泄泻,脾虚 独活 风寒湿痹腰膝疼痛头痛 风寒 谷芽 胀满泄泻脾虚脚气 宿食不化

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号