首页> 中国专利> 一种基于机器学习的智能药品疗效评价方法及其应用

一种基于机器学习的智能药品疗效评价方法及其应用

摘要

本发明公开了一种基于机器学习的智能药品疗效评价方法及其应用,所述方法包括建立药品与对应目标治疗疾病或症状的映射关系;提取药品对应潜在副作用,计算药品之间相似指数;将药品线上数据打标签标记药品是否有效并将其文本数据结构化,提取多维度人群信息及药品、治疗相关特征向量;将结构化数据分为训练集和验证集,利用多种算法和不同的特征变量选取机制,建立集成化的预测模型并选择预测效果最优的方案;最后根据药物相似指数得到同类药品有效率排名并通过所述应用实现药品疗效评价的各种功能。

著录项

  • 公开/公告号CN113838583A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 中国人民解放军空军军医大学;

    申请/专利号CN202111135248.5

  • 申请日2021-09-27

  • 分类号G16H70/40(20180101);G06N20/00(20190101);G06K9/62(20060101);

  • 代理机构61202 西安西达专利代理有限责任公司;

  • 代理人刘华

  • 地址 710032 陕西省西安市长乐西路169号

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及生物医药及人工智能领域,具体涉及一种基于机器学习的智能药品疗效评价方法及其应用。

背景技术

在生物制药领域,效力(efficacy)、疗效(effectiveness)和效益(efficiency)是用来评价药物在不同时期和环境下的三个指标。效力通常指在临床试验阶段,药物在理想条件下所能达到的治疗作用大小,是药物的最大期望效果。疗效是在实际医疗卫生条件下药物所能达到的治疗作用大小,即真实世界得到的数据结果。效益是指一种药物的价值是否与个人或社会支付的费用相当,其不仅考虑临床有效性,还考虑成本效益从而使社会大众更多受益,效益通常被用于卫生经济学评价。

当一种药品通过三期临床试验,批准上市以后,其疗效将会受到来自真实世界的检验。在真实条件下,患者群体、药物剂量、使用频率等因素与临床随机试验相比要复杂得多,因此针对真实世界的药物疗效评价得到越来越多重视,也由于大数据技术的发展,海量数据挖掘如线上药物评价、病例报告、药品使用指南及注意事项等信息提取变得可以实现。

现有来自真实世界的药物疗效研究和方法通常只针对单一数据源,如通过调研报告、临床随访或进行四期试验来评估药物疗效,其可涵盖的人群信息依然受到科研经费、研究规模、选择性偏差等因素的影响。本发明利用文本挖掘技术和集成化机器学习算法,将不同信息源的数据进行整合,提取有效特征值,建立一套综合药品疗效评价体系及其应用的决策机制,实现药品推荐、疗效及副作用评估、同类药品比较等多种功能。

本发明不仅可以对药品在上市后的疗效进行长期、大范围监测及评估,也可以进一步作为药品有效性及成本价格的效益评价的重要参考指标。

发明内容

本发明的目的在于提供一种基于机器学习的智能药品评价方法及其应用,将海量互联网数据与医院病历单、随访或调研报告数据相结合,获得更大范围的药物使用情况实时反馈信息,并将多种信息来源综合进行药品疗效评价。避免了传统药物上市后疗效评价过程中招募受试者所产生的高昂费用、人为纳入排除标准等不利因素,更加全面高效地评估药物在各种条件下的使用疗效及其所产生的副作用。

本发明第一方面提供了一种基于机器学习的智能药品评价方法,所述方法具体如下:

1)通过药品使用说明书、药监局的药品指南提取药品与对应治疗疾病或症状的映射关系:假设药品

计算药品之前的相似药物指数。具体地,假设药品

2)将线上药品评论、医院病历单、随访记录按照步骤1)中的药品目标治疗疾病或症状

具体地,打标签的方式为自动化打标签,根据语义进行情感分析,采用VADER(Valence Aware Dictionary and sEntiment Reasoner)将语句评分为-1(负面)到1(正面)的值,0为中立的意见。进一步地,在自动化打标签后还可以进行人工核对。

3)将文本数据结构化:a) 提取如年龄、性别、种族、婚育、地域等多维度人群信息,b) 提取特征向量:从线上药品评论、病历单、随访记录中提取特征词语或词组如消炎、发热、头痛、感冒、止咳等,获取特征向量;

4)将从文本数据转为结构化的数据集按一定比例分为训练集和验证集。

具体地,可以按照8:2,7:3或6:4的比例划分训练集和验证集。

5)选择多种算法作为预测二分类问题的分类器。

具体地,可以选择四种针对二分类问题的分类器:a) OneVsRest SVM,b)Logistic Regression,c) Random Forest,d) Bagging meta-estimator with logisticregressor base。

6)建立不同的特征变量选取机制,选择多种分类器在不同特征变量下预测效果最优的方案。

具体地,特征变量选取可以有特定词语出现频率(Count)、词频-逆文档频率(tf-idf,即Tfidf)和VADER得分排列组合得到,如:

FS-1:CountVectorizer,

FS-2:CountVectorizer +VADERscore,

FS-3:CountVectorizer top 10000 特征向量 +VADERscore,

FS-4:TfidfVectorizer,

FS-5:TfidfVectorizer +VADERscore,

FS-6:TfidfVectorizer top 10000 特征向量+VADERscore。

进一步地,预测效果最优方案由F1-score评估得到,

F1 score = 2*(Recall * Precision) / (Recall + Precision);

其中Recall = 真阳性/(真阳性+假阴性),Precision = 真阳性/(真阳性+假阳性)。

本发明第二方面提供了一种基于机器学习的智能药品评价的应用,所述应用包括多种功能:功能1)针对某一种药品进行疗效评价,输入药品名称,得到药品有效性得分、在同类药品中排名、副作用排名;功能2)针对某一疾病或症状寻找对应药品,输入单个或多个疾病或症状的名称,得到单个或多个对应药品有效性得分、排名、及每种药品副作用排名;功能3)针对不同年龄、性别、种族、婚育、地域等多维度人群,进行药品的有效性、同类药品及其副作用排名。

在本发明实施例中,通过药品使用说明书、药品指南等被认可的信息确定药品与其对应的目标治疗疾病或症状的映射关系,利用线上药品评论、病历单、随访记录等信息对药品有效性进行预测,其建立预测模型的过程可以分为:首先通过VADER对语句进行情感分析,标定该条语句所针对的药品是否有效,然后将结构化数据集分为训练集和验证集,采用不同特征提取的方式对多种二分类的分类器(模型)进行训练得到最优方案。在应用层面,将药品是否有效的预测结果应用于最初确定的映射关系中,计算出每种药品针对每种目标治疗疾病或症状的有效率及其副作用,以及单个或多个相似药品针对同一目标治疗疾病或症状的有效率。因此,在用户端输入某个药品,可以出现其对应目标治疗疾病或症状的有效率及其副作用,以及相似药品的有效率;输入某种疾病或症状,则可以出现其对应单个或多个药品的有效率及其分别的副作用。此外,还可以通过筛选人群信息了解该服用该药品的人群年龄、性别、种族、婚育、地域等信息及细分人群的有效率。

附图说明

为了更清楚说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,以下描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例中的基于机器学习的智能药品疗效评价方法流程示意图。

图2是本发明实施例中的基于机器学习的智能药品疗效评价应用的软件运行结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清除、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

下面对本发明实施例进行详细介绍。

实施例1

参阅图1,图1为本发明实施例中一种基于机器学习的智能药品疗效评价方法流程示意图,如图1所示,所述基于机器学习的智能药品疗效评价方法包括:

101、建立药品与对应目标治疗疾病或症状的映射关系。

如表1所示,药品甲硝唑可治疗的疾病或症状为败血症、心内膜炎、脑膜炎、结肠炎、破伤风、口腔溃疡等。在药品使用说明书或药品指南中提取该药品对应的目标治疗疾病或症状,并分别标记该药品为

102、提取药品对应潜在副作用,计算药品之间相似指数。

如表1所示,使用药品甲硝唑的潜在副作用为恶心、呕吐、食欲不振、腹部绞痛、头痛、眩晕、感觉异常、肢体麻木等。在药品使用说明书或药品指南中提取该药品对应的潜在副作用,并标记为

如表2所示,

计算两个药品的相似指数,

进一步地,设计药品可治疗疾病或症状的数据字典,该数据字典包含疾病或症状的上下位概念,如牙周炎和口腔溃疡均为口腔感染,如使用口腔感染这一上位概念,则两个药品的相似指数为3/8=0.375。

更进一步地,设计相近词语合并数据字典,该数据字典包含同级别可视为相近的词语,如{肢体麻木}与{四肢麻木},{头痛}与{头晕}等。

103、将药品线上评论、病历单、随访记录打标签,标记药品是否有效。

具体地,采用VADER(Valence Aware Dictionary and sEntiment Reasoner)将语句评分为-1(负面)到1(正面)的值,0为中立意见。利用统计分析软件python中的VADER模块,使用polarity_score方法,给出句子四个分数:(a)否定性,(b)积极性,(c)中性得分,(d)复合情感得分。复合分数为前三个分数的总和,用来衡量句子的正向或负向情绪。该应用适用于英文语句的情感分析,因此对于药品疗效评估的所有数据来源尽量以英文为主,如采集中文文本,可以用自动翻译器翻译为英文并进行人工检查。

104、将文本数据结构化,提取多维度人群信息及药品、治疗相关特征向量。

人群信息包括但不限于年龄、性别、种族、婚育状况、地域等,线上药品评论的此类信息可以由计算机后台数据库获取,医院病历管理系统也可以获取此类信息,随访记录在设计随访调研之前应尽可能包含此类人群信息。

将线上药品评论、医院病历单、随访记录中能够体现文本重要特征的词语以词频(CountVec)、词频-逆文档频率(tf-idf)转化为向量形式。

进一步地,特征向量可以有以下几种规则,如:

FS-1:CountVectorizer,

FS-2:CountVectorizer +VADERscore,

FS-3:CountVectorizer top 10000 特征向量 +VADERscore,

FS-4:TfidfVectorizer,

FS-5:TfidfVectorizer +VADERscore,

FS-6:TfidfVectorizer top 10000 特征向量+VADERscore。

105、将结构化数据分为训练集和验证集。

按照8:2,7:3或6:4的比例将上述步骤中转为向量形式的数据集划分训练集和验证集。

106、选择多种算法作为预测二分类问题的分类器。

进一步地,选择四种常用的算法来训练分类器,如a) OneVsRest SVM,b)Logistic Regression,c) Random Forest,d) Bagging meta-estimator with logisticregressor base。

107、建立不同的特征变量选取机制,选择多种分类器在不同特征变量下预测效果最优的方案。

如表3所示,表3为用步骤106中的四种分类器与步骤104中六种特征变量选取规则排列组合得到数据训练结果的F1-score,

F1 score = 2*(Recall * Precision) / (Recall + Precision);

其中Recall = 真阳性/(真阳性+假阴性),Precision = 真阳性/(真阳性+假阳性)。Recall为召回率,Precision为精确率。

108、用训练得到的最优方案计算药品针对目标治疗疾病或症状的有效率。

由表3得到预测药品针对目标治疗疾病或症状的最优方案为随机森林(RandomForest),特征提取的方式为FS-6:TfidfVectorizer top 10000 特征向量+VADERscore。对应的F1-score是0.760。利用该方案对未打标签的数据进行预测,并分别计算某一药品针对不同治疗疾病或症状的有效率。

109、根据药物相似指数得到同类药品有效率排名及潜在副作用排名。

药物相似指数。

针对某一药物,如甲硝唑,利用步骤102的方法计算其它药物与该药物的相似指数,可取前五名,并通过模型分别计算该药物及其相似药物的有效率。利用步骤102提取的药物潜在副作用特征词语,统计在全部数据源中该药物产生副作用的排名,可取前10,或根据情况取排名靠前的副作用。

实施例2

基于上述实施例中所述的智能药品疗效评价方法,开发一种基于机器学习的智能药品疗效评价应用,该应用后台包括采集并管理上述不同数据源的数据库,中台包括可以进行模型调参和实时监控的智能药品疗效评价方法,前台可以实现如下功能:

1)针对某一种药品进行疗效评价,输入药品名称,得到药品有效性得分、在同类药品中排名、副作用排名;

药品有效性得分即通过上述药品疗效评价模型得到的药品有效率。

2)针对某一疾病或症状寻找对应药品,输入单个或多个疾病或症状的名称,得到单个或多个对应药品有效性得分、排名、及每种药品副作用排名;

将疾病或症状输入系统,利用实施例1的步骤101中所得到的药品与目标治疗疾病或症状的映射关系来寻找对应药品,并通过模型分别计算单个或多个对应药品的有效性得分、排名、每种药品潜在副作用排名等。

3)针对不同年龄、性别、种族、婚育、地域等多维度人群,进行药品的有效性、同类药品及其副作用排名;

将人群信息作为计算药品有效性、寻找同类药品及其副作用排名的筛选条件。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号