首页> 中文期刊> 《计算机技术与发展》 >基于文本词特征加权LDA的疾病表征提取方法

基于文本词特征加权LDA的疾病表征提取方法

         

摘要

从结构复杂多样的电子病历文本中提取出疾病表征词,是电子病历文本研究与应用的关键环节。LDA模型可以实现对文本信息的有效提取,但标准LDA(latent Dirichlet allocation)及其相关改进模型在提取疾病表证词时针对性较弱、精确率较低。该文提出了FW-LDA(feature weighting LDA)模型,针对中文电子病历文本的数据特征,降低非任务相关词的共现频率,在标准LDA模型的基础上引入了词特征加权,以实现对疾病表证词的针对性提取。通过分析心血管疾病数据的特点,形成了相适应的词性、词长和词义特征加权计算公式,构建了对应的任务侧重和非任务侧重的外部语义词库,并通过实验验证了词特征加权对疾病表征词提取任务的影响程度。与LDA模型相比,在主题数值小于30时,FW-LDA模型的主题一致性有显著提升;在主题数值范围[5,65]上,FW-LDA模型的疾病表征词提取平均精确率提升了48.5%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号