技术领域
本申请涉及自然语言处理和医疗大数据领域,尤其涉及一种基于语义依存关系的医疗文本标注方法。
背景技术
医疗机构在治疗的过程中,产生了大量医疗文本,医疗文本蕴含丰富的医疗信息。研究医疗文本的语义描述,对包括医疗辅助决策,治疗效果预测,病人生存率预测等后续下游任务,具有重要意义。
语义依存分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。
常见的医疗文本标注方法包括命名实体标注,事件标注。命名实体标注不包括实体间关系,事件描述实体的简单关系,两者都无法覆盖医疗文本中复杂语义关系。本专利提出一种基于语义依存关系的医疗文本标注方法,能够有效标注医疗文本中复杂的语义信息,对提升下游任务的性能具有重要意义。
发明内容
为了提升下游任务的性能,更好地描述医疗实体的语义依存关系,本专利申请一种基于语义依存关系的医疗文本标注方法,包含以下步骤:
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
基于主体的语义依存,其包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值,存在隐式提示属性名称的情况;
基于关系或动作的语义依存,其包含以下实体或关系:一个关系词,其作用于一个或多个客观存在实体,存在隐式提示施事实体的情况;
基于修饰的语义依存,其包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体;
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系;
语义嵌套存在于以下情况:基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体是基于修饰的语义依存。
语义远程依赖存在于以下情况:基于修饰的语义依存中,修饰词与主体词间隔其他语义词。
语义并列存在于以下情况:多个基于主体的语义依存中,共用一个主体;基于关系或动作的语义依存中,共用一个动作;基于修饰的语义依存,共用一个修饰词。
步骤三:根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;
身体结构实体语义图基于修饰的语义依存,具有语义远程依赖,语义并列的特点,用于描述医学部位实体名称,由修饰词和身体结构核组成,允许跨文本标注的身体结构语义实体;
关系描述语义图基于关系或动作的语义依存,具有语义并列,语义嵌套的特点,用于描述两个医学实体的关系,由一个否定词、一个程度词、一个身体结构实体作为关系施加主体、一个关系词、一个关联身体结构实体作为关系受施主体组成;
属性描述语义图,基于主体的语义依存,具有语义并列,语义嵌套的特点,用于描述医学部位的属性,由一个否定词、一个程度词、一个身体结构作为主体、一个属性名称、一个属性值组成;
手术操作语义图是一类特殊关系描述语义图,用于描述手术操作,由一个否定词、一个程度词、多个操作路径、多个所用器械、多个所用药品、一个身体结构实体作为操作受施主体组成;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断,由一个诊断或疾病、一个否定词、一个程度词、一个趋势词、一个可能性词、一个相较的前时间点词、一个检查部位方法和视图词组成。
步骤四:进行文本标注。
上述技术方案中的语义依存关系的医疗文本标注方法,首先分析医疗文本中的语义依存类型和语义特点,然后分析医疗文本中的语义特点,根据医疗文本中的语义依存类型和语义特点,结合标注需求,制定五类模板语义图,最后进行标注。不同于常见的命名实体标注和事件标注,本发明利用医疗文本的语义特点和语义依存类型进行标注,从而更多地覆盖医疗文本中复杂语义关系,对提升下游任务的性能具有重要意义。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图和本说明书获得其他的附图。
图1为本申请的一种基于语义依存关系的医疗文本标注方法;
图2为关系描述类型语义图;
具体实施方式
下面对本发明做进一步说明。
步骤一:分析医疗文本中的语义依存类型,得到三类语义依存类型:基于主体的语义依存、基于关系或动作的语义依存和基于修饰的语义依存;
基于主体的语义依存,其包含以下实体或关系:一个客观存在实体作为核心主体词、一个属性名称和一个属性值。例如“右下肺叶肿块,约3*2cm大小”中,“右下肺叶肿块”是核心主体词,“3*2cm”是属性值,“大小”是属性名称。此外存在隐式提示属性名称的情况,如“大便黑”中,“大便”是为核心主体词,“黑”是属性值,隐式提示属性名称为“颜色”。
基于关系或动作的语义依存,其包含以下实体或关系:一个关系词或动作词作用于一个或多个客观存在实体。“肿块累及脏层胸膜。”中,“肿块”是施事主体,“累及”是关系词,“脏层胸膜”是受施主体词。此外存在隐式提示施事实体的情况,例如“于右胸第4肋腋前线作小切口”中,“右胸第4肋腋前线”是受施主体词,作小切口是动作词,隐式提示施事实体是“医生”。
基于修饰的语义依存,其包含以下实体或关系:客观存在实体作为核心主体词,其他实体修饰作为修饰词该主体。例如“进胸后探及右下肺叶肿块”中,“右下肺叶”是修饰词,“肿块”是核心主体词。
步骤二:分析医疗文本中的语义特点,得到三类语义特点:语义嵌套关系、语义远程依赖和语义并列关系。
语义嵌套存在于以下情况:基于主体的语义依存和基于关系或动作的语义依存中的客观存在实体允许存在基于修饰的语义依存。“右下肺叶肿块,约3*2cm大小”是一个基于主体的语义依存。例如“右下肺叶肿块”作为核心主体词中存在基于修饰的语义依存,“右下肺叶”是修饰词,“肿块”是核心主体词。
语义远程依赖存在于以下情况:基于修饰的语义依存允许修饰词与主体词间隔其他语义词。例如“分别于右胸第4肋腋前线,第7腋中线作小切口”中,“第7腋中线”是核心主体词,“右胸”是修饰词,中间间隔“第4肋腋前线”。
语义并列存在于以下情况:多个基于主体的语义依存或基于关系或动作的语义依存共用一个主体,如“肿块位于右肺上叶尖段,直径约1.0cm,质地硬”中,两个基于主体的语义依存和一个基于关系的语义依存共用一个主体“肿块”;基于修饰的语义依存共用一个修饰词,例如“分别于右胸第4肋腋前线,第7腋中线作小切口”中,两个基于修饰的语义依存共用修饰词“右胸”。
步骤三:面向标注需求,根据语义类型和语义特点,制定模板语义图;模板语义图包括五类:身体结构实体语义图、关系描述语义图、属性描述语义图、手术操作语义图和影像诊断语义图;针对常见的语义类型,在模板语义图中制定标签槽,标签槽隐式表示中心实体和该实体的关系。
身体结构实体语义图由修饰词和身体结构核组成,允许跨文本标注的身体结构语义实体。例如“右下肺叶肿块”中,“右下肺叶”是修饰词,“肿块”是核心主体词;
关系描述语义图由一个否定词、一个程度词、一个身体结构实体作为关系施加主体、一个关系词、一个关联身体结构实体作为关系受施主体组成。例如“肿块累及脏层胸膜。”中,“肿块”是施事主体,“累及”是关系词,“脏层胸膜”是受施主体词,否定词和程度词为空;
属性描述语义图由一个否定词、一个程度词、一个身体结构作为主体、一个属性名称、一个属性值组成。例如“右下肺叶肿块,约3*2cm大小”中,“右下肺叶肿块”是核心主体词,“3*2cm”是属性值,“大小”是属性名称,否定词和程度词为空;
手术操作语义图一类特殊关系描述语义图,用于描述手术操作,由一个否定词、一个程度词、多个操作路径、多个所用器械、多个所用药品、多个受施身体结构实体作为操作受施主体。例如“以EC60切割缝合器切断上叶尖段肺静脉”中,“EC60切割缝合器”是所用器械,“上叶尖段肺静脉”是受施身体结构实体;
影像诊断语义图是一类特殊属性描述语义图,用于描述影像诊断,由一个诊断或疾病、一个否定词、一个程度词、一个趋势词、一个可能性词、一个相较的前时间点词、一个检查部位方法和视图词组成。例如“较05.11.29老片病灶明显好转”中,“05.11.29”是相较的前时间点,“病灶”是疾病,“明显”是程度词,“趋势”是好转。
步骤四:进行文本标注。
机译: 基于文本文档和用户问题语义标注的问答系统和方法
机译: 基于用户问题和文本文档语义标注的问答系统和方法
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。