首页> 中国专利> 在文本输入期间建议相关术语

在文本输入期间建议相关术语

摘要

一种用于在报告的文本输入期间建议自动补全术语的系统。文本输入单元(2)用于使得用户能够将文本输入到当前报告(1)中。术语选择器(11)用于基于提取术语(8)、提取术语节段(9)、当前节段(10)、以及同现统计(7)来选择至少一个频繁同现术语(12)。指示器(13)给所述用户提供所述至少一个频繁同现术语(12)的指示。一种用于分析报告的系统包括同现统计生成器(26),用于生成多个同现统计,同现统计指示第一术语、第一节段、第二术语、第二节段,以及报告在所述第一节段中包含所述第一术语连同在所述第二节段中包含所述第二术语的频率。

著录项

  • 公开/公告号CN103189858A

    专利类型发明专利

  • 公开/公告日2013-07-03

    原文格式PDF

  • 申请/专利权人 皇家飞利浦电子股份有限公司;

    申请/专利号CN201180052198.2

  • 发明设计人 M·C-C·李;E·科昂-索拉尔;钱悦晨;

    申请日2011-10-31

  • 分类号G06F17/27;

  • 代理机构永新专利商标代理有限公司;

  • 代理人王英

  • 地址 荷兰艾恩德霍芬

  • 入库时间 2024-02-19 19:15:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-22

    授权

    授权

  • 2013-12-04

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20111031

    实质审查的生效

  • 2013-07-03

    公开

    公开

说明书

技术领域

本发明涉及在报告的文本输入期间建议自动补全术语。本发明进一步 涉及分析多个报告。

背景技术

临床遭遇,例如患者检查,通常以文本报告的形式记录。这些报告可 以由临床医师,例如医师或者护士口述或者键入。这种报告的例子是放射 学报告,其典型地包含患者病史的一些要素(用于研究的临床迹象和/或原 因)、对所执行成像过程的描述,以及放射学调查的结果(发现和印象)。

为了加速文本输入,可使用自动补全来预测下一词语(word)或者各 词语。这可借助于字符串模式匹配来实现。当键入词语的开头时,可建议 那一词语的补全。为此,自动补全算法可在词典中找出一个或者更多词语, 该词语的开头具有与刚刚键入的字符相同的字符。例如,输入“pros”可以 匹配例如“prostate”或者“prostaglandin”的字符串。更复杂精密的算法可 以匹配短语:例如,“enlarged pros”将匹配“enlarged prostate”而不是 “prostaglandin”,因为第一个短语在统计上看起来是远远更常用的。这些 匹配通常作为可能性菜单被呈现给用户,从而可以快速地选定正确的可能 性。

和的在Proceedings of the first Asia Semantic Web  Conference(ASWC2006),Beijing,Springer-Verlag,New York,August4-9, 2006中题名为“Semantic autocompletion”的论文(在下文中:等) 公开了基于将输入字符串与词汇表中的可用词语列表匹配的自动补全。该 论文进一步公开了不仅将用户书写的文本补全为类似的词语,而且补全为 其标引在字面水平上可能不涉及输入的匹配的本体论概念。

发明内容

在报告的文本输入期间改善自动补全术语将是有利的。为了更好地解 决这一问题,本发明的第一方面提供了一种系统包括:

-文本输入单元,用于使得用户能够将文本输入当前报告中;

-节段分析器,用于确定所述当前报告的多个节段;

-当前节段检测器,用于检测所述当前报告中所述用户正在操作的节段, 从而获得当前节段;

-术语提取器,用于提取在所述当前报告中出现的术语,从而获得提取术 语,以及识别所述当前报告中出现所述提取术语的节段,从而获得提取术 语节段,其中所述提取术语节段和所述当前节段是不同的节段;

-同现访问单元,用于访问多个同现统计,同现统计指示至少一个第一术 语、至少一个第一节段、第二术语、第二节段,以及报告在所述至少一个 第一节段中包括所述至少一个第一术语连同在所述第二节段中包含所述第 二术语的频率;

-术语选择器,用于基于所述提取术语、所述提取术语节段、所述当前节 段、以及至少一个所述同现统计来选择至少一个频繁同现术语;以及

-指示器,用于给所述用户提供所述至少一个频繁同现术语的指示。

被指示给用户的频繁同现术语具有相对高的概率是用户想要输入该报 告中的词语,因为术语的选择是基于将其中同现术语经常出现的节段考虑 在内的同现统计。该同现统计对于给定的领域背景(例如,放射学、心脏 病学、神经学)是特定的。与常规的字符串匹配相比,通过考虑在报告的 其他节段中写下的术语而获得了改进,其使得能够建议对于正在被输入的 报告而言是更加特定的自动补全术语。这一改进是基于这样的洞察:报告 的特定节段可能包括特定类型信息,该信息可能与当前节段中的术语不同 地相关联。作为具体例子,在放射学报告的患者病史节段中出现的术语与 当在该报告的发现节段中出现同一术语时相比,可能与诊断节段中的术语 不同地相关联。

在另一方面中,本发明提供一种用于分析多个报告的系统,包括

-节段分析器,用于确定将所述报告划分为节段的划分;

-通用节段确定器,用于确定在多个所述报告中通用的多个节段;

-术语提取器,用于从所述报告的所述通用节段中提取出多个术语,以及 将每个术语与其所出现的所述节段和报告相关联;

-同现统计生成器,用于生成多个同现统计,同现统计指示至少一个第一 术语、至少一个第一节段、第二术语、第二节段,以及报告在所述至少一 个第一节段中包含所述至少一个第一术语连同在所述第二节段中包含所述 第二术语的频率,其中至少一个第一节段不同于所述第二节段。

这一系统生成可由所提出的自动补全系统使用的同现统计。该同现统 计使得能够生成更加有用的自动补全建议,因为该同现统计提供了关于在 报告的特定的不同节段中同现的同现术语的信息。用于分析多个报告的系 统可与用于建议自动补全术语的系统合并;可选地,该系统可在不同的环 境中实现。当同现统计指示多个第一术语和多个第一节段时,该多个第一 节段的至少一个第一节段不同于第二节段。

报告可包括文档,其中节段包括节段标题和节段主体。节段标题允许 检测节段的存在,并且这便于所提出的系统提取术语并且将所提取的术语 与适当的节段相关联。

可选地或者另外地,报告可包括多个文件,其中不同的文件包括报告 的不同节段。这使得在自动补全处理中包含来自更早日期或者由一个或多 个不同临床医师创建的信息变得更加容易。这样,可给用户提供更加相关 的自动补全术语。

报告可包括数字化形式,其中域需要由用户填入。用于填入一些域中 的信息可来自不同的系统并且可以被存储作为一个或者多个数据库中的记 录。

术语可包括单个的词语或者由多个词语组成的短语。例如,提取术语 和/或第一术语可包括包含多个词语的表达。这允许改进建议,因为针对提 取术语和/或第一术语的多个词语的组合可生成更加特定的同现统计。

该系统可包括自然语言处理器,用于将提取术语和/或第一术语与本体 论中的本体论概念相关联,并且其中该同现统计涉及本体论概念与第二术 语同现的概率。这改进了同现统计和/或所建议术语的准确性。

术语选择器操作性耦接至文本输入单元并且被布置为接收由用户输入 的术语的一部分,并且被布置为基于术语的该接收部分来选择频繁同现的 术语。这样,所建议的术语与已经由用户部分输入的词语是相关的。

术语选择器可被布置为选择其开头与术语的该接收部分相匹配的频繁 同现术语。这提供了自然的自动补全处理,其中用户输入术语的开头并且 被提供有与所输入的开头匹配的完整术语。

报告可包括患者医学报告,并且节段可包括患者病史节段、临床发现 节段,和/或诊断节段。这描述了典型的医学报告方案。

在另一方面中,本发明提供一种工作站包括一个或多个所提出系统。

在仍另一方面中,本发明提供一种在报告的文本输入期间建议自动补 全术语的方法,包括

-使得用户能够将文本输入当前报告中;

-确定所述当前报告的多个节段;

-检测所述当前报告中所述用户正在操作的节段,从而获得当前节段;

-提取在所述当前报告中出现的术语,从而获得提取术语,以及识别所述 当前报告的其中出现所述提取术语的节段,从而获得提取术语节段,其中 所述提取术语节段和所述当前节段是不同的节段;

-访问多个同现统计,同现统计指示至少一个第一术语、至少一个第一节 段、第二术语、第二节段,以及报告在所述第一节段中包含所述第一术语 连同在所述第二节段中包含所述第二术语的频率;

-基于所述提取术语、所述提取术语节段、所述当前节段、以及至少一个 所述同现统计来选择至少一个频繁同现术语;以及

-给所述用户提供所述至少一个频繁同现术语的指示。

在另一方面中,本发明提供一种分析多个报告的方法,包括

-确定将所述报告划分为节段的划分;

-确定在多个所述报告中通用的多个节段;

-从所述报告的所述通用节段中提取出多个术语,以及将每个术语与其所 出现的所述节段和报告相关联;以及

-生成多个同现统计,同现统计指示至少一个第一术语、至少一个第一节 段、第二术语、第二节段,以及报告在所述第一节段中包括所述第一术语 连同在所述第二节段中包含所述第二术语的频率,其中至少一个第一节段 不同于所述第二节段。

在另一方面中,本发明提供一种计算机程序产品,其包括用于使得处 理器系统执行在本文中阐明的一个或多个方法的指令。

本领域技术人员将意识到的是可以以任何被认为是有益的方式来将以 上提及的本发明的实施例、实现方式和/或方面中的两个或者更多个相组合。

本领域技术人员基于说明书可以实现与所描述的系统的修改和变型相 应的图像采集设备、工作站、系统,和/或计算机程序产品的修改和变型。

附图说明

参照下文描述的实施例,本发明的这些和其他方面将变得显而易见并 且得到阐述。在图中,

图1是用于在文本输入期间建议自动补全术语的系统的框图;

图2是用于分析报告的系统的框图;

图3是分析报告的方法的流程图;以及

图4是在文本输入期间建议自动补全术语的方法的流程图。

具体实施方式

在下文中,将借助于例子来描述实施例。

例如,考虑如下的正在被键入的临床文档:“32岁男性呈现出左耳耳鸣。 MDCT示出影响左耳道的团块(32yo male presenting with tinnitus in left ear. MDCT shows mass impinging on left auditory canal.)”。在作者已经键入“耳 道(auditory canal)”中的“au”时,字符串匹配自动补全可提供“au”、“审 计员(auditor)”、“听力(audition)”、“听觉的(auditory)”、“耳道(auditory  canal)”、“常染色体(autosomal)”,等等。使用在本文中描述的技术,“耳 道(auditory canal)”将被提升至列表的顶部,因为其具有与“耳鸣(tinnitus)” 的相对高的同现频率。

作为第二例子,考虑关于多发性硬化症的放射学报告,包含句子:“在 白质中未观察到异常亮度(No abnormality intensity observed in the white  matter.)”。当前已知的方法可将“白质(white matter)”中的字母“w”与 所有以字母“w”开头的词语相匹配,或者甚至所有的以字母“w”开头的 常用放射学术语。然而,考虑到之前的上下文,可以一种使最相关的术语 放在顶部的方式来缩小和分类该列表。

子系统可被布置为分析先前报告和临床文档,以便“学习”和存储不 同术语之间的相关性。另一子系统可被布置为分析当前输入的报告,从而 可以基于(a)目前为止输入的报告当前内容,以及(b)先前学习的术语 之间的相关性,来建议新的术语。此外,子系统可被布置为向用户显示所 建议的术语。

图1图示了用于建议自动补全术语的系统。可在报告的文本输入期间 建议这些自动补全术语。该系统可至少部分在计算机系统中实现。这种系 统可包括工作站。系统的部分可被实现在经由客户端系统访问的服务器系 统中,其中该客户端系统可包括工作站。该系统可包括显示器、文本输入 设备,例如键盘和/或包括实时声音识别软件的口述输入器、用于控制该系 统的鼠标、用于与服务器通信和/或用于取回报告、统计学数据、和/或用于 将完成的报告传送给接收器的通信端口。该系统可包括用于存储报告和/或 统计学数据和其他数据的存储装置。

该系统可包括文本输入单元2,其用于使得用户能够将文本输入当前报 告1中。该文本输入单元2可包括例如文本编辑器,或者词语处理器,用 于使得用户能够编写文本文档,其可能由用户决定以格式化报告并且根据 用户自己的洞察力来给节段提供标题。也可能的是文本输入单元2示出了 其中用户可键入适当文本的多个文本输入域,其中该文本输入域可对应于 报告的通用节段。当完成报告时,文本输入单元2可将该域融入单个的文 档中或者将该域存入数据记录中,例如患者的电子数据记录中。文本输入 单元2可被布置为接收声音识别子系统的输出,使得用户能够通过口头地 说出文本的词语来输入报告。

该系统可包括节段分析器3,其用于确定当前报告的多个节段。该节段 分析器3可包括用于确定报告中的节段的文本解析器。节段分析器3可通 过检测节段的标题和相应的节段主体来完成这。可选地,节段分析器3可 使用自然语言处理通过分析文本的上下文例如临床历史、检查、发现,基 于通常在那些节段中出现的主题来识别不同的节段。当文本输入单元2使 用针对该节段的独立输入域时,节段分析器3可至少在一定程度上被并入 文本输入单元中,因为该节段由输入域确定。

该系统可包括当前节段检测器4,其用于检测当前报告中用户正在操作 的节段。这一节段在本文中被称为当前节段10。为此,当前节段检测器4 操作性地与文本输入单元2和节段分析器3耦接。当前节段检测器4可使 用例如光标位置,或者最后一个词语或者字符所加入的位置,作为当前节 段10。

该系统可包括术语提取器5,其用于提取出在当前报告中出现的术语, 从而获得提取术语8。术语提取器5使用所检测的节段来确定所提取术语在 当前报告的哪个节段中出现,从而获得提取术语节段9。提取术语8和提取 术语节段9可被视为提取对15。术语提取器5可处理当前报告1的所有或 者至少部分以提取出在其中出现的词语,并且将那些词语与相应的节段相 关联。提取术语中的一个或多个可能出现在与当前节段10不同的提取术语 节段9中。

该系统可包括同现访问单元6,其用于访问多个同现统计7。为此,同 现访问单元6可提供对例如数据库或者存储区域的接口。该同现统计提供 关于在特定知识领域的报告中频繁地同现的术语的信息。这样,提取术语8 和提取术语节段9可被匹配于具有同现统计的术语和节段,并且那些同现 统计可提供关于用户想要输入的可能词语的信息。同现统计可指示第一术 语、第一节段、第二术语、第二节段,以及报告在第一节段中包含第一术 语连同在第二节段中包含第二术语的频率。对于一些同现统计,第一节段 可不同于第二节段,然而对于一些其他同现统计,第一节段可与第二节段 相同。同现统计也可涉及在一个、二个、或者更多个节段上分布的多于两 个的词语。例如,同现统计可指示多个对,每个对包括术语和其中出现该 术语的相应节段,以及术语和节段的同现频率,其指示报告在节段中包含 所有的术语频繁程序,由多个对指示。

该系统可包括术语选择器11,其用于选择至少一个频繁同现术语12。 为此,术语选择器11可接收关于提取术语8、提取术语节段9、当前节段 10,以及至少一个同现统计7的信息。术语选择器11可被布置为特定地考 虑从报告中的与当前节段10不同的提取术语节段9中提取出的一个或多个 提取术语8。例如,术语选择器11可被布置为从同现访问单元6中接收针 对由术语提取器5提取出的提取术语8的所有同现统计。同样,术语选择 器11可被布置为从同现访问单元6中接收指示多个第一术语和第一术语节 段的所有同现统计,其中那些所接收的同现统计的第一术语和第一术语节 段各自匹配于提取术语8和提取术语节段9的提取对15。之后,术语选择 器11可通过同现频率而分类所接收的同现统计,从而最频繁出现的同现术 语处于列表的顶部。该列表可局限于仅包含最频繁同现的术语。也可通过 第一术语的数量来分类所接收的同现统计,以让更加特定的建议术语优先, 该更加特定的建议术语与相对大量地出现在当前报告中的提取术语频繁地 同现。该列表可向用户示出。为此,系统可包括指示器13以给用户提供至 少一个频繁同现术语12的指示。用户可使用用户接口元件从列表中选择术 语,并且文本输入单元2可被布置为将选定的术语插入当前节段中。当完 成报告时,该系统可被配置为或者可使得用户能够按要求存储或者传送该 报告。

图2示出了用于分析报告的系统的框图。该系统可被实现在与用于建 议自动补全术语的系统类似类型的硬件上。用与图1中相同的附图标记来 指示多个同现统计7,因为其涉及相同或者类似的数据结构。用于分析报告 的系统具有对多个报告或者报告集合21的访问。这一报告集合21可被并 入数据库中或者作为简单文档集合存储在文件结构中。

用于分析报告的系统可包括节段分析器22,其用于确定将多个报告21 划分为节段的划分。为此,节段分析器22可被布置为一个接一个地,或者 并行地,处理报告,并且检测每个经处理报告的节段标题和节段主体。检 测节段的其他方式在以上涉及用于建议自动补全术语的系统的节段分析器 3中描述。

用于分析报告的系统可包括通用节段确定器23,其用于确定多个报告 21通用的多个节段。这样,获得多个通用节段。通用节段确定器23可被布 置为将不同报告的节段的节段标题相比较,并且当足够大量的报告具有相 同的节段标题或者类似的节段标题时,该节段可由节段标识符标注并且被 标记为通用节段。

用于分析报告的系统可包括术语提取器24,其用于从报告的通用节段 中提取出多个术语25,并且将每个术语与其所出现的节段和报告相关联。 术语提取器24可类似于用于建议自动补全术语的系统的术语提取器5,然 而,术语提取器24被布置为处理多个完成的报告而不是在开始创建过程中 的报告。

用于分析报告的系统可包括同现统计生成器26,其用于生成多个同现 统计7。这种同现统计可指示第一术语、第一节段、第二术语、第二节段, 以及报告在第一节段中包含第一术语连同在第二节段中包含第二术语的频 率。同现统计生成器26可将从不同节段中提取出的术语相组合以获得涉及 在不同节段中的术语的同现的同现统计,并且因而同现统计的第一节段可 不同于第二节段。多个同现统计可进一步包括涉及在同一节段之内的术语 的同现的同现统计,在这种情况下第一节段和第二节段是相同的。所生成 的多个同现统计可由参照图1所描述的用于自动补全术语的系统来使用。

用于分析报告的系统和用于建议自动补全术语的系统可被合并为单个 系统,其能够基于多个报告来生成同现统计并且在新报告的创建期间建议 自动补全术语。然而,也可能的是该两个系统被实现为分离的实体,从而 产品开发者或者技术人员可使用用于分析报告的系统来准备同现统计7的 组,其可由大量的用户使用作为用于建议自动补全术语的系统的输入。以 下特征可应用于自动补全系统和报告分析系统两者。

可以以很多不同的格式来提供报告,而基本上不影响系统的工作。例 如,报告可具有文档的格式,例如无格式文本文档或者格式化文本文档。 该报告也可具有XML文档的格式。这种XML文档的XML代码可用于编 码多种事物;例如,XML代码可用于指示节段。文档的节段可由节段标题 和节段主体构成。例如,接着空白行的是节段标题行,并且接着节段标题 的是空白行和节段主体。在格式化文本文档或者XML文档中,可借助于元 数据来指示标题和/或节段的位置。节段分析器3、22可包含用于取回关于 节段的任何这种信息的解析器。

报告1、21可包括多个文件。例如,不同的文件包括报告的不同的节 段。这使得识别不同的节段变得容易。

由术语提取器5提取出的提取术语8,和/或由同现生成器26使用或者 在同现统计中的第一术语可包括多个词语,例如包括一系列词语的表达或 者短语。这一表达可例如包括后面跟着名称的形容词。也可能的是多个词 语不是固定顺序的表达,而是多个词语可出现在特定节段中的任何位置。 当这一多个词语中的每一个在那一节段中出现时,同现统计指示与第二术 语的同现频率。然而,也可能的是将系统配置为使得每个同现统计仅涉及 一个第一术语(其可是一系列词语的表达),并且针对出现在节段中的不同 词语,生成独立的同现统计。术语选择器可将来自相关同现统计的多个信 息相组合以改善对频繁同现术语12的选择。

该系统可包括自然语言处理器14、27。该自然语言处理器14、27可被 布置为将提取术语8和/或第一术语与本体论中的本体论概念相关联。这可 以使用在自然语言处理领域本身中已知的技术来完成。可以使用与多个报 告21的知识领域相关的本体论。因此,同现统计可涉及本体论概念与第二 术语同现的概率。第二术语也可对应于本体论概念。

术语选择器11操作性地耦接至文本输入单元2并且被布置为接收由用 户输入的术语的一部分,并且被布置为基于术语的该接收部分来选择频繁 同现术语12。这样,所建议的术语可以是更加相关的,因为它们与用户已 经输入的术语的该部分对应。例如,术语选择器11被布置为选择其开头与 术语的所接收部分匹配的至少一个频繁同现术语12。然而,这并不是限制 性的。术语选择器11可以选择任何术语,该术语具有作为术语的子字符串 的键入部分。

报告1、21可包括患者医学报告,并且节段包括患者病史节段、临床 发现节段,和/或诊断节段。然而,该系统也可用于其他知识领域。

图3示出了分析多个报告的方法的流程图。该方法可包括步骤31:确 定将报告划分为节段的划分。该方法可包括步骤32:确定多个报告通用的 多个节段。该方法可包括步骤33:从报告的通用节段中提取出多个术语, 以及将每个术语与其所出现的节段和报告相关联。该方法可包括步骤34: 生成多个同现统计,同现统计指示第一术语、第一节段、第二术语、第二 节段,以及报告在第一节段中包含第一术语连同在第二节段中包含第二术 语的频率。如本领域技术人员鉴于本描述包括对系统的描述所显而易见的, 该方法可包括另外的步骤或者受到修改。

图4示出了在报告的文本输入期间建议自动补全术语的方法的流程图。 该方法可包括步骤41:使得用户能够将文本输入当前报告。该方法可包括 步骤42:确定当前报告的多个节段。该方法可包括步骤43:检测当前报告 中用户正在操作的节段,从而获得当前节段。该方法可包括步骤44:提取 在当前报告中出现的术语,从而获得提取术语,并且识别当前报告中该提 取术语所出现的节段,从而获得提取术语节段,其中该提取术语节段和当 前节段是不同的节段。该方法可包括步骤45:访问多个同现统计,同现统 计指示第一术语、第一节段、第二术语、第二节段,以及报告在第一节段 中包括第一术语结合在第二节段中包含第二术语的频率。该方法可包括步 骤46:基于提取术语、提取术语节段、当前节段,以及至少一个同现统计 来选择至少一个频繁同现术语。该方法可包括步骤47:向用户提供至少一 个频繁同现术语的指示。如本领域技术人员鉴于本描述包括对系统的描述 所显而易见的,该方法可包括另外的步骤或者受到修改。

在本文中描述的方法和系统也可在软件中实现作为计算机程序产品。 实际上,可使用一个或多个计算机系统来实现该方法和系统。一个系统可 分析存储在例如医院放射学信息系统(RIS)中的报告。存储术语之间的提 取的相关性以供今后使用。随着键入或者口述新的报告,通过计算机系统, 联合所提取的相关性来连续地分析该报告。在线分析用于基于对先前报告 和当前报告的组合分析来建议潜在的合适术语,然后将该术语显示在计算 机屏幕上。

现有技术本身中已知的自然语言处理(NLP)可以用于从自由文本临床 文档中提取出相关的术语或者概念,并且在该文档之内识别出它们的上下 文。这些可以存储在数据库或者其他结构化格式(例如,XML)中。作为 例子,考虑报告节段:

“病史:45岁女性表现出左耳耳鸣和手部麻刺。”

NLP方法可用于将这转换成一格式,描述内容(例如人口统计学、发 现、问题)、详细信息(例如身体部位、性别、年龄)、唯一识别出概念的 字母数字代码(例如UMLS代码),以及报告的节段(例如“过去病史”)。 例如,以上叙述的报告节段可被转换为以下:

发现:人口统计学

年龄>>[45,[idref,4],年,[idref,6]]

节段名称>>报告过去病史项

性别>>女性

问题:耳鸣

身体部位>>耳朵

区域>>左边

代码>>UMLS:C0521421_整个耳朵

节段名称>>报告过去病史项

代码>>UMLS:C0040264_耳鸣

问题:麻刺

身体部位>>手部

代码>>UMLS:C0018563_手部

确定性>>高度确定

节段名称>>报告过去病史项

代码>>UMLS:C0423572_发麻

这一处理可对大型报告组执行。这一步骤可对在放射学信息系统 (RIS)、实验信息系统(LIS)、或者医院信息系统(HIS)中包含的所有文 本数据执行。可能的是将被分析的报告组限制于那些由特殊的作者组例如 医疗专家编写的报告。这一作者组可是单独的个体,因而个人化建议系统。 该作者组也可被选定以便获得针对相关知识领域有效的建议。为此,该作 者组可包括高级医师组、医院内部的部门组、部门内部的科室组、或者横 跨多个医院的组。

从每个报告中提取出的结构化数据要素可以存储在数据库中。在简单 的实施例中,该数据库包括报告标识符和术语列表。此外,其中发现术语 的节段可存储在数据库中。在一例子中,我们可具有以下的简化数据库:

为了改善系统,可基于更加不同的报告并且涉及更多术语地来创建更 大的数据库。然而,使用以上数据库来解释系统,可推断,在例如“耳鸣” 和“耳道”之间的具有相关性。如果构建足够大的数据库,那么可推断远 远更多的关系。

可明确地存储术语的相关性。可以基于定量度量来过滤和分析这一相 关性列表,该定量度量为具有同现的报告的数量、统计学p值,例如通过 卡方检定或者费希尔精确检定计算出的、或者贝叶斯概率P(术语X︱术语 A,术语B,…,术语N)(被解释为特定术语X出现的概率,假设我们已 经在报告(的特定节段)中看到术语A,B,…,N)。相比之下,注意到 K.Voll的“A hybrid approach to improving automatic speech recognition via  NLP”,Advances in artificial intelligence:Proceedings of20th Conference of  the Canadian Society for Computational Studies of Intelligence,Canadian AI 2007,Montreal,Canada,2007中公开了一种后自动语音识别误差检测的方 法。该论文公开了基于在上下文窗口中的同现关系的探索,其被定义为出 现在一词语的任一侧的n个词语。这些同现关系可是使用贝叶斯定理的条 件概率。

随着新的报告正在被输入(典型地通过键入或者口述),在这一说明中 描述的系统可对其进行处理。可使用如以上描述的相同或者类似的自然语 言处理方法。同样,可提取或者构建报告中的术语和概念。随着口述新的 词语或者键入新的字母,可连续地执行这一分析。在键入的报告中,随着 输入每个字母,可激活于此描述的预测步骤以建议可补全所输入词语或者 短语的术语。在口述的情况下,归因于已知语音识别算法的限制,可能含 糊不清地输入词语。例如,已知的语音识别方法可能不能够确定地区分口 语词语“creatinine”和“creatine”。在这些情况下,可激活于此描述的预测 步骤。

该系统可在医学术语列表中查找匹配术语。因而,如果输入字母“a”, 那么识别出所有的以字母“a”开头的医学术语。之后,可将来自当前报告 的提取信息和来自历史(过去)报告的存储分析组合成以优先顺序排列某 些术语。例如,可检索数据库,寻找所有的包含与从当前报告中提取出的 那些术语或者本体论概念相同的过去报告。这样,可发现与那些术语频繁 同现的术语并且基于同现频率而将其按优先顺序排列。

作为一例子,考虑到正在键入的新报告,其中病史节段包含术语“耳 鸣(tinnitus)”。在这一例子中,当前键入的词语以字母“a”开头。使用已 知的方法,可能的词语列表可被限制于那些以“a”开头的。接着,与在步 骤2中给出的示例性小数据库相比较,发现“耳鸣(tinnitus)”常常与术语 “耳道(auditory canal)”同现。然后可以将这一术语提升到可能列表的顶 部,并且作为建议向用户示出这一术语以自动补全正在键入的术语。

可在报告节段的背景下执行该比较。当处理历史数据以找出同现时, 该处理可将其中出现术语的节段考虑在内。例如,如果当前报告在病史节 段中示出“成胶质细胞瘤”,那么该系统可被布置为仅考虑其中在病史节段 有“成胶质细胞瘤”的先前报告。同样,取决于当前词语所键入的节段, 仅建议在在前报告的同一节段中发现的术语。

结果可以被示为按照优先顺序列出可能匹配的屏幕菜单。这一优先可 基于所建议词语的同现频率考虑所提取术语和概念及其节段。所建议的术 语可以针对不同术语类型来被单独地呈现,例如涉及疾病、症状、发现、 以及过程的术语。

将意识到的是本发明也适用于计算机程序,尤其是载体上或者中的适 于将本发明付诸实践的计算机程序。该程序的形式可为源代码、目标代码、 代码中间源以及诸如部分编译形式的目标代码、或者适于在根据本发明方 法的执行中使用的任何其他形式。也将意识到的是这种程序可具有很多不 同的结构设计。例如,执行根据本发明方法或者系统的功能的程序代码可 被再细分为一个或多个子例程。对本领域技术人员而言,将该功能分布于 这些子例程之中的很多不同方式将是显而易见的。该子例程可被一起存储 在一个可执行文件中以形成自包含程序。这种可执行文件可包括计算机可 执行指令,例如处理器指令和/或解释器指令(例如,Java解释器指令)。可 选的,一个或多个子例程或者所有的子例程可被存储在至少一个外部库文 件中并且与主程序静态或者动态地链接,例如在运行时。该主程序包含对 至少一个子例程的至少一个调用。该子例程也可包括对彼此的函数调用。 与计算机程序产品相关的实施例包括与在本文中阐明的至少一个方法的每 个处理步骤相应的计算机可执行指令。这些指令可被再细分为子例程和/或 被存储在可被静态或者动态链接的一个或多个文件中。与计算机程序产品 相关的另一实施例包括与在本文中阐明的系统和/或产品中的至少一个的每 个装置相应的计算机可执行指令。这些指令可被再细分为子例程和/或被存 储在可被静态或者动态链接的一个或多个文件中。

计算机程序的载体可是能够装载程序的任何实体或者设备。例如,该 载体可包括诸如ROM的存储器介质,如CD ROM或者半导体ROM,或者 磁性记录介质,例如软盘或者硬盘。此外,该载体可是可传送载体,例如 电或者光信号,其可经由电缆或光缆或者通过无线电或者其他手段被传送。 当程序被包含于这种信号中时,该载体可由这种缆线或者其他设备或装置 组成。可选的,该载体可是其中包含有程序的集成电路,该集成电路适于 执行相关方法,或者在相关方法的执行中使用。

应注意,以上提及的实施例举例说明而不是限制本发明,并且本领域 技术人员将能够设计很多可选实施例而不脱离所附权利要求的范围。在权 利要求中,放入圆括号之间的任何附图标记不应被解释为限制权利要求。 动词“包括”和其词形变化的使用不排除未在权利要求中声明的元件或步 骤的存在。在元件之前的冠词“一”或“一个”不排除多个这种元件的存 在。本发明可借助于包括几个截然不同元件的硬件来实现,和以及借助于 适当的编程计算机来实现。在列举几个装置的设备权利要求中,这些装置 中的几个可以通过硬件的一个和相同项来具体实现。在相互不同的从属权 利要求中陈述某些措施的这一仅有事实,并不表示不能将这些措施的组合 加以利用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号