首页> 中国专利> 指标数据的区分方法、装置、设备及存储介质

指标数据的区分方法、装置、设备及存储介质

摘要

本发明涉及大数据领域,应用于智慧医疗领域中,公开了指标数据的区分方法、装置、设备及存储介质,用于提高医疗业务系统中目标指标数据与标准指标数据的区分效率。指标数据的区分方法包括:利用预置的分词算法分别对医疗业务系统中的目标指标数据以及标准指标数据进行分词处理;根据生成的第一词元集和第二词元集分别确定两者整合后的组合词元集中每个词元的占比参数;通过相似度算法和生成的第一参数集以及第二参数集计算初始相似度;当初始相似度的数值大于或等于相关阈值时,重新获取目标指标数据,并计算重新获取的目标指标数据与标准指标数据之间的基础相似度,若基础相似度大于或等于相关阈值,则更新重新获取的目标指标数据。

著录项

  • 公开/公告号CN113270181A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 中国平安人寿保险股份有限公司;

    申请/专利号CN202110691918.5

  • 发明设计人 唐国凯;

    申请日2021-06-22

  • 分类号G16H40/20(20180101);G16H50/20(20180101);G06Q10/06(20120101);G06F40/194(20200101);G06F40/279(20200101);

  • 代理机构11321 北京市京大律师事务所;

  • 代理人姚维

  • 地址 518033 广东省深圳市福田区益田路5033号平安金融中心14、15、16、37、41、44、45、46层

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本发明涉及大数据领域,尤其涉及一种指标数据的区分方法、装置、设备及存储介质。

背景技术

指标数据在统计学中,指的是说明总体数量特征的概念及其数值的综合,在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。以医疗业务系统为例,将指标数据录入至医疗业务系统之后,由于指标数据存在巨大的业务价值及数据价值,因此医疗业务系统会对指标数据进行监控。在监控的过程中会存在录入的目标指标数据与医疗业务系统中标准指标数据之间高度相似度的情况,导致目标指标数据与标准指标数据的区分效率低下,造成后续操作无法进行的情况。

发明内容

本发明提供了一种指标数据的区分方法、装置、设备及存储介质,用于提高医疗业务系统中目标指标数据与标准指标数据的区分效率。

本发明第一方面提供了一种指标数据的区分方法,包括:获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据,并利用预置的分词算法分别对所述目标指标数据以及所述标准指标数据进行分词处理,得到第一词元集和第二词元集;按照预置的整合规则合并所述第一词元集和所述第二词元集,得到组合词元集,并根据所述第一词元集和所述第二词元集分别确定所述组合词元集中每个词元的占比参数,得到第一参数集和第二参数集;通过相似度算法、所述第一参数集以及所述第二参数集计算所述目标指标数据和所述标准指标数据之间的初始相似度;当所述初始相似度的数值大于或等于相关阈值时,重新获取目标指标数据,并计算重新获取的目标指标数据与所述标准指标数据之间的基础相似度,若所述基础相似度大于或等于所述相关阈值,则更新所述重新获取的目标指标数据,并对更新后的目标指标数据进行记录。

可选的,在本发明第一方面的第一种实现方式中,所述获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据,并利用预置的分词算法分别对所述目标指标数据以及所述标准指标数据进行分词处理,得到第一词元集和第二词元集包括:获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据;利用预置的分词算法对所述目标指标数据进行拆分,将所述目标指标数据拆分成多个指标词元,并对拆分后的所述多个指标词元进行整合,生成所述目标指标数据对应的指标词元链,得到第一词元集;利用所述预置的分词算法对所述标准指标数据进行拆分,将所述标准指标数据拆分成多个标准词元,并对拆分后的所述多个标准词元进行整合,生成所述标准指标数据对应的标准词元链,得到第二词元集。

可选的,在本发明第一方面的第二种实现方式中,所述利用预置的分词算法对所述目标指标数据进行拆分,将所述目标指标数据拆分成多个指标词元,并对拆分后的所述多个指标词元进行整合,生成所述目标指标数据对应的指标词元链,得到第一词元集包括:通过预置的分词算法确定所述目标指标数据的起始位置,并利用预置词典从所述目标指标数据的起始位置对所述目标指标数据进行拆分,得到多个指标词元;对所述多个指标词元进行组合处理,生成多个初始词元链;基于预置的歧义消除算法剔除所述多个初始词元链中存在歧义的词元链,生成所述目标指标数据对应的指标词元链,得到第一词元集。

可选的,在本发明第一方面的第三种实现方式中,所述按照预置的整合规则合并所述第一词元集和所述第二词元集,得到组合词元集,并根据所述第一词元集和所述第二词元集分别确定所述组合词元集中每个词元的占比参数,得到第一参数集和第二参数集包括:按照预置的整合规则在所述第一词元集以及所述第二词元集中筛选出相同的词元,将所述相同的词元确定为重复词元,将所述第一词元集中除所述重复词元之外的词元确定为第一待选词元,将所述第二词元集中除所述重复词元之外的词元确定为第二待选词元;合并所述第一待选词元、所述第二待选词元以及所述重复词元,得到组合词元集;根据所述第一词元集确定所述组合词元集中每个词元的占比参数,得到第一参数集;根据所述第二词元集确定所述组合词元集中每个词元的占比参数,得到第二参数集。

可选的,在本发明第一方面的第四种实现方式中,所述根据所述第一词元集确定所述组合词元集中每个词元的占比参数,得到第一参数集包括:按照预置的排列顺序分别判断所述组合词元集中的每个词元是否存在于所述第一词元集中;若所述组合词元集中的目标词元存在于所述第一词元集中,则确定所述目标词元的占比参数为第一标准参数;若所述组合词元集中的目标词元不存在于所述第一词元集中,则确定所述目标词元的占比参数为第二标准参数;确定所述组合词元集中的每个词元的占比参数之后,按照预置的排列顺序储存每个词元对应的占比参数,得到组合第一参数集。

可选的,在本发明第一方面的第五种实现方式中,所述通过相似度算法、所述第一参数集以及所述第二参数集计算所述目标指标数据和所述标准指标数据之间的初始相似度包括:获取所述第一参数集中每个词元的占比参数以及所述第二参数集中每个词元的占比参数;基于相似度算法中的相似度计算公式计算所述目标指标数据和所述标准指标数据之间的初始相似度,其中,所述相似度计算公式为:

S表示所述目标指标数据和所述标准指标数据之间的初始相似度,a表示组合词元集中词元的个数,C

可选的,在本发明第一方面的第六种实现方式中,在所述当所述初始相似度的数值大于或等于相关阈值时,重新获取目标指标数据,并计算重新获取的目标指标数据与所述标准指标数据之间的基础相似度,若所述基础相似度大于或等于所述相关阈值,则更新所述重新获取的目标指标数据,并对更新后的目标指标数据进行记录之后,所述指标数据的区分方法还包括:利用医疗业务系统中的显示系统对目标指标数据进行显示。

本发明第二方面提供了一种指标数据的区分装置,包括:分词模块,用于获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据,并利用预置的分词算法分别对所述目标指标数据以及所述标准指标数据进行分词处理,得到第一词元集和第二词元集;确定模块,用于按照预置的整合规则合并所述第一词元集和所述第二词元集,得到组合词元集,并根据所述第一词元集和所述第二词元集分别确定所述组合词元集中每个词元的占比参数,得到第一参数集和第二参数集;计算模块,用于通过相似度算法、所述第一参数集以及所述第二参数集计算所述目标指标数据和所述标准指标数据之间的初始相似度;更新模块,当所述初始相似度的数值大于或等于相关阈值时,用于重新获取目标指标数据,并计算重新获取的目标指标数据与所述标准指标数据之间的基础相似度,若所述基础相似度大于或等于所述相关阈值,则更新所述重新获取的目标指标数据,并对更新后的目标指标数据进行记录。

可选的,在本发明第二方面的第一种实现方式中,所述分词模块包括:获取单元,用于获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据;第一拆分单元,用于利用预置的分词算法对所述目标指标数据进行拆分,将所述目标指标数据拆分成多个指标词元,并对拆分后的所述多个指标词元进行整合,生成所述目标指标数据对应的指标词元链,得到第一词元集;第二拆分单元,用于利用所述预置的分词算法对所述标准指标数据进行拆分,将所述标准指标数据拆分成多个标准词元,并对拆分后的所述多个标准词元进行整合,生成所述标准指标数据对应的标准词元链,得到第二词元集。

可选的,在本发明第二方面的第二种实现方式中,所述第一拆分单元具体用于:通过预置的分词算法确定所述目标指标数据的起始位置,并利用预置词典从所述目标指标数据的起始位置对所述目标指标数据进行拆分,得到多个指标词元;对所述多个指标词元进行组合处理,生成多个初始词元链;基于预置的歧义消除算法剔除所述多个初始词元链中存在歧义的词元链,生成所述目标指标数据对应的指标词元链,得到第一词元集。

可选的,在本发明第二方面的第三种实现方式中,所述确定模块包括:筛选单元,用于按照预置的整合规则在所述第一词元集以及所述第二词元集中筛选出相同的词元,将所述相同的词元确定为重复词元,将所述第一词元集中除所述重复词元之外的词元确定为第一待选词元,将所述第二词元集中除所述重复词元之外的词元确定为第二待选词元;合并单元,用于合并所述第一待选词元、所述第二待选词元以及所述重复词元,得到组合词元集;第一确定单元,用于根据所述第一词元集确定所述组合词元集中每个词元的占比参数,得到第一参数集;第二确定单元,用于根据所述第二词元集确定所述组合词元集中每个词元的占比参数,得到第二参数集。

可选的,在本发明第二方面的第四种实现方式中,所述第一确定单元具体用于:按照预置的排列顺序分别判断所述组合词元集中的每个词元是否存在于所述第一词元集中;若所述组合词元集中的目标词元存在于所述第一词元集中,则确定所述目标词元的占比参数为第一标准参数;若所述组合词元集中的目标词元不存在于所述第一词元集中,则确定所述目标词元的占比参数为第二标准参数;确定所述组合词元集中的每个词元的占比参数之后,按照预置的排列顺序储存每个词元对应的占比参数,得到组合第一参数集。

可选的,在本发明第二方面的第五种实现方式中,所述计算模块具体用于:获取所述第一参数集中每个词元的占比参数以及所述第二参数集中每个词元的占比参数;基于相似度算法中的相似度计算公式计算所述目标指标数据和所述标准指标数据之间的初始相似度,其中,所述相似度计算公式为:

S表示所述目标指标数据和所述标准指标数据之间的初始相似度,a表示组合词元集中词元的个数,C

可选的,在本发明第二方面的第六种实现方式中,所述指标数据的区分装置还包括:显示模块,用于利用医疗业务系统中的显示系统对目标指标数据进行显示。

本发明第三方面提供了一种指标数据的区分设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述指标数据的区分设备执行上述的指标数据的区分方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的指标数据的区分方法。

本发明提供的技术方案中,获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据,并利用预置的分词算法分别对所述目标指标数据以及所述标准指标数据进行分词处理,得到第一词元集和第二词元集;按照预置的整合规则合并所述第一词元集和所述第二词元集,得到组合词元集,并根据所述第一词元集和所述第二词元集分别确定所述组合词元集中每个词元的占比参数,得到第一参数集和第二参数集;通过相似度算法、所述第一参数集以及所述第二参数集计算所述目标指标数据和所述标准指标数据之间的初始相似度;当所述初始相似度的数值大于或等于相关阈值时,重新获取目标指标数据,并计算重新获取的目标指标数据与所述标准指标数据之间的基础相似度,若所述基础相似度大于或等于所述相关阈值,则更新所述重新获取的目标指标数据,并对更新后的目标指标数据进行记录。本发明实施例中,通过分别对目标指标数据与标准指标数据进行分词处理,得到第一词元集、第二词元集以及按照预置的整合规则合并第一词元集和第二词元集得到的组合词元集,然后分别根据第一词元集和第二词元集确定组合词元集的占比参数,再根据组合词元集的占比参数计算目标指标数据与标准指标数据之间的相似度,进而判断目标指标数据与标准指标数据之间的相似性,对两者进行区分。本方案可应用于智慧医疗领域中,提高了医疗业务系统中目标指标数据与标准指标数据的区分效率,从而推动智慧城市的建设。

附图说明

图1为本发明实施例中指标数据的区分方法的一个实施例示意图;

图2为本发明实施例中指标数据的区分方法的另一个实施例示意图;

图3为本发明实施例中指标数据的区分装置的一个实施例示意图;

图4为本发明实施例中指标数据的区分装置的另一个实施例示意图;

图5为本发明实施例中指标数据的区分设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种指标数据的区分方法、装置、设备及存储介质,用于提高医疗业务系统中目标指标数据与标准指标数据的区分效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中指标数据的区分方法的一个实施例包括:

101、获取需要录入医疗业务系统的目标指标数据以及医疗业务系统内的标准指标数据,并利用预置的分词算法分别对目标指标数据以及标准指标数据进行分词处理,得到第一词元集和第二词元集;

可以理解的是,本发明的执行主体可以为指标数据的区分装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

指标数据在统计学中,指的是说明总体数量特征的概念及其数值的综合,在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。以医疗业务系统为例,将指标数据录入至医疗业务系统之后,由于指标数据存在巨大的业务价值及数据价值,因此医疗业务系统会对指标数据进行监控。在监控的过程中会存在录入的目标指标数据与医疗业务系统中标准指标数据之间高度相似度的情况,导致目标指标数据与标准指标数据的区分效率低下,造成后续操作无法进行的情况。

服务器首先获取需要录入医疗业务系统的目标指标数据,这里的目标指标数据指的是与医疗业务相关的指标,如挂号预约,医疗科室查询等。医疗业务系统内的标准指标数据为医疗业务系统内的标准指标。在获取录入的目标指标数据之后就需要进一步检测目标指标数据的录入准确性,因此服务器首先要对目标指标数据进行拆分。

102、按照预置的整合规则合并第一词元集和第二词元集,得到组合词元集,并根据第一词元集和第二词元集分别确定组合词元集中每个词元的占比参数,得到第一参数集和第二参数集;

服务器在得到第一词元集和第二词元集之后,会计算两者之间的相似度,进一步比较目标指标数据和标准指标数据。计算第一词元集和第二词元集的相似度之前,首先需要按照预置的整合规则将两个词元集进行合并,得到组合词元集,这里的预置的整合规则指的是在第一词元集合第二词元集合并之后剔除重复词元。然后根据第一词元集中的词元或第二词元集中的词元确定组合词元集中每个词元的占比参数,得到第一参数集合第二参数集。由此,为下一步的操作——计算目标指标数据和标准指标数据之间的基础相似度作基础。

103、通过相似度算法、第一参数集以及第二参数集计算目标指标数据和标准指标数据之间的初始相似度;

在计算得到第一参数集以及第二参数集之后就可以进一步计算对应的目标指标数据和标准指标数据之间的初始相似度,这里利用的相似度算法是余弦相似度算法,利用余弦相似度算法可以计算两段文本的相似度和两个用户的相似度,因此本申请中采用余弦相似度算法计算目标指标数据和标准指标数据之间的初始相似度。

104、当初始相似度的数值大于或等于相关阈值时,重新获取目标指标数据,并计算重新获取的目标指标数据与标准指标数据之间的基础相似度,若基础相似度大于或等于相关阈值,则更新重新获取的目标指标数据,并对更新后的目标指标数据进行记录。

需要说明的是,当基础相似度的数值大于或等于相关阈值时,说明目标指标数据和标准指标数据之间过于相似,从医疗业务系统的数据管理层面来看目标指标数据应该与标准指标数据是相同的,因此服务器应该再次对目标指标数据进行审核,判断录入的目标指标数据是否需要进行更新。具体的,可以重新获取目标指标数据,并再次计算重新获取的目标指标数据与标准指标数据之间的基础相似度,再次判断基础相似度与相关阈值之间的关系,若重新计算的基础相似度仍旧大于或等于相关阈值,则服务器直接更新重新获取的目标指标数据,并对更新后的目标指标数据进行记录。

需要说明的是,相关阈值为医疗业务系统中判断目标指标数据和标准指标数据是否相似的界限值,当计算出目标指标数据和标准指标数据之间的基础相似度大于相关阈值时,说明目标指示数据和标准指示数据是相似的,当基础相似度小于相关阈值,说明目标指示数据和标准指示数据不相似。在本申请中,相关阈值设定为85%,相关阈值的具体数值可以根据实际情况进行设定,本申请并不对相关阈值的数值进行限定。

本发明实施例中,通过分别对目标指标数据与标准指标数据进行分词处理,得到第一词元集、第二词元集以及按照预置的整合规则合并第一词元集和第二词元集得到的组合词元集,然后分别根据第一词元集和第二词元集确定组合词元集的占比参数,再根据组合词元集的占比参数计算目标指标数据与标准指标数据之间的相似度,进而判断目标指标数据与标准指标数据之间的相似性,对两者进行区分。本方案可应用于智慧医疗领域中,提高了医疗业务系统中目标指标数据与标准指标数据的区分效率,从而推动智慧城市的建设。

请参阅图2,本发明实施例中指标数据的区分方法的另一个实施例包括:

201、获取需要录入医疗业务系统的目标指标数据以及医疗业务系统内的标准指标数据,并利用预置的分词算法分别对目标指标数据以及标准指标数据进行分词处理,得到第一词元集和第二词元集;

具体的,服务器获取需要录入医疗业务系统的目标指标数据以及医疗业务系统内的标准指标数据;服务器利用预置的分词算法对目标指标数据进行拆分,将目标指标数据拆分成多个指标词元,并对拆分后的多个指标词元进行整合,生成目标指标数据对应的指标词元链,得到第一词元集;服务器利用预置的分词算法对标准指标数据进行拆分,将标准指标数据拆分成多个标准词元,并对拆分后的多个标准词元进行整合,生成标准指标数据对应的标准词元链,得到第二词元集。

这里利用预置的分词算法对目标指标数据进行拆分处理指的是利用IK分词器对目标指标数据进行分词,IK分词器是基于正向匹配的分词算法,可以将其分为两种模式,第一种模式为非smart模式,在非smart模式下,IK分词器会将输入的目标指标数据能够拆成的词元全部输出;第二种模式为smart模式,在smart模式下,IK分词器会将输入的目标指标数据根据内在方法输出一个最合理的拆分结果,这里最合理的拆分结果用于指示目标指标数据的拆分结果符合预置词典的标准,此过程中涉及到了歧义判断,也就是利用到了歧义消除算法。

分词的过程的步骤包括:服务器通过预置的分词算法确定目标指标数据的起始位置,并利用预置词典从目标指标数据的起始位置对目标指标数据进行拆分,得到多个指标词元;服务器对多个指标词元进行组合处理,生成多个初始词元链;服务器基于预置的歧义消除算法剔除多个初始词元链中存在歧义的词元链,生成目标指标数据对应的指标词元链,得到第一词元集。

需要说明的是,这里的预置词典用于指示符合语言规律的标准词以及标准短语,将目标指标数据按照预置词典中的标准词以及标准词语进行拆分,能够得到多个指标词元,对多个指标词元进行排列组合处理,能够生成多个不同语序的初始词元链。如,目标指标数据为“你说的确实在理”,经拆分后得到多个指标词元为“你,说,的确,的确实,确,实在,实,在理,在,理”,经排列组合处理之后,生成的初始词元链至少包括“你,说,的,确实,在理”“你,说,的,确,实在,理”“你,说,的确,实在,理”“你,说,的确,实,在理”“你,说,的,确,实,在,理”等。然后预置的歧义消除算法会剔除多个初始词元链中存在歧义的词元链,生成目标指标数据对应的指标词元链,得到第一词元集,也就是最终得到“你,说,的,确实,在理”这一指标词元链,并将其作为第一词元集。

202、按照预置的整合规则合并第一词元集和第二词元集,得到组合词元集,并根据第一词元集和第二词元集分别确定组合词元集中每个词元的占比参数,得到第一参数集和第二参数集;

具体的,服务器按照预置的整合规则在第一词元集以及第二词元集中筛选出相同的词元,将相同的词元确定为重复词元,将第一词元集中除重复词元之外的词元确定为第一待选词元,将第二词元集中除重复词元之外的词元确定为第二待选词元;服务器合并第一待选词元、第二待选词元以及重复词元,得到组合词元集;服务器根据第一词元集确定组合词元集中每个词元的占比参数,得到第一参数集;服务器根据第二词元集确定组合词元集中每个词元的占比参数,得到第二参数集。

例如:已知第一词元集为“我,爱,北京”,第二词元集为“我,爱,上海”,首先服务器需要在第一词元集和第二词元集中筛选出相同的词元,则筛选出来重复词元为“我”和“爱”,则第一词元集中除重复词元之外的第一待选词元为“北京”,第二词元集中除重复词元之外的第二待选词元为“上海”。服务器合并第一待选词元、第二待选词元以及重复词元,得到组合词元集为“我,爱,北京,上海”。之后可以进一步利用第一词元集确定第一参数集,利用第二词元集确定第二参数集。

服务器确定每个词元的占比参数的步骤如下:服务器按照预置的排列顺序分别判断组合词元集中的每个词元是否存在于第一词元集中;若组合词元集中的目标词元存在于第一词元集中,则服务器确定目标词元的占比参数为第一标准参数;若组合词元集中的目标词元不存在于第一词元集中,则服务器确定目标词元的占比参数为第二标准参数;服务器确定组合词元集中的每个词元的占比参数之后,按照预置的排列顺序储存每个词元对应的占比参数,得到组合第一参数集。

举例说明:已知第一词元集为“我,爱,北京”,第二词元集为“我,爱,上海”,组合词元集为“我,爱,北京,上海”。首先服务器需要按照预置的排列顺序分别判断组合词元集中的每个词元是否存在于第一词元集中,也就是依次判断“我,爱,北京,上海”是否存在于第一词元集中。若组合词元集中的目标词元存在于第一词元集中,则确定目标词元的占比参数为第一标准参数,也就是“我,爱,北京”均存在于第一词元集中,将其占比参数确定为第一标准参数,一般情况下,第一标准参数设置为目标词元在第一词元集中的出现的频次,在上述例子中目标词元分别在第一词元集中出现1次,因此第一标准参数均为1;若组合词元集中的目标词元不存在于第一词元集中,则确定目标词元的占比参数为第二标准参数,也就是“上海”不存在于第一词元集中,将其占比参数确定为第二标准参数,一般情况下,第二标准参数设置为大于0且小于1的数值,在本申请中将第二标准参数设置为0.3,由此可以得到第一参数集为{1,1,1,0.3}。同理可以得到第二参数集为{1,1,0.3,1}。

203、通过相似度算法、第一参数集以及第二参数集计算目标指标数据和标准指标数据之间的初始相似度;

具体的,服务器获取第一参数集中每个词元的占比参数以及第二参数集中每个词元的占比参数;服务器基于相似度算法中的相似度计算公式计算目标指标数据和标准指标数据之间的初始相似度,其中,相似度计算公式为:

S表示目标指标数据和标准指标数据之间的初始相似度,a表示组合词元集中词元的个数,C

举例说明:已知第一词元集为“我,爱,北京”,第二词元集为“我,爱,上海”,组合词元集为“我,爱,北京,上海”,第一参数集为{1,1,1,0.3},第二参数集为{1,1,0.3,1},通过相似度计算公式,计算可得:

即可得到目标指标数据和标准指标数据之间的初始相似度。

204、当初始相似度的数值大于或等于相关阈值时,重新获取目标指标数据,并计算重新获取的目标指标数据与标准指标数据之间的基础相似度,若基础相似度大于或等于相关阈值,则更新重新获取的目标指标数据,并对更新后的目标指标数据进行记录;

需要说明的是,当基础相似度的数值大于或等于相关阈值时,说明目标指标数据和标准指标数据之间过于相似,从医疗业务系统的数据管理层面来看目标指标数据应该与标准指标数据是相同的,因此服务器应该再次对目标指标数据进行审核,判断录入的目标指标数据是否需要进行更新。具体的,可以重新获取目标指标数据,并再次计算重新获取的目标指标数据与标准指标数据之间的基础相似度,再次判断基础相似度与相关阈值之间的关系,若重新计算的基础相似度仍旧大于或等于相关阈值,则服务器直接更新重新获取的目标指标数据,并对更新后的目标指标数据进行记录。

需要说明的是,在本申请中,相关阈值设定为85%,相关阈值的具体数值可以根据实际情况进行设定,本申请并不对相关阈值的数值进行限定。

205、利用医疗业务系统中的显示系统对目标指标数据进行显示。

在确定录入的目标指标数据之后,即可利用医疗业务系统中的显示系统进行显示,使用户可以进一步在医疗业务系统中观察到指标数据。

本发明实施例中,通过分别对目标指标数据与标准指标数据进行分词处理,得到第一词元集、第二词元集以及按照预置的整合规则合并第一词元集和第二词元集得到的组合词元集,然后分别根据第一词元集和第二词元集确定组合词元集的占比参数,再根据组合词元集的占比参数计算目标指标数据与标准指标数据之间的相似度,进而判断目标指标数据与标准指标数据之间的相似性,对两者进行区分。本方案可应用于智慧医疗领域中,提高了医疗业务系统中目标指标数据与标准指标数据的区分效率,从而推动智慧城市的建设。

上面对本发明实施例中指标数据的区分方法进行了描述,下面对本发明实施例中指标数据的区分装置进行描述,请参阅图3,本发明实施例中指标数据的区分装置一个实施例包括:

分词模块301,用于获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据,并利用预置的分词算法分别对所述目标指标数据以及所述标准指标数据进行分词处理,得到第一词元集和第二词元集;

确定模块302,用于按照预置的整合规则合并所述第一词元集和所述第二词元集,得到组合词元集,并根据所述第一词元集和所述第二词元集分别确定所述组合词元集中每个词元的占比参数,得到第一参数集和第二参数集;

计算模块303,用于通过相似度算法、所述第一参数集以及所述第二参数集计算所述目标指标数据和所述标准指标数据之间的初始相似度;

更新模块304,当所述初始相似度的数值大于或等于相关阈值时,用于重新获取目标指标数据,并计算重新获取的目标指标数据与所述标准指标数据之间的基础相似度,若所述基础相似度大于或等于所述相关阈值,则更新所述重新获取的目标指标数据,并对更新后的目标指标数据进行记录。

本发明实施例中,通过分别对目标指标数据与标准指标数据进行分词处理,得到第一词元集、第二词元集以及按照预置的整合规则合并第一词元集和第二词元集得到的组合词元集,然后分别根据第一词元集和第二词元集确定组合词元集的占比参数,再根据组合词元集的占比参数计算目标指标数据与标准指标数据之间的相似度,进而判断目标指标数据与标准指标数据之间的相似性,对两者进行区分。本方案可应用于智慧医疗领域中,提高了医疗业务系统中目标指标数据与标准指标数据的区分效率,从而推动智慧城市的建设。

请参阅图4,本发明实施例中指标数据的区分装置的另一个实施例包括:

分词模块301,用于获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据,并利用预置的分词算法分别对所述目标指标数据以及所述标准指标数据进行分词处理,得到第一词元集和第二词元集;

确定模块302,用于按照预置的整合规则合并所述第一词元集和所述第二词元集,得到组合词元集,并根据所述第一词元集和所述第二词元集分别确定所述组合词元集中每个词元的占比参数,得到第一参数集和第二参数集;

计算模块303,用于通过相似度算法、所述第一参数集以及所述第二参数集计算所述目标指标数据和所述标准指标数据之间的初始相似度;

更新模块304,当所述初始相似度的数值大于或等于相关阈值时,用于重新获取目标指标数据,并计算重新获取的目标指标数据与所述标准指标数据之间的基础相似度,若所述基础相似度大于或等于所述相关阈值,则更新所述重新获取的目标指标数据,并对更新后的目标指标数据进行记录。

可选的,分词模块301包括:

获取单元3011,用于获取需要录入医疗业务系统的目标指标数据以及所述医疗业务系统内的标准指标数据;

第一拆分单元3012,用于利用预置的分词算法对所述目标指标数据进行拆分,将所述目标指标数据拆分成多个指标词元,并对拆分后的所述多个指标词元进行整合,生成所述目标指标数据对应的指标词元链,得到第一词元集;

第二拆分单元3013,用于利用所述预置的分词算法对所述标准指标数据进行拆分,将所述标准指标数据拆分成多个标准词元,并对拆分后的所述多个标准词元进行整合,生成所述标准指标数据对应的标准词元链,得到第二词元集。

可选的,第一拆分单元3012具体用于:

通过预置的分词算法确定所述目标指标数据的起始位置,并利用预置词典从所述目标指标数据的起始位置对所述目标指标数据进行拆分,得到多个指标词元;

对所述多个指标词元进行组合处理,生成多个初始词元链;

基于预置的歧义消除算法剔除所述多个初始词元链中存在歧义的词元链,生成所述目标指标数据对应的指标词元链,得到第一词元集。

可选的,确定模块302包括:

筛选单元3021,用于按照预置的整合规则在所述第一词元集以及所述第二词元集中筛选出相同的词元,将所述相同的词元确定为重复词元,将所述第一词元集中除所述重复词元之外的词元确定为第一待选词元,将所述第二词元集中除所述重复词元之外的词元确定为第二待选词元;

合并单元3022,用于合并所述第一待选词元、所述第二待选词元以及所述重复词元,得到组合词元集;

第一确定单元3023,用于根据所述第一词元集确定所述组合词元集中每个词元的占比参数,得到第一参数集;

第二确定单元3024,用于根据所述第二词元集确定所述组合词元集中每个词元的占比参数,得到第二参数集。

可选的,第一确定单元3023具体用于:

按照预置的排列顺序分别判断所述组合词元集中的每个词元是否存在于所述第一词元集中;

若所述组合词元集中的目标词元存在于所述第一词元集中,则确定所述目标词元的占比参数为第一标准参数;

若所述组合词元集中的目标词元不存在于所述第一词元集中,则确定所述目标词元的占比参数为第二标准参数;

确定所述组合词元集中的每个词元的占比参数之后,按照预置的排列顺序储存每个词元对应的占比参数,得到组合第一参数集。

可选的,计算模块303具体用于:

获取所述第一参数集中每个词元的占比参数以及所述第二参数集中每个词元的占比参数;

基于相似度算法中的相似度计算公式计算所述目标指标数据和所述标准指标数据之间的初始相似度,其中,所述相似度计算公式为:

S表示所述目标指标数据和所述标准指标数据之间的初始相似度,a表示组合词元集中词元的个数,C

可选的,指标数据的区分装置还包括:

显示模块305,用于利用医疗业务系统中的显示系统对目标指标数据进行显示。

本发明实施例中,通过分别对目标指标数据与标准指标数据进行分词处理,得到第一词元集、第二词元集以及按照预置的整合规则合并第一词元集和第二词元集得到的组合词元集,然后分别根据第一词元集和第二词元集确定组合词元集的占比参数,再根据组合词元集的占比参数计算目标指标数据与标准指标数据之间的相似度,进而判断目标指标数据与标准指标数据之间的相似性,对两者进行区分。本方案可应用于智慧医疗领域中,提高了医疗业务系统中目标指标数据与标准指标数据的区分效率,从而推动智慧城市的建设。

上面图3和图4从模块化功能实体的角度对本发明实施例中的指标数据的区分装置进行详细描述,下面从硬件处理的角度对本发明实施例中指标数据的区分设备进行详细描述。

图5是本发明实施例提供的一种指标数据的区分设备的结构示意图,该指标数据的区分设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对指标数据的区分设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在指标数据的区分设备500上执行存储介质530中的一系列指令操作。

指标数据的区分设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的指标数据的区分设备结构并不构成对指标数据的区分设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种指标数据的区分设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述指标数据的区分方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述指标数据的区分方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号