公开/公告号CN114791955A
专利类型发明专利
公开/公告日2022-07-26
原文格式PDF
申请/专利权人 中国中医科学院中医药信息研究所;
申请/专利号CN202210413257.4
申请日2022-04-20
分类号G06F16/36;G06F16/34;G06F16/84;G06F40/242;G06F40/279;G06F40/30;G16H70/40;
代理机构北京科石知识产权代理有限公司;
代理人李艳霞
地址 100700 北京市东城区东直门内南小街16号
入库时间 2023-06-19 16:08:01
法律状态公告日
法律状态信息
法律状态
2022-07-26
公开
发明专利申请公布
技术领域
本申请属于中医信息化技术领域,具体涉及一种中医药文献语料库与知识库一体化系统。
背景技术
中医药文本文献是中医学术的载体,它以图文的形式记录着中西医数千年来积累的丰富理论知识和临床经验,长期以来它在中医药学的发展进程中发挥着极其重要的地位。文本文献是由各种类型的术语构成,术语是在特定科学领域用来表示概念称谓的集合。
本申请发明人在研发过程中发现,由于至今还未形成完整的集语料库、文献标注、知识加工、分析、知识库检索一体化的方法以及系统性的概念分析理论,因此文本文献、术语标注与语义知识库还是一个个信息孤岛;如何在文本文献中对术语进行自动标注,并利用计算机技术对文本文献进行正确、恰当地使用,充分发挥其在科学技术传播中的作用,是亟需解决的问题。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种中医药文献语料库与知识库一体化系统。
根据本申请实施例,本申请提供了一种中医药文献语料库与知识库一体化系统,其包括元数据模块、语料库、文档标注模块、查询模块和语义知识库;
所述元数据模块用于设定实体类、词典和语义关系并进行维护;
所述语料库用于根据导入的文献形成半结构化文档;
所述文档标注模块以词典为标注依据对半结构化文档进行标注;
所述查询模块用于对元数据进行查询,以获得实体类、词典和语义关系的查询结果;
所述语义知识库用于对语义信息、语义出处和原文情况进行检索。
上述中医药文献语料库与知识库一体化系统中,所述元数据模块中设置有实体类和语义关系,每个所述实体类包括至少一个词典;所述语义关系根据所述实体类的属性定义各实体类之间的关系。
上述中医药文献语料库与知识库一体化系统中,所述语料库中包括至少一个专题,每个所述专题下涵盖有多个文献;所述文献以树形结构进行展示。
上述中医药文献语料库与知识库一体化系统中,所述文档标注模块包括在线标注模块和语料标注模块;所述在线标注模块用于获取用户输入的标注文本,并对标注文本进行在线标注;所述语料标注模块用于对半结构化文档中的数据进行标注。
进一步地,所述文档标注模块的标注方式包括人工标注和机器标注;所述在线标注模块采用人工标注方式进行标注。
更进一步地,所述在线标注模块采用人工标注方式进行标注的具体过程为:
人工选中某篇文献或某篇文献中的某个词组,并利用“实体编码”对选中的数据进行标注;
在线标注模块通过匹配元数据中的实体、词典和语义关系对文件中的内容进行匹配,匹配后实现对文献的自动标注机器标注,并采用“实体”的标注颜色显示标注后的内容;
标注文献中各个术语之间的语义关系;
人工审核机器标注的术语,最终完成文献的标注。
更进一步地,所述机器标注的具体过程为:
基于人工标注的结果集合得到训练数据集;
依托分词算法使训练数据集不断进行机器学习,建立语义模型;
将训练数据集输入语义模型中,进行迭代和参数调整;
利用标注规则和训练完成的语义模型进行自动标注。
上述中医药文献语料库与知识库一体化系统中,所述查询模块用于对实体类、词典和语义关系进行查询;
所述查询模块对实体类进行查询时,依据属性字段进行精准或模糊检索;所述查询模块对词典进行查询时,依据词典标注情况进行精准或模糊检索;所述查询模块对语义关系进行查询时,在实体类和词典的检索结果中获取相关语义关系的查询结果。
上述中医药文献语料库与知识库一体化系统中,所述语义知识库的检索结果包括语义检索结果和全文检索结果;所述语义检索结果中展示检索的“语义”及“同义词”;所述全文检索结果中,通过“所检索的关键词”,展示“结构化数据”和“非结构化数据”中涵盖关键词的内容。
上述中医药文献语料库与知识库一体化系统中还包括系统管理模块,所述系统管理模块包括机构管理模块、用户管理模块、权限管理模块、角色管理模块、字典管理模块和日志管理模块。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请提供的中医药文献语料库与知识库一体化系统通过设置包括元数据模块、语料库、文档标注模块、查询模块和语义知识库,能够对文档进行标注、查询和语义检索,提供一种集语料库、文献标注、知识加工、分析、知识库检索一体化的系统;不仅能够单独检索语义的相关基础信息,还能够与文献形成关联,追踪到相关联的文献及相类似知识,检索效率高。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种中医药文献语料库与知识库一体化系统的结构框图。
附图标记说明:
1、元数据模块;2、语料库;3、文档标注模块;4、查询模块;5、语义知识库。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
传统的语义检索系统只能单独检索语义的相关基础信息,无法与文献形成关联,无法追踪到与该语义相关联的文献及相类似知识。另外,传统的语义检索系统需要经过多次反复检索,才能够达到语义关系、文献、原文相关联的效果。传统的语义检索系统最大的缺陷在于效率低下。
如图1所示,本申请提供了一种中医药文献语料库与知识库一体化系统,其包括元数据模块1、语料库2、文档标注模块3、查询模块4和语义知识库5。
其中,元数据模块1用于设定实体类、词典和语义关系并进行维护。
语料库2用于根据导入的文献形成半结构化文档。
文档标注模块3以词典为标注依据对经过处理后的半结构化文档进行标注。
查询模块4用于对元数据进行查询和统计分析,以获得实体类、词典和语义关系的查询结果。
语义知识库5用于对语义信息、语义出处和原文情况进行检索。
在本实施例中,元数据模块1中设置有实体类和语义关系,每个实体类包括至少一个词典。词典数据可以以Excel的形式批量上传,也可以在线对词典进行维护。语义关系是根据实体类的属性定义的各实体类之间的关系。每一种实体类有对应的实体关系,并指向固定的一种或多种实体类。
例如,疾病-相关-证候中,疾病与证候这两种实体类之间的关系为相关。
实体为具有可区别性且独立存在的某种事物,相似实体归纳为同一实体类。例如,中医实体类包括疾病、证候、症状、方剂和中药等,西医实体类包括SNoMedCT和LOINC等。
对实体类进行管理主要实现对实体名称、实体编码(用于标注)、标注颜色、实体基本信息等实体相关属性进行维护。通过支持在线添加和导入EXCEL等形式对实体类进行维护。
对于某一类实体,以三元组集合“实体-关系-实体”的形式进行表达。
例如,消渴-相关-肺热津伤证中,消渴和肺热津伤证这两个实体之间的关系为相关。
系统初始词典数据基于中医药学领域术语集中医临床术语系统(TCMCTS)、中医药学语言系统(TCMLS),西医学领域术语集SNOMED、CT临床术语系统,LOINC观测指标标识符逻辑命名与编码系统(主要是用于实验指标的术语集)等构建理念,进行语义类型及语义关系的设定,参照相关权威标准、词表、辞典进行术语资源采集整合,形成“元数据”。
在本实施例中,语料库2中包括至少一个专题,每个专题下涵盖有多个文献。文献以EXCEL形式批量导入,EXCEL中包含文献的层级和内容。导入的文献以树形结构进行展示。
语料库2形成半结构化文档,供计算机处理使用,从而可以对文献数据进行半自动化采集。
在本实施例中,文档标注模块3包括在线标注模块和语料标注模块。在线标注模块用于获取用户输入的标注文本,并对标注文本进行在线标注。语料标注模块用于对半结构化文档中的数据进行标注。
文档标注模块3依托术语集语料库2对文本文献内容进行语义类型、语义关系的标注。在标注过程中,能够不断完善语料库2的术语集。
文档标注模块3的标注方式包括人工标注和机器标注。
在线标注模块主要采用人工标注方式,其具体标注过程为:
人工选中某篇文献或某篇文献中的某个词组,并利用“实体编码”对选中的数据进行标注。
在线标注模块通过匹配元数据中的实体、词典和语义关系对文件中的内容进行精准匹配,匹配后实现对文献的自动标注,并采用“实体”的标注颜色显示标注后的内容。
标注文献中各个术语之间的语义关系。
人工审核机器标注的术语,最终完成文献的标注。
随着自然语言处理的普及,为了提升标注的效率及准确性,本申请提供的中医药文献语料库与知识库一体化系统纳入基于自然语言处理的机器标注功能。机器标注的具体过程为:
基于人工标注的结果集合得到训练数据集。
依托分词算法使训练数据集不断进行机器学习,建立语义模型。具体地,可以采用开源pkuseg中文分词工具包进行医疗领域分词和模型训练。可以采用HanLP(Han LanguageProcessing,汉语言处理包)设置自定义词典,并进行词性标注。
将训练数据集输入语义模型中,不断进行迭代,调整参数,以提升标注结果的准确性和召回率。
利用标注规则和训练完成的语义模型进行自动标注。
例如,采用开源pkuseg中文分词工具包中的自定义词典进行分词,词典使用系统内元数据的词典。
代码:
importpkuseg
lexicon=['北京大学','北京天安门']#希望分词时用户词典中的词固定不分开
segDefault=pkuseg.pkuseg()#默认分词类型
seg=pkuseg.pkuseg(user_dict=lexicon)#加载模型,给定用户词典
textDefault=segDefault.cut('我爱北京天安门')#进行分词
text=seg.cut('我爱北京天安门')#进行分词
print(textDefault)
print(text)
结果:
loading model
finish
loading model
finish
['我','爱','北京','天安门']
['我','爱','北京天安门']
[Finished in 40.2s]
对模型进行训练的具体过程为:
代码:
importpkuseg
seg=pkuseg.pkuseg(model_name='ctb8')#假设用户已经下载好了ctb8的模型并放在了'ctb8'目录下,通过设置model_name加载该模型
text=seg.cut('我爱北京天安门')#进行分词
print(text)
结果:
loading model
finish
['我','爱','北京','天安门']
[Finished in 24.6s]
重新训练一个分词模型的具体过程为:
import pkuseg#训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型
pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)
对参数进行说明:
pkuseg.pkuseg(model_name='msra',user_dict='safe_lexicon')
model_name模型路径,默认是'msra'表示预训练好的模型(仅对pip下载的用户)。用户可以填写下载或训练的模型所在的路径如model_name='./models'。
user_dict设置用户词典。默认为'safe_lexicon'表示提供的一个中文词典(仅pip)。用户可以传入一个包含若干自定义单词的迭代器。
pkuseg.test(readFile,outputFile,model_name='msra',user_dict='safe_lexicon',nthread=10)
readFile输入文件路径
outputFile输出文件路径
model_name同pkuseg.pkuseg
user_dict同pkuseg.pkuseg
Nthread测试时开的进程数
pkuseg.train(trainFile,testFile,savedir,nthread=10)
trainFile训练文件路径
testFile测试文件路径
Savedir训练模型的保存路径
Nthread训练时开的进程数
采用HanLP设置自定义词典,进行词性标注,其具体过程为:
代码:
运行结果:
[夫/ng,大/a,麻风/nhd,者/k,,/w,乃/v,诸风之/nr,长/a,,/w,初起/nr,时/qt,发/v,于/p,身手/n,,/w,按/p,皮肤/n,如/v,隔/v,一/m,纸/n,,/w,洒/vi,淅/n,不/d,仁/ag,,/w,或/c,遇/v,阴雨/n,或/c,至/p,夜间/n,,/w,则/d,肌肉/n,之内/f,如/v,漉/v,漉/v,然/rz,或/c,痛/a,或/c,痒/a,,/w,渐/d,至/p,皮肉/n,坚/ng,顽/ag,,/w,剜/v,切/v,不知/v,,/w,身体/n,虚/a,肿/vi,。/w,此/rzs,症/ng,最/d,易/ad,穿烂/v,,/w,手足/n,拘/vg,挛/n,,/w,臭/a,恶/a,废弛/vn,,/w,由于/p,纵/ng,意/ng,妄为/nz,,/w,不/d,避风/v,寒暑/n,湿/a,,/w,六/m,欲/d,七情/nz,,/w,使/v,荣/ag,气虚/n,,/w,卫气实/nr,,/w,邪/ag,入/v,于/p,肌肉/n,,/w,气血/n,滞/vg,而/cc,不/d,通/v,也/d,。/w,此/rzs,症/ng,以/p,大麻/n,汤并/nr,夺命丹/方剂,、/w,神仙/nnd,换骨/nz,丹/b,、/w,珠/ng,云散/nz,、/w,夺命/nz,还/d,真丹/nr,等/udeng,药/n,治/v,之/uzhi,。/w,又/d,云/vg,大风/n,者/k,,/w,初则/nr,体/ng,气/n,熏/v,热/a,,/w,气/n,从/p,胸中/s,上下/f,,/w,无处/d,不/d,痛/a,,/w,四肢/n,重/a,喜/v,卧/vi,,/w,善/ag,哕/g,噫/e,酸/a,,/w,体面/a,浮肿/vi,,/w,往来/vn,不/d,时/qt,,/w,久/a,而/cc,脑/n,胀/a,,/w,肉/n,裂/v,,/w,目/ng,系/v,痛/a,,/w,恶/a,闻/v,人声/n,,/w,危/ag,矣/y,!/w]
找到了[方剂]:夺命丹。
在本实施例中,查询模块4用于对实体类、词典和语义关系进行查询。其中,查询模块4对实体类进行查询时,依据属性字段进行精准或模糊检索,并对标注情况进行统计分析和展示。
查询模块4对词典进行查询时,依据词典标注情况进行精准或模糊检索,支持对标注的结果进行可视化分析和展示。
查询模块4对语义关系进行查询时,用户可以在实体类和词典的检索结果中查看相关语义关系的查询结果。
在本实施例中,语义知识库5具有全文检索功能,其具体可以进行词典检索、语义检索、语料检索和专题浏览。
例如,在检索检索“黄芪”时,语义知识库5同时对同义词“黄耆”进行检索,得到同义词“黄耆”的检索结果。
语义知识库5还能对文献进行语义检索,例如,在语料库2标注了相关语义关系的情况下,可以在检索中获得“六味地黄汤(治疗)疾病”的检索结果。
语义知识库5的检索结果包括语义检索结果和全文检索结果。
语义检索结果中展示检索的“语义”及“同义词”,其中,支持展示“语义名称”、“所属实体”、“描述”、“正向属性”、“反向属性”、“实体类标签”和“原文”。
全文检索结果中,通过“所检索的关键词”,展示“结构化数据”和“非结构化数据”中涵盖关键词的内容,并做特殊标记。其中,“非结构化数据”包括pdf文档和word文档等。
在语义知识库5中建立专题管理页面,依托语料库2中的专题,可以在专题中进行相关语义的查询。
在上述各实施例中,本申请提供的中医药文献语料库与知识库一体化系统还包括系统管理模块,系统管理模块主要包括机构管理模块、用户管理模块、权限管理模块、角色管理模块、字典管理模块、日志管理模块等,通过这些基础模块的构建,为应用提供支撑。
上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务,其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。
机译: 知识库综合文献引文服务及论文发表系统
机译: 基于知识库的名称实体识别语料库的生成系统和方法
机译: 自适应手工文献语料库