首页> 中国专利> 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统

中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统

摘要

本发明公开了中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统,可实现在中文的生命科学文献数据库中的蛋白质知识的挖掘和发现。其技术方案为:方法包括:构建中文文献数据库和科学数据型数据库;以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰;根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成面向主题和应用的中文文献数据仓库;去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中文文献文本挖掘结果。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-06

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2011100280668 申请日:20110126 授权公告日:20140409

    专利权的终止

  • 2014-04-09

    授权

    授权

  • 2012-10-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110126

    实质审查的生效

  • 2012-08-01

    公开

    公开

说明书

技术领域

本发明涉及蛋白质知识挖掘和发现技术,尤其涉及针对中文文献数据库的蛋白 质知识的挖掘和发现技术。

背景技术

文献知识挖掘是指从文献中提取、整合并发现有用信息和知识点的过程,通过 文献知识挖掘能够快速处理大量文献并得到特定领域的知识,文献知识挖掘涉及到 数据挖掘、文本挖掘、自然语言处理和信息整合等多个研究领域。

以生命科学文献知识挖掘为例来说明,生命科学文献知识挖掘研究的主要内容 分为信息检索,实体识别,信息提取,文本挖掘和信息集成与整合等五个部分[朱 小燕,李娇.生物学文献挖掘[J].计算机教育,2006,9:11-15]。五部分的任务各不 相同,前面问题的解决构成了后面部分研究与发展的基础。就目前研究现状而言, 从信息检索到信息集成与整合,方法研究的成熟度依次递减,而知识挖掘发现的潜 力却依次递增。生命科学领域的文本挖掘和信息集成整合则依赖于对本领域知识的 理解和应用,更依赖于从科学文献中挖掘出未知的生命科学知识的新理论和新方 法。

目前,生命科学研究中的蛋白质知识是文献数据库中挖掘和发现的重点领域之 一。世界上不少发达国家均已借助数据挖掘和信息整合技术对英文的生命科学文献 数据库进行了大量蛋白质的相关知识挖掘发现研究,实现了英文文献中蛋白质的挖 掘发现,为专业研究人员提供了方便获取蛋白质知识及潜在知识的新方法新途径。 然而,这些蛋白质知识的挖掘方法和途径还无法在中文的生命科学文献数据库中实 现蛋白质的知识挖掘和发现。因此,如何在中文的生命科学文献数据库中实现蛋白 质的知识挖掘和发现,则是现有技术方法和途径中有待解决的问题。

发明内容

本发明的目的在于解决上述问题,提供了一种中文文献数据库中的蛋白质知识 挖掘和发现的方法,可实现在中文的生命科学文献数据库中的蛋白质知识的挖掘和 发现。

本发明的另一目的在于提供了一种中文文献数据库中的蛋白质知识挖掘和发 现的装置。

本发明的又一目的在于提供了一种中文文献数据库中的蛋白质知识挖掘和发 现的系统。

本发明的技术方案为:本发明揭示了一种中文文献数据库中的蛋白质知识挖掘 和发现的方法,包括:

步骤一:构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋 白质关联和整合的科学数据型数据库;

步骤二:以科学数据型数据库的标准控制词表为依据,以中文文献数据库中的 蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编撰, 使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行一 一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注;

步骤三:根据科学数据型数据库提供的协议将访问号转换成超链接信息,生成 面向主题和应用的中文文献数据仓库;

步骤四:去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改中 文文献文本挖掘结果。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例, 中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库,科学数 据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例, 步骤二中有关对中文文献数据库的蛋白质相关文本的挖掘和标注的过程包括:

从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元素的构 成,通过对数据结构的分析以及对数据的转换和提取,整理出蛋白质相关的科学数 据型数据库中的英文版文本挖掘工具字典;

抽取英文版文本挖掘工具字典中的序列号、基因名、蛋白质名称及同义词,经 过归并处理后得到英文版的字典工具数据表;

对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的双语文 本挖掘工具字典。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的一实施例, 英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据 库所关联的地址转换成的超链接地址。

本发明还揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的装置,包 括:

数据库构建模块,构建含有蛋白质相关属性的中文文献数据库和确立能够进行 对应的蛋白质关联和整合的科学数据型数据库;

文本挖掘工具字典处理模块,以科学数据型数据库的标准控制词表为依据,以 中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具 字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标 准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本 的挖掘和标注;

中文文献数据仓库生成模块,根据科学数据型数据库提供的协议将访问号转换 成超链接信息,生成面向主题和应用的中文文献数据仓库;

结果修正模块,去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及 修改中文文献文本挖掘结果。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例, 中文文献数据库是中国生物学文摘基础数据库和中国生物学文摘数据仓库,科学数 据型数据库是欧洲生物信息学研究所构建的联合蛋白质数据库。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例, 文本挖掘工具字典处理模块包括:

英文版文本挖掘工具字典整理模块,从科学数据型数据库的数据中分析蛋白质 相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转换和 提取,整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典;

英文版字典工具数据表整理模块,抽取英文版文本挖掘工具字典中的序列号、 基因名、蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表;

双语文本挖掘工具字典整理模块,对英文版的字典工具数据表进行翻译和数据 加工后得到中英文对译的双语文本挖掘工具字典。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的一实施例, 英文版文本挖掘工具字典中的序列号是指基于中文文献数据库与科学数据型数据 库所关联的地址转换成的超链接地址。

本发明还揭示了一种中文文献数据库中的蛋白质知识挖掘和发现的系统,包括 应用程序服务器、数据库服务器、数据仓库服务器、用户终端,其中:

应用程序服务器,耦接数据仓库服务器,存储蛋白质知识挖掘的算法和规则;

数据库服务器,耦接数据仓库服务器,存储基于第三范式构建的科学数据型数 据库、中文文献数据库、蛋白质知识的文本挖掘工具字典库;

数据仓库服务器,由应用程序服务器调用数据库服务器中的文本挖掘工具字 典,对中文文献数据库进行知识挖掘的标引而得到,存放经过知识挖掘后而形成的 面向主题和应用的、集成化的数据仓库;

用户终端,耦接数据仓库服务器,实现对蛋白质知识的查询和挖掘发现的操作。

根据本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的一实施例, 该系统还包括:

Web服务器,耦接数据仓库服务器和用户终端,将数据仓库服务器中的数据 仓库镜像到Web服务器,通过Web应用提供给用户对蛋白质知识的查询和挖掘发 现的操作。

本发明对比现有技术有如下的有益效果:本发明的技术特点是构建好含有丰富 蛋白质相关属性的中文文献数据库和确立能够进行对应的蛋白质关联和整合的科 学数据型数据库,以现存的蛋白质科学数据型数据库的标准控制词表为依据,以中 文文献数据库中出现的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工 具字典的翻译和编撰,根据国外蛋白质科学数据型数据库提供的协议可将访问号转 换成超链接信息。并最终生成面向主题和应用的中文文献数据仓库,最后去除数据 挖掘和信息整合结果中的“非法”信息(去除假阳性蛋白质挖掘结果)和修改中文 文献文本挖掘结果。

对比现有技术,本发明具有如下的优点:①通过文本挖掘工具字典的控制, 可实现中文文献数据库中的蛋白质知识的深度挖掘和发现。②通过挖掘信息的分 析和统计,可实现智能化的蛋白质相关知识发现。③通过关键词标引,可实现由 人工控制的类自然语言检索。④具有较高的阳性挖掘率。⑤基于B/S结构的知识 库系统设计,可保证系统高安全性。

附图说明

图1示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的 方法的实施例的流程图。

图2示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的 方法的实施例的数据流向示意图。

图3示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的 装置的实施例的原理图。

图4示例性的示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的 系统的实施例的硬件结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

中文文献数据库中的蛋白质知识挖掘和发现的方法的实施例

图1示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方法的实 施例的流程。图2示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的方 法的实施例的数据流向。请参见图1和图2,下面是对本实施例的方法的各个步骤 的详细描述。

步骤S10:构建含有蛋白质相关属性的中文文献数据库和确立能够进行对应的 蛋白质关联和整合的科学数据型数据库。

中文文献数据库是中国生物学文摘基础数据库(CBA基础数据库,Chinese  Biological Abstract基础数据库)和中国生物学文摘数据仓库(CBA数据仓库), 科学数据型数据库是欧洲生物信息学研究所(EBI)构建的联合蛋白质数据库 (Uniprot数据库,United protein,联合蛋白质)。

步骤S12:以科学数据型数据库的标准控制词表为依据,以中文文献数据库中 的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工具字典的翻译和编 撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的标准控制词表进行 一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文本的挖掘和标注。

这一步骤可以细分为:

第一步:从科学数据型数据库的数据中分析蛋白质相关文本挖掘工具字典的元 素的构成,通过对数据结构的分析以及对数据的转换和提取,整理出UniProt蛋白 质相关的科学数据型数据库中的英文版文本挖掘工具字典。

UniProt蛋白质科学数据型数据库实例为:

<entry version=″85″modified=″2008-12-16″dataset=″Swiss-Prot″created=″1986-07-21″>

  <accession>P00888</accession>

  <accession>Q47061</accession>

  <name>AROF_ECOLI</name>

  <protein>

    <recommendedName ref=″1″>

      <fullName>Phospho-2-dehydro-3-deoxyheptonate aldolase,Tyr-sensitive</fullName>

    </recommendedName>

    <alternativeName>

     <fullName>Phospho-2-keto-3-deoxyheptonate aldolase</fullName>

    </alternativeName>

    <alternativeName>

     <fullName>3-deoxy-D-arabino-heptulosonate 7-phosphate synthase</fullName>

    </alternativeName>

    <alternativeName>

     <fullName>DAHP synthetase</fullName>

    </alternativeName>

  </protein>

  <gene>

   <name type=″primary″>aroF</name>

   <name type=″ordered locus″>b2601</name>

   <name type=″ordered locus″>JW2582</name>

</gene>

<organism key=″2″>

  <name type=″scientific″>Escherichia coli(strain K12)</name>

  <dbReference type=″NCBI Taxonomy″key=″3″id=″83333″/>

  <lineage>

    <taxon>Bacteria</taxon>

    <taxon>Proteobacteria</taxon>

    <taxon>Gammaproteobacteria</taxon>

    <taxon>Enterobacteriales</taxon>

    <taxon>Enterobacteriaceae</taxon>

    <taxon>Escherichia</taxon>

  </lineage>

</organism>

第二步:抽取英文版文本挖掘工具字典中的序列号(Accession号)、基因名、 蛋白质名称及同义词,经过归并处理后得到英文版的字典工具数据表。

文本挖掘工具字典部分实例如下表:

在表中,Accession为CBA文献数据库与EBI的UnitProt蛋白质科学数据库关 联的地址,根据一定的规则可转换成超链接地址。Name为UnitProt蛋白质科学数 据库中的蛋白质名称及同义词。Cname、Cname2、Cname3为CBA文献数据库中 蛋白质名称及同义词。在翻译过程中尽量考虑CBA文献数据库中原始文献所使用 的各种同义词,以保证文本挖掘的有效性。如:Atrial natriuretic peptide翻译为心 钠素、心钠肽、心房钠尿肽。Heat shock 10kDa protein翻译为热激蛋白10、热休 克蛋白10。

第三步:对英文版的字典工具数据表进行翻译和数据加工后得到中英文对译的 双语文本挖掘工具字典。

步骤S14:根据科学数据型数据库提供的协议将访问号转换成超链接信息,生 成面向主题和应用的中文文献数据仓库。

步骤S16:去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结果以及修改 中文文献文本挖掘结果。

中文文献数据库中的蛋白质知识挖掘和发现的装置的实施例

图3示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的装置的实 施例的原理。请参见图3,本实施例的装置包括数据库构建模块10、文本挖掘工具 字典处理模块12、中文文献数据仓库生成模块14以及结果修正模块16。

这些模块之间的连接关系是:数据库构建模块10的输出端耦接文本挖掘工具 字典处理模块12,文本挖掘工具字典处理模块12的输出端耦接中文文献数据仓库 生成模块14,中文文献数据仓库生成模块14耦接结果修正模块16。

数据库构建模块10用于构建含有蛋白质相关属性的中文文献数据库和确立能 够进行对应的蛋白质关联和整合的科学数据型数据库。

中文文献数据库是中国生物学文摘基础数据库(CBA基础数据库,Chinese  Biological Abstract基础数据库)和中国生物学文摘数据仓库(CBA数据仓库), 科学数据型数据库是欧洲生物信息学研究所(EBI)构建的联合蛋白质数据库 (Uniprot数据库,United protein,联合蛋白质)。

文本挖掘工具字典处理模块12以科学数据型数据库的标准控制词表为依据, 以中文文献数据库中的蛋白质名词为挖掘和发现对象,进行蛋白质相关文本挖掘工 具字典的翻译和编撰,使中文文献数据库中的蛋白质名词与科学数据型数据库中的 标准控制词表进行一一对应的关联和整合,实现对中文文献数据库的蛋白质相关文 本的挖掘和标注。

这一模块又可以细分为英文版文本挖掘工具字典整理模块120、英文版字典工 具数据表整理模块122以及双语文本挖掘工具字典整理模块124。

英文版文本挖掘工具字典整理模块120从科学数据型数据库的数据中分析蛋 白质相关文本挖掘工具字典的元素的构成,通过对数据结构的分析以及对数据的转 换和提取,整理出蛋白质相关的科学数据型数据库中的英文版文本挖掘工具字典。

英文版字典工具数据表整理模块122抽取英文版文本挖掘工具字典中的序列 号(Accession号)、基因名、蛋白质名称及同义词,经过归并处理后得到英文版 的字典工具数据表。其中序列号是基于中文文献数据库与科学数据型数据库所关联 的地址转换成的超链接地址。

双语文本挖掘工具字典整理模块124对英文版的字典工具数据表进行翻译和 数据加工后得到中英文对译的双语文本挖掘工具字典。

中文文献数据仓库生成模块14是根据科学数据型数据库提供的协议将访问号 转换成超链接信息,生成面向主题和应用的中文文献数据仓库。

结果修正模块16用于去除数据挖掘和信息整合结果中的假阳性蛋白质挖掘结 果以及修改中文文献文本挖掘结果。

中文文献数据库中的蛋白质知识挖掘和发现的系统的实施例

图4示出了本发明的中文文献数据库中的蛋白质知识挖掘和发现的系统的实 施例的硬件结构。请参见图4,本实施例的系统包括应用程序服务器20、数据库服 务器22、数据仓库服务器24、Web服务器26以及用户终端28。其中应用程序服 务器20和数据库服务器22的输出端均耦接到数据仓库服务器24,数据仓库服务 器24的输出端耦接到Web服务器26,Web服务器26的输出端耦接到用户终端28。

应用程序服务器20存储蛋白质知识挖掘的算法和规则。数据库服务器22存储 基于第三范式构建的科学数据型数据库、中文文献数据库、蛋白质知识的文本挖掘 工具字典库。

数据仓库服务器24由应用程序服务器20调用数据库服务器22中的文本挖掘 工具字典,对中文文献数据库进行知识挖掘的标引而得到,存放经过知识挖掘后而 形成的面向主题和应用的、集成化的数据仓库。

Web服务器26将数据仓库服务24器中的数据仓库镜像到Web服务器26,通 过Web应用提供给用户对蛋白质知识的查询和挖掘发现的操作。

用户终端28实现对蛋白质知识的查询和挖掘发现的操作。

上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通 技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变 化,因而本发明的发明范围并不被上述实施例所限,而应该是符合权利要求书所提 到的创新性特征的最大范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号