首页> 中国专利> 一种基于文本挖掘的科技文献数据自动抽取方法及系统

一种基于文本挖掘的科技文献数据自动抽取方法及系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于文本挖掘的科技文献数据自动抽取方法及系统，该方法包括：获取待抽取数据的文件(XML、HTML或纯文本)；提取出XML和HTML文件中的纯文本并过滤掉其中的出版信息和URL信息，形成文本语料；筛选出文本语料中包含预设信息的句子，作为目标句子；对XML和HTML文件进行表格识别与表格解析，并筛选出其中包含预设信息的表格，作为目标表格；对目标句子和目标表格分别进行命名实体识别，识别出其中包含的目标实体，并确定目标实体之间的关系；对同一文献中相互关联的目标实体进行拼接，形成完整的结构化数据集。本发明方案抽取精度高、全流程自动化且易于实现。

著录项

公开/公告号CN113779995A

专利类型发明专利
公开/公告日2021-12-10

原文格式PDF
申请/专利权人北京科技大学;
展开▼

申请/专利号CN202110990945.2
发明设计人宿彦京;姜雪;王伟仁;田少晗;谢建新;
展开▼

申请日2021-08-26
分类号G06F40/295(20200101);G06F40/247(20200101);G06F40/242(20200101);G06F40/151(20200101);G06K9/00(20060101);
代理机构11237 北京市广友专利事务所有限责任公司;
代理人张仲波;付忠林
地址 100083 北京市海淀区学院路30号
入库时间 2023-06-19 13:40:20

法律信息

法律状态公告日

法律状态信息

法律状态
2023-07-18

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于文本挖掘的科技文献数据自动抽取方法及系统 [P] . 中国专利： CN113779995A . 2021-12-10
2. 一种基于计算机科技文献数据库的专利价值度计算方法 [P] . 中国专利： CN109885681A . 2019-06-14
3. Method for data and text mining and literature-based discovery [P] . 美国专利： US6886010B2 . 2005-04-26

机译：数据和文本挖掘以及基于文献的发现的方法
4. Method for data and text mining and literature-based discovery [P] . 美国专利： US2004064438A1 . 2004-04-01

机译：数据和文本挖掘以及基于文献的发现的方法
5. Text mining system for analysis target data, a text mining method for analysis target data and a recording medium for recording analysis target data [P] . 美国专利： US8805853B2 . 2014-08-12

机译：用于分析目标数据的文本挖掘系统，用于分析目标数据的文本挖掘方法和用于记录分析目标数据的记录介质