基于弱监督和半自动方法的中文关系抽取数据集构建

马超义; 徐蔚然

首页> 中文期刊> 《中文信息学报》 >基于弱监督和半自动方法的中文关系抽取数据集构建

基于弱监督和半自动方法的中文关系抽取数据集构建

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

The relation extraction is a fundamental task in information extraction,with practical significance in infor-mation retrieval,question answering system and knowledge mapping,etc.The existing relation extraction data set are for English,containing very limited categories and neglecting sentence level annotations.This paper constructs a Chinese relation extraction data set using a weakly supervised and semi-automatic method.It firstly extracts a large amount of relation pairs from Wikipedia,then extracts sentences that contains entity pairs from the corpus of So -ugou News and Baidu. Thus the weakly supervised sentence extracting is completed. These sentences are then scored in an RNN-based relation extraction system,selecting sentences with higher score for manual annotation.Fi-nally the Chinese relation extraction data set is completed after manual annotation.%关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义.现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务.该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足.首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程.将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集.

著录项

来源
《中文信息学报》 |2017年第5期|114-119|共6页
作者
马超义; 徐蔚然;
展开▼
作者单位

北京邮电大学信息与通信工程学院,北京100876;

北京邮电大学信息与通信工程学院,北京100876;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
关系抽取; 数据集; 弱监督; 半自动;

相似文献

中文文献
外文文献
专利

1. 基于卷积神经网络的中文医疗弱监督关系抽取 [J] . 刘凯 ,符海东 ,邹玉薇 . 计算机科学 . 2017,第010期
2. 基于弱监督学习的中文网络百科关系抽取 [J] . 贾真 ,何大可 ,杨燕 . 智能系统学报 . 2015,第001期
3. 基于弱监督的属性关系抽取方法 [J] . 杨宇飞 ,戴齐 ,贾真 . 计算机应用 . 2014,第001期
4. 基于同义词词林和规则的中文远程监督人物关系抽取方法 [J] . 谢明鸿 ,冉强 ,王红斌 . 计算机工程与科学 . 2021,第009期
5. 一种自动构建数据集的实体关系抽取方法 [J] . 房冬丽 ,陈正雄 ,黄元稳 . 通信技术 . 2021,第008期
6. 基于弱监督学习的海量网络数据关系抽取 [C] . Chen Liwei ,陈立玮 ,Feng Yansong . 2013年中国计算机学会人工智能会议 . 2013
7. 基于弱监督学习的关系抽取方法研究 [A] . 倪骏 . 2020

基于弱监督和半自动方法的中文关系抽取数据集构建

摘要

著录项

相似文献

相关主题

期刊订阅