首页> 中国专利> 基于主动学习和语义密度的目标语料库构建方法

基于主动学习和语义密度的目标语料库构建方法

页面导航

摘要
著录项
相似文献

摘要

基于主动学习和语义密度的目标语料库构建方法属于文本挖掘技术领域。命名实体识别是面向生物医学文献的文本挖掘技术中至关重要的一环，深度学习和其他学习算法在实体识别的能力很大程度上取决于目标语料库构建的性能。而主动学习则是通过未标记的数据进行筛选，可以利用少量的数据取得较高的学习准确度。提出了基于密度聚类的主动学习方法来构建目标语料库，密度聚类选择具有一定高密度的区域划分为簇，可以去除掉具有噪音的数据，再由主动学习方法来选取信息最丰富的样本，使用较少的训练样本来获得性能较好的目标语料库，最终我们通过上下文相似度曲线来观察目标语料库的性能。该方法可以有效减少训练时间的同时也能提高目标语料库的性能。

著录项

公开/公告号CN109492098B

专利类型发明专利
公开/公告日2022-05-06

原文格式PDF
申请/专利权人北京工业大学;
展开▼

申请/专利号CN201811239578.7
发明设计人高江帆;陈建辉;何小波;
展开▼

申请日2018-10-24
分类号G06F16/35;
代理机构
代理人
地址 100124 北京市朝阳区平乐园100号
入库时间 2022-08-23 13:36:36

相似文献

专利
中文文献
外文文献

1. 基于主动学习和语义密度的目标语料库构建方法 [P] . 中国专利： CN109492098A . 2019-03-19
2. 基于语义时空表示学习的主动目标跟踪方法、系统及设备 [P] . 中国专利： CN114581684A . 2022-06-03
3. 一种基于集成学习的工业控制系统入侵检测方法 [P] . 世界知识产权组织专利： WO2020/143226A1 . 2020.07.16
4. 一αυτοματου污泥和ρυθμισεωςγωνιας射击ανταεροπορικηςαεριζομενης区的长度和αυτοματουσκοπευαυτοματου远程学习目标的设置 The five Pi is the same at the same time.. [P] . GR5675B . 1936-03-04

机译： Μααυτοματου和和ριμηηεεωςγωνιας射击长度和αυτοματου与五个相同的Pi相同。
5. 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 [P] . 世界知识产权组织专利： WO2020/143321A1 . 2020.07.16