基于序列到序列模型的无监督文本简化方法

李天宇; 李云; 钱镇宇

首页> 中文期刊> 《计算机应用研究》 >基于序列到序列模型的无监督文本简化方法

基于序列到序列模型的无监督文本简化方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

训练基于序列到序列(seq2seq)的文本简化模型需要大规模平行语料库,但是规模较大且标注质量较好的语料却难以获得.为此,提出一种无监督文本简化方法,使模型的学习仅需要无标注的复杂句和简单句语料.首先,利用去噪自编码器(denoising autoencoder)分别从简单句语料和复杂句语料中学习,获取简单句的自编码器和复杂句的自编码器;然后,组合两个自编码器形成初始的文本简化模型和文本复杂化模型;最后,利用回译策略(back-translation)将无监督文本简化问题转换为监督问题,不断迭代优化文本简化模型.通过在标准数据集上的实验验证,该方法在通用指标BLEU和SARI上均优于现有无监督模型,同时在词汇级别和句法级别均有简化效果.

著录项

来源
《计算机应用研究》 |2021年第1期|93-96100|共5页
作者
李天宇; 李云; 钱镇宇;
展开▼
作者单位

扬州大学信息工程学院江苏扬州225137;

扬州大学信息工程学院江苏扬州225137;

扬州大学信息工程学院江苏扬州225137;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
文本简化; 无监督; 序列到序列模型; 去嗓自编码器;

相似文献

中文文献
外文文献
专利

1. 基于序列到序列模型的文本到信息框生成的研究 [J] . 鲍军威 ,周明 ,赵铁军 . 智能计算机与应用 . 2019,第003期
2. 基于序列到序列模型的文本到信息框生成的研究 [J] . 鲍军威1 ,周明2 ,赵铁军1 . 智能计算机与应用 . 2019,第003期
3. 基于序列到序列模型的生成式文本摘要研究综述 [J] . 石磊 ,阮选敏 ,魏瑞斌 . 情报学报 . 2019,第010期
4. 基于序列到序列的中文短文本省略补全 [J] . ZHENG Jie ,KONG Fang ,ZHOU Guodong . 中文信息学报 . 2018,第012期
5. 一种基于序列到序列模型的时间序列插补 [J] . 周茜 ,向维 . 北京信息科技大学学报（自然科学版） . 2021,第003期
6. 基于序列到序列的中文短文本省略补全 [C] . ZHENG Jie ,郑杰 ,KONG Fang . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于序列到序列模型的生成式文本摘要研究 [A] . 施云生 . 2020

基于序列到序列模型的无监督文本简化方法

摘要

著录项

相似文献

相关主题

期刊订阅