基于改进主题分布特征的神经网络语言模型

刘畅; 张一珂; 张鹏远; 颜永红

首页> 中文期刊> 《电子与信息学报》 >基于改进主题分布特征的神经网络语言模型

基于改进主题分布特征的神经网络语言模型

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法.由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后的特征应用于基于长短时记忆(LSTM)单元的递归神经网络语言模型中.实验表明,在PTB数据集上该文提出的方法使语言模型的困惑度相对于基线系统下降11.8％.在SWBD数据集多候选重估实验中,该文提出的特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.0％;在WSJ数据集上的实验中,该特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.8％,并且在eval92测试集上,改进隐含狄利克雷分布(LDA)特征使RNN效果与LSTM相当.%Attaching topic features to the input of Recurrent Neural Network (RNN) models is an efficient method to leverage distant contextual information. To cope with the problem that the topic distributions may vary greatly among different documents, this paper proposes an improved topic feature using the topic distributions of documents and applies it to a recurrent Long Short-Term Memory (LSTM) language model. Experiments show that the proposed feature achieved an 11.8％relatively perplexity reduction on the Penn TreeBank (PTB) dataset, and reached 6.0％and 6.8％relative Word Error Rate (WER) reduction on the SWitch BoarD (SWBD) and Wall Street Journal (WSJ) speech recognition task respectively. On WSJ speech recognition task, RNN with this feature can reach the effect of LSTM on eval92 testset.

著录项

来源
《电子与信息学报》 |2018年第1期|219-225|共7页
作者
刘畅; 张一珂; 张鹏远; 颜永红;
展开▼
作者单位

中国科学院声学研究所语言声学与内容理解重点实验室北京 100190;

中国科学院大学北京 100049;

中国科学院声学研究所语言声学与内容理解重点实验室北京 100190;

中国科学院大学北京 100049;

中国科学院声学研究所语言声学与内容理解重点实验室北京 100190;

中国科学院大学北京 100049;

中国科学院声学研究所语言声学与内容理解重点实验室北京 100190;

中国科学院大学北京 100049;

中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室乌鲁木齐 830011;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP391.42;
关键词
语音识别; 语言模型; 隐含狄利克雷分布; 长短时记忆;

相似文献

中文文献
外文文献
专利

1. 基于神经网络语言模型的动态层序Softmax训练算法 [J] . 杨鹤标 ,胡惊涛 ,刘芳 . 江苏大学学报（自然科学版） . 2020,第001期
2. 融合基于语言模型的词嵌入和多尺度卷积神经网络的情感分析 [J] . 赵亚欧 ,张家重 ,李贻斌 . 计算机应用 . 2020,第003期
3. 基于语言模型及循环卷积神经网络的事件检测 [J] . 施喆尔 ,陈锦秀 . 厦门大学学报（自然科学版） . 2019,第003期
4. 基于神经网络语言模型的时间序列趋势预测方法 [J] . 王慧健 ,刘峥 ,李云 . 计算机工程 . 2019,第007期
5. 基于字符的递归神经网络在中文语言模型中的研究与实现 [J] . 伍逸凡 ,朱龙娇 ,石俊萍 . 现代信息科技 . 2018,第008期
6. 分布式检索中基于主题的语言模型集合选择策略 [C] . 何莉 ,林鸿飞 . 2009年全国开放式分布与并行计算学术年会 . 2009
7. 基于神经网络的藏语语言模型研究 [A] . 郭杨 . 2020

基于改进主题分布特征的神经网络语言模型

摘要

著录项

相似文献

相关主题

期刊订阅