首页> 外文会议>Conference on Computational Linguistics and Speech Processing >使用詞向量表示與概念資訊於中文大詞彙連纊語音辨識之語型調適
【24h】

使用詞向量表示與概念資訊於中文大詞彙連纊語音辨識之語型調適

机译:使用词向量表示与概念资讯于中文大词汇连纩语音辨识之语型调适

获取原文

摘要

近年來深度學習(Deep Learning)激起一股硏究熱潮;隨著深度學習的發展而有分散式表示法(Distributed Representation)的產生。此種表示方式,不僅能以較低維度的向量表示詞彙,還能藉由向量間的運算,找出任兩詞彙之間的語意關係。本論文以此為發想,提出將分散式表示法,或更具體來說是詞向量表示(Word Representation),應用於語音辨識的語言模型中使用。首先,在語音辨識的過程中,對於動態產生之歷史詞序列與候選詞改以詞向量表示的方式來建立其對應的語言模型,希望透過此種表示方式而能獲取到更多詞彙間的語意資訊。其次,我們針對新近被提出的概念語言模型(Concept Language Model)加以改進;嘗試在調適語料中以句子的層次做模型訓練資料選取之依據,去掉多餘且不相關的資訊,使得經由調適語料中訓練出的概念類別更為具代表性,而能幫助動態語言模型調適。另一方面,在語音辨識過程中,會選擇相關的概念類別來動態組成概念語言模型,而此是透過詞向量表示的方式來估算,其中詞向量表示是由連續型模型(Continue Bag-of-Words Model)或是跳躍式模型(Skip-gram Model)生成,希望藉由詞向量表示記錄每一個概念類別内詞彙彼此間的語意關係。最後,我們嘗試將上述兩種語言模型調適方法做結合。本論文是基於公視電視新聞語料庫來進行大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)實驗,實驗結果顯示本論文所提出的語言模型調適方法相較於當今最好方法有較佳的效用。
机译:近年来深度学习(Deep Learning)激起一股硏究热潮;随着深度学习的发展而有分散式表示法(Distributed Representation)的产生。此种表示方式,不仅能以较低维度的向量表示词汇,还能藉由向量间的运算,找出任两词汇之间的语意关系。本论文以此为发想,提出将分散式表示法,或更具体来说是词向量表示(Word Representation),应用于语音辨识的语言模型中使用。首先,在语音辨识的过程中,对于动态产生之历史词序列与候选词改以词向量表示的方式来建立其对应的语言模型,希望透过此种表示方式而能获取到更多词汇间的语意资讯。其次,我们针对新近被提出的概念语言模型(Concept Language Model)加以改进;尝试在调适语料中以句子的层次做模型训练资料选取之依据,去掉多余且不相关的资讯,使得经由调适语料中训练出的概念类别更为具代表性,而能帮助动态语言模型调适。另一方面,在语音辨识过程中,会选择相关的概念类别来动态组成概念语言模型,而此是透过词向量表示的方式来估算,其中词向量表示是由连续型模型(Continue Bag-of- Words Model)或是跳跃式模型(Skip-gram Model)生成,希望藉由词向量表示记录每一个概念类别内词汇彼此间的语意关系。最后,我们尝试将上述两种语言模型调适方法做结合。本论文是基于公视电视新闻语料库来进行大词汇连续语音辨识(Large Vocabulary Continuous Speech Recognition, LVCSR)实验,实验结果显示本论文所提出的语言模型调适方法相较于当今最好方法有较佳的效用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号