首页> 外文期刊>電子情報通信学会技術研究報告 >言語的情報と非言語的情報の音響的分離と音声コミュニケーション
【24h】

言語的情報と非言語的情報の音響的分離と音声コミュニケーション

机译:言语和非言语信息的声音分离和言语交流

获取原文
获取原文并翻译 | 示例
           

摘要

音声に含まれる音響的特徴の分離モデルとして,音声の生成過程に着眼し,音源と声道の特性に分離するソース・フィルターモデルが従来より広く使われている。しかし,声道形状を音響的に表象するスペクトル包絡特性は,本来独立な情報と考えられる音声の言語的情報と非言語的情報の両方に関与する。そのため,例えば,音声認識における不特定話者音響モデルは,同一の言語的情報を担う音声を大多数の話者から集め,統計的に音響モデリングを行うことが一般的である。本稿の前半では,幼児の言語獲得における音声模倣行為,音声コミュニケーションの獲得に困難を示す自閉症者の音声模倣行為,更には動物における音声模倣行為などを概観し,音声の中に同居する言語的情報を担う特徴と非言語的情報を担う特徴とを音響的に分離するモデルの必要性を主張する。また,情報分離が不完全な音響モデリングは,音声コミュニケーション能力の計算機上での実現を目的とした音響モデリングではなく,声帯模写能力の計算機上での実現を目的とした音響モデリングとして解釈すべきであること,そして,不完全な情報分離のみでは,本来,人間であっても音声コミュニケーションは困難となることについて言及する。本稿の後半では,二種類の情報の分離を目的として筆者が近年提案している音声の構造的表象について触れ,幾つかの実験結果を紹介する。%The source-filter model, which was derived from observations of speech production, has been widely used to separate speech features into two parts: vocal source characteristics and vocal tract characteristics. However, the latter characteristics, often called as spectrum envelopes, transmit both linguistic information and extra-linguistic information, which are intrinsically independent of each other. This is why a speaker-independent acoustic model of a linguistic content for ASR is often built statistically by collecting utterances of that linguistic content from a large number of speakers. In the beginning part of this paper, after reviewing infants' vocal imitation for language acquisition, the vocal imitation observed in severely impaired autistics who have difficulty in speech communication, and the vocal imitation of animals, we claim the importance to derive the acoustic modeling which can separate acoustic features for linguistic information and those for extra-linguistic information. We also insist that the acoustic modeling with incomplete separation should be suited not for realizing speech communication ability on machines but only for realizing impersonation ability on machines. Further, we describe that, only with incomplete separation, speech communication has to be difficult even for humans. In the ending part of this paper, we introduce the structural representation of speech, which we proposed to realize the information separation for creating human-like machines, and show some experimental results obtained by using the proposed representation.
机译:作为语音中包含的声学特征的分离模型,着眼于语音生成过程并将其分离为声源和声道特征的源滤波器模型已被广泛使用。但是,在声学上代表声道形状的频谱包络特征既涉及语音的语言信息又涉及非语言信息,该信息最初被视为独立信息。因此,例如,作为语音识别中的未指定的说话者声学模型,通常从大量的说话者收集携带相同语言信息的语音并统计地执行声学建模。在本文的上半部分,我们概述了婴儿语言习得中的语音模仿,难以获得语音交流的自闭语音模仿以及动物语音模仿。我们认为需要一种模型,该模型在声学上将承载社会信息的特征与承载非语言信息的特征分开。另外,具有不完全信息分离的声学模型不应解释为出于在计算机上实现语音通信能力的目的的声学建模,而不应解释为出于实现计算机上的语音通信能力的声学模型。提到即使只有不完全的信息分离,语音通信也固有地对人类来说是困难的。在本文的后半部分,我们将探讨作者最近为分离两种类型的信息而提出的语音的结构表示,并介绍一些实验结果。 %源过滤器模型源自语音生成的观察结果,已被广泛用于将语音特征分为两部分:人声源特征和声道特征,但后者通常被称为频谱包络,将两者语言信息和语言外信息在本质上是相互独立的,这就是为什么通常通过从大量讲话者那里收集语言内容的话语来统计地建立ASR语言内容的独立于说话者的声学模型的原因。本文的开头部分,在回顾了婴儿的语音模仿以获取语言,在语音交流困难的严重自闭症患者中观察到的语音模仿以及动物的语音模仿之后,我们认为推导声学模型的重要性非常重要。用于语言信息的独立声学特征和用于语言外信息的声学特征我们还坚持认为,不完全分离的声学模型不应该适合于实现机器上的语音交流能力,而仅适合实现机器上的模仿能力;此外,我们描述,仅当不完全分离时,语音通信甚至必须困难。对于人类,在本文的最后部分,我们介绍了语音的结构表示,我们提出了语音的结构表示,以实现用于创建类人机器的信息分离,并展示了使用该提议表示获得的一些实验结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号