...
首页> 外文期刊>電子情報通信学会技術研究報告. マルチメディア·仮想環境基礎 >多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築-マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合
【24h】

多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築-マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合

机译:使用多模模式全向传感器构建多人谈话场景分析的实时多模态系统 - 使用多模态全向传感器的面对面跟踪和扬声器诊断的集成

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

本稿では,複数人の対面会話シーンの分析に向けた実時間マルチモーダルシステムを提案する.このシステムでは,基本的な会話の状態を知るために,「誰がいつ話しているか」という話者の同定(話者ダイアリゼーションと呼ぶ),及び,「誰が誰をみているか」という視覚的な注意の焦点の推定を実時間で行うことを目標とする.まず,会話シーンを観測するために,2台の魚眼レンズ付きカメラと3本のマイクからなる全方位マルチモーダルセンサを提案する.次に,全周画像上にて会話参加者の顔の位置と方向の推定を行う.ここではその方法としてSTCTracker(疎テンプレートコンデンセーション追跡法)と呼ばれる方法を採用し,これをGPU(グラフィックスプロセッシングユニット)と呼ばれる並列ハードウェア上にて実行する.また,マイクからの音響信号に対して,音声区間検出と音声到来方向推定を組み合わせた話者ダイアリゼーションを行う.さらに分析の結果を三次元的に可視化する方法も提案する.画像と音響の処理にそれぞれ一台のPCを用い,5人会話に対して平均27.1[frame/sec]にて動作することを確認した.
机译:在本文中,我们提出了用于分析多个面对面对话场景的实时多模态系统。在这个系统中,为了了解基本对话的状态,视觉关注说“谁是讲话者诊断”和“谁在看?”目标是执行对焦点的估计首先,为了观察谈话场景,我们提出了一个由两个鱼眼镜片和三个麦克风组成的全向多型传感器。接下来,在整个圆周图像上估计对话参与者的面部位置和方向的位置和方向。这里,采用一种称为STCTRACKER(稀疏模板冷凝跟踪方法)的方法作为该方法,并且这对称为GPU(图形处理单元)的并行硬件执行。另外,在来自麦克风的声学信号上执行扬声器诊断,组合语音间隔检测和音频到达方向估计。此外,我们还提出了一种三维分析结果的方法。确认,一台PC用于图像和声学处理,并平均运行27.1 [帧/秒],用于五个人对话。

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号