多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築－マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合

大塚和弘; 荒木章子; 石塚健太郎; 藤本雅清; 大和淳司; Kazuhiro Otsuka; Shoko Araki; Kentaro Ishizuka; Masakiyo Fujimoto; Junji Yamato

首页> 外文期刊>電子情報通信学会技術研究報告. マルチメディア·仮想環境基礎 >多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築－マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合

【24h】

多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築－マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合

机译：使用多模模式全向传感器构建多人谈话场景分析的实时多模态系统 - 使用多模态全向传感器的面对面跟踪和扬声器诊断的集成

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本稿では，複数人の対面会話シーンの分析に向けた実時間マルチモーダルシステムを提案する．このシステムでは，基本的な会話の状態を知るために，「誰がいつ話しているか」という話者の同定（話者ダイアリゼーションと呼ぶ），及び，「誰が誰をみているか」という視覚的な注意の焦点の推定を実時間で行うことを目標とする．まず，会話シーンを観測するために，2台の魚眼レンズ付きカメラと3本のマイクからなる全方位マルチモーダルセンサを提案する．次に，全周画像上にて会話参加者の顔の位置と方向の推定を行う．ここではその方法としてSTCTracker（疎テンプレートコンデンセーション追跡法）と呼ばれる方法を採用し，これをGPU（グラフィックスプロセッシングユニット）と呼ばれる並列ハードウェア上にて実行する．また，マイクからの音響信号に対して，音声区間検出と音声到来方向推定を組み合わせた話者ダイアリゼーションを行う．さらに分析の結果を三次元的に可視化する方法も提案する．画像と音響の処理にそれぞれ一台のPCを用い，5人会話に対して平均27.1[frame/sec]にて動作することを確認した．

机译：在本文中，我们提出了用于分析多个面对面对话场景的实时多模态系统。在这个系统中，为了了解基本对话的状态，视觉关注说“谁是讲话者诊断”和“谁在看？”目标是执行对焦点的估计首先，为了观察谈话场景，我们提出了一个由两个鱼眼镜片和三个麦克风组成的全向多型传感器。接下来，在整个圆周图像上估计对话参与者的面部位置和方向的位置和方向。这里，采用一种称为STCTRACKER（稀疏模板冷凝跟踪方法）的方法作为该方法，并且这对称为GPU（图形处理单元）的并行硬件执行。另外，在来自麦克风的声学信号上执行扬声器诊断，组合语音间隔检测和音频到达方向估计。此外，我们还提出了一种三维分析结果的方法。确认，一台PC用于图像和声学处理，并平均运行27.1 [帧/秒]，用于五个人对话。

著录项

来源
《電子情報通信学会技術研究報告. マルチメディア·仮想環境基礎》 |2008年第328期|共8页
作者
大塚和弘; 荒木章子; 石塚健太郎; 藤本雅清; 大和淳司; Kazuhiro Otsuka; Shoko Araki; Kentaro Ishizuka; Masakiyo Fujimoto; Junji Yamato;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类图像通信、多媒体通信;
关键词

相似文献

外文文献
中文文献
专利

1. 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築－マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合 [J] . 大塚和弘, 荒木章子, 石塚健太郎, 電子情報通信学会技術研究報告. マルチメディア·仮想環境基礎 . 2008,第328期

机译：建立用于多人对话场景分析的实时多模态系统-使用多模态全向传感器将面部方向跟踪和说话人拨号集成
2. 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築: マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合 [J] . 大塚　和弘, 荒木　章子, 石塚　健太郎, 電子情報通信学会技術研究報告 . 2008,第327期

机译：用于多人对话场景分析的实时多模态系统的构建：使用多模态全向传感器将面部方向跟踪与说话人区分集成
3. 多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築－マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合 [J] . 大塚和弘, 荒木章子, 石塚健太郎, 電子情報通信学会技術研究報告. パターン認識·メディア理解. Pattern Recognition and Media Understanding . 2008,第327期

机译：建立用于多人对话场景分析的实时多模态系统-使用多模态全向传感器将面部方向跟踪和说话人拨号集成
4. 会話エージェントにおけるマルチモーダルコミュニケーションのための対話管理プラットフォームの構築 [C] . 山岡　雄治, 中野　有紀子情報処理学会全国大会 . 2009

机译：为对话代理中的多模式通信构建对话管理平台
5. アセチルコリンの冠注で誘発されるブタの主および小冠動脈攣縮モデルの開発とこのモデル動物を用いたニプラジロール, イソソルビド?ジニトレート, ブナゾシンの冠攣縮予防効果に関する研究 [D] . Kawamura, Atsushi 1991

机译：冠状动脉注入乙酰胆碱诱导的猪主，小冠状动脉痉挛模型的建立以及尼泊地洛尔，硝酸异山梨酯和布那唑嗪对模型动物的预防作用研究
6. シゼンスウパラメータオモツガンマジゼンブンプニシタガウポアソントウチャクニタイスルキタイショユウキカンサイダイカサイテキテイシモンダイノサイテキテイシセンリャクフカクジツナジョウキョウニオケルイシケッテイノリロントオウヨウ [O] . 来島愛子, 穴太克則 2008

机译：参数参数Omotsu Gamma Jizen凹凸Nishitaga Poisson Toucaku Nitaisuru Kitai Shoyu Kikan Saidaika Sai Tech Teiki Mondai No Sai Sai Teiki Senryaku

多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築－マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合

摘要

著录项

相似文献

相关主题

期刊订阅