首页> 外文期刊>電子情報通信学会技術研究報告 >質問応答システムにおける質問文内の漢字文字列に対する用語特定手法
【24h】

質問応答システムにおける質問文内の漢字文字列に対する用語特定手法

机译:问答系统中问题文本中汉字字符串的术语识别方法

获取原文
获取原文并翻译 | 示例
           

摘要

近年,ユーザが入力した質問文に対して大量の知識源から回答を得る質問応答システムの研究が注目されている・特にインターネットの普及により,Googleに代表されるWWW検索エンジンを用いて,WWW空間から回答を探す技術が研究されている.これらのシステムでは,質問文内から抽出されたキーワードをWWW検索エンジンに入力し,その検索解果から回答を出力している.本稿では,質問文からキーワードを抽出する際に起こる,用語の過分割問題に着日し,WWW検索エンジンを用いた質問文内の用語特定手法を提案する.本手法は,学習フェーズおよび用語特定フェーズから構成される.まず学習フェーズでは,学習データの各用語候補に対して,WWW検索エンジンでの検索縮果(サマリ)から継続度,品詞,文字種などの持敬量を抽出し,Support Vector Machine(SVM)を用いて用語判定モデルを作成する.次に,用語特定フェーズでも同様に特敬呈を抽出した後,用語判定モデルを用いて用語を特定する.実際に,NTCIR4-QAC2の質問文に対して本手法で用語特定を行った結果,従来手法と比較して射55%の質問甘に対して用語特定精度の向上が認められた.%Recently, Question Answering(QA) systems using WWW search engines have been developed by spread of the Internet technology. This system extracts keywords from the question sentence, and searches answer from retrieval results using their keywords. In this paper, we focus on the problem of term overdivision in the question, and propose the method to specify their terms by WWW search engines. This method is composed of the learning phase and the term extraction phase. In the learning phase, the feature parameter is extracted from term candidates, and learning model is made by the Support Vector Machine(SVM). In the term extraction phase, results of term extraction are shown by referring to the learning model. Actually, we made a experiment with 140 questions of NTCIR-QAC2 for a comparison between the proposed method and conventional method. Then, the proposed method exceeded the conventional method in accuracy of term extraction.
机译:近年来,对从大量知识源中获取用户输入的问题文本的答案的问答系统的研究引起了人们的关注。-特别是由于互联网的普及,使用以Google为代表的WWW搜索引擎从中寻找答案的技术正在研究中。在这些系统中,将从问题文本中提取的关键字输入到WWW搜索引擎,并从搜索结果中输出答案。在本文中,我们提出了从疑问句中提取关键字时出现的术语过度划分的问题,并提出了一种使用WWW搜索引擎识别疑问句中的术语的方法。该方法包括学习阶段和术语识别阶段。首先,在学习阶段,针对学习数据中的每个候选词,从WWW搜索引擎的搜索结果(摘要)中提取诸如连续性,语音部分和字符类型之类的尊重程度,并使用支持向量机(SVM)。创建期限判断模型。接下来,在术语识别阶段,同样,在提取特殊表示后,使用术语确定模型来识别术语。结果,通过该方法实际上对NTCIR4-QAC2疑问句进行了术语识别,结果与传统方法相比,对于55%的问题,术语识别的准确性得以提高。 %最近,随着Internet技术的普及,使用WWW搜索引擎的问答系统(QA)得以开发出来。该系统从疑问句中提取关键字,并使用其关键字从检索结果中搜索答案。问题中的术语过度划分问题,并提出了一种由WWW搜索引擎指定其术语的方法。该方法由学习阶段和术语提取阶段组成。在学习阶段,从候选词中提取特征参数,然后通过支持向量机(SVM)建立学习模型。在术语提取阶段,通过参考学习模型显示术语提取结果。实际上,我们对140个问题NTCIR-QAC2进行了实验,以比较提出的方法和常规方法。然后,提出的方法在项提取的准确性方面超过了常规方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号