要解决的问题:提供一种高精度的词间关联度计算单元。
解决方案:该单元包括单词词典102,该单词词典102存储单词集合,词性信息和单词的语义信息的组合;形态分析装置101,用于通过参考字典102对文本进行形态分析;根据形态分析装置101的分析结果,矢量生成装置103,用于计算在整个字典中计数的单词词典102中的一对任意单词和任意语义信息的同时出现的事件发生频率,以及对每个单词,生成一个向量,该向量的每个坐标值是针对该对单词计算出的上述频率,并且使语义信息与上述坐标相对应;相对频率度计算装置104,用于将矢量的每个坐标值转换为相对频率;对于一个单词对,Kullback-Leibler距离计算装置105,用于计算与一个单词相对应的向量与与另一单词相对应的向量之间的Kullback-Leibler距离。
版权:(C)2008,日本特许厅&INPIT
公开/公告号JP4314271B2
专利类型
公开/公告日2009-08-12
原文格式PDF
申请/专利权人 日本電信電話株式会社;
申请/专利号JP20060353983
申请日2006-12-28
分类号G06F17/27;
国家 JP
入库时间 2022-08-21 19:42:01