要解决的问题:尽可能地将具有识别可能性的单词提取为单词识别中具有很多歧义的语言,例如复合单词,并计算其频率信息。
解决方案:带有频率信息的单词集生成装置1包括:词素点阵生成部10,该词素点阵生成部10生成表示为图形的词素点阵,其中,输入的文本从文本的开头到文本的结尾通过语素词素/单词重要性水平计算部20计算关于词素格中包括的每个词素的词素出现概率,并计算与该词素出现概率相对应的每个词素的重要性等级;频率信息配备词集合计算部分30基于词素的重要性水平,计算关于词素格中包括的每个单词的频率信息,并基于一对单词和词组生成频率信息装备词集合。频率信息。
版权:(C)2006,JPO&NCIPI
公开/公告号JP4478042B2
专利类型
公开/公告日2010-06-09
原文格式PDF
申请/专利权人 日本電信電話株式会社;
申请/专利号JP20050056598
申请日2005-03-01
分类号G06F17/28;G06F17/27;G06F17/30;
国家 JP
入库时间 2022-08-21 18:57:47