要解决的问题:提供一种不同的符号规范化处理器,通过该处理器,可以吸收汉字符号不同的各种语言之间的各种符号之间的波动。解决方案:不同符号标准化处理器包括:接收输入文本的文档输入装置101;汉字等效分割装置102a从由文档输入装置101接收的输入文本中提取汉字符号;在具有不同汉字符号的语言中描述对应字符的至少两个或多个不同符号归一化规则102c;不同符号归一化规则选择装置102d选择适合于文档输入装置101接收的输入文本的不同符号归一化规则102c;归一化处理装置102b根据由不同符号归一化规则选择装置102d选择的不同符号归一化规则102c,对由汉字等效分割装置102a提取的汉字符号进行归一化。这样,吸收了具有不同汉字符号的各种语言之间的各种符号的波动。
版权:(C)2005,JPO&NCIPI