基于词间关联度度量的维吾尔文本自动切分方法

吐尔地.托合提; 维尼拉.木沙江; 艾斯卡尔.艾木都拉

首页> 中文期刊> 《北京大学学报：自然科学版》 >基于词间关联度度量的维吾尔文本自动切分方法

基于词间关联度度量的维吾尔文本自动切分方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

提出一种基于词间关联度度量的维吾尔文本自动切分方法。该方法从大规模生语料库中自动获取维吾尔文单词Bi-gram及上下文语境信息,在充分考虑维吾尔文单词间结合规则的前提下,将相邻单词间的互信息、t-测试差及双词邻接对熵的线性融合作为组合统计量(dmd),度量文本中相邻单词之间的关联程度。以dmd度量的弱关联的词间位置作为切分点进行自动切分,得到语义及结构完整的词串,而不仅仅是以空格隔开的单词。在大规模文本语料上进行的测试表明,该方法的切分准确率达到88.21%。

著录项

来源
《北京大学学报：自然科学版》 |2016年第1期|155-164|共10页
作者
吐尔地.托合提; 维尼拉.木沙江; 艾斯卡尔.艾木都拉;
展开▼
作者单位

新疆大学信息科学与工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
语义串; 互信息; t-测试差; 邻接对熵; 单词结合规则;

相似文献

中文文献
外文文献
专利

1. 基于词词关联矩阵改进的模糊检索研究(二)——叙词表控制下词间关联度的改进算法 [J] . 夏立新 ,程秀峰 ,叶光辉 . 情报学报 . 2013,第003期
2. 基于关键词重提取的密文文本相似性度量方法研究 [J] . 李志华 ,陈超群 ,李村 . 计算机科学 . 2016,第008期
3. 基于语义串抽取及主题相似度度量的维吾尔文文本分类 [J] . 吐尔地·托合提 ,维尼拉·木沙江 ,艾斯卡尔·艾木都拉 . 中文信息学报 . 2017,第004期
4. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J] . 黄承慧 ,印鉴 ,侯昉 . 计算机学报 . 2011,第005期
5. 基于词关联度的文本检索系统 [J] . 丁立恺 ,夏勇明 ,钱松荣 . 微型电脑应用 . 2011,第003期
6. 基于灰色关联度的图像复杂度度量参数优选方法 [C] . Qian Xiaofei ,钱小飞 ,Zhu Yong . 第17届全国图象图形学学术会议 . 2014
7. 基于频繁词集词共现网络的短文本聚类方法 [A] . 李伟 . 2016

基于词间关联度度量的维吾尔文本自动切分方法

摘要

著录项

相似文献

相关主题

期刊订阅