无监督的中文商品属性结构化方法

侯博议; 陈群; 杨婧颖; 李战怀

首页> 中文期刊> 《软件学报》 >无监督的中文商品属性结构化方法

无监督的中文商品属性结构化方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

从非结构化商品描述文本中抽取结构化属性信息,对于电子商务实现商品的对比与推荐及用户需求预测等功能具有重要意义.现有结构化方法大多采用监督或半监督的分类方法抽取属性值与属性名,通过文法分析器分析属性值与属性名之间的文法依存关系,并根据关联规则实现属性值与属性名的匹配.这些方法存在以下不足:(1)需要人工标记部分属性值、属性名及它们之间的对应关系;(2)属性值-属性名匹配的准确度受到语言习惯、句意逻辑、语料库及属性名候选集质量的严重制约.提出了一种无监督的中文商品属性结构化方法.该方法借助搜索引擎,基于小概率事件原理分析文法关系来抽取属性值与属性名.同时,提出相对不选取条件概率场,并使用PageRank算法来计算属性值与属性名的配对概率.该方法无需人工标记的开销,且无论商品描述中是否显式地包含相应的属性名,该方法都能自动抽取到属性值并匹配相应的属性名.使用百度搜索引擎上的真实语料,针对4类商品的中文描述进行了实验.实验结果验证了对于候选属性名的自动生成,所提出的基于搜索引擎搜索属性值,并在包含属性值的搜索结果中抽取一般名词的候选属性名生成方法与只在描述句中抽取一般名词的候选属性名生成方法相比,查全率提高了20％以上;对于非量化类属性,所提出的基于相对不选取条件概率场的属性值-属性名匹配方法与基于依存关联的方法相比,Rank-1的准确率提高了30％以上,平均MRR提高了0.3以上.

著录项

来源
《软件学报》 |2017年第2期|262-277|共16页
作者
侯博议; 陈群; 杨婧颖; 李战怀;
展开▼
作者单位

西北工业大学计算机学院;

陕西西安710129;

西北工业大学计算机学院;

陕西西安710129;

西北工业大学计算机学院;

陕西西安710129;

西北工业大学计算机学院;

陕西西安710129;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
结构化; 相对不选取条件概率场; Page Rank; 基于概率的文法分析; 搜索引擎;

相似文献

中文文献
外文文献
专利

1. 面向中文社交媒体语料的无监督新词识别研究 [J] . 张婧 ,黄锴宇 ,梁晨 . 中文信息学报 . 2018,第003期
2. 一种无监督的中文漫画对白自动定位方法 [J] . 刘冬 ,李鹿原 ,王勇涛 . 北京大学学报：自然科学版 . 2014,第1期
3. 无监督中文名词短语指代消解研究 [J] . 高俊伟 ,孔芳 ,朱巧明 . 计算机工程 . 2012,第017期
4. 基于条件随机场的无监督中文词性标注 [J] . 孙静 ,李军辉 ,周国栋 . 计算机应用与软件 . 2011,第004期
5. 基于Bi-LSTM和CRF的中文网购评论中商品属性提取 [J] . 张诗林 . 计算机与现代化 . 2019,第002期
6. 网络中文文本蕴含地理实体关系的无监督抽取方法 [C] . Yu Li ,余丽 ,Lu Feng . 第六届全国地理信息科学博士生学术论坛 . 2014
7. 基于联合训练和无监督方法的中文知识图谱问答研究 [A] . 赵思洋 . 2020

无监督的中文商品属性结构化方法

摘要

著录项

相似文献

相关主题

期刊订阅