首页> 外文期刊>Pattern recognition letters >Sentence level matrix representation for document spectral clustering
【24h】

Sentence level matrix representation for document spectral clustering

机译:用于文档频谱聚类的句子级矩阵表示

获取原文
获取原文并翻译 | 示例
           

摘要

Using a simple vector in R-n is a traditional way of representing documents in vector spaces. However, this representation tends to ignore the discourse and syntactic structure of texts. A matrix representation such as the one offered by the Doc2Vec word embedding method preserves these characteristics. In order to integrate a sentence level matrix representing documents to a clustering algorithm, we use a Frobenius based inner product that allows defining kernel functions for spectral clustering. We show that this methodology provides advantages over traditional clustering algorithms and performs better than bag of words (BoW) representations used in Information Retrieval (IR). (C) 2016 Elsevier B.V. All rights reserved.
机译:在R-n中使用简单的矢量是在矢量空间中表示文档的传统方式。但是,这种表现形式倾向于忽略文本的论述和句法结构。诸如Doc2Vec单词嵌入方法提供的矩阵表示法保留了这些特性。为了将代表文档的句子级别矩阵集成到聚类算法中,我们使用基于Frobenius的内部乘积,该乘积允许定义用于谱聚类的内核函数。我们表明,该方法提供了优于传统聚类算法的优势,并且比信息检索(IR)中使用的词袋(BoW)表示性能更好。 (C)2016 Elsevier B.V.保留所有权利。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号