【24h】

Using Belief Networks and Fisher Kernels for Structured Document Classification

机译:使用Belief网络和Fisher核进行结构化文档分类

获取原文
获取原文并翻译 | 示例

摘要

We consider the classification of structured (e.g. XML) textual documents. We first propose a generative model based on Belief Networks which allows us to simultaneously take into account structure and content information. We then show how this model can be extended into a more efficient classifier using the Fisher kernel method. In both cases model parameters are learned from a labelled training set of representative documents. We present experiments on two collections of structured documents: WebKB which has become a reference corpus for HTML page classification and the new INEX corpus which has been developed for the evaluation of XML information retrieval systems.
机译:我们考虑对结构化(例如XML)文本文档进行分类。我们首先提出一个基于Belief Networks的生成模型,该模型允许我们同时考虑结构和内容信息。然后,我们说明如何使用Fisher核方法将该模型扩展为更有效的分类器。在这两种情况下,模型参数都是从标记的代表性文档训练集中学习的。我们介绍了两个结构化文档集合的实验:WebKB(已成为HTML页面分类的参考语料库)和新的INEX语料库(已开发用于评估XML信息检索系统)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号