...
首页> 外文期刊>Literary & linguistic computing >Unsupervised identification of text reuse in early Chinese literature
【24h】

Unsupervised identification of text reuse in early Chinese literature

机译:中国早期文学中文本重用的无监督识别

获取原文
获取原文并翻译 | 示例
           

摘要

Text reuse in early Chinese transmitted texts is extensive and widespread, often reflecting complex textual histories involving repeated transcription, compilation, and editing spanning many centuries and involving the work of multiple authors and editors. In this study, a fully automated method of identifying and representing complex text reuse patterns is presented, and the results evaluated by comparison to a manually compiled reference work. The resultant data are integrated into a widely used and publicly available online database system with browse, search, and visualization functionality. These same results are then aggregated to create a model of text reuse relationships at a corpus level, revealing patterns of systematic reuse among groups of texts. Lastly, the large number of reuse instances identified make possible the analysis of frequently observed string substitutions, which are observed to be strongly indicative of partial synonymy between strings.
机译:早期中文传输文本中的文本重用是广泛而广泛的,通常反映出复杂的文本历史,涉及跨多个世纪的重复转录,编辑和编辑,涉及多个作者和编辑的工作。在这项研究中,提出了一种识别和表示复杂文本重用模式的全自动方法,并通过与手动编译的参考文献进行比较来评估结果。结果数据被集成到具有浏览,搜索和可视化功能的,广泛使用且公开可用的在线数据库系统中。然后,将这些相同的结果进行汇总,以在语料库级别创建文本重用关系模型,从而揭示文本组之间系统重用的模式。最后,识别出的大量重用实例使分析经常观察到的字符串替换成为可能,而这些替换强烈地表明了字符串之间的部分同义。

著录项

  • 来源
    《Literary & linguistic computing》 |2018年第3期|670-684|共15页
  • 作者

    Sturgeon Donald;

  • 作者单位

    Harvard Univ Fairbank Ctr Chinese Studies Room S126 CGIS South Bldg 1730 Cambridge St Cambridge MA 02138 USA;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号