基于词汇聚类方法的现代汉语分期与分期体系构建

摘要

当前对现代汉语史的研究多借用政治-社会史的分期方式将现代汉语分为新文化运动到1949年、1950年到1966年、1967年到1976年和1977年至今四个时期,并在这一基础上开展了许多研究.语言尤其是书面语虽然与社会政治生活有密切联系,但语言系统有其自身的演化规律.从语言数据出发对语言进行分期是更加合适的选择.本文将语言的分期问题视作历时语料的分期问题,进而成为历时文本的聚类问题.本文工作基于历时报刊语料库遴选出的时间敏感程度较好的词汇.使用机器学习领域中广泛使用的K均值和期望最大算法进行聚类,以该部分词汇频率为特征对70年跨度(1945-2015年)的历时报刊语料进行聚类,并在不同的聚类数量下绘制了具有层次性的词汇使用分期树.构建了战后现代汉语的词汇层次分期模型,揭示了改革开放的开始作为二战后词汇使用变迁最重要分水岭的地位.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号