首页> 中文学位 >基于中文分词的图文自动匹配方法研究——以土地政策文本为例
【6h】

基于中文分词的图文自动匹配方法研究——以土地政策文本为例

代理获取

目录

文摘

英文文摘

声明

绪论

1研究背景与国内外相关研究进展

2研究目的和意义

3研究思路和研究方法

3.1研究思路

3.2研究方法

4本文结构

第一章中文分词和词性标注

1分词及中文分词概述

1.1中文分词常用算法

1.2目前常用分词组件

2词性标注

3中文分词和词性标注实现

3.1ICTCLAS组件分词算法

3.2ICTCLAS组件词性标注集

3.3改善ICTCLAS分词结果措施

3.4中文分词和词性标注实现

4本章小结

第二章土地政策文本数据库设计

1数据库设计

2土地政策文本数据库设计

2.1土地政策文本数据库组成

2.2土地政策文本数据库表结构设计

2.3土地政策文本数据库各表用途

3本章小结

第三章行政区划地名历史沿革时态数据库设计

1时态数据库

1.1时态基本元素模型

1.2时念数据库基本时间类型

1.3时态数据库类型

2厦门市行政区划历史沿革

3行政区划调整历史延续性

4行政区划地名历史沿革时态数据库设计

5行政区划地名历史沿革时态数据库

5.1行政区划地名历史沿革时态数据编码链表

5.2行政区划地名历史沿革时态数据库作用

6本章小结

第四章信息提取和土地政策文本数据库

1信息提取

2中文命名实体识别和提取

2.1地名提取

2.2时间提取

2.3政策文本基本信息提取

3土地政策文本数据库及其自动分析整理

3.1土地政策文本数据库

3.2土地政策文本数据库临时地名表自动分析整理

4本章小结

第五章土地政策文本与空间数据图文自动匹配

1空间数据库结构

2空间数据预处理

2.1数据粒度不均一问题处理

2.2空间数据信息核对

2.3空间数据分类编码

3图文自动匹配实现

3.1关联类型

3.2图文自动匹配关联类型和实现方式

3.3图文自动匹配算法

4关联匹配精度评价

5结果分析

6本章小结

第六章基于中文分词的图文自动匹配系统实现

1系统平台介绍

1.1.NETFramework和VB.NET概述

1.2ArcGIS Engine

1.3GeoDatabase

1.4ADO.NET

2系统功能

3系统界面

3.1系统主功能菜单

3.2图文自动匹配展示

4系统评价

第七章结论与展望

1研究总结

1.1本文主要工作

1.2本文主要结论

1.3创新点

2研究展望

附录1中国科学院计算技术研究所汉语词性标记集(Version3.0)

参考文献

个人简历

攻读学位期间承担的科研任务与主要成果

致谢

展开▼

摘要

文本是人文科学和社会科学信息的主要载体,其中往往包含了很多与地理空间位置有关的信息,如何将这些包含位置信息的自然语言与被称为地理学语言的地图进行自动匹配,是地理信息系统技术在人文、社会科学领域应用的关键技术之一。通过提取文本中具有空间指示意义地名,并将地名与地图上相对应的空间要素进行自动匹配是实现文本数据空间化的一个重要途径。 本文以收集到的厦门市土地政策文本文件为语料库,以厦门市“社区/村”级粒度的行政区划图和厦门市道路图为空间数据。首先创建厦门市地名词典:然后采用中文分词技术从土地政策文本中提取地名、时间等中文命名实体。本研究把地名分为三类:(1)行政区划地名,(2)自然地理实体地名和(3)人文地理实体地名。第一类地名具有很强的时效性,不同时期地名和其行政管辖范围不同,预示空间占有亦不同,所以本研究设计和建立了厦门市行政区划地名历史沿革时态数据库,该数据库记录了1995年以来厦门市各次行政区划调整地名历史沿革信息。利用地名分类编码和本研究创建的厦门市行政区划地名历史沿革时态数据库,以VisualBasic.NET为开发工具,选用GeoDatabase关系数据库存储空间数据、政策文本数据和地名历史沿革时态数据,以ArcGISEngine9.2作为GIS开发平台,基于组件式集成二次开发实现了地名与相对应空间数据的图文自动匹配。本文用不同来源的60篇政策文本文件作为语料,测试结果表明本研究提出的图文自动匹配方法取得了较好结果,平均匹配成功率达到80.3%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号