摘要:当前深层网络数据库的数量以惊人的速度增长.查询表单是访问深层网络数据的入口,由于深层网络数据库中的数据隐藏在查询表单之后,难以获取其信息,造成大量信息资源的浪费.为集成深层网络数据,向用户查询提供方便,首要问题是理解查询表单.为此,在统计分析的基础上,提出了一种提取表单信息的方法.通过观察大量含有查询表单的页面,发现查询表单表现的一般结构,从而确定可能存在的表单语法.虽然来源不同,但通过表单语法引导查询表单的生成.研究还从通用性角度考虑,分析了中英文表单的差别,提出了一种获取表单信息的系统框架和方法,并通过代码序列语法和自动机解析器捕获表单语法,进而理解并自动识别表单.实验结果表明提取查询表单信息的整体准确率和召回率均达到94%以上.