基于自动机的正则表达式匹配算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机科学的不断发展，信息数据量呈爆炸性增长，给数据处理工作带来了一定的挑战，用户的查询也变的越来越复杂。由于需要处理的数据规模越来越大，进行的搜索也越来越困难，正则表达式作为一种可定义复杂查询的强有力工具为处理文本搜索问题提供了一种灵活而又高效的方法。如今，正则表达式的应用已经涉及到很多领域，为查询处理提供了方便。如何快速高效地响应正则表达式查询也变得至关重要。
　　目前，已提出了很多解决正则表达式匹配的方法。这些方法基本上都是对正则表达式进行在线搜索，即预先没有对要查询的文本做任何处理，根据其匹配的原理大致可分为三种:基于NFA的正则表达式匹配;基于DFA的正则表达式匹配;基于过滤方法的正则表达式匹配。其中，基于过滤方法的正则表达式匹配方法目前使用的比较多，查询性能较高，但是现有的过滤方法只是针对某些结构的正则表达式效果较明显，而正则表达式本身的结构非常复杂，如何选择一种更优的过滤方法来满足正则表达式的查询需求整体提高正则表达式的查询性能是一项很具挑战性的工作。
　　本文根据正则表达式的特点，针对数据文件是否预先被处理这两种情况，提出了相应的正则表达式在线与离线查询处理技术。在未索引数据文件的情况下，从正则表达式中提取出可以很好地代表该表达式的最佳因子集合，然后根据最佳因子的个数来选择使用单字符串查询的BM算法或多字符串查询的CW算法在数据文件中找到包含最佳因子的候选字符串，最后在DFA上对候选字符串进行验证。在索引数据文件的情况下，本文提出了三种索引结构，基于基本后缀树的索引、基于扩展后缀树的索引和基于聚类的索引。基于后缀树索引的方法是在后缀树上查找有最佳因子出现的字符串集合，再对其验证。基于聚类索引的方法是先使用聚类方法对字符串集合进行聚类，从每个类提取出公共子串，根据类中的公共子串是否被DFA所识别来进行过滤。最后，在基于真实与模拟数据集上的大量实验测试结果表明，本文所提出的在线和离线处理技术能够高效地支持正则表达式查询处理。

著录项

作者
李轶男;
展开▼
作者单位

东北大学;

展开▼
授予单位东北大学;
学科计算机软件与理论
授予学位硕士
导师姓名杨晓春;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动化装置与设备;设计、性能分析与综合;
关键词
数据处理; 正则表达式; 自动机; 后缀树; 匹配算法;

相似文献

中文文献
外文文献
专利

1. 基于模板有限自动机的正则表达式匹配算法 [J] . 邵翔宇 ,刘勤让 ,孙淼 . 计算机应用研究 . 2016,第007期
2. 一种基于智能有限自动机的正则表达式匹配算法 [J] . 张大方 ,张洁坤 ,黄昆 . 电子学报 . 2012,第008期
3. 一种基于Prolog有限自动机的正则表达式算法研究 [J] . 李晓欧 ,刘军 . 电脑编程技巧与维护 . 2019,第007期
4. 基于广义后缀树结合过滤因子的正则表达式匹配算法 [J] . 林婧 ,何震瀛 . 计算机应用与软件 . 2022,第1期
5. 基于规则分组的DFA正则表达式匹配算法 [J] . 朱俊 . 湖南工程学院学报（自然科学版） . 2021,第002期
6. 基于分布式存储的正则表达式匹配算法设计与实现 [C] . Li Zhang ,李璋 ,Du Hui-min . 2012全国高性能计算学术年会 . 2012
7. 基于正则表达式的图模式匹配算法研究 [A] . 薛少童 . 2018

基于自动机的正则表达式匹配算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅