法律状态公告日
法律状态信息
法律状态
2022-07-29
公开
发明专利申请公布
技术领域
本发明涉及互联网信息统计技术领域,具体涉及网站词频的统计方法及其系统。
背景技术
汉语词频的统计方法是抽样一定数量的语料,计算其中各个词语的出现次数。词频统计对语言教学、语言工程、语言演变、语言建模、语音处理、机器翻译、汉字编码都具有重要意义。通过词频统计,可以根据定量的描述,对词语进行定性分析,给出属性评价。词频统计结果可以为各种专业工作提供支持,例如1、可以为课文编制提供依据;2、为词语的分级、词表、词库的建立提供参考;3、为语言工程建立基础;4、为语言学习、语音识别提供基础,词频统计是一项工作量巨大的工作,涉及到统计学、语言理论、信息技术等研究领域,还需要跟多的统计和研究工作,特别是目前还缺少对汉语成语的词频统计和研究。
现有方法针对中文的在STR(字符串的频率作为词频的近似值)和MM (最大匹配)框架下逼近词频的MinMaxMM方案,可以显着有益于词频估计,但在某些情况下其性能仍然不是很令人满意。
网络上存在关于汉语词频的网页,但只包括很少一部分的成语,其采用现有统计方法,而大量对于网页中词频的统计存在重复的现象,其原因在于每个网页中会出现很多重复的网站标签,因此网页获取到的URL中会出现多次重复,以及存在个别网页内容高度一致,存在采用常规方法不能保证词频统计的公正性与准确性。
发明内容
有鉴于此,本发明提供了一种通过对网页进行双次查重,获取网站词频统计结果的方法。
其技术方案如下:
网站词频的统计方法,包括以下步骤:
S1、初始化URL列表,获取指定网站所有网页的URL,通过URL对网页进行查重后,执行步骤S2;
S2、更新URL列表,对URL列表中对应的网页进行关键字提取后,执行步骤S3;
S3、通过关键字对所对应的网页进行查重,提取并统计网页中的词频,判断是否结束词频统计后,执行步骤S4;
S4、输出网站的词频统计结果。
URL(统一资源定位符,Uniform Resource Location)能够使客户端程序查询不同的信息资源时有统一访问方法而定义的一种地址标识方法。URL由四个部分组成,如http://www.computerworld.com.cn/channel/welcome.htm,它表达了URL的统一格式:方式://主机名/地点/文件名。在Internet上所有资源都有一个独一无二的URL地址。
本发明提出一种网页中的词频快速统计方法,结合当前主流的统计方法、大数据处理方法、搜索引擎技术及文本分割技术等来实现对汉语成语词频的统计。
进一步的,所述步骤S1的查重结果包括:
URL重复,对URL查重结果为重复的URL舍弃;
URL不重复,对URL查重结果为不重复的URL保留。
每个网页中会出现很多重复的网站标签,因此网页获取到的URL中会出现多次重复,而在不同网站中也可能出现同一URL,为了词频统计的公正性,需要对所有获取的URL查重。
进一步的,所述步骤S2中,使用步骤S1查重结果为URL不重复的URL,对URL列表进行更新。
通过对每一个网页进行URL查重处理,对URL列表保持更新,直至对网站所有的网页完成URL查重处理,同时防止URL列表中URL对应的网页存在重复。
进一步的,所述步骤S2中,对所述URL列表中的网页进行关键字提取采用TF-IDF算法,所述TF-IDF算法包括TF算法以及IDF算法,
所述TF算法用于统计一个词在网页中出现的频次,一个词在网页中出现的次数越多,则其对网页的表达能力越强,其表达式如下:
其中,TF代表频率;TF=某个词在网页中出现的次数/网页总词数;TF
所述IDF算法用于计算一个词对网页的区分能力,一个词在越少的网页中出现,则其对网页的区分能力越强,其表达式如下:
其中,IDF
综合TF算法和IDF算法,TF-IDE=TF×IDF,
某个单词j在网页i的重要程度使用下式表示:
其中,I表示重要程度。
通过TF-IDF算法对网页文本数据中的单词进行重要程度判断,并进行提取,通过重要程度判断可以确定一个网页中的关键词,通过关键词对网页进行查重。
进一步的,所述步骤S3的查重结果包括:
关键字重复,对关键字查重结果为重复的网页舍弃;
关键字不重复,对关键字查重结果为不重复的网页进行词频的提取与统计。
当查重结果为关键字重复,可判定当前网页的文本数据与曾经统计过的网页文本数据存在高度重合,即两个网页文本内容存在高度一致性,通过对关键字的查重,可保证词频统计的公正性。
进一步的,所述步骤S3中,对关键字查重结果为关键字不重复对应的网页,进行词频的提取与统计。
关键字查重结果为不重复可表明,当前网页的文本数据与统计过的网页的文本数据并不相同,且是一个全新的网页,对关键字不重复的网页进行词频统计确保了词频统计的准确性。
进一步的,所述步骤S3中,完成当前网页词频提取与统计后,判断是否完成URL列表中所有URL对应网页的词频统计:
若未完成,则执行步骤S2;
若完成,则执行步骤S4。
通过循环本发明的方案,逐一对网站中各个网页进行词频统计,最终完成网站整体的词频统计,或是根据需求设置任务量,分段完成网站的词频统计,也可主动停止或继续网站的词频统计。
网站词频的统计系统,包括
URL查重模块,所述URL查重模块用于获取网站所有网页的URL,并通过URL对网页进行查重;
数据库,所述数据库包括URL列表及词频统计模块;
关键字查重模块,所述关键字查重模块用于对网页的文本数据进行关键字提取,并通过关键字对网页进行查重;
其中,所述URL列表用于更新并存储网页的URL;
所述词频统计模块用于对网页中的词频进行提取并统计。
本发明通过URL查重模块对网页进行查重,并将通过查重处理的URL 存储于URL列表中,并通过关键字查重模块对URL列表中对应的网页进行关键字提取,通过关键字对网页进行二次查重,对通过二次查重的网页进行词频提取与统计。
进一步的,所述URL查重模块的查重结果包括:
URL重复,对URL查重结果为重复的URL舍弃;
URL不重复,对URL查重结果为不重复的URL保留;
其中,所述URL列表使用查重结果为URL不重复的URL进行更新并存储。
每个网页中会出现很多重复的网站标签,因此网页获取到的URL中会出现多次重复,而在不同网站中也可能出现同一URL,为了词频统计的公正性,需要对所有获取的URL查重。通过对每一个网页进行URL查重处理,对URL 列表保持更新,直至对网站所有的网页完成URL查重处理,同时防止URL 列表中URL对应的网页存在重复。
进一步的,所述关键字查重模块的查重结果包括:
关键字重复,对关键字查重结果为重复的网页舍弃;
关键字不重复,对关键字查重结果为不重复的网页保留;
其中,所述词频统计模块对查重结果为关键字不重复对应的网页,进行词频的提取与统计。
当查重结果为关键字重复,可判定当前网页的文本数据与曾经统计过的网页文本数据存在高度重合,即两个网页文本内容存在高度一致性,通过对关键字的查重,可保证词频统计的公正性。关键字查重结果为不重复可表明,当前网页的文本数据与统计过的网页的文本数据并不相同,且是一个全新的网页,对关键字不重复的网页进行词频统计确保了词频统计的准确性。
与现有技术相比,本发明的有益效果:本发明通过对网页的双次查重,对网页的词频进行提取及统计,能够快速统计出网站词频,本方案保证了网站词频统计的公正性与准确性,对语言教学、语言工程、语言演变、语言建模、语音处理、机器翻译及汉字编码都具有重要意义。
附图说明
图1为本发明的统计方法的流程示意图;
图2为本发明的实施例中UBF数据结构示意图;
图3为本发明的实施例中TFBF数据结构示意图;
图4为本发明的实施例中WFCMS数据结构示意图;
图5为本发明的统计系统的关系示意图。
具体实施方式
以下结合实施例和附图对本发明作进一步说明。
如图1所示,网站词频的统计方法,包括以下步骤:
S1、初始化URL列表,获取指定网站所有网页的URL,通过URL对网页进行查重后,执行步骤S2;
S2、更新URL列表,对URL列表中对应的网页进行关键字提取后,执行步骤S3;
S3、通过关键字对所对应的网页进行查重,提取并统计网页中的词频,判断是否结束词频统计后,执行步骤S4;
S4、输出网站的词频统计结果。
URL(统一资源定位符,Uniform Resource Location)能够使客户端程序查询不同的信息资源时有统一访问方法而定义的一种地址标识方法。URL由四个部分组成,如http://www.computerworld.com.cn/channel/welcome.htm,它表达了URL的统一格式:方式://主机名/地点/文件名。在Internet上所有资源都有一个独一无二的URL地址。
本发明提出一种网页中的词频快速统计方法,结合当前主流的统计方法、大数据处理方法、搜索引擎技术及文本分割技术等来实现对汉语成语词频的统计。
如图2所示,URL-TA(uniform resource locatortext acquisition,网页内容统一文字获取)方法是一种基于网络爬虫的网页文字内容获取方法,主要用于获取互联网中由一个页面为开始的扩散式网页群的文字内容。
本发明从一个初始页面开始,使用request模拟浏览器获取网页中全部内容,再使用BeautifulSoup等工具从网页中提取全部URL和文字数据,对URL 进行查重后以及筛选放入URL列表,当一个网页处理完毕后,从URL列表中提取下一个URL进入下一次的网页内容获取,循环执行直到接收到停止指令。
本发明中采用BFDR(Bloom Filter duplicate removal,布隆查重器查重) 算法是一种基于布隆查重器的信息查重方法,其中,对于URL的查重,本发明基于布隆查重器设计了UBF(URLBloom Filter)数据结构,UBF对URL-TA 获取后的URL进行查重,保证URL没有被统计过。将每一个URL放入UBF 中,经过UBF后将返回查重结果,若查重结果为True,则此URL已经被统计过,放弃此URL;若查重结果为False,则此URL未被统计过,放入URL 列表等待网页获取。
具体的,步骤S1的查重结果包括:
URL重复,对URL查重结果为重复的URL舍弃;
URL不重复,对URL查重结果为不重复的URL保留。
每个网页中会出现很多重复的网站标签,因此网页获取到的URL中会出现多次重复,而在不同网站中也可能出现同一URL,为了词频统计的公正性,需要对所有获取的URL查重。
在实际应用中,如果多次采集同一网页会引起统计的数据不准确,需要做查重处理。可以将已经采集过的网址全部存下来进行记录。但是这样做会比较耗费存储空间。对于一个有100亿URL的网站,如果每条URL平均长度为64字节,则全部存储的话需要640G的内存空间。若有多个网站,则所需存储空间将暴增。
本发明首次利用Bloom过滤器作为查重器。在统计过程中,使用Bloom 查重器,标记已经处理的网页,避免重复处理。
1)对于1000、5000、10000个网页,把URL文字内容都存下来,记录分别占用的空间。
2)UBF(URL Bloom Filter)数据结构所占用的空间。
两者对比,即可得出节省空间的情况。其中,空间节省率P的计算公式为:
1000个网页:
5000:
10000:
为此,在实现URL查重时使用UBF(URL Bloom Filter)数据结构来处理,可以大幅度降低所需存储空间。
具体的,所述步骤S2中,使用步骤S1查重结果为URL不重复的URL,对URL列表进行更新。
通过对每一个网页进行URL查重处理,对URL列表保持更新,直至对网站所有的网页完成URL查重处理,同时防止URL列表中URL对应的网页存在重复。
具体的,TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆网页频次)算法是一种基于统计的计算方法,常用于评估一个网页集中一个词对某份网页的重要程度。一个词对网页越重要,那就越可能是网页的关键词,常将TF-IDF算法用于关键词提取中。
TF算法用于统计一个词在网页中出现的频次,一个词在网页中出现的次数越多,则其对网页的表达能力越强,其表达式如下:
其中,TF代表频率;TF=某个词在网页中出现的次数/网页总词数;TF
所述IDF算法用于计算一个词对网页的区分能力,一个词在越少的网页中出现,则其对网页的区分能力越强,其表达式如下:
其中,IDF
综合TF算法和IDF算法,TF-IDE=TF×IDF,
某个单词j在网页i的重要程度使用下式表示:
其中,I表示重要程度。
I越大,重要度也就越高,可以人为设定I的阈值设置重要度。
通过TF-IDF算法对网页文本数据中的单词进行重要程度判断,并进行提取,通过重要程度判断可以确定一个网页中的关键词,通过关键词对网页进行查重。
具体的,步骤S3的查重结果包括:
关键字重复,对关键字查重结果为重复的网页舍弃;
关键字不重复,对关键字查重结果为不重复的网页进行词频的提取与统计。
当查重结果为关键字重复,可判定当前网页的文本数据与曾经统计过的网页文本数据存在高度重合,即两个网页文本内容存在高度一致性,通过对关键字的查重,可保证词频统计的公正性。
如图3所示,本发明基于布隆查重器设计了TFBF(Text Feature Bloom Filter)数据结构。TFBF对TF-IDF算法获取到的文本特征关键字进行查重,避免此URL的文本内容和已经统计过的URL相似或相同。将文本数据的关键字放入TFBF中,经过TFBF后将返回查重结果,若查重结果为True,则此 URL的文本内容和已经统计过的URL相似或相同,放弃此URL;若查重结果为False,则此URL的文本内容和已经统计过的URL不同。
在实际应用中,网络中存在很多具有相同或相似内容的网页。这些网页如果也进行多次统计,同样也会引起成语次数统计的失真。为此,也需要对具有相同内容的网页进行查重处理。与URL类似,如果全部存储网页的内容,将会耗费巨大的存储空间。同时在做内容比对时耗费更多的时间。
本发明用基于Bloom Filter的方法设计来TFBF数据结构来处理网页内容的查重问题。
在对网页文字内容做特征提取时,本文使用其中出现的成语及其数量作为特征。文字内容经扫描后生成{idom
具体的,所述步骤S3中,对关键字查重结果为关键字不重复对应的网页,进行词频的提取与统计。
关键字查重结果为不重复可表明,当前网页的文本数据与统计过的网页的文本数据并不相同,且是一个全新的网页,对关键字不重复的网页进行词频统计确保了词频统计的准确性。
具体的,步骤S3中,完成当前网页词频提取与统计后,判断是否完成 URL列表中所有URL对应网页的词频统计:
若未完成,则执行步骤S2;
若完成,则执行步骤S4。
通过循环本发明的方案,逐一对网站中各个网页进行词频统计,最终完成网站整体的词频统计,或是根据需求设置任务量,分段完成网站的词频统计,也可主动停止或继续网站的词频统计。
如图4所示,本发明设计一种WFCMS(Word Frequency Count-Min Sketch) 数据结构,接收来自TFBF数据结构查重后的数据,在本发明中用于实现词频的统计,TFBF判断文本内容未曾统计后会将信号发送给WFCMS,WFCMS 将URL-TA传输的文本数据以枚举法切分为所需要的词语形式,如四字成语 (为了统计效率,此处暂不统计其他字数的成语),将获取到的四字短语与成语库进行对比,如果确认短语是成语的话,将其送入WFCMS容器进行词频统计。
WFCMS数据结构用于成语词频统计,一个二维数组Array[0:k-1,0: l-1],其中k为选取的Hash函数的个数,l为待统计的元素的个数。
根据文献记载,1978年版的《汉语成语词典》收词略5500条;常晓帆版《实用成语手册》和李一华版《汉语成语词典》收词约1000条;河南版《汉语成语大词典》和上海辞书出版社版《中国成语大辞典》收词约1.8万条;韩省之版《中国成语分类词典》收词约2万条;中国台湾地区1987年版的《成语辞海》收词约3万条。随着社会的发展,成语的数量还在不断增长。本发明中预计在随后十年内,成语的数量会在5万以内。
因此,在考虑充分的余量后,本发明中设置数组长度为l=65536。Hash 函数的输出位数为
网站词频的统计系统,包括
URL查重模块,URL查重模块用于获取网站所有网页的URL,并通过 URL对网页进行查重;
数据库,所述数据库包括URL列表及词频统计模块;
关键字查重模块,所述关键字查重模块用于对网页的文本数据进行关键字提取,并通过关键字对网页进行查重;
其中,所述URL列表用于更新并存储网页的URL;
所述词频统计模块用于对网页中的词频进行提取并统计。
本发明通过URL查重模块对网页进行查重,并将通过查重处理的URL 存储于URL列表中,并通过关键字查重模块对URL列表中对应的网页进行关键字提取,通过关键字对网页进行二次查重,对通过二次查重的网页进行词频提取与统计。
具体的,URL查重模块的查重结果包括:
URL重复,对URL查重结果为重复的URL舍弃;
URL不重复,对URL查重结果为不重复的URL保留;
其中,URL列表使用查重结果为URL不重复的URL进行更新并存储。
每个网页中会出现很多重复的网站标签,因此网页获取到的URL中会出现多次重复,而在不同网站中也可能出现同一URL,为了词频统计的公正性,需要对所有获取的URL查重。通过对每一个网页进行URL查重处理,对URL 列表保持更新,直至对网站所有的网页完成URL查重处理,同时防止URL 列表中URL对应的网页存在重复。
具体的,关键字查重模块的查重结果包括:
关键字重复,对关键字查重结果为重复的网页舍弃;
关键字不重复,对关键字查重结果为不重复的网页保留;
其中,词频统计模块对查重结果为关键字不重复对应的网页,进行词频的提取与统计。
当查重结果为关键字重复,可判定当前网页的文本数据与曾经统计过的网页文本数据存在高度重合,即两个网页文本内容存在高度一致性,通过对关键字的查重,可保证词频统计的公正性。关键字查重结果为不重复可表明,当前网页的文本数据与统计过的网页的文本数据并不相同,且是一个全新的网页,对关键字不重复的网页进行词频统计确保了词频统计的准确性。
实施效果:
通过本发明的方法,对某一网站的10000个网页进行成语词频统计,结果可以看出词语的使用频率差异,坚定不移、实事求是等词语出现的频率是远大于安安稳稳、安邦定国这些词语的,如果继续对词频的获取,能够更加清晰地反映出各成语的使用频率差异。
表1 10000个网页词频统计表(成语排列)
表2 10000个网页词频统计表(词频排列)
最后需要说明的是,上述描述仅仅为本发明的优选实施例,本领域的普通技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。
机译: 基于网站的销售统计分析计算系统及其方法,以及将介质存储到该方法的计算机程序中,该方法能够通过将数据与现有数据相关联来进行连续的统计分析
机译: 能够提供访问统计信息的互联网网站访问信息统计系统及其方法
机译: 高效多级统计网站索引的系统和方法