公开/公告号CN103365831A
专利类型发明专利
公开/公告日2013-10-23
原文格式PDF
申请/专利权人 腾讯科技(深圳)有限公司;
申请/专利号CN201210087642.0
申请日2012-03-29
分类号G06F17/22(20060101);
代理机构11018 北京德琦知识产权代理有限公司;
代理人谢安昆;宋志强
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室
入库时间 2024-02-19 21:10:10
法律状态公告日
法律状态信息
法律状态
2017-07-21
授权
授权
2015-04-08
实质审查的生效 IPC(主分类):G06F17/22 申请日:20120329
实质审查的生效
2013-11-13
专利申请权的转移 IPC(主分类):G06F17/22 变更前: 变更后: 登记生效日:20131021 申请日:20120329
专利申请权、专利权的转移
2013-10-23
公开
公开
技术领域
本发明涉及文本处理技术,特别涉及一种为文本添加超级链接的方法和 装置。
背景技术
超级链接,是指互联网中指向某个特定目标的连接,点击超级链接后, 将自动跳转到指定目标。
通过在文本中添加超级链接,可将不同的文本联系在一起。如图1所示, 图1为现有添加了超级链接的文本示意图。其中的“太和殿”、“中和殿”、“保 和殿”等词即添加了超级链接。在实际应用中,通常将添加了超级链接的词 称为超链词,用带下划线的蓝色字体表示。
现有技术中,通常采用以下方式来为文本添加超级链接:
1)针对待添加超级链接的文本,人工确定对其中的哪些词添加超级链 接;
2)预先生成一个超链词列表,针对待添加超级链接的文本,通过与超 链词列表进行匹配,为在超链词列表中出现的词添加超级链接。
但是,上述两种方式在实际应用中均会存在一定的问题:
对于方式1),由于需要人工进行操作,因此实现起来很不方便,尤其是 当需要对大规模文本添加超级链接时;
对于方式2),虽然实现起来比较方便,但只是简单地为匹配上的词添加 超级链接,可能导致所添加的超级链接与文本的相关性较低。
发明内容
有鉴于此,本发明提供了一种为文本添加超级链接的方法以及一种为文本添 加超级链接的装置,能够提高所添加的超级链接与文本的相关性,且实现起来 简单方便。
为达到上述目的,本发明的技术方案是这样实现的:
一种为文本添加超级链接的方法,包括:
预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理, 生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率;
针对每个待添加超级链接的文本X,分别进行如下处理:
对文本X进行切词处理;
从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出 现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;
根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定 出的权值,分别得到每个提取出的超链词的最终权值;
按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于 前K位的超链词添加超级链接,K为正整数。
一种为文本添加超级链接的装置,包括:
预处理模块,用于预先生成一个超链词列表,并收集各种文本,通过对各文 本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个 超链词的共现频率;
添加模块,用于针对每个待添加超级链接的文本X,分别进行如下处理:
对文本X进行切词处理;
从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出 现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;
根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定 出的权值,分别得到每个提取出的超链词的最终权值;
按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于 前K位的超链词添加超级链接,K为正整数。
可见,采用本发明所述方案,通过统计收集到的文本中的词与词之间的 共现关系,得到词与词之间的相关性,进而根据从待添加超级链接的文本中 提取出的各超链词与提取出的各特征词的共性频率等得到提取出的各超链词 的最终权重,并为最终权值较大的超链词添加超级链接,从而提高了所添加 的超级链接与文本的相关性;而且,采用本发明所述方案后,可自动确定出 为哪些词添加超级链接,无需人工操作,实现起来简单方便。
附图说明
图1为现有添加了超级链接的文本示意图。
图2为本发明为文本添加超级链接的方法实施例的流程图。
图3为本发明为文本添加超级链接的装置实施例的组成结构示意图。
具体实施方式
针对现有技术中存在的问题,本发明中提出一种为文本添加超级链接的方 案,能够提高所添加的超级链接与文本的相关性,且实现起来简单方便。
为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对 本发明所述方案作进一步地详细说明。
图2为本发明为文本添加超级链接的方法实施例的流程图。如图2所示, 包括:
步骤21:预先生成一个超链词列表,并收集各种文本,通过对各文本进行 切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词 的共现频率。
本步骤中,首先生成一个超链词列表,其中具体包括哪些超链词可根据实际 需要而定,该列表可由人工编辑生成,也可由机器通过某种方式自动生成,如 何生成不作限制。
之后,可从互联网中收集各种文本,用来生成特征词列表以及统计词与词之 间的共现关系。如何收集文本为现有技术,理论上来说,收集的文本数越多越 好,具体数目可根据实际需要而定。
上述生成特征词列表以及统计词与词之间的共现关系的具体过程可包括:
1)针对收集到的每个文本,分别对其进行切词处理;
2)将切词得到的所有不重复词均作为特征词,组成一个特征词列表,或者, 为减少后续的处理工作量,也可先从切词得到的所有不重复词中去除高频词、 停用词和低频词等,将剩余词作为特征词,组成一个特征词列表;
如何进行切词以及如何区分哪些词为高频词、停用词和低频词均为现有技 术;
另外,在得到特征词列表之后,还需要针对每个特征词,分别确定其逆文本 频率(IDF,Inverse Document Frequency)值,IDF值通过用收集到的所有文本 的个数除以出现了该特征词的文本个数,再将得到的商取对数得到;
3)针对每个特征词,分别确定其与每个超链词的共现频率:
针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):
P(x|y)=xy共现次数/y出现次数: (1)
其中,xy共现次数表示在收集到的所有文本中,同时出现了特征词y和超 链词x的文本的个数,y出现次数表示在收集到的所有文本中,出现了特征词y 的文本的个数;
或者,
针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):
P(x/y)=H(x,y)/I(x,y)=H(x,y)/(H(x)+H(y)-H(x,y)); (2)
其中,H表示信息熵,I表示互信息,H和I的具体计算方式均为本领域公 知;
在实际应用中,可根据实际需要选择使用以上两种方式中的一种。
步骤22:针对每个待添加超级链接的文本X,分别按照步骤23~26所示过 程进行处理。
为便于表述,用文本X来代表任意一个需要添加超级链接的文本。
步骤23:对文本X进行切词处理。
步骤24:从切词结果中提取出在超链词列表中出现的超链词以及在特征词 列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权 值。
将切词结果与步骤21中生成的超链词列表以及特征词列表进行匹配,从切 词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征 词。
并且,针对每个提取出的超链词H,分别计算其权值WH:
WH=TFH*IDFH; (3)
其中,TFH表示超链词H的词频(TF,Term Frequency)值,即超链词H在 文本X中的出现次数,IDFH表示超链词H的IDF值;
针对每个提取出的特征词F,分别计算其权值WF:
WF=TFF*IDFF; (4)
其中,TFF表示特征词F的TF值,IDFF表示特征词F的IDF值。
各IDF值已在步骤21中计算得到。
步骤25:根据每个提取出的特征词与每个提取出的超链词的共现频率以及 每个确定出的权值,分别得到每个提取出的超链词的最终权值。
本步骤中,针对每个提取出的超链词H,分别计算其最终权值WH’:
其中,n表示提取出的特征词的个数。
P(H/Fi)值已在步骤21中计算得到。
步骤26:按照最终权值由大到小的顺序对提取出的各超链词进行排序,为 排序后处于前K位的超链词添加超级链接,K为正整数。
K的具体取值可根据实际需要而定。另外,如何为超链词添加超级链接为现 有技术。
至此,即完成了关于本发明方法实施例的介绍。
基于上述介绍,图3为本发明为文本添加超级链接的装置实施例的组成结构 示意图。如图3所示,包括:
预处理模块,用于预先生成一个超链词列表,并收集各种文本,通过对各文 本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个 超链词的共现频率;
添加模块,用于针对每个待添加超级链接的文本X,分别进行如下处理:
对文本X进行切词处理;
从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出 现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;
根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定 出的权值,分别得到每个提取出的超链词的最终权值;
按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于 前K位的超链词添加超级链接,K为正整数。
其中,预处理模块中可具体包括:
第一处理单元,用于生成一个超链词列表;
第二处理单元,用于收集各种文本,通过对各文本进行切词处理,生成一个 特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率。
第二处理单元中又可具体包括(为简化附图,未图示):
第一处理子单元,用于收集各种文本;
第二处理子单元,用于对各文本进行切词处理,将切词得到的所有不重复词 均作为特征词,组成一个特征词列表,或者,从切词得到的所有不重复词中去 除高频词、停用词和低频词,将剩余词作为特征词,组成一个特征词列表;
并且,针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):
P(x|y)=xy共现次数/y出现次数; (1)
其中,xy共现次数表示在收集到的所有文本中,同时出现了特征词y和超 链词x的文本的个数,y出现次数表示在收集到的所有文本中,出现了特征词y 的文本的个数;
或者,针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):
P(x/y)=H(x,y)/I(x,y); (2)
其中,H表示信息熵,I表示互信息。
添加模块中可具体包括:
第三处理单元,用于对文本X进行切词处理;
第四处理单元,用于从切词结果中提取出在超链词列表中出现的超链词以及 在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特 征词的权值;根据每个提取出的特征词与每个提取出的超链词的共现频率以及 每个确定出的权值,分别得到每个提取出的超链词的最终权值;
第五处理单元,用于按照最终权值由大到小的顺序对提取出的各超链词进行 排序,为排序后处于前K位的超链词添加超级链接,K为正整数。
另外,第二处理子单元还可进一步用于,针对每个特征词,分别确定其IDF 值,IDF值通过用收集到的所有文本的个数除以出现了该特征词的文本个数,再 将得到的商取对数得到;
第四处理单元中又可进一步包括(为简化附图,未图示):
第三处理子单元,用于从切词结果中提取出在超链词列表中出现的超链词以 及在特征词列表中出现的特征词;
并针对每个提取出的超链词H,分别计算其权值WH:
WH=TFH*IDFH; (3)
其中,TFH表示超链词H的TF值,即超链词H在文本X中的出现次数,IDFH表示超链词H的IDF值;
针对每个提取出的特征词F,分别计算其权值WF:
WF=TFF*IDFF; (4)
其中,TFF表示特征词F的TF值,IDFF表示特征词F的IDF值;
第四处理子单元,用于针对每个提取出的超链词H,分别计算其最终权值 WH’:
其中,n表示提取出的特征词的个数。
图3所示装置实施例的具体工作流程请参照图2所示方法实施例中的相应说 明,此处不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。
机译: 能够编辑文本数据的图像形成装置及其操作方法,特别是与将文本数据添加到从存储卡和数字静态照相机传输的图像数据中有关
机译: 用于添加代表背景图像的图像数据以打印代表文本的数据并打印文本和背景图像的方法和装置
机译: 使用字处理器方法来创建一种允许由字母的字母组成的文本的方法,以压缩和解压缩原始文本,以用于该方法以及与这些方法一起使用的装置。