首页> 中国专利> 一种HTTPS网页的指纹提取方法和指纹识别方法

一种HTTPS网页的指纹提取方法和指纹识别方法

摘要

本申请涉及一种HTTPS网页的指纹提取方法和指纹识别方法,指纹提取方法包括:根据待处理HTTPS网页的数据流,获得待处理HTTPS网页的多个对象各自的密文长度和加密方式;根据待处理HTTPS网页的多个对象各自的密文长度和加密方式,获得多个对象各自的明文长度区间,以确定每个对象的信息,其中每个对象的信息包括该对象对应的最大长度、最小长度和平均长度;以及利用待处理HTTPS网页的多个对象各自的信息,构建待处理HTTPS网页的指纹。指纹识别方法包括:通过提取待识别HTTPS网页的对象信息,与HTTPS网页指纹库中的信息进行匹配,完成识别。本发明的指纹提取方法和指纹识别方法,可行性强,识别准确率高。

著录项

  • 公开/公告号CN104765884A

    专利类型发明专利

  • 公开/公告日2015-07-08

    原文格式PDF

  • 申请/专利权人 哈尔滨工业大学;

    申请/专利号CN201510213462.6

  • 申请日2015-04-30

  • 分类号G06F17/30(20060101);H04L29/08(20060101);G06F21/60(20130101);

  • 代理机构哈尔滨市伟晨专利代理事务所(普通合伙);

  • 代理人张伟

  • 地址 150001 黑龙江省哈尔滨市南岗区西大直街92号

  • 入库时间 2023-12-18 09:43:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-06-22

    授权

    授权

  • 2015-08-05

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150430

    实质审查的生效

  • 2015-07-08

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,具体涉及一种HTTPS网页的指纹提取方法 和指纹识别方法。

背景技术

目前,随着流量识别领域技术的发展,在网络管理方面对其的需求也越来 越广泛。人们不再局限于以往在应用层面对流量的识别,而更侧重于加密流量 的识别方法,如P2P,SSL,SSH等。随着近年来SSL协议及其衍生体TLS 协议的发展,HTTPS协议(HTTP协议与SSL协议的结合体)逐渐兴起。

HTTPS是一种保证网页数据安全传输的加密协议。在HTTPS协议中, HTTP负责网页数据的传输,SSL协议负责数据加密和身份认证。目前,HTTPS 协议已经被广泛地应用到网络银行、网络支付、电子商务等重要服务中。众多 Web站点为了自身在通讯过程中的安全,也都通过HTTPS协议来进行数据传 输。即使是通常采用HTTP协议的普通网站,也会对其用户登录和注册等涉及 到网络用户私密信息的页面采用HTTPS协议进行传输,甚至为用户提供专门 的HTTPS协议通道。因此,HTTPS协议在Web通讯市场上已经占有了一席 之地,HTTPS加密流量越来越广泛,且将持续增加。然而,目前针对HTTPS 的加密技术的识别准确率较低,可行性较差。

发明内容

本发明提供一种HTTPS网页的指纹提取方法和指纹识别方法,其目的是 解决目前针对基于HTTPS协议的加密网页流量的识别准确率较低的问题。

为了实现上述发明目的,本发明采取的技术方案如下:

一种HTTPS网页的指纹提取方法,该指纹提取方法包括:根据待处理 HTTPS网页的数据流,获得待处理HTTPS网页的多个对象各自的密文长度和 加密方式;根据待处理HTTPS网页的多个对象各自的密文长度和加密方式, 获得多个对象各自的明文长度区间,以确定每个对象的信息,其中每个对象的 信息包括该对象对应的最大长度、最小长度和平均长度;以及利用待处理 HTTPS网页的多个对象各自的信息,构建待处理HTTPS网页的指纹。

优选地,在获得多个对象各自的明文长度区间的步骤中:针对多个对象 中的每个对象,当该对象采用流加密方式时,该对象的明文长度区间为 L(D)=[L(E)-nL(Mac),L(E)-nL(Mac)],当该对象采用块加密方式时,该对象的明 文长度区间为L(D)=[L(E)-nL(Mac)-n-n(bs-1),L(E)-nL(Mac)-n],其中,L(D)表 示该对象的明文长度区间,且明文长度区间内逗号左侧表达式表示该对象的最 小长度,而逗号右侧表达式表示该对象的最大程度;L(E)表示该对象的密文长 度,L(Mac)表示根据该对象的加密方式所获得的校验信息长度,n表示该对象 在传输中的分片数,bs表示根据该对象的加密方式所采取的块大小。

优选地,构建的待处理HTTPS网页的指纹为:fp={obji,i=1,2,...,N0},其 中,N0表示待处理HTTPS网页所包括的对象数量,fp表示待处理HTTPS网 页的指纹,obji={obji_min,obji_max,obji_s},obji_min表示待处理HTTPS网页 的第i个对象的最小长度,obji_max表示第i个对象的最大长度,obji_s表示 第i个对象的平均长度,且obji_s=obji_min+obji_max2.

一种HTTPS网页的指纹识别方法,该指纹识别方法包括:捕获预定数量 个未知HTTPS网页的数据流,以确定预定数量个未知HTTPS网页所包括的 所有未知对象的密文长度和加密方式;根据每个未知对象的密文长度和加密方 式,获得每个未知对象的明文长度区间,以确定每个未知对象的信息,其中每 个未知对象的信息包括该未知对象对应的最大长度、最小长度和平均长度;根 据所有未知对象的信息,构建预定数量个未知HTTPS网页对应的待识别数据 集;以及将待识别数据集与预定指纹库中每个已知HTTPS网页的指纹进行匹 配,以根据匹配结果来确定待识别数据集对应的已知HTTPS网页的指纹,作 为待识别数据集的指纹识别结果。

优选地,将待识别数据集与预定指纹库中每个已知HTTPS网页的指纹进 行匹配的步骤包括:针对预定数量个未知HTTPS网页所包括的每个未知对象, 判定每个已知HTTPS网页的每个已知对象的明文长度区间是否与该未知对象 的明文长度区间有交集:若有交集,则将该已知对象的信息存入该已知对象所 属已知HTTPS网页对应的匹配集中,在每个已知HTTPS网页对应的匹配集 包含的所有已知对象之中确定该未知对象的匹配对象,使得匹配对象的平均长 度与该未知对象的平均长度之间距离最小,并将匹配对象与该未知对象之间的 对应关系存入匹配对象所属已知HTTPS网页对应的匹配集中。

优选地,该未知对象的明文长度区间中的较小值可以等于该未知对象的最 小长度与预设的缓冲因子之差,而该未知对象的明文长度区间中的较大值可以 等于该未知对象的最大长度与缓冲因子之和。

优选地,根据匹配结果来确定待识别数据集对应的已知HTTPS网页的指 纹的步骤包括:根据预定数量个未知HTTPS网页所包括的所有未知对象的个 数及总字节数、预定指纹库中每个已知HTTPS网页所包括的所有已知对象的 个数及总字节数、每个匹配集中所包括的所有已知对象的个数及总字节数、每 个匹配集中所包括的每个对应关系中包括的已知对象的平均长度和未知对象 的平均长度,计算每个已知HTTPS网页对应的匹配系数;在所有已知HTTPS 网页对应的匹配系数中,去除其中小于第一系数阈值的匹配系数,将当前剩余 的所有匹配系数按从小到大排序后得到排序后的系数集;分别计算当前系数集 中每两个相邻匹配系数中的前后系数比,并确定所计算的所有前后系数比中的 最小值,将该最小值对应的两个相邻匹配系数中的在后匹配系数以及排在在后 匹配系数以后的所有匹配系数从系数集中删除,以更新当前系数集;根据当前 系数集中值最大的匹配系数确定第二系数阈值,将该系数集中小于第二系数阈 值的匹配系数去除,将当前剩余匹配系数所对应的所有已知HTTPS网页的指 纹确定为待识别数据集的指纹识别结果。

优选地,第二系数阈值等于当前系数集中值最大的匹配系数的预定倍数, 其中,预定倍数在0到1之间取值。

本发明和现有技术相比,具有如下有益效果:

本发明的一种HTTPS网页的指纹提取方法和指纹识别方法,可行性较强, 识别准确率较高,能够在保障信息安全的同时更好的对网络服务进行有效的管 理,同时能够防止不法分子通过HTTPS加密网页的方式传递非法有害信息。

附图说明

图1是本发明实施例的一种HTTPS网页的指纹提取方法的一个示例的流 程图;以及

图2是本发明实施例的一种HTTPS网页的指纹识别方法的一个示例的流 程图。

具体实施方式

为使本发明的发明目的、技术方案和有益效果更加清楚明了,下面结合附 图对本发明的实施例进行说明,需要说明的是,在不冲突的情况下,本申请中 的实施例和实施例中的特征可以相互任意组合。

本发明的实施例提供了一种HTTPS网页的指纹提取方法,该指纹提取方 法包括:根据待处理HTTPS网页的数据流,获得待处理HTTPS网页的多个 对象各自的密文长度和加密方式;根据待处理HTTPS网页的多个对象各自的 密文长度和加密方式,获得多个对象各自的明文长度区间,以确定每个对象的 信息,其中每个对象的信息包括该对象对应的最大长度、最小长度和平均长度; 以及利用待处理HTTPS网页的多个对象各自的信息,构建待处理HTTPS网 页的指纹。

图1示出了根据本发明实施例的一种HTTPS网页的指纹提取方法的一个 示例处理的流程图。如图1所示,该处理流程开始之后,首先执行步骤S110。

在步骤S110中,根据待处理HTTPS网页(例如可以是多个待处理HTTPS 网页中的任一个)的数据流,获得待处理HTTPS网页的多个对象各自的密文 长度和加密方式。然后,执行步骤S120。

在步骤S120中,根据待处理HTTPS网页的多个对象各自的密文长度和 加密方式,获得多个对象各自的明文长度区间,以确定每个对象的信息,其中 每个对象的信息包括该对象对应的最大长度、最小长度和平均长度。然后,执 行步骤S130。

优选地,在步骤S120中,可以通过如下处理获得多个对象各自的明文长 度区间:针对多个对象中的每个对象,当该对象采用流加密方式时,该对象的 明文长度区间为L(D)=[L(E)-nL(Mac),L(E)-nL(Mac)],当该对象采用块加密方式 时,该对象的明文长度区间为 L(D)=[L(E)-nL(Mac)-n-n(bs-1),L(E)-nL(Mac)-n],其中,L(D)表示该对象的 明文长度区间,且明文长度区间内逗号左侧表达式表示该对象的最小长度,而 逗号右侧表达式表示该对象的最大程度;L(E)表示该对象的密文长度,L(Mac) 表示根据该对象的加密方式所获得的校验信息长度,n表示该对象在传输中的 分片数,bs表示根据该对象的加密方式所采取的块大小。

在步骤S130中,利用待处理HTTPS网页的多个对象各自的信息,构建 待处理HTTPS网页的指纹,以完成对待处理HTTPS网页的指纹提取。然后, 结束处理。

优选地,构建的待处理HTTPS网页的指纹可以为:fp={obji,i=1,2,...,N0}, 其中,N0表示待处理HTTPS网页所包括的对象数量,fp表示待处理HTTPS 网页的指纹,obji={obji_min,obji_max,obji_s},obji_min表示待处理HTTPS 网页的第i个对象的最小长度,obji_max表示第i个对象的最大长度,obji_s表 示第i个对象的平均长度,且

通过以上描述可知,上述根据本发明实施例的一种HTTPS网页的指纹提 取方法,其根据HTTPS网页的多个对象各自的密文长度和加密方式,获得多 个对象各自的明文长度区间以确定各个对象的信息,进而得到HTTPS网页的 指纹。该指纹提取方法可行性较强,便于后续的解密即指纹识别过程的实现, 使得后续的识别准确率较高。

此外,本发明的实施例还提供了一种HTTPS网页的指纹识别方法,该指 纹识别方法包括:捕获预定数量个未知HTTPS网页的数据流,以确定预定数 量个未知HTTPS网页所包括的所有未知对象的密文长度和加密方式;根据每 个未知对象的密文长度和加密方式,获得每个未知对象的明文长度区间,以确 定每个未知对象的信息,其中每个未知对象的信息包括该未知对象对应的最大 长度、最小长度和平均长度;根据所有未知对象的信息,构建预定数量个未知 HTTPS网页对应的待识别数据集;以及将待识别数据集与预定指纹库中每个 已知HTTPS网页的指纹进行匹配,以根据匹配结果来确定待识别数据集对应 的已知HTTPS网页的指纹,作为所述待识别数据集的指纹识别结果。

图2示出了根据本发明实施例的一种HTTPS网页的指纹识别方法的一个 示例处理的流程图。如图2所示,该处理流程开始之后,首先执行步骤S210。

在步骤S210中,捕获预定数量个未知HTTPS网页的数据流,以确定预 定数量个未知HTTPS网页所包括的所有未知对象的密文长度和加密方式。然 后,执行步骤S220。

在步骤S220中,根据每个未知对象的密文长度和加密方式,获得每个未 知对象的明文长度区间,以确定每个未知对象的信息,其中每个未知对象的信 息包括该未知对象对应的最大长度、最小长度和平均长度。然后,执行步骤 S230。

在步骤S230中,根据所有未知对象的信息,构建预定数量个未知HTTPS 网页对应的待识别数据集。然后,执行步骤S240。

在步骤S240中,将待识别数据集与预定指纹库中每个已知HTTPS网页 的指纹进行匹配,以根据匹配结果来确定待识别数据集对应的已知HTTPS网 页的指纹,作为所述待识别数据集的指纹识别结果。然后,结束处理。

优选地,在步骤S240中,可以通过如下处理来将待识别数据集与预定指 纹库中每个已知HTTPS网页的指纹进行匹配:针对预定数量个未知HTTPS 网页所包括的每个未知对象,判定每个已知HTTPS网页的每个已知对象的明 文长度区间是否与该未知对象的明文长度区间有交集:若有交集,则将该已知 对象的信息存入该已知对象所属已知HTTPS网页对应的匹配集中,在每个已 知HTTPS网页对应的匹配集包含的所有已知对象之中确定该未知对象的匹配 对象,使得匹配对象的平均长度与该未知对象的平均长度之间距离(即匹配对 象的平均长度与该未知对象的平均长度之差)最小,并将匹配对象与该未知对 象之间的对应关系存入匹配对象所属已知HTTPS网页对应的匹配集中。其中, 该未知对象的明文长度区间中的较小值可以等于该未知对象的最小长度与预 设的缓冲因子之差,而该未知对象的明文长度区间中的较大值可以等于该未知 对象的最大长度与缓冲因子之和。

优选地,在步骤S240中,可以通过如下处理来确定待识别数据集对应的 已知HTTPS网页的指纹:根据预定数量个未知HTTPS网页所包括的所有未 知对象的个数及总字节数、预定指纹库中每个已知HTTPS网页所包括的所有 已知对象的个数及总字节数、每个匹配集中所包括的所有已知对象的个数及总 字节数、每个匹配集中所包括的每个对应关系中包括的已知对象的平均长度和 未知对象的平均长度,计算每个已知HTTPS网页对应的匹配系数;在所有已 知HTTPS网页对应的匹配系数中,去除其中小于第一系数阈值的匹配系数, 将当前剩余的所有匹配系数按从小到大排序后得到排序后的系数集;分别计算 当前系数集中每两个相邻匹配系数中的前后系数比,并确定所计算的所有前后 系数比中的最小值,将该最小值对应的两个相邻匹配系数中的在后匹配系数以 及排在在后匹配系数以后的所有匹配系数从系数集中删除,以更新当前系数 集;根据当前系数集中值最大的匹配系数确定第二系数阈值,将该系数集中小 于第二系数阈值的匹配系数去除,将当前剩余匹配系数所对应的所有已知 HTTPS网页的指纹确定为待识别数据集的指纹识别结果。

其中,第二系数阈值例如可以等于当前系数集中值最大的匹配系数的预定 倍数,其中,预定倍数在0到1之间取值。

下面将描述根据本发明的实施例的一种HTTPS网页的指纹识别方法的一 个应用示例。

首先,每当完成一整条HTTPS数据流的捕获后,对其内部数据进行分析, 获得该数据流的加密算法和信息摘要算法,计算出流中所有应答对象的明文区 间,并存入未知对象集合中。每当捕获预定数量条(例如10条)HTTPS数据 流后,此时未知对象集合中共有Nu个对象,然后对这Nu个对象进行指纹识别。

令UKOBJ表示上述待识别数据集,则:

UKOBJ={ukobjk,k=1,2,...,Nu}。

其中,Nu表示上述预定数量个未知HTTPS网页所包括的未知对象的总 数,ukobjk表示上述预定数量个未知HTTPS网页所包括的所有未知对象中的 第k个未知对象的信息,且ukobjk={ukobjk_min,ukobjk_max,ukobjk_s}。

ukobjk_min表示上述第k个未知对象的最小长度,ukobjk_max表示上述第 k个未知对象的最大长度,ukobjk_s表示上述第k个未知对象的平均长度,且 ukobjk_s=ukobjk_min+ukobjk_max2.

设预定指纹库中包括M个已知HTTPS网页的指纹,表示为 其中,fpm为上述预定指纹库中包括的 第m个已知HTTPS网页的指纹,为该第m个已知HTTPS网页所包括的 第j个已知对象的信息。

objj(m)={objj(m)_min,objj(m)_max,objj(m)_s}.

其中,表示上述第m个已知HTTPS网页所包括的第j个已知 对象的最小长度,表示上述第m个已知HTTPS网页所包括的第j 个已知对象的最大长度,表示上述第m个已知HTTPS网页所包括的 第j个已知对象的平均长度,且

针对上述预定数量个未知HTTPS网页所包括的每个未知对象,对每个已 知HTTPS网页的每个已知对象进行如下判定:该已知对象的明文长度区间 是否与该未知对象的明文长度区间 [ukobjk_min,ukobjk_max]有交集:若有交集,则将该已知对象的信息存入该已 知HTTPS网页对应的匹配集Rm中,然后继续下面的判定;否则,直接判定 下一个已知对象。

在一个例子中,例如可以判定和 [ukobjk_min-α,ukobjk_max+α]之间是否有交集:若有交集,则将存入对 应的匹配集Rm中。其中,α为缓冲因子,通过加入缓冲因子,能够在一定程 度上抵消由于浏览器或系统内核不同对HTTP数据报头的影响。其中,α例如 可以在10到30之间取值。

然后,针对上述预定数量个未知HTTPS网页所包括的每个未知对象, 在每个已知HTTPS网页对应的匹配集Rm包含的所有已知对象之中,确定该 未知对象的匹配对象,使得该未知对象的匹配对象的平均长度与该未 知对象的平均长度ukobjk'_s之间距离最小,并将该未知对象的匹配对象的信息 与该未知对象的信息ukobjk'之间的对应关系存入该已知 HTTPS网页对应的匹配集Rm中,其中

然后,针对每个已知HTTPS网页对应的匹配集Rm,提取如下信息:(1) 上述预定数量个未知HTTPS网页所包括的所有未知对象的个数uk_num;(2) 上述预定数量个未知HTTPS网页所包括的总字节数uk_bytes;(3)该已知 HTTPS网页所包括的所有已知对象的个数fpm_num;(4)该已知HTTPS网 页所包括的所有已知对象的总字节数fpm_bytes;(5)该匹配集Rm中所包括 的所有已知对象的个数(即,当前HTTPS网页中与未知对象相匹配的所有已 知对象个数)Rm_num;(6)该匹配集Rm中所包括的所有已知对象的总字节 数Rm_bytes;(7)该匹配集Rm中所包括的每个对应关系中所 包括的已知对象的平均长度以及(8)该匹配集Rm中所包括的每个 对应关系中所包括的未知对象的平均长度ukobjk'_s。

根据上述八种信息,计算每个已知HTTPS网页对应的匹配系数:

ωm=Rm_numfpm_num×Rm_numuk_num×Rm_bytesfpm_bytes×Rm_bytesuk_bytes×Πk=1Nkmin(objjm_sukobjk_s,ukobjk_sobjjm_s),

其中,Nk为匹配集Rm包含的未知对象的个数。

在所有已知HTTPS网页对应的匹配系数中,去除其中小于第一系数阈值 β的匹配系数,将当前剩余的所有匹配系数按从小到大排序后得到排序后的系 数集ρ={ωk1,ωk2,...,ωk1}={ωkp,p=1,2,...,1},kp=k1,k2,...,kNρ1表示匹配系数所 对应的已知HTTPS网页的序号,Nρ1为当前系数集中(即执行完“去除其中 小于第一系数阈值β的匹配系数”的处理之后的系数集中)所包含的匹配系数 的个数。若此时系数集ρ为空,则表示上述预定数量个HTTPS流量中并不包 含预定指纹库中已知HTTPS网页所产生的流量,指纹识别完成;否则,继续 下面处理。其中,第一系数阈值β的值可以根据经验值设定,也可以通过试验 的方法来确定,这里不再详述。

分别计算当前系数集中每两个相邻匹配系数中的前后系数比(此时p=1,2,…,Nρ1-1),并确定所计算的所有前后系数比中的最小值,将该 最小值对应的两个相邻匹配系数中的在后匹配系数以及排在上述在后匹配系 数以后的所有匹配系数从上述系数集中删除,以更新当前系数集,为 ρ={ωk1,ωk2,...,ωk2}={ωkp,p=1,2,...,2},k'p'=k'1,k'2,...,k'Nρ2,Nρ2为当前 系数集中(即执行完“将该最小值对应的两个相邻匹配系数中的在后匹配系数 以及排在上述在后匹配系数以后的所有匹配系数从上述系数集中删除”的处理 之后的系数集中)所包含的匹配系数的个数。

然后,根据当前系数集中值最大的匹配系数确定第二系数阈值β'。其 中,第二系数阈值β'可以等于当前系数集中值最大的匹配系数的预定倍数, 其中,预定倍数在0到1之间取值。例如,kc∈{k1,k2,...,kNρ1},θ (0<θ<1)为预设比例系数(即上述预定倍数),将该系数集中小于上述第 二系数阈值β'的匹配系数去除,得到剩余匹配系数所构成的系数集 ρ={ωk1,ωk2,...,ωk3}={ωkp,p=1,2,...,3},k”p”=k”1,k”2,...,k”Nρ3则为指纹识 别的结果,Nρ3为当前系数集中(即执行完“将该系数集中小于上述第二系数 阈值β'的匹配系数去除”的处理之后的系数集中)所包含的匹配系数的个数。 也即,当前剩余匹配系数所对应的所有已知HTTPS网页的指纹为上述待识别 数据集的指纹识别结果。其中,预定倍数的值可以根据经验值设定,也可以通 过试验的方法来确定,这里不再详述。

通过以上描述可知,上述根据本发明实施例的一种HTTPS网页的指纹识 别方法,其利用上文所述的指纹提取方法来获得未知HTTPS网页的指纹,并 与预定指纹库中的指纹进行比较,从而根据比较结果来确定指纹识别的结果。 该指纹识别方法可行性较强,识别准确率较高。

上述根据本发明实施例的HTTPS网页的指纹提取问题和指纹识别方法, 其能够在保障信息安全的同时更好的对网络服务进行有效的管理,同时能够防 止不法分子通过HTTPS加密网页的方式传递非法有害信息。

虽然本发明所揭示的实施方式如上,但其内容只是为了便于理解本发明的 技术方案而采用的实施方式,并非用于限定本发明。任何本发明所属技术领域 内的技术人员,在不脱离本发明所揭示的核心技术方案的前提下,可以在实施 的形式和细节上做任何修改与变化,但本发明所限定的保护范围,仍须以所附 的权利要求书限定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号