首页> 中国专利> 一种针对P2P-TV平台的包大小分布特征提取方法及基于其的P2P-TV平台识别方法和识别系统

一种针对P2P-TV平台的包大小分布特征提取方法及基于其的P2P-TV平台识别方法和识别系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种针对P2P-TV平台的包大小分布特征提取方法及基于其的P2P-TV平台识别方法和识别系统，具体是通过采集P2P-TV平台t时长的净流量数据，对其进行数据处理和分析，从而得出各个平台的包大小分布特征，即每个平台在短时间窗口内下行流量中不同的包大小分布，再将该包大小分布特征作为不同平台的分类特征，对平台进行分类识别。本发明不受连接节点的约束，能通过采集与分析流经园区网出口的网络流量准确可靠地对P2P-TV平台进行识别和分类。

著录项

公开/公告号CN101800744A

专利类型发明专利
公开/公告日2010-08-11

原文格式PDF
申请/专利权人中国人民解放军国防科学技术大学;
展开▼

申请/专利号CN201010105438.8
发明设计人张鑫;王晖;李进;姜志宏;樊鹏翼;
展开▼

申请日2010-02-03
分类号H04L29/06;H04L29/08;H04L12/26;
代理机构长沙正奇专利事务所有限责任公司;
代理人卢宏
地址 410073 湖南省长沙市开福区德雅路109号
入库时间 2023-12-18 00:31:18

法律信息

法律状态公告日

法律状态信息

法律状态
2013-03-13

授权

授权
2010-09-29

实质审查的生效 IPC(主分类):H04L29/06 申请日:20100203

实质审查的生效
2010-08-11

公开

公开

说明书

技术领域

本发明涉及网络数据的被动测量识别领域，具体是指P2P-TV平台的测量识别技术。

背景技术

在基于Peer-to-Peer(P2P)的文件共享应用(BT、Emule等)流行于互联网之后，一种新的基于P2P的应用——P2P-TV在互联网上迅速流行。目前国内主流的P2P-TV的平台包括：PPLive、PPStream、QQLive、UUSee、SOPcast等，每个平台均有相当数量的用户群，且使用人数在逐渐的增加。随着P2P-TV的使用人数的增加，它对于网络的影响力也越来越大，无法避免地带来了一系列的问题：第一，由于网络本身的脆弱性，P2P-TV平台很容易成为反动和不法分子的攻击对象，使之成为他们的宣传平台，传播非法的信息；第二，P2P-TV应用的大量应用，势必会占用带宽而影响诸如web，email等应用的正常运行，如果在一个园区网内部P2P-TV应用大量运行的话，将会影响到正常网络应用。基于以上原因很有必要对运行于园区内部的P2P-TV应用进行监管和控制，而监管和控制的基础是把P2P-TV的流量从整个网络流量中分类识别出来。

现有的关于P2P-TV流量分类的研究很少，大部分关于P2P-TV的研究主要是对P2P-TV平台的测量分析。欧洲NAPA-WINE项目组的S.Valenti等在文献“Accurate，fine-grained classification of P2P-TV applications by simplycounting packets”提出一种P2P-TV流量分类方法-Abacus，这是为数不多、较新的一种关于P2P-TV流量分类的方法，该方法的理论出发点是：由于各种P2P-TV协议不公开，P2P-TV播放客户端为了满足平稳播放，各个平台协议确定的邻居节点选择机制和视频内容下载机制存在差异。即有的平台在一个时段内选择少部分节点以较大速度、间隙下载视频内容数据，而有的平台选中较多的节点以相对较小的速度、持续稳定传输视频内容数据，两种方式都可以达到平稳播放的目的。而目前各种P2P-TV平台视频数据传输大多依赖一个稳定的(IP，Port)通过UDP协议传输，这就使得这种技术实现成为可能。在指定的时间内，与视频下载UDP端口交互的远程节点数目、各节点发送字节数和数据包个数均可能因为平台不同而存在差异。通过监听指定的(IP，port)的UDP在5秒内传输的下行数据，分析其发送不同字节数和不同数据包的远程节点数目的特性，从而达到分类P2P-TV流量的目的。

Abacus方法一定程度上解决了P2P-TV流量分类的问题，但并非适用于文中测试的P2P-TV所有平台的所有频道。也就是说，对于给出的特征，作者没有考虑同一个P2P-TV平台频道的差异性。例如，针对作者的实验所用P2P-TV平台SopCast平台部分频道传输视频数据只有一个远程Peer，经过重现Abacus方法，验证了这种情况下其分类方法效果很差。显然，Abacus方法能正确分类的前提是P2P-TV中客户端远程节点数目存在一个下限从而需要满足文中提及的分类特征向量统计条件，而对于远程节点数目较少的情况并不适用。

发明内容

针对上述现有技术存在的缺陷，本发明的目的旨在利用每个平台在短时间窗口内下行流量中的包大小分布不同来对不同平台进行分类，不受连接节点的约束，能通过采集与分析流经园区网出口的网络流量识别出当前园区网内哪些网络节点在运行哪一种需监控的P2P-TV平台；相对于背景技术中的Abacus方法而言，能够更加准确可靠地对平台进行识别和分类。

为了实现上述发明目的，本发明采用的基本技术方案包括如下内容：

一种针对P2P-TV平台的包大小分布特征提取方法，主要包括以下步骤：

步骤一，从园区网出口分别采集需要监控的K个P2P-TV平台t时长的净流量UDP下行数据；

步骤二，鉴于以太网的最大传输单元为1500字节，将UDP包大小区间1-1500字节等份为n个包大小区间B₁，B₂...B_n，分析每个平台净流量UDP下行数据中主要UDP端口下行数据在n个包大小区间上的分布情况，其中主要UDP端口是指采样时间段(t时长)内下行数据量最大的UDP端口；

步骤三，根据步骤二得出的分布情况结果分别提取出每个平台的包大小的主要分布区间，所述主要分布区间是指对于t时长内的数据流属于该区间的数据字节数在t时长内总字节数中所占比例大于5％；每个平台的主要分布区间构成一个分布区间集，按集合的并运算合并所有K个分布区间集，构成识别K个平台所需的主分布区间集，设所述主分布区间集包括m个主要分布区间，分别为{B₁，B₂...B_m}；

步骤四，提取用于区分这K个P2P-TV平台的特征向量：根据步骤三选取的m个主要分布区间定义用于区分K个平台的包大小分布特征，设某个平台短时间窗口Δt时长内主要UDP端口下行数据流共有totBytes字节，BytesB_i(i＝1，2，...m)分别为区间B_i上的总字节数，为区间B_i的字节数在总字节数totBytes中所占的百分比，(R₁，R₂，...，R_m)即组成这个平台的m维包大小分布特征向量。

与上述针对P2P-TV平台的包大小分布特征提取方法相对应的是，本发明还提出一种基于该包大小分布特征的P2P-TV平台识别方法，包括SVM分类器的训练和平台识别两个过程：

1)SVM分类器的训练过程

步骤S101，在园区网出口采集每个平台运行过程中时长为t的净UDP下行流量数据；

步骤S102，过滤得到主要UDP端口的下行数据，其中主要UDP端口是指采样时间段(t时长)内下行数据量最大的UDP端口；

步骤S103，在时间窗口Δt内计算各个平台的净UDP下行流量数据的包大小分布特征，其中Δt□t，K个平台共得到包大小分布特征向量；

步骤S104，将每个包大小分布特征向量加入对应的平台标号形成一个SVM训练样本集，每个训练样本至少包含两方面信息：平台编号label和包小大分布特征向量具体取值value；

步骤S105，利用训练样本集对SVM分类器进行训练；

步骤S106，获得能够在待监管的园区网上对K个P2P-TV平台进行识别的SVM分类器；

2)P2P-TV平台的识别过程

步骤S107，从园区网出口的核心交换机上采集到园区网出口数据；

步骤S108，将步骤S107采集到的流经园区网出口的网络流量数据按照传输层协议过滤，只保留其中的UDP数据流；

步骤S109，对UDP数据流进行下行流量过滤，这里的下行数据流是指目的IP处于园区网所对应IP地址段的数据流，然后按照(DstIP，DstPort)进行分流，其中DstIP为目的IP，DstPort为目的端口，对于每一个出现的(DstIP、DstPort)分别分配一段存储空间；

步骤S110，数据包按照(DstIP，DstPort)存储入对应的存储空间，汇聚成细化到端口的数据流，对于每个已经分好的数据流执行包括以下步骤的平台识别过程：

步骤S111，提取Δt时长内的数据计算出包大小分布特征向量；

步骤S112，利用训练所得到的SVM分类器对提取到的特征向量进行分类，得到初始分类结果；

步骤S113，采样分布比例累积值检验方法对得到的初始分类结果进行检验：

以M_BytesB_ij表示第i个平台第j个主要分布区间的字节总数，并定义：

$P_{i} = \frac{\underset{j}{Σ} {M_BytesB}_{ij}}{totBytes}$

为第i个平台的分布比例累积值，其中i＝1，2，...，K；j由具体平台的主要分布区间个数确定，totBytes为第i个平台短时间窗口Δt(单位为秒)时长内主要UDP端口下行数据流的总字节数；如果某个数据流的一个特征向量(R₁，R₂，....R₉)经SVM分类器预测得到结果为i(i＝1，2，...，K)，设定分布比例累积值的阈值d，d值的取值范围为0.5＜d＜1，如果第i个平台的分布比例累积值P_i＞d就接受预测结果，否则拒绝预测结果，认为该特征向量对应的数据流为未知应用；

步骤S114，判断该容器中的数据流数据是否读完，如果还有数据则返回步骤S111，否则进行下一步；

步骤S115，该数据流识别完毕，结束其识别过程。

在实际操作时，所述步骤S105可根据训练样本是否能够线性可分来确定SVM分类器训练时应该选择线性核函数还是非线性核函数；如果为非线性可分，则选择高斯核函数。线性可分与非线性可分主要采用一种实验对比的方式进行判断，首先对训练样本采用线性核函数进行训练，如果使用该分类器能达到预期的分类效果就认为训练样本是线性可分的；如果远远低于预期的分类效果则认为训练样本是非线性可分的。

同时，本发明还提供一种基于包大小特征的P2P-TV平台识别系统，主要包括以下模块：

K种P2P-TV平台的SVM训练特征提取模块：该模块主要是分别从K种平台净流量中提取包大小特征向量，按照SVM要求的格式形成训练样本库；

K种P2P-TV平台SVM分类器模块：该模块主要是接收训练样本库，使用SVM训练产生K种平台的SVM分类器；

园区网数据采集模块：该模块主要从园区网出口采集到园区网和互联网交互的网络数据；

园区网出口数据过滤模块：该模块主要是接收网络数据进行UDP过滤和下行流量过滤，得到UDP下行流量数据；

园区网出口下行UDP数据分流模块：该模块接收UDP下行流量数据，按照(DstIP，DstPort)对数据进行分流；

包大小特征提取模块：该模块接收分流后的子数据流，并针对子数据流进行包大小特征提取；

基于SVM的P2P-TV平台识别模块：该模块接收包大小特征向量使用SVM进行预测识别，产生初始识别结果；

识别结果检验模块：该模块对识别初始结果进行分布比例累积值检验，得到最终识别结果；

其中园区网数据采集模块的输出端经园区网出口数据过滤模块后，再依次接入园区网出口下行UDP数据分流模块和包大小特征提取模块，其中包大小特征提取模块和连接有K种P2P-TV平台SVM训练特征提取模块的K种P2P-TV平台SVM分类器模块一并接入基于SVM的P2P-TV平台识别模块的输入端，所述基于SVM的P2P-TV平台识别模块的输出端最后接入识别结果检验模块。

以下结合附图1-2，对本发明所述针对P2P-TV平台的包大小分布特征提取方法、基于其的P2P-TV平台识别方法及系统的工作原理进行详细说明：

(一)P2P-TV包大小分布特征提取方法，主要包括以下步骤：

步骤一，为了分析单个平台运行时的所有数据交互情况，在园区网内的PC上分别运行并采集K个P2P-TV平台的t(单位为秒)时长的净流量数据；

步骤二，将UDP包大小区间1-1500字节(以太网的最大传输单元为1500字节)等份为n个包大小区间(B₁，B₂...B_n)，分析每个平台净流量主要UDP端口(主要UDP端口是指采样时间段(t时长)内下行数据量最大的UDP端口)的下行数据在n个区间上的分布情况；

步骤三，根据步骤二的分析结果分别提取出每个平台的包大小的主要分布区间(由于每种P2P-TV都有自己的私有协议，所以会表现出不同的包大小分布)，这里所说的主要分布区间是指对于t时长内的数据流属于该区间的数据字节数在t时长内总字节数中所占比例大于5％；每个平台的主要分布区间构成一个分布区间集，按集合的并运算合并所有K个分布区间集便构成了识别这K个平台所需的主分布区间集，这里假设这个集合中共有m个(显然m≤n)包大小区间，分别为{B₁，B₂...B_m}；

步骤四，提取用于区分这K个P2P-TV平台的特征向量：根据步骤三选取的m个主要分布区间可以定义用于区分这K个平台的包大小分布特征：设某个平台短时间窗口Δt(单位为秒)时长内主要UDP端口下行数据流共有totBytes字节，BytesB_i(i＝1，2，...m)分别为区间B_i上的总字节数，为区间B_i的字节数在总字节数totBytes中所占的百分比，(R₁，R₂，...，R_m)即组成这个平台的m维包大小分布特征向量。

本发明用以上定义的包大小分布特征作为分类特征，并借助学习式分类技术SVM(Support Vector Machines，支持向量机)来实现流量分类，从而达到P2P-TV平台识别的目的，其中

(二)基于包大小分布的P2P-TV平台识别方法(方法流程如图1所示)：

本发明用以上定义的包大小分布作为分类特征，并借助学习式分类技术SVM(Support Vector Machines，支持向量机)来实现流量分类，从而达到P2P-TV平台识别的目的。识别方法涉及训练和识别两个过程，工作流程如附图1所示。

a)SVM分类器的训练过程，根据附图1所示：

步骤S101，从待监管的园区网内选定一台PC或多台PC分别运行需要监控的K个P2P-TV平台，为每一个P2P-TV平台选定UDP端口进行网络电视收看，并在园区网出口采集网络流量，分别采集每个平台运行过程中时长为t的净流量数据，在具体实施时通过设置采集软件的过滤规则可实现在园区网出口仅采集播放P2P-TV的PC的网络数据；

步骤S102，从采集到的每个平台的净流量数据中抽取目标地址与端口(DstIP，DstPort)为各平台运行所在的(IP，Port)的UDP数据，即得到了该平台主要UDP端口的下行流量；

步骤S103，在较短的时间窗口Δt内计算各净流量的包大小分布特征，显然应有Δt□t。对每个平台的时长t的净UDP下行流量数据，可计算得到个(这里符号表示对实数X向下取整)包大小分布特征向量，则K个平台共得到个特征向量；

步骤S104，将每个特征向量加入对应的平台标号形成一个SVM训练样本集，每个训练样本至少包含以下两方面信息：

label为平台编号，通常取1～K或0～(K-1)的自然数，value为包大小分布特征向量具体取值；

步骤S105，利用训练样本集对SVM分类器进行训练。根据训练样本是否能够线性可分来确定SVM分类器训练时应该选择线性核函数还是非线性核函数，如果是一个非线性可分的问题，一般选择高斯核函数，线性可分与非线性可分主要采用一种实验对比的方式进行判断，首先对训练样本采用线性核函数进行训练，如果使用该分类器能达到预期的分类效果就认为训练样本是线性可分的；如果远远低于预期的分类效果则认为训练样本是非线性可分的；

步骤S106，获得能够在待监管的园区网上对K个P2P-TV平台进行识别的SVM分类器。

b)P2P-TV平台的识别过程，由附图1所示：

步骤S107，通过端口镜像或是其它技术手段从园区网出口的核心交换机上采集到园区网出口数据，这个数据可以实时地传给识别过程，也可以保存为离线文件，然后再进行识别；

步骤S108，将步骤S107采集到的数据首先进行传输层协议过滤，仅保留UDP数据，然后进行下行流量过滤，仅保留下行流量，即仅保留从互联网流入园区网的UDP数据；

步骤S109，对完成过滤的数据按照(DstIP，DstPort)进行分流，对于每一个出现的(DstIP、DstPort)分别分配一段存储空间；

步骤S111，提取Δt时长内的数据计算出包大小分布特征向量；

步骤S112，利用训练所得到的SVM分类器对提取到的特征向量进行分类，得到初始分类结果；

步骤S113，由于训练时只采用了K个P2P-TV平台的净流量数据进行训练，所以识别过程中SVM分类器的分类输出必然是这K个平台之一，即它会把不是这K个平台的数据流误判成K个中的一个。因此必须对初始识别结果进行检验，这里采用的是分布比例累积值检验，方法如下：

以M_BytesB_ij表示第i个平台第j个主要分布区间的字节总数，并定义：

$P_{i} = \frac{\underset{j}{Σ} {M_BytesB}_{ij}}{totBytes}$ (i＝1，2，...，K；j由具体平台的主要分布区间个数确定)

为第i个平台的分布比例累积值。如果某个数据流的一个特征向量(R₁，R₂，....R₉)经SVM预测得到结果为i(i＝1，2，...，K)，设定分布比例累积值的阈值d，d值的确定采用启发式的方法，对每个平台的的分布比例累积值进行统计和观察可以得到其取值范围为0.5＜d＜1，如果第i个平台的分布比例累积值P_i＞d就接受预测结果，否则拒绝预测结果，认为该特征向量对应的数据流为未知应用；

步骤S114，判断该容器中的数据流数据是否读完，如果还有数据则返回步骤S111，否则进行下一步；

步骤S115，该数据流识别完毕，结束其识别过程。

步骤S111到步骤S115是每一个(DstIP，DstPort)对应的数据流均要进行的过程。

(三)基于包大小特征的P2P-TV平台识别系统，如图2所示，主要包括以下模块：

S201为K种P2P-TV平台的SVM训练特征提取模块。该模块主要是分别从K种平台的净流量中提取各平台的包大小分布特征向量，然后按照SVM要求的格式建立训练样本库；

S202为K种P2P-TV平台SVM分类器模块。该模块主要是接收模块S201产生的训练样本库，使用SVM训练产生K种平台的SVM分类器；

S203为园区网数据采集模块。该模块主要从园区网出口采集到园区网和互联网交互的数据；

S204为园区网出口数据过滤模块。该模块主要是接收模块S203采集到的网络数据进行UDP过滤和下行流量过滤，仅保留UDP协议的流入园区网的数据；

S205为园区网出口下行UDP数据分流模块。该模块接收模块S204过滤好的数据，按照(DstIP，DstPort)对数据进行分流；

S206为包大小特征提取模块。该模块接收模块S205分好的各数据流，并针对每个数据流进行包大小特征提取；

S207为基于SVM的P2P-TV平台识别模块。该模块接收模块S206生成的包大小特征向量使用SVM进行预测识别，产生初始识别结果；

S208为识别结果检验模块。该模块接收模块S208生成的识别初始结果对识别结果进行分布比例累积值检验，得到最终识别结果。

本发明前提是基于国内主流P2P-TV播放平台主要使用UDP进行数据交互，且这些数据主要集中在一个UDP端口，同样本发明也只适用于主要使用UDP进行数据交互的P2P-TV平台。

综上所述，本发明利用每个平台在短时间窗口内下行流量中的包大小分布不同来对不同平台进行分类，不受连接节点的约束，能通过采集与分析流经园区网出口的网络流量更加准确可靠地对P2P-TV平台进行识别和分类。

附图说明

图1是本发明所述P2P-TV平台识别方法的流程框图；

图2是本发明所述P2P-TV平台识别系统的结构示意图；

图3(a)是实施例中PPLive的包大小分布柱形图；

图3(b)是实施例中PPLive的主要分布区间的包大小分布柱形图；

图4(a)为实施例中PPLive平台两个频道的主要UDP端口下行流量数据包大小分布图；

图4(b)为实施例中PPStream平台两个频道的主要UDP端口下行流量数据包大小分布图；

图4(c)为实施例中QQLive平台两个频道的主要UDP端口下行流量数据包大小分布图；

图4(d)为实施例中UUSee平台两个频道的主要UDP端口下行流量数据包大小分布图；

图4(e)为实施例中SOPcast平台两个频道的主要UDP端口下行流量数据包大小分布图；

图5为实施例中五种P2P-TV平台的识别系统部署图。

具体实施方式

实施例1：

以当前国内互联网上流行的PPLive、PPStream、QQLive、UUSee和SOPcast五个平台为对象，提取可以区分这五个平台的包大小分布特征，然后利用包大小分布特征训练一个能对五个平台进行分类SVM分类器，最后根据SVM分类器对校园网出口中数据中的P2P-TV数据流进行在线实时识别。

首先，提取五个平台的包大小分布特征：

在两个不同时间段使用校园网内的一台PC分别运行上述五个平台，再使用Wireshark软件分别抓取2500秒的净流量数据，将Wireshark设置过滤规则仅保留主要UDP端口的下行数据，每个数据以pcap格式的文件保存，对离线文件的分析在装有Windows系统的PC上进行，使用C++编写的数据分析程序结合MATLAB对离线数据进行分析，利用libpcap库提供的函数读取离线数据输出每个文件中的每个数据包的大小，利用MATLAB分别对每个平台的包大小数据进行分析：

首先分析PPLive平台2500秒流量数据，将包大小区间0-1500字节30等份形成30个区间，即技术方案中的参数n＝30。分别计算各个区间上数据字节数与该时间段内数据总字节数，并求得其比率其中totBytes为PPLive平台短时间窗口Δt(单位为秒)时长内主要UDP端口下行数据流的总字节数，BytesB_i(i＝1，2，...m)分别为区间B_i上的总字节数，结果如图3(a)显示。分别对4段不同的PPLive数据(data1～data4)进行试验，结果如图3(b)所示，可以看出PPLive流量数据主要集中在区间2、3、18、29。这些区间上的字节数占PPLive流量总字节数的比率分别是99.30％、99.62％、99.86％、99.74％。分析其他平台，如QQLive，UUSee，SopCast和PPStream，可以发现这四种P2P-TV平台流量数据也主要集中在不同的区间上。

五个平台不同时间段两个不同频道的主要UDP下行流量数据的包大小分布MATLAB分析结果如图4所示。从分析图可以看出，同一平台不同频道的包大小分布具有相似性，而不同平台的包大小分布具有差异性，结合图4可以得到各平台的包大小主要分布区间，如表1所示。

表1：五个平台的包大小分布区间

P2P-TV平台字节数 PPLive 0-50、850-900、1420-1424 PPStream 0-50、50-100、1111 UUSee 0-50、50-100、997-1066 QQLive 0-50、100-150、1110 SopCast 0-50、1362

综合表1内定义的各平台的包大小主要分布区间，得到可以对五个P2P-TV平台进行分类的分布区间集，这个集合包含九个区间，如下所示：

区间1：0-50字节；

区间2：50-100字节；

区间3：100-150字节；

区间4：850-900字节；

区间5：997-1066字节；

区间6：1110字节；

区间7：1111字节；

区间8：1362字节；

区间9：1420-1424字节；

在短时间窗口Δt内上面九个区间所对应的九维向量(R₁，R₂，...，R₉)即构成能够区分这五个P2P-TV平台的特征向量。

第二步，基于包大小特征训练分类器并进行在线实时识别：

在园区网内的一台PC上分别运行五个平台，并设好每个平台的运行端口，从园区网出口利用Wireshark软件分别抓取五个平台的2500秒的运行数据，每次抓取数据时，Wireshark的过滤规则设置为仅抓取目的IP和端口(DstIP，DstPort)为当前运行平台的PC的IP地址以及这个平台所使用的端口，将抓取的数据保存为pcap文件，利用C++结合libpcap库编写特征向量提取程序，根据精度要求和识别的实时性要求这里暂取Δt＝5秒，对于已经过滤的主要UDP端口的下行流量每5秒提取上述九维的包大小分布特征向量，每个平台可以得到个特征向量，五个平台共得到2500个特征向量，每个特征那个向量均加入平台标号，各平台的标号如表2：

表2：五个平台标号

平台标号 PPLive 1 PPStream 2 QQLive 3 SOPCast 4 UUSee 5

按照SVM(使用LIBSVM库，A Library for Support Vector Machineswww.csie.ntu.edu.tw/～cjlin/libsvm)的特征向量格式要求，最终得到训练特征向量库，具体特征向量示例如表3。

表3：SVM训练特征向量示例

SVM分类器选用C-SVM，核函数选择RBF核函数对上面得到的训练特征向量集进行训练，产生model格式的分类器文件。

系统采用C++语言编写实现，运行于装有linux(federo10)的，校园网出口数据从核心交换机上采用网卡数据镜像的方式采集到数据采集服务器，服务器配置为主频3.0G的Intel CPU、8G内存、350G硬盘，识别系统的部署如图5所示，其经数据采集服务器接入园区网的出口端，数据采集服务器使用Wireshark软件采集网络数据，在Wireshark中设置过滤规则使数据服务器仅保存园区网出口数据中的UDP下行流量。

系统部署好之后，在不同时间段使用园区网内的一台IP为：172.20.12.90的PC分别运行这五个平台，时长为一个小时，同时数据采集服务器可以采集到相应的UDP下行流量，识别与分类服务器从数据采集服务器读取过滤好的数据，首先按照(DstIP，DstPort)对数据进行分流，基于C++实现系统中为每个(DstIP，DstPort)数据流均建立一个vector，同样取短时间窗口Δt＝5秒，对每个数据流按5秒提取分类特征向量，将提取的特征向量按照SVM规定的格式输入SVM分类器进行预测识别。预测特征向量格式如表4所示；

表4：SVM预测特征向量示例

SVM分类器会产生初始分类结果，对初始分类结果进行分布比例累积值检验，由上述说明可以很清楚地知道每个平台的主要分布区间，以PPLive为例三个主要分布区间的字节总数分别为：M_BytesB₁₁＝BytesB₁，M_BytesB₁₂＝BytesB₄，M_BytesB₁₃＝BytesB₉，这里设定阈值d＝0.7，如果P_i＞0.7则接受识别结果，否则认为该数据流对应的应用未知。运行在IP地址为172.20.12.90的PC上的五个平台分别运行了3600秒共产生720个识别结果，识别结果如表五所示：

表5：五个平台的识别结果

基于实验环境在识别服务器上使用C++语言再现了背景技术中S.Valenti的Abacus方法，在两个不同时间段同时使用两种方法分别对五个平台进行识别，两种方法的识别结果对比如表6。

表6：包大小分布和Abacus方法的比较

从结果对比中可知，本方法相对于Abacus方法提高了识别精度。

本实施例详细说明了针对P2P-TV平台的包大小分布特征提取方法及应用在五种常见P2P-TV平台中的特征提取及在线识别方法和系统，离线识别过和这个过程略有不同，离线识别时识别系统不一定和网络相连，识别系统只需要读取从园区网出口采集到的离线数据文件(采集软件为Wireshark时，离线文件保存为pcap格式)。这些离线文件可以在采集时就设置规则进行过滤，也可以在识别系统中进行过滤，而其它的步骤和在线识别的过程一样，在本此不作详细描述。

基于上述包大小分布特征提取的方法，并不局限于本发明所公开的应用平台，还可结合其余平台的相应特征改变具体的包大小分布特征参数，实现相同的技术效果，因此不脱离本发明的发明构思与精神实质的技术方案，应当认为也属于本发明所请求保护的范围，故不重述。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种针对P2P-TV平台的包大小分布特征提取方法及基于其的P2P-TV平台识别方法和识别系统 [P] . 中国专利： CN101800744B . 2013.03.13
2. 一种针对P2P-TV平台的包大小分布特征提取方法及基于其的P2P-TV平台识别方法和识别系统 [P] . 中国专利： CN101800744A . 2010-08-11
3. Computer-based systems and platforms and computer-implemented methods configured for one or more technological applications involving reduction of false-positive fraud detection incidents [P] . 美国专利： US10726424B1 . 2020-07-28

机译：针对一种或多种涉及减少假阳性欺诈检测事件的技术应用程序配置的基于计算机的系统和平台以及计算机实现的方法
4. An algorithmic digital platform that calculates the carbon captured in very small to medium organic carbon abatement projects based off photo media and biological data. This platform then advertises the calculated values on a trading medium for businesses and individuals to purchase in the interest of offsetting their carbon emission footprint and supporting local community. This platform then allocates the associated value to the earning party. [P] . AU2018101126A4 . 2018-09-06

机译：一种基于算法的数字平台，可根据照片媒体和生物数据来计算从中小型有机碳减排项目中捕获的碳。然后，该平台会在交易介质上发布计算出的价值，以供企业和个人购买，以抵消其碳排放量并支持当地社区。然后，该平台将关联的价值分配给收益方。
5. A method for generating a resource file package available in different platform and a method for using a resource in a different platform [P] . 韩国专利： KR101308404B1 . 2013-09-16

机译：一种用于在不同平台上可用的资源文件包的方法以及用于在不同平台上使用资源的方法