法律状态公告日
法律状态信息
法律状态
2022-09-02
实质审查的生效 IPC(主分类):G06F16/9535 专利申请号:2021114435780 申请日:20211130
实质审查的生效
技术领域
本发明涉及信息技术领域,尤其涉及一种IPTV浏览踪迹行为数据增强预处理方法和系统。
背景技术
如今,交互式网络电视IPTV已走进寻常人家。随着IPTV节目越来越多,用户面临海量电视节目的选择。如何更好地向用户推荐符合其需求的电视节目从而改善用户体验显得越来越重要。
现有的IPTV推荐系统的主要目标是向用户推荐其可能会喜欢的视频节目内容,这是一种个性化的推荐,前提是必须知晓用户爱好才可能实现有针对性的精准推荐。然而,由于IPTV系统并不强求用户在注册时填写兴趣偏好的信息,同时由于用户新注册时系统中只有该用户非常有限的浏览踪迹行为数据,导致常用的协同过滤、深度学习等依赖大量用户行为大数据积累的算法在一开始并不能很好地得到运用。这种情况常被称为IPTV“冷启动”,即在产品在新用户使用初期由于用户数据为空或数据量太少导致所需的数据量达不到算法所需要的数据积累的要求。
此外,不管是视频内容还是IPTV用户,都是不断增长变化的,即使经过一段时间的数据量积累,推荐系统可以对一些老用户做出较为精准的推荐了,但新用户还在持续产生,新的视频内容也还在持续推出。因此,IPTV推荐系统的“冷启动”问题会伴随整个产品的生命周期,成为IPTV推荐系统中亟待解决的非常重要的一个问题。如果“冷启动”问题无法得到有效解决,IPTV系统不能为用户精准推荐喜欢的内容,用户可能会因到不到较好的推荐体验而很快流失。
本发明提供了一种IPTV浏览踪迹行为数据增强预处理方法和系统,能够针对小样本数据,开展数据增强的数据预处理,解决上述的IPTV“冷启动”问题,使得IPTV推荐系统实现针对新注册的用户或者新入库的视频内容进行精准推荐。
发明内容
提供本发明内容以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征;也不旨在用于确定或限制所要求保护的主题的范围。
根据本发明的IPTV浏览踪迹行为数据增强预处理方法,包括:有向图构造,运用PageRank算法对浏览踪迹行为的对象节点进行权重预分配,运用DBSCAN聚类算法对浏览踪迹行为的数据进行分割,以及运用协同过滤算法对浏览踪迹行为进行数据增强。其中:
有向图构造和权重预分配包括:基于IPTV用户浏览踪迹行为数据的样本来构造用户跳转浏览有向图;依据有向图构造多维转移矩阵;进行PageRank迭代计算;以及判断迭代收敛并得到多维转移矩阵中每个对象节点的权重值。
数据分割包括:将用户的链接节点标记为起始点且为尚未处理放入集合,从集合中选一对象节点,若该对象节点尚未处理则在其邻域包含的对象节点的数量不小于阈值的情况下,建立包含对象节点及其邻域的所有对象节点的新簇并加入候选集,从候选集中选取尚未处理的对象节点加入新簇,并在其邻域包含的对象节点的数量不小于阈值的情况下将其邻域的所有对象节点加入候选集,重复以上步骤直至集合中不存在未处理的对象,得到分割好的矩阵。
数据增强包括:对用户踪迹对象节点所在的行中的每一个缺失值进行标记,对每行数据进行均值为零的归一化处理,选取标记行之一,计算每行与标记行的余弦相关性,运用最近邻算法找出与当前计算的数据最相似的L行,基于余弦相关性,对L行进行加权评价,获得缺失值的预测值以用于填充缺失值,以上步骤被重复执行至所有标记行处理完毕。
根据本发明的IPTV浏览踪迹行为数据增强预处理系统,包括:权重预分配模块,用于运用PageRank算法对浏览踪迹行为的对象节点进行权重预分配;数据分割模块,用于运用DBSCAN聚类算法对浏览踪迹行为的数据进行分割;以及
数据增强模块,用于运用协同过滤算法对浏览踪迹行为数据增强。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
以下将通过参考附图中示出的具体实施例来对本发明进行更具体描述。
图1是根据本发明的IPTV浏览踪迹行为数据增强预处理方法各步骤的流程图;
图2是图1方法中权重预分配步骤的详细子步骤流程图;
图3是图1方法中数据分割步骤的详细子步骤流程图;
图4是图1方法中数据增加步骤的详细子步骤流程图;
图5是根据本发明的IPTV浏览踪迹行为数据增强预处理系统的示例性框图。
附图中的流程图和框图显示了根据本申请的实施例的系统、方法可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
具体实施方式
以下将通过参考附图中示出的具体实施例来对本发明进行更具体描述。通过阅读下文具体实施方式的详细描述,本发明的各种优点和益处对于本领域普通技术人员将变得清楚明了。然而应当理解,可以以各种形式实现本发明而不应被这里阐述的各实施方式所限制。提供以下实施方式是为了能够更透彻地理解本发明。除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
为解决IPTV推荐系统的“冷启动”问题,本发明提供了一种IPTV浏览踪迹行为数据增强预处理方法,能够针对新用户的小样本数据,通过对原数据的有向图构造、数据分割以及开展数据增强等数据预处理工作,有效实现数据缺失值的填充,从而使得IPTV推荐系统实现精准推荐。
图1示出了根据本发明的IPTV浏览踪迹行为数据增强预处理方法,该方法组合应用PageRank、DBSCAN、以及协同过滤算法对IPTV浏览轨迹行为数据进行有向图构造、数据分割及数据增强处理。该方法包括三个大的步骤:
S10通过PageRank算法对浏览踪迹行为节点权重预分配,
S20通过运用DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise)聚类算法对浏览踪迹行为数据分割,以及
S30通过协同过滤算法对浏览踪迹行为数据增强。
图2示出了图1中所述方法的步骤S10浏览踪迹行为节点数据权重预分配的各子步骤。数据权重预分配的实施主要涉及有向图的构造。在此基础上,可以运用PageRank进行权重分配。
新用户在注册后,往往会开始一些视频的浏览,其IPTV浏览踪迹行为数据样本开始慢慢积累,最初的小样本数据中主要包括视频内容的链接数据。
举例而言,一个新用户首先观看完了时长150分钟的a电影,接着观看时长100分钟的b综艺节目,但是该用户可能在b综艺节目观看80分钟时就退出并且跳转到观看时长40分钟的某一集c电视剧,而c电视剧他只观看了20分钟时用户关机了。因此,其中每个对象节点都有相应的视频内容浏览完成度,a电影完成度为100%,b综艺节目完成度80%,c电视剧完成度只有50%。完成度在一定程度上可以衡量该用户分别对a电影、b综艺、c电视剧的兴趣度。基于前述过程可获得由a、b、c构成的用户浏览踪迹行为数据的一个小样本,其中a、b、c之间的关系是有向的。
在步骤S11,基于上述用户浏览踪迹行为数据的小样本来构造浏览有向图,例如a、b、c就构成了一个用户跳转浏览有向图,a、b、c就是这个有向图中的对象节点。仅用完成度或者完成的次数来衡量是不够的。需要进一步在这些衡量的基础上,通过它们之间的有向链接关系来确定用户的兴趣度。
在步骤S12,依据有向图构造一个多维转移矩阵(Transition Matrix)M。具体而言,通过分析有向图,可以计算用户从每个对象节点(比如a)跳转到其它对象节点(比如b、c)等的概率,可依次组织这样一个多维转移矩阵:其中i行j列的值表示用户从对象节点j转到对象节点i的概率。
在步骤S13,选用PageRank方法来计算各对象节点的权重。所有对象节点的权重可以一个向量v表示,为解决死锁,引入随机跳转,概率为β,进行PageRank迭代计算,PageRank迭代计算公式如下:
v=(1-β)Mv+β/N
其中N为用户浏览链接的对象节点的个数,M是多维转移矩阵,β为概率通常为0.8-0.85。
在步骤S14,可以通过此迭代公式判断迭代收敛并得出结果,得到多维转移矩阵M中每个对象节点的权重值w。
接下来对浏览踪迹行为进行数据分割。
图3示出了图1中所述方法的步骤S20浏览踪迹行为数据分割的各子步骤。数据分割的实施主要涉及到最初初始集合的标记,由此运用DBSCAN聚类算法开展数据分割。
将对象节点的权重w乘以原来每个对象节点的标记的衡量,就得到了最初的浏览踪迹行为数据。此时由于数据量过小,直接将其用于推荐系统进行推荐,结果不会很理想。因此,在对其增强之前,首先将此踪迹数据与推荐系统数据集对齐,形成一个大的推荐矩阵。接下来,将此矩阵进行分割。为此,运用DBSCAN方法对推荐矩阵进行分割聚类。具体步骤包括:
S21:将所有对象节点标记为尚未处理,将用户的链接节点标记为起始点且为尚未处理,放入集合P,例如,前述示例中对象节点a、b、c等构成集合P;
S22:从集合P中选一对象节点p,如果对象节点p尚未处理(即,未被归为某个簇或者标记为噪声),则检查其邻域,若p的邻域中包含的对象节点数量不小于预先设定的阈值min Pts,则建立新簇C,新簇C包含该对象节点p以及其邻域的所有对象节点;并在集合P中将这些对象节点(对象节点p以及其邻域的所有对象节点)标记为已处理;
同时,将新簇C中所有对象节点加入候选集X,在候选集X中除p外其它对象节点标记被为未处理;
S23:对候选集X中选取尚未被处理的一对象节点q,检查其邻域,若q的邻域中包含的对象节点数量不小于阈值min Pts,则将q的邻域中包含的这些对象节点加入候选集X;如果对象节点q未归入任何一个簇,则将q加入簇C。将q标记为已处理;
S24:判断候选集X中是否还存在未处理的对象节点,若是则重复步骤23,直到当前候选集X中所有对象节点都已被标记为已处理;
S25:判断集合P中是否还存在未处理的对象节点,若是则重复步骤S22至S24;若否,说明所有对象都归入了某个簇或标记为噪声,可得到分割好的聚类簇,前进到步骤S26;
S26:进行结果整理,在分割好的矩阵中寻找包含有用户踪迹节点的矩阵,并将这些矩阵用于数据增强。
图4示出了图1中所述方法的S30浏览踪迹行为数据增强的各子步骤。数据增强的实施其实是实现数据缺失值的预填充。包括缺失值的标记,在每一分割得到的且包含有用户踪迹节点的矩阵数据相关性的分析,运用协同过滤算法进行数据预测计算,最小L行近邻的搜索,以及最后的加权计算以实现数据的预填充。
具体步骤包括:
S31:对用户踪迹节点所在的行中的每一个缺失值,进行标记;
S32:对矩阵的每行数据进行均值为零的归一化处理,即(原始值–均值)/(最大值–最小值);
S33:选取一标记行,计算每行数据与该行的余弦相关性,比如行r
S34:运用最近邻算法找出与当前计算的该用户浏览数据最相似的L行,即从计算得到的余弦相关性结果搜索找到最小的L个s
S35:基于得到的余弦相关性,对这L行进行加权评价得到用户缺失值的预测值,并用此预测值对用户缺失值进行填充,s
S36:重复步骤S33-S35直至所有标记行都处理完毕。
依照上述步骤,处理每一个分割得到的且包含有用户踪迹节点的矩阵。将预测值填充到依照用户踪迹数据原来的所在推荐矩阵。则此用户踪迹数据即为增强的预处理数据。
图5是根据本发明的IPTV浏览踪迹行为数据增强预处理系统的示例性框图。
该IPTV浏览踪迹行为数据增强预处理系统500包括,权重预分配模块510、数据分割模块520,以及数据增强模块530。
其中,权重预分配模块510用于通过PageRank算法对浏览踪迹行为节点权重预分配;数据分割模块520用于通过运用DBSCAN聚类算法对浏览踪迹行为数据分割,以及数据增强模块530用于通过协同过滤算法对浏览踪迹行为数据增强。
以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。
机译: 信息存储介质,存储运动图像数据和附加数据,以及一种再现装置及其方法,其涉及增强程序功能和浏览功能
机译: IPTV的个性化服务供应方法和一种能够根据从IPTV上的移动终端接收到的个性化数据来加载接口环境的系统
机译: IPTV数据图形加速与控制的浏览系统及方法