首页> 中国专利> 作品网络传播行为发现方法、系统、电子设备及存储介质

作品网络传播行为发现方法、系统、电子设备及存储介质

摘要

本发明公开了一种作品网络传播行为发现方法、系统、电子设备及存储介质,系统包括作品登记管理模块、平台登记管理模块、作品采集词管理模块、作品基础过滤配置管理模块、作品指纹过滤配置管理模块、作品和平台关系及过滤配置管理模块和上传人管理模块等。本发明通过对作品、采集和审核进行管理,采用自动化采集方法,实现多作品全网传播发现的数据并大幅降低数据遗漏,且通过采用数据清洗方法,能够实现对无关数据的识别提高数据有效性和清洗速度。本发明除适用影视作品网络传播行为发现外,也适用文学作品、图文作品、音乐作品等网络传播行为的发现。

著录项

  • 公开/公告号CN112231518A

    专利类型发明专利

  • 公开/公告日2021-01-15

    原文格式PDF

  • 申请/专利权人 南京讯思雅信息科技有限公司;

    申请/专利号CN202011435954.7

  • 申请日2020-12-10

  • 分类号G06F16/783(20190101);G06F16/908(20190101);

  • 代理机构32296 南京睿之博知识产权代理有限公司;

  • 代理人刘菊兰

  • 地址 211100 江苏省南京市江宁经济技术开发区将军大道37号1幢

  • 入库时间 2023-06-19 09:35:27

说明书

技术领域

本发明涉及互联网信息采集技术领域,具体涉及一种作品网络传播行为发现方法、系统、电子设备及存储介质。

背景技术

随着互联网技术和流量变现市场的发展,市场上出现很多以视频剪辑方式非法传播影视作品的用户平台。虽然现在出现的很多数据采集系统,以及各视频平台或搜索引擎也提供搜索能力,但是无法适用对于影视作品在网络上传播行为的发现。原因一是视频平台数据量巨大,不能进行全量采集与发现,会出现大量数据遗漏问题;原因二是收集到的巨量数据存在大量无效数据,虽然存在视频指纹比对技术可实现数筛选,但是此技术对比速度随作品量增加会线性增加,无法满足庞大的视频快速比对需求;原因三是对于大批作品的网络传播行为,全网发现工作没有合适的自动化系统,这些问题需要有相关技术或系统进行解决。

发明内容

技术目的:为解决上述技术问题,本发明公开了一种作品网络传播行为发现方法、系统、电子设备及存储介质,能够解决视频网络传播行为的发现工作,同时尽量减少数据遗漏、大量无效数据的筛选难、大批量作品的网络传播行为快速发现及自动化实现等问题。

技术方案:为实现上述技术目的,本发明采用了如下技术方案:

一种作品网络传播行为发现方法,其特征在于,顺序执行以下步骤:

S1、配置规则:在本地数据库中添加待检索的作品信息、待搜索的多个网络平台信息、各网络平台中个人上传者信息、多种过滤规则,过滤规则包括作品基础过滤规则、作品指纹过滤规则、作品与平台关系及其过滤规则;

S2、自动化数据采集:包括同时进行的任务生成线程和任务采集线程,任务生成线程中,生成用于实现数据采集的任务清单,任务清单中存储实时更新的用于数据采集链接;由任务采集线程执行任务清单,完成对作品网络传播行为的数据的采集,并逐个平台制定具有预设内容和显示格式的视频属性信息;

S3、数据清洗:对步骤S2采集到的视频属性信息进行处理,将视频属性信息按照不同平台进行解析和制定格式化链接;根据过滤规则,将筛选后的有效的格式化链接以清单形式输出。

优选地,步骤S1中,作品信息包括作品名称、作品集数、作品导演、作品主演、作品编号、作品匹配用名称正则的增删改查、作品指纹特征、作品采集词;对作品指纹特征的提取方法,包含sift算法、百度云视频指纹算法或腾讯云视频指纹算法;

网络平台信息包括平台名称、平台编号、平台网址、平台采集入口链接、平台搜索链接和平台属性;平台属性为从全网范围内筛选出的搜索引擎、视频平台或贴吧论坛中的任一种;个人上传者信息包括上传人首页链接。

优选地,所述步骤S2具体包括:

S2.1、初始化采集程序,同时启动任务生成线程和任务采集线程;

S2.2、任务生成线程中,每隔固定时间,读取网络平台信息及其对应的平台采集入口链接;

S2.3、任务生成线程中,设置第一采集时间间隔阈值,持续读取作品采集词信息,若当前采集时刻减去上次采集时刻大于第一采集时间间隔阈值,则将步骤S2.2的平台采集入口链接和当前采集时刻读取到的采集词组合,得到一个新链接;

判断所述新链接是否已存在于任务清单中,如果不存在,则加入到任务清单中,否则不处理;

S2.4、任务生成线程中,设置第二采集时间间隔阈值,持续性读取上传人首页链接,若当前采集时刻减去上次采集时刻大于第二采集时间间隔阈值,则保留对应的上传人首页链接;

判断得到的上传人首页链接是否已存在任务清单中,如果不存在,则加入到任务清单,否则不处理;

S2.5、任务采集线程中,持续性对任务清单中的链接进行采集,获得对应的采集数据,且逐个平台制定包括作品编号、平台编号、上传人首页链接、标题、时长、作品指纹特征在内的视频属性信息。

优选地,所述步骤S2.5中,采用视频类平台反爬虫机制,根据平台不同,采用代理池和不同的采集框架对任务清单中的链接进行采集。

优选地,所述平台采集入口链接包括各平台自带的搜索默认链接、多种查询条件和排序条件组合后的链接,平均每个作品的平台采集入口链接的排列组合超过100个。

优选地,步骤S1中,作品基础过滤规则中设定了作品编号、第一最低时长、标题内容正向正则和标题内容反向正则信息,用于数据过滤处理;

作品指纹过滤规则设置了作品编号、作品指纹特征、指定分值,用于数据过滤处理;

作品和平台关系及其过滤规则设置了作品与所在网络平台的关系、第二最低时长和白名单,用于制定综合采集规则以及对进行数据过滤处理;作品和平台关系为多对多关系,每条关系包含作品编号、平台编号、最低时长和白名单范围。

优选地,步骤S3具体包括:

S3.1、提取视频属性信息,包括作品编号、平台编号、上传人首页链接、标题、时长、作品指纹特征信息,数据库中设置用于在数据清洗过程中可调用的去重链接列表;

在数据清洗过程中,将视频属性信息按照不同平台进行解析,提取若平台属性解析正常,则取出视频属性信息,并根据平台不同制定格式化链接;

若格式化链接在现有的去重链接列表中未出现重复时,则将其加入到去重链接列表中,否则丢弃;

S3.2、当步骤S3.1读取的视频属性信息中的作品编号不为空时,进一步根据作品基础过滤规则对视频属性信息进行处理:

若视频属性信息中的时长大于或等于第一最低时长,继续下一步,否则丢弃该格式化链接;

若视频属性信息中的标题符合标题内容正向正则时,继续下一步,否则丢弃该格式化链接;

若视频属性信息中的标题符合标题内容反向正则时,丢弃该格式化链接,否则继续下一步,进入步骤S3.4;

S3.3、当步骤S3.1读取的视频属性信息中的作品编号为空时,直接判断视频属性信息中的标题是否能够匹配到数据库中的作品标题内容正向正则,如果能匹配到,则取匹配到的作品编号,进入步骤S3.4;如果不能匹配到,进行步骤S3.5;

S3.4、根据作品编号和平台编号,进一步根据作品和平台关系及过滤配置规则对视频属性信息进行处理:

若视频属性信息中的时长大于或等于第二最低时长时,继续下一步,否则丢弃该格式化链接;

若视频属性信息中的上传人首页链接存在于白名单范围时,丢弃该格式化链接,否则继续下一步;

下载视频,提取作品指纹特征,根据作品指纹过滤规则进行处理:

若通过作品指纹特征搜索到数据库中的指纹列表中存在匹配的一个或多个指纹,且分值大于指定分值时,确定该格式化链接有效,否则丢弃;进入步骤3.6;

步骤3.5、直接根据视频属性信息中的作品指纹特征在数据库中进行图像搜索,如果能够搜索到匹配的作品指纹,且当通过该指纹搜索到指纹列表中存在一个或多个指纹且分值大于指定分值时,确定该格式化链接有效;否则丢弃;进入步骤3.6;

步骤3.6、对有效格式化链接进行登记、审核,并以清单形式输出。

优选地,步骤S3.1中,对视频属性信息提取的方法包含xpath或css;格式化链接中包括作品编号、平台编号、上传人首页链接、标题、时长、作品指纹特征信息,还包括平台时间戳、访问设备信息和访问用户信息;

步骤S3.4中,下载视频时,仅下载前30秒,节省资源和提高后续比对速度,提取和比对方法包含sift算法、百度云视频指纹算法和腾讯云视频指纹算法,至少每5秒提取1个关键帧;

步骤S3.1~S3.6中,通过API读取视频属性信息,读取到的信息存放在redis中。

一种影视作品网络传播行为发现的系统,其特征在于:包含作品登记管理模块、平台登记管理模块、作品采集词管理模块、作品基础过滤配置管理模块、作品指纹过滤配置管理模块、上传人管理模块、作品和平台关系及过滤配置管理模块和审核输出模块;其中,

作品登记管理模块,用于登记作品信息,包括作品名称、作品集数、作品导演、作品主演、作品编号和作品匹配用名称正则的增删改查记录;

平台登记管理模块,通过平台列表形式登记平台信息,包括平台编号、平台名、平台网址、一个以上的平台采集入口链接、平台属性的增删改查记录;

作品采集词管理模块,用于维护作品被采集的信息,包括作品编号、采集词、上次采集时间和采集时间间隔;

作品基础过滤配置管理模块,用于统计作品基础过滤配置信息,包括作品编号、最低时长、标题内容正向正则增删改查记录以及标题内容反向正则增删改查记录;

作品指纹过滤配置管理模块,用于统计作品指纹过滤配置信息,包含作品编号及对应的视频特征文件;

上传人管理模块,用于统计视频上传者的信息,包含作品来源的平台编号、平台名、上传人编号、上传人首页链接、上次采集时间和采集间隔进行增删改查记录;

作品和平台关系及过滤配置管理模块,用于维护采集作品的平台信息、综合采集规则,作品和平台关系为多对多关系,每条关系包含作品编号、平台编号、最低时长和白名单范围;

审核管理模块,用于对经数据清洗程序处理后的结果进行审核;

传播结果查询模块,用于对包括作品编号、作品名称、平台名称、上传人首页链接、时长、标题、视频文件路径的信息进行查询并显示成列表,提供按作品编号排序的同时,提供对上传人、标题组合排序的二选一选择,数据范围是审核管理模块中已审核通过的数据。

一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行所述方法。

一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于执行所述方法。。

有益效果:由于采用了上述技术方案,本发明具有如下技术效果:

1)、本发明通过对作品配置若干个关键词在全网重点视频平台搜索,同时结合按各平台上传人清单采集发布的所有视频,解决了作品网络传播数据全面性发现问题;

2)、本发明通过文本筛选可去除85%的无关数据、通过图像指纹可完成对剩余15%无关数据的筛选,解决了清洗大量无效数据问题;

3)、本发明通过界面可视化、灵活配置以及结合一种自动化采集方法,解决了大批量作品的网络传播行为可并发快速发现难问题;

4)、本发明除适用影视作品网络传播行为发现外,也适用文学作品、图文作品、音乐作品网络传播行为的发现。

附图说明

图1为本发明的整体实现流程图;

图2为本发明中配置规则的实现流程图;

图3为本发明中自动化采集步骤的流程图;

图4为本发明中的数据清洗步骤S3.1的实现流程图;

图5为本发明中的数据清洗步骤S3.2的实现流程图

图6为本发明中的数据清洗步骤S3.3-S3.6实现流程图。

具体实施方式

本发明提出一种对影视作品在网络传播行为发现的方法及系统,包括管理与审核模块、一种自动化采集方法和一种数据清洗方法。

管理与审核模块包含但不限于作品登记管理、平台登记管理、作品和平台关系与过滤配置管理、作品采集词管理、作品基础过滤配置管理、作品指纹过滤配置管理。其中,

1、 作品登记管理包含但不限于对作品名称、作品集数、作品导演、作品主演、作品编号(copyrightId)、作品匹配用名称正则的增删改查;增删改查是指提供查询作品清单记录、新增作品清单记录、修改作品清单记录、删除作品清单记录。

2、 平台登记管理包含但不限于对平台编号(platformId)、平台名、平台网址、平台采集入口链接(一个平台的采集入口链接大于等于1、不设上限)、平台性质(包含但不限于搜索引擎、视频平台、贴吧论坛)的增删改查;

3、 作品采集词管理,包含但不限于对作品编号和采集词、上次采集时间、采集时间间隔关系的维护,关系为1对多;

4、 作品基础过滤配置管理,包含但不限于对作品编号、最低时长、标题内容正向正则、标题内容反向正则增删改查;

5、 作品指纹过滤配置管理,包含但不限于对作品编号及其对应视频特征文件的管理,关系为1对多,在视频文件导入方后指纹特征(提取方法包含并不限于sift算法、百度云视频指纹算法、腾讯云视频指纹算法,建议每秒提取1个关键帧,不建议按镜头提取);

6、 作品和平台关系与过滤配置管理,维护作品在哪些平台进行采集以及综合采集规则,作品和平台关系为多对多关系,每条关系(记为 multipleId)包含但不限于作品编号、平台编号、最低时长和白名单范围(multipleId:白名单范围=1:n);在白名单范围内的人员发布的相关作品视频不希望被纳入到传播数据统计中,即作为白名单;但是因为白名单人员在各个平台中的实际名字可能不同,所以可针对各平台绑定白名单。

7、 上传人管理包含但不限于对平台编号、平台名、上传人编号、上传人首页链接、上次采集时间、采集间隔进行增删改查;

8、 审核管理包含但不限于对作品编号、作品名称、平台名称、传播链接、传播链接图片、上传人名称、上传人链接、时长、标题、视频文件路径进行查询与显示成列表,提供按作品编号排序的同时,提供对上传人、标题组合排序的二选一选择,提供单选和多选的审核按钮。

9、传播结果查询模块含但不限于对作品编号、作品名称、平台名称、传播链接、传播链接图片、上传人名称、上传人链接、时长、标题、视频文件路径进行查询与显示成列表,提供按作品编号排序的同时,提供对上传人、标题组合排序的二选一选择,数据范围是审核管理中已审核通过的数据。

如图1和图2所示,本发明提供的一种作品网络传播行为发现方法,顺序执行步骤:、配置规则、自动化数据采集、数据清洗、形成清单、审核清单和查询清单。配置规则是指作品登记管理、平台登记管理、作品和平台关系与过滤配置管理、作品采集词管理、作品基础过滤配置管理、作品指纹过滤配置管理各模块功能的配置,所述清单内容可以包括作品编号、作品名称、平台名称、传播链接、传播链接图片、上传人名称、上传人链接、时长、标题和视频文件路径等。

如图3所示,本发明提供一种自动化采集方法,具体实施步骤如下:

1、 采集程序同时启动任务生成线程和任务采集线程,包含但不限于python语言、java语言开发的爬虫框架;

2、 任务生成线程,每隔固定时间,建议1小时以内,此区间可确保获取到网络中各平台新发布的所有数据,读取平台登记管理中平台列表中登记的信息平台及其对应平台采集入口链接;平台采集入口链接即各平台自带的搜索默认链接及其每种查询条件和排序条件组合后的链接,平均每个视频平台入口链接排列组合会超过100个;建议通过API读取,与管理系统松耦合;

3、 任务生成线程,持续性读取作品采集词信息,建议通过API读取,与管理系统松耦合;若当前时间减采集词上次采集时间大于间隔时长,则把上个步骤的平台采集入口链接和此步骤的关键词组合成新链接,即把关键词按各平台搜索链接中关键词位置的值,使用当前关键词替换;

4、 上述步骤的最终链接,不在任务清单中,则加入到任务清单,任务清单建议存放在如集群redis之类的可高并发nosql数据库,否则不处理;

5、 任务生成线程,持续性读取上传人管理中的上传人链接及其对应上次采集时间和采集间隔,若当前时间减采集词上次采集时间大于间隔时长,则保留对应上传人链接;

6、 上述步骤的链接,不在任务清单中,则加入到任务清单,否则不处理;

7、 任务采集线程,逐个平台制定上传人首页链接、标题、时长、链接的提取属性,持续性对任务清单中的链接进行采集;其中视频类平台反爬虫机制健全,可根据平台不同,采用代理池和不同的采集框架,以及采用多端部署,实现对APP、静态页面、动态页面的高并发采集。

如图4至图6所示,本发明提供了一种数据清洗方法,具体实现步骤如下:

1、 对采集过程中提取属性进行判断:提取方法包含但不限于xpath、css,是否存在某1个属性提取不到信息的情况,若存在则停止采集并告警;此情况代表当前平台的采集规则发生变化,需要人工干预调整任务采集线程的提取属性;否则继续下一步;

2、 对采集结果中的信息,取出作品编号、平台编号、上传人首页链接、标题、时长、链接;

3、 对链接按不同平台解析成规范格式,包括视频类平台存在时间戳、访问设备附带信息、访问用户信息等信息,造成一个播放视频不同人、不同设备、不同时间访问的链接不同;一般情况是去除链接中问号之后的内容,特殊平台需特殊解决;之后与去重链接列表搜索,可通过API读取,与管理系统松耦合,信息存放在redis中,当链接未出现重复时,加入到去重链接列表中,否则丢弃;

4、 对步骤2中作品编号不为空时,根据作品编号从作品基础过滤配置管理中取最低时长、标题内容正向正则、标题内容反向正则,可通过API读取,与管理系统松耦合,信息存放在redis中;

5、 取步骤2中的时长(n1),与步骤4中的最低时长(n2)比较,当n1>=n2时,继续,否则丢弃该链接;

6、 取步骤2中的标题,当标题匹配步骤4中的标题内容正向正则时继续,否则丢弃该链接;

7、 取步骤2中的标题,当标题不匹配步骤4中的标题内容反向正则时继续,否则丢弃该链接;

8、 对步骤2中作品编号不为空时,根据作品编号和平台编号从作品和平台关系与过滤配置管理中取最低时长、白名单;可通过API读取,与管理系统松耦合,信息建议存放在redis中;

9、 取步骤2中的时长(n1),与步骤8中的最低时长(n3)比较,当n1>=n3时继续,否则丢弃该链接;

10、 取步骤2中的上传人首页链接,当此链接存在与步骤8的白名单范围时丢弃该链接,否则继续;

11、 下载视频并提取视频指纹t1:建议仅下载前30秒,节省资源和提高后续比对速度,视频指纹提取和比对方法包含并不限于sift算法、百度云视频指纹算法、腾讯云视频指纹算法,下文涉及指纹比较时不再具体描述;建议每秒提取1个关键帧,至少每5秒提取1个关键帧;

12、 对步骤2中作品编号不为空时,根据作品编号获取其对应的作品指纹过滤配置管理中的指纹列表,当通过t1搜索到此部分指纹列表中某1个或多个指纹且分值大于指定分值时,如大于0.3,最高分1,确定该链接有效,登记到审核模块中;

13、 对步骤2中作品编号为空时,通过标题与作品登记中的作品匹配用名称正则进行匹配,若匹配到,则该链接的作品编号为当前作品登记表中的作品登记,返回步骤12进行处理;否则对全部指纹列表进行搜索,当通过t1搜索到指纹列表中某1个或多个指纹且分值大于指定分值时,如大于0.3,最高分1,确定该链接有效,把搜索到的指纹列表最大分值的作品编号记为当前链接的作品编号,登记到审核模块中。

本发明通过对作品、采集和审核进行管理,采用自动化采集方法,该方法可实现多作品全网传播发现的数据并大幅降低数据遗漏,且通过采用数据清洗方法,能够实现对无关数据的识别提高数据有效性和清洗速度。

以下对文中出现的英文字符的中文含义作简要说明:

API:应用程序接口;Redis:是一种Key-Value数据库,计算机行业通用数据库类型之一;Nosql:非关系型的数据库;xpath: XML Path Language,即 XML路径语言,是一门在XML文档中查找信息的语言;css: Cascading Style Sheet,层叠样式表单,是用于增强控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号