首页> 中国专利> 一种歌曲视频中人声区域定位的方法及终端

一种歌曲视频中人声区域定位的方法及终端

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种歌曲视频中人声区域定位的方法及终端，获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；在所述字幕区域识别字幕前进的位置；根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间；根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域；通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域，不会受到伴奏的干扰，准确度高，并且能够实现自动识别，使得K歌系统中自动教唱成为可能，并且效果好。

著录项

公开/公告号CN108235115A

专利类型发明专利
公开/公告日2018-06-29

原文格式PDF
申请/专利权人福州星网视易信息系统有限公司;
展开▼

申请/专利号CN201711328085.6
发明设计人王子亮;蔡智力;陈彪;邹应双;徐继芸;林哲明;
展开▼

申请日2017-12-13
分类号H04N21/44(20110101);H04N21/488(20110101);H04N21/431(20110101);G06K9/32(20060101);G06K9/34(20060101);
代理机构35214 福州市博深专利事务所(普通合伙);
代理人林志峥
地址 350002 福建省福州市仓山区金山大道618号橘园洲星网锐捷科技园20#4层
入库时间 2023-06-19 05:45:30

法律信息

法律状态公告日

法律状态信息

法律状态
2020-06-05

授权

授权
2018-07-24

实质审查的生效 IPC(主分类):H04N21/44 申请日:20171213

实质审查的生效
2018-06-29

公开

公开

说明书

技术领域

本发明涉及视听控制技术领域，尤其涉及一种歌曲视频中人声区域定位的方法及终端。

背景技术

为了引导不擅长唱歌的用户学唱歌，K歌系统需要一套自动教唱的方法，在进行自动教唱时，首要问题是如何自动识别出歌曲视频中人声演唱的区域，继而播放原唱或伴奏，以便用户跟唱。为了识别出歌曲视频中演唱的区域，现有技术采用的是音频人声识别的方法，即通过识别人声来判断是否是属于演唱的区域，但是音频人声识别的方法容易受到歌曲中伴奏的干扰，无法准确地定位出歌曲视频中人声演唱的区域。

发明内容

本发明所要解决的技术问题是：提出一种歌曲视频中人声区域定位的方法及终端，能够准确地定位出歌曲视频中演唱的区域。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种歌曲视频中人声区域定位的方法，包括步骤：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、在所述字幕区域识别字幕前进的位置；

S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间；

S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种歌曲视频中人声区域定位的终端，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、在所述字幕区域识别字幕前进的位置；

S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间；

S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种歌曲视频中人声区域定位的方法，包括步骤：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、并行或先后执行如下步骤S21和S22：

S21、在所述字幕区域识别字幕前进的位置；

S22、分割出所述字幕区域中所有字的边界，记录每个字的左边界与右边界的位置，所述左边界与右边界的位置构成每个字的字区域；

利用OCR技术识别每个字的字区域对应的字；

S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间；

S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。

为了解决上述技术问题，本发明采用的另一种技术方案为：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、并行或先后执行如下步骤S21和S22：

S21、在所述字幕区域识别字幕前进的位置；

S22、分割出所述字幕区域中所有字的边界，记录每个字的左边界与右边界的位置，所述左边界与右边界的位置构成每个字的字区域；

利用OCR技术识别每个字的字区域对应的字；

S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间；

S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。

本发明的有益效果在于：确定与歌曲视频对应的视频帧图像中的字幕区域，识别字幕区域中字幕前进的位置，通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域，不会受到伴奏的干扰，准确度高，并且能够实现自动识别，使得K歌系统中自动教唱成为可能，并且效果好。

附图说明

图1为本发明实施例中的一种歌曲视频中人声区域定位的方法流程图；

图2为本发明实施例中的一种歌曲视频中人声区域定位方法中各个阶段得到的图片效果图；

图3为本发明实施例中的一种歌曲视频中人声区域定位的终端的结构示意图；

标号说明：

1、一种歌曲视频中人声区域定位的终端；2、存储器；3、处理器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

本发明最关键的构思在于:确定与歌曲视频对应的视频帧图像中的字幕区域，识别字幕区域中字幕前进的位置，通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域。

请参照图1，一种歌曲视频中人声区域定位的方法，包括步骤：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、在所述字幕区域识别字幕前进的位置；

S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间；

S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。

由上述描述可知，本发明的有益效果在于：确定与歌曲视频对应的视频帧图像中的字幕区域，识别字幕区域中字幕前进的位置，通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域，不会受到伴奏的干扰，准确度高，并且能够实现自动识别，使得K歌系统中自动教唱成为可能，并且效果好。

进一步的，所述步骤S1中确定所述视频帧图像的字幕区域具体包括：

使用Robert算子提取所述视频帧图像边缘，对提取的图像边缘进行细化及二值化；

分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数；

判断是否存在第一像素块，在所述第一像素块中，每一行的像素总数大于第一预设值，并且所述第一像素块的高度大于第一预设高度；

判断是否存在第二像素块，在所述第二像素块中，每一列的像素总数大于第二预设值，并且所述第二像素块的宽度大于第一预设宽度；

若第一像素块和第二像素块均存在，则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域。

由上述描述可知，通过对视频帧图像边缘的提取，并根据每行和每列的像素总数，准确地确定视频帧图像的字幕区域。

进一步的，所述步骤S2具体包括：

去除所述字幕区域所在的图像的背景，得到去除背景后的字幕图像；

对所述字幕图像作腐蚀处理，去除噪点；

将所述去除噪点后的字幕图像转换成HSV空间，并检测字幕颜色；

根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分，并进行二值化，去除面积小于一预设阈值的区域，得到二值化图像；

将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。

由上述描述可知，通过对字幕区域所在图像背景的去除并去除噪点，以及字幕的过滤，然后将经过上述处理后的字幕图像进行二值化处理，将二值化处理后的图像中最右端的非0像素的坐标确定为字幕前进的位置，能够实现自动化而又准确的对字幕前进位置的确定。

进一步的，所述去除所述字幕区域所在的图像的背景，得到去除背景后的字幕图像具体包括：

将所述字幕区域所在的图像转换成灰度图；

对所述灰度图进行二值化；

对二值化后的图像做闭运算得到掩膜；

将所述掩膜与所述字幕区域所在的彩色图做与运算，得到去除背景后的字幕图像。

由上述描述可知，通过获得字幕区域所在的图像的掩膜，并将所述掩膜与字幕区域所在的彩色图做与运算，即能够得到去除背景后的字幕图像，方便快捷。

进一步的，所述将所述去除噪点后的字幕图像转换成HSV空间，并检测字幕颜色具体为：

在所述HSV空间中，分别统计红、蓝、绿三种颜色下的像素数目，将所述像素数目最大值对应的颜色确定为字幕颜色。

由上述描述可知，通过红蓝绿三种颜色的像素数目的比较，能够准确地确定出字幕颜色。

进一步的，所述步骤S3具体包括：

如果字幕前进位置与字幕区域左边框的距离小于第三预设值，则将所述字幕前进位置标记为歌词行的首字，将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间；

如果字幕前进位置与字幕区域右边框的距离小于第四预设值，则将所述字幕前进位置标记为歌词行的尾字，将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间。

由上述描述可知，在歌曲视频中，当出现歌声时，字幕中会有相应的标示，并且随着歌声的进行，字幕位置也相应的前进，基于这个前提，通过字幕前进位置与字幕区域边框的距离能够准确地知道歌词行的开始和结束，只要字幕前进位置与字幕区域左边框的距离小于一预设值，则说明所述字幕前进位置是歌词行的首字，而字幕前进位置与字幕区域右边框的距离小于一预设值，则说明所述字幕前进位置是歌词行的尾字，由于每一视频帧具有对应的时间点，因此，歌词行的首字的字幕前进位置所在的视频帧的时间点即为对应所述歌词行的开始时间；歌词行的尾字的字幕前进位置所在的视频帧的时间点即为对应所述歌词行的结束时间，通过上述方式定位出的歌曲视频中的人声区域误差小，与音频人声识别算法相比，不会受到伴奏的影响，精确度高。

一种歌曲视频中人声区域定位的方法，包括步骤：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、并行或先后执行如下步骤S21和S22：

S21、在所述字幕区域识别字幕前进的位置；

S22、分割出所述字幕区域中所有字的边界，记录每个字的左边界与右边界的位置，所述左边界与右边界的位置构成每个字的字区域；

利用OCR技术识别每个字的字区域对应的字；

S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间；

S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。

由上述描述可知，本发明还可以实现对歌词行所有字时间点的检测，极大地节省人力成本，为唱歌评分、教唱等功能打下坚实的基础。

请参照图3，一种歌曲视频中人声区域定位的终端，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、在所述字幕区域识别字幕前进的位置；

S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间；

S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。

进一步的，所述步骤S1中确定所述视频帧图像的字幕区域具体包括：

使用Robert算子提取所述视频帧图像边缘，对提取的图像边缘进行细化及二值化；

分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数；

判断是否存在第一像素块，在所述第一像素块中，每一行的像素总数大于第一预设值，并且所述第一像素块的高度大于第一预设高度；

判断是否存在第二像素块，在所述第二像素块中，每一列的像素总数大于第二预设值，并且所述第二像素块的宽度大于第一预设宽度；

若第一像素块和第二像素块均存在，则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域。

由上述描述可知，通过对视频帧图像边缘的提取，并根据每行和每列的像素总数，准确地确定视频帧图像的字幕区域。

进一步的，所述步骤S2具体包括：

去除所述字幕区域所在的图像的背景，得到去除背景后的字幕图像；

对所述字幕图像作腐蚀处理，去除噪点；

将所述去除噪点后的字幕图像转换成HSV空间，并检测字幕颜色；

根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分，并进行二值化，去除面积小于一预设阈值的区域，得到二值化图像；

将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。

进一步的，所述去除所述字幕区域所在的图像的背景，得到去除背景后的字幕图像具体包括：

将所述字幕区域所在的图像转换成灰度图；

对所述灰度图进行二值化；

对二值化后的图像做闭运算得到掩膜；

将所述掩膜与所述字幕区域所在的彩色图做与运算，得到去除背景后的字幕图像。

进一步的，所述将所述去除噪点后的字幕图像转换成HSV空间，并检测字幕颜色具体为：

在所述HSV空间中，分别统计红、蓝、绿三种颜色下的像素数目，将所述像素数目最大值对应的颜色确定为字幕颜色。

由上述描述可知，通过红蓝绿三种颜色的像素数目的比较，能够准确地确定出字幕颜色。

进一步的，所述步骤S3具体包括：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

S2、并行或先后执行如下步骤S21和S22：

S21、在所述字幕区域识别字幕前进的位置；

S22、分割出所述字幕区域中所有字的边界，记录每个字的左边界与右边界的位置，所述左边界与右边界的位置构成每个字的字区域；

利用OCR技术识别每个字的字区域对应的字；

S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间；

S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。

由上述描述可知，本发明还可以实现对歌词行所有字时间点的检测，极大地节省人力成本，为唱歌评分、教唱等功能打下坚实的基础。

实施例一

请参照图1及图2，一种歌曲视频中人声区域定位的方法，包括步骤：

S1、获取与所述歌曲视频对应的视频帧图像，确定所述视频帧图像的字幕区域；

其中，使用Robert算子提取所述视频帧图像边缘，对提取的图像边缘进行细化及二值化；

分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数；

判断是否存在第一像素块，在所述第一像素块中，每一行的像素总数大于第一预设值，并且所述第一像素块的高度大于第一预设高度；

判断是否存在第二像素块，在所述第二像素块中，每一列的像素总数大于第二预设值，并且所述第二像素块的宽度大于第一预设宽度；

可以通过对行、列进行遍历的方式来确定是否存在满足上述要求的第一像素块和第二像素块，第一预设高度可以设定为预设的字幕高度，第一预设宽度可以设定为预设的字幕宽度；

若第一像素块和第二像素块均存在，则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域；

在所述字幕区域中，最小行索引对应字幕的上边界，最大行索引对应字幕的下边界，最小列索引对应字幕的左边界，最大列索引对应字幕的右边界；

图2(a)为已确定出字幕区域的视频帧图片，其中黑线圈出来的边框即为所确定出的字幕区域；

S2、在所述字幕区域识别字幕前进的位置；

其中，将所述字幕区域所在的图像转换成灰度图，图2(b)为转灰度图后的字幕区域所在的图片；

对所述灰度图进行二值化，所述二值化算法可以是最大类间方差(OTSU)算法，图2(c)为OTSU分割后的图片；

对二值化后的图像做闭运算得到掩膜，图2(d)为闭运算后的图片；

将所述掩膜与所述字幕区域所在的彩色图做与运算，得到去除背景后的字幕图像，图2(e)为去背景后的图片；

对所述字幕图像作腐蚀处理，去除噪点；

将所述去除噪点后的字幕图像转换成HSV空间，并检测字幕颜色，具体的，在所述HSV空间中，分别统计红、蓝、绿三种颜色下的像素数目，将所述像素数目最大值对应的颜色确定为字幕颜色；

根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分，并进行二值化，去除面积小于一预设阈值的区域，得到二值化图像，图2(f)为过滤出有字幕颜色的部分的二值化图片；

将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置，图2(g)中黑竖线所在位置即为字幕前进的位置；S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间；

具体的，如果字幕前进位置与字幕区域左边框的距离小于第三预设值，则将所述字幕前进位置标记为歌词行的首字，将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间；

如果字幕前进位置与字幕区域右边框的距离小于第四预设值，则将所述字幕前进位置标记为歌词行的尾字，将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间；

一个歌曲视频中有很多帧的视频帧图像，可以将获取到的对应所述歌曲视频的视频帧图像存入一个集合中，然后依次提取集合中的视频帧图像，执行上述步骤S1-S3直至得到所述歌曲视频中所有歌词行的开始时间和结束时间；

S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域；

通过每个歌词行的起始时间和结束时间，能够准确地获知歌曲视频中人声区域所在的时间段；

如图2(h)所示，检测到歌词行的首字，对应的视频帧时间为34.120s，如图2(i)所示，检测到歌词行的尾字，对应的视频帧的时间为39.423s，则该歌词行的起止时间段为34.120-39.423s，该时间范围对应于该行歌词的人声区域；

通过效果图可以看出，本发明的字幕检测算法可以避开背景颜色的干扰，准确度高，鲁棒性强，从而提高人声区域定位的准确度。

实施例二

本实施例与实施例一的不同在于：

所述步骤S2为：

S2、并行或先后执行如下步骤S21和S22：

S21、在所述字幕区域识别字幕前进的位置；

S22、分割出所述字幕区域中所有字的边界，记录每个字的左边界与右边界的位置，所述左边界与右边界的位置构成每个字的字区域；

利用OCR技术识别每个字的字区域对应的字；

所述步骤S3为：

根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间；

所述步骤S4为：

根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域；

本实施例实现了对歌词行所有字时间点的检测，字幕时间信息的自动获取可以极大地节省人力成本，为唱歌评分、教唱等功能打下坚实基础。

实施例三

请参照图3，一种歌曲视频中人声区域定位的终端1，包括存储器2、处理器3以及存储在所述存储器2上并可在所述处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例一中的步骤。

实施例四

请参照图3，一种歌曲视频中人声区域定位的终端1，包括存储器2、处理器3以及存储在所述存储器2上并可在所述处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例二中的步骤。

综上所述，本发明提供的一种歌曲视频中人声区域定位的方法及终端，在歌曲视频中，当出现歌声时，字幕中会有相应的标示，并且随着歌声的进行，字幕位置也相应的前进，基于这个前提，确定与歌曲视频对应的视频帧图像中的字幕区域，识别字幕区域中字幕前进的位置，通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域，所述算法不会受到伴奏的干扰，并且可以避开背景颜色的干扰，准确度高，鲁棒性强，并且能够实现自动识别，使得K歌系统中自动教唱成为可能，并且效果好，同时也能够实现对歌词行所有字时间点的检测，极大地节省人力成本，为唱歌评分、教唱等功能打下坚实基础。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种歌曲视频中人声区域定位的方法及终端 [P] . 中国专利： CN108235115B . 2020.06.05
2. 一种歌曲视频中人声区域定位的方法及终端 [P] . 中国专利： CN108235115A . 2018-06-29
3. METHOD FOR DISPLAYING SONG INFORMATION OF A VIDEO SONG RECORDING MEDIUM, MORE SPECIFICALLY CONCERNED IN FULLY OUTPUTTING SONG INFORMATION ON A DISPLAY EVEN THOUGH A SCREEN SIZE IS LIMITED [P] . 韩国专利： KR20040107664A . 2004-12-23

机译：显示视频歌曲录制介质的歌曲信息的方法，尤其是在整个屏幕尺寸上，尤其是在完全输出歌曲信息时，特别需要注意的一种方法
4. METHOD FOR SELECTIONG A SONG BY USING A MOBILE COMMUNICATION TERMINAL, ESPECIALLY CONCERNED WITH DOWNLOADING SELECTION NUMBERS ALLOCATED TO SONGS THROUGH A WIRELESS COMMUNICATION NETWORK AND TRANSMITTING THE SELECTION NUMBERS TO A VIDEO ACCOMPANIMENT PLAYER [P] . 韩国专利： KR20040102253A . 2004-12-04

机译：一种通过使用移动通信终端来选择歌曲的方法，特别是通过无线通信网络将分配给下载的选择号下载并传送给视频伴奏播放器
5. A method for transmitting an area-based 360 degree video, a method for receiving an area-based 360 degree video, a device for sending an area-based 360 degree video, a device for receiving a 360 degree video based on an area [P] . KR102271444B1 . 2021-07-01

机译：一种用于发送基于面积的360度视频的方法，一种用于接收基于面积的360度视频的方法，一种用于发送基于区域的360度视频的设备，一种用于基于区域接收360度视频的设备