首页> 中国专利> 抗复杂街道背景干扰的车型检测方法、系统及存储介质

抗复杂街道背景干扰的车型检测方法、系统及存储介质

摘要

本发明公开了一种抗复杂街道背景干扰的车型检测方法、系统及存储介质,其中方法包括以下步骤:从监控视频中获取原始帧图像;将所述原始帧图像输入车型检测模型进行检测,输出包含车辆位置信息和车型类别信息的检测结果;其中,所述车型检测模型采用注意力机制替换网络中的残差连接。本发明在车型检测模型中结合了注意力机制,可以在很大程度上克服复杂背景下车辆无法被检测以及车型无法正确分类的问题,提高车型检测模型车型检测效率和准确度,可广泛应用于计算机智能监控视频处理领域。

著录项

  • 公开/公告号CN112380986A

    专利类型发明专利

  • 公开/公告日2021-02-19

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN202011266996.2

  • 申请日2020-11-13

  • 分类号G06K9/00(20060101);G06K9/32(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44205 广州嘉权专利商标事务所有限公司;

  • 代理人常柯阳

  • 地址 511458 广东省广州市南沙区环市大道南路25号华工大广州产研院

  • 入库时间 2023-06-19 09:55:50

说明书

技术领域

本发明涉及计算机智能监控视频处理领域,尤其涉及一种抗复杂街道背景干扰的车型检测方法、系统及存储介质。

背景技术

随着我国的城市化进展,道路交通和车辆运输发展迅速,车辆数目大幅增加,而人们的交通法制意识却跟不上相应发展,导致交通环境恶化,交通事故频发,给相关部门提出了更高的要求。随着人工智能技术的快速发展,可以利用相关技术对车辆的车型进行识别,从而实现筛选以及自动抓拍取证的效果。

但目前世面上的检测算法,很难满足市场的需求,其面对复杂背景下的检测任务时,往往不能有效地解决检测速度过慢,亦或不能准确检测出目标等问题。特别是在实际的街道下,由于复杂背景的影响,容易对车辆识别和追踪造成影响。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种抗复杂街道背景干扰的车型检测方法、系统及存储介质。

本发明所采用的技术方案是:

一种抗复杂街道背景干扰的车型检测方法,包括以下步骤:

从监控视频中获取原始帧图像;

将所述原始帧图像输入车型检测模型进行检测,输出包含车辆位置信息和车型类别信息的检测结果;

其中,所述车型检测模型采用注意力机制替换网络中的残差连接。

进一步,所述车型检测方法还包括训练车型检测模型的步骤,具体为:

收集复杂街道背景下的各类车型图像,对收集到的所述车型图像进行标定,生成原始训练集;

对所述原始训练集进行镜像翻转操作,生成综合扩增训练集;

以添加注意力机制的Darknet53网络作为YOLOv3模型骨架网络,并增加一个特征维度,构建初始检测模型;

采用所述综合扩增训练集对所述初始检测模型进行训练,并在训练完成后,获得车型检测模型。

进一步,训练过程中采用端到端的方式进行训练,所述车型检测模型包含车辆候选区域提取的功能、车型检测特征提取的功能及车型特征分类的功能。

进一步,所述对收集到的所述车型图像进行标定,包括:

采用矩形框对所述车型图像中的车辆进行标定,要求矩形框中包含所述车辆的整体;

记录所述矩形框的第一左上角点坐标和所述矩形框的宽高;

根据第一左上角点坐标和所述矩形框的宽高获取并记录所述矩形框的第一右下角点坐标。

进一步,所述对所述原始训练集进行镜像翻转操作,生成综合扩增训练集,包括:

对所述原始训练集的所述车型图像进行镜像翻转操作,获得镜像翻转训练集;

根据所述第一左上角点坐标、第一右下角点坐标和所述矩形框的宽高获取并记录镜像翻转后的车型图像的第二左上角点坐标和第二右下角点坐标;

将所述原始训练集和所述镜像翻转训练集进行整合,获得综合扩增训练集。

进一步,所述以添加注意力机制的Darknet53网络作为YOLOv3模型骨架网络,并增加一个特征维度,构建初始检测模型,包括:

将注意力机制模块添加到所述Darknet53网络中,在所述Darknet53网络原有的残差块之后添加一个全局池化层和全连接层,对卷积得到的特征图进行处理,得到一个和通道数目一样的一维向量;

通过所述一维向量筛选出针对各个通道的注意力;

将所述Darknet53网络作为YOLOv3模型的骨架网络,在所述YOLOv3模型的最后一个yolo层后面再增加一个特征检测层,以将特征尺度增加到四个;

在所述YOLOv3模型的融合层中,将第一百零九层网络输出的特征和第十一层提取得到的特征进行特征融合;

根据修改的所述特征尺度重新计算预测使用的anchors,以加快训练过程的收敛。

进一步,所述一维向量的计算公式为:

其中,Y

本发明所采用的另一技术方案是:

一种抗复杂街道背景干扰的车型检测系统,包括:

图像获取模块,用于从监控视频中获取原始帧图像;

图像检测模块,用于将所述原始帧图像输入车型检测模型进行检测,输出包含车辆位置信息和车型类别信息的检测结果;

其中,所述车型检测模型采用注意力机制替换网络中的残差连接。

本发明所采用的另一技术方案是:

一种抗复杂街道背景干扰的车型检测装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述一种抗复杂街道背景干扰的车型检测方法。

本发明所采用的另一技术方案是:

一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述一种抗复杂街道背景干扰的车型检测方法。

本发明的有益效果是:本发明在车型检测模型中结合了注意力机制,可以在很大程度上克服复杂背景下车辆无法被检测以及车型无法正确分类的问题,提高车型检测模型车型检测效率和准确度。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种抗复杂街道背景干扰的车型检测方法的步骤流程图;

图2是本发明实施例中一种抗复杂街道背景干扰的车型检测方法的整体流程图;

图3是本发明实施例中在网络中修改添加的注意力机制结构的示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1,本实施例提供一种抗复杂街道背景干扰的车型检测方法,包括以下步骤:

S1、构建并训练车型检测模型。其中,车型检测模型采用注意力机制替换网络中的残差连接。

S2、从监控视频中获取原始帧图像。

S3、将原始帧图像输入车型检测模型进行检测,输出包含车辆位置信息和车型类别信息的检测结果。

其中,步骤S1具体包括步骤S11-S14:

S11、收集复杂街道背景下的各类车型图像,对收集到的车型图像进行标定,生成原始训练集。

其中,通过以下步骤A1-A3对车型图像进行标定:

A1、采用矩形框对车型图像中的车辆进行标定,要求矩形框中包含车辆的整体;

A2、记录矩形框的第一左上角点坐标(x0,y0)与矩形框的宽高(w,h);

A3、根据第一左上角点坐标和矩形框的宽高获取并记录矩形框的第一右下角点坐标(x1,y1)。其中,x1=x0+w,y1=y0+h。

S12、对原始训练集进行镜像翻转操作,生成综合扩增训练集。

步骤S12包括步骤S121-S123:

S121、对原始训练集的车型图像进行镜像翻转操作,获得镜像翻转训练集。

S122、根据第一左上角点坐标(x0,y0)、第一右下角点坐标(x1,y1)和矩形框的宽高(w,h)获取并记录镜像翻转后的车型图像的第二左上角点坐标(x’0,y’0)和第二右下角点坐标(x’1,y’1);其中,x’0=W-x0、y’0=y0;x’1=W-x1,y’1=y1。

S123、将原始训练集和镜像翻转训练集进行整合,获得综合扩增训练集。

S13、以添加注意力机制的Darknet53网络作为YOLOv3模型骨架网络,并增加一个特征维度,构建初始检测模型。

步骤S13包括以下步骤S131-S135:

S131、将注意力机制模块添加到Darknet53网络中,在Darknet53网络原有的残差块之后添加一个全局池化层和全连接层,对卷积得到的特征图进行处理,得到一个和通道数目一样的一维向量Zc。其中一维向量Zc的计算公式为:

其中Y

S132、通过一维向量筛选出针对各个通道的注意力。

S133、将Darknet53网络作为YOLOv3模型的骨架网络,在YOLOv3模型的最后一个yolo层后面再增加一个特征检测层,以将特征尺度增加到四个。

S134、在YOLOv3模型的融合层中,将第一百零九层网络输出的特征和第十一层提取得到的特征进行特征融合。

S135、根据修改的特征尺度重新计算预测使用的anchors(锚点),以加快训练过程的收敛。

S14、采用综合扩增训练集对初始检测模型进行训练,并在训练完成后,获得车型检测模型。

以下结合图2-3对上述方法进行详细解释说明。

如图2所示,一种抗复杂街道背景干扰的车型检测方法,包括数据收集与预处理阶段、预训练与训练阶段和检测阶段,主要流程包括以下步骤:

(1)、数据收集与预处理阶段:收集实际复杂街道背景下的各类车型图像,并对收集到的车型图像进行人工标定,生成原始训练集。对收集到的车型图像进行镜像翻转,缩放等操作,生成综合扩增训练集。

其中,对图像进行标定的步骤主要包括以下步骤:

使用矩形框对图像中的车辆车型进行标定,要求矩形框中包含车辆整体。记录矩形框的左上角点在图像中的位置(x0,y0)与矩形框的宽高(w,h),则可以得出矩形框右下角坐标(x1,y1)其中,x1=x0+w,y1=y0+h。

该步骤主要目的是收集并标定数据生成原始训练集,其采用的矩形框标定方法具有简单易用,降低人力消耗,并易于进行后续的数据扩增等特点。

数据扩增的步骤主要包括以下步骤:

对上述进行标定的图片做镜像翻转操作,设原标定框左上角坐标为(x0,y0),右下角坐标(x1,y1),图片宽W,高H;则经过镜像翻转后的标定框左上角坐标为(x’0=W-x0、y’0=y0),右下角坐标(x’1=W-x1,y’1=y1),得到镜像翻转训练集。将得到的镜像翻转训练集和原始训练集进行整合,最终得到综合扩增训练集。

该步骤的目的是通过镜像翻转以及缩放的方式对收集并标定好的数据进行增广以解决训练数据不足的问题。

(2)、预训练与训练阶段:以添加注意力机制的Darknet53网络作为YOLOv3模型的骨架网络,并增加一个特征检测层,用以增强模型在复杂背景下的特征检测能力。将综合扩增训练集作为输入训练集,训练得到检测阶段将要使用的车型检测模型,训练采用端到端的方式,训练获得的车型检测模型包含了车辆候选区域提取、车型检测特征提取及车型特征分类的功能。

以添加注意力机制的Darknet53网络作为YOLOv3模型的骨架网络,并增加一个特征检测层,增强模型在复杂背景下的特征检测能力这一步骤,参见图3,具体包括以下步骤B1-B5:

B1、在原有的残差块之后添加一个全局池化层,从而对卷积得到的特征图进行处理,得到一个和通道数目一样的一维向量Zc,Zc的计算公式为:

其中Y

B2、通过该一维向量筛选出针对各个通道的注意力。然后再通过两个全连接层将一维向量每个通道的权重分别施加到对应的通道上得到结果,两个全连接层分别使用relu函数和sigmoid函数作为激活函数。与将复杂背景中的背景干扰赋予权重,可以自动去除低权重的背景干扰,这也是网络能具有注意力机制的原因。

B3、以添加注意力机制的Darknet53网络作为YOLOv3模型的骨架网络,并在最后一个yolo层后面再增加一个特征检测层,即将特征尺度增加到四个,增强模型在复杂背景下的特征检测能力。

B4、在YOLOv3的融合层中,将第一百零九层网络输出的特征和第十一层提取得到的特征进行特征融合,充分利用不同网络层检测提取到的不同层次特征。

B5、根据修改的特征尺度重新计算预测使用的anchors,此时的特征尺度为4,anchors数量为12,用以加快训练过程的收敛,并提高模型对车型位置的预测能力。

在复杂背景的检测任务中,将复杂背景中的背景干扰赋予权重,可以自动去除低权重的背景干扰,这也是网络能具有注意力机制的原因。同时可以提高网络运行时间,减少参数,计算整个过程只添加了一个模块,简单易行。

检测阶段:该车型检测方法可以获取监控视频并截成原始帧图像输入深度神经网络,利用深度神经网络提取图片特征后,可以获得图中车辆的确切位置和车型类别。

获取监控视频并截成原始帧图像输入深度神经网络(即车型检测模型),网络提取图片特征后,可以获得图中车辆的确切位置并进行分类,最后输出位置信息和类别信息。

综上所述,本实施例方法相对于现有技术,具有如下有益效果:

1)使用抗复杂街道背景干扰的车型检测方法,能够自动从监控探头画面中检测是否存在特定车型,在模型中结合了注意力机制,因此可以在很大程度上克服复杂背景下车辆无法被检测以及车型无法正确分类的问题。

2)检测方法简单,采用端到端地检测方式,可以对道路监控范围内的特定车型进行实时监控和自动取证,能够有效地提高城市管理部门的效率,减少人力成本。

本实施例还提供一种抗复杂街道背景干扰的车型检测系统,包括:

图像获取模块,用于从监控视频中获取原始帧图像;

图像检测模块,用于将原始帧图像输入车型检测模型进行检测,输出包含车辆位置信息和车型类别信息的检测结果;

其中,车型检测模型采用注意力机制替换网络中的残差连接。

本实施例的一种抗复杂街道背景干扰的车型检测系统,可执行本发明方法实施例所提供的一种抗复杂街道背景干扰的车型检测方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

本实施例还提供一种抗复杂街道背景干扰的车型检测装置,包括:

至少一个处理器;

至少一个存储器,用于存储至少一个程序;

当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示的一种抗复杂街道背景干扰的车型检测方法。

本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种抗复杂街道背景干扰的车型检测方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。

在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号