首页> 中国专利> 一种多目标跟踪模型的训练方法以及多目标跟踪方法

一种多目标跟踪模型的训练方法以及多目标跟踪方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明实施例公开了一种多目标跟踪模型的训练方法以及多目标跟踪方法。其中，该多目标跟踪方法包括：根据当前视频帧中的待跟踪目标构建目标图；目标图的顶点对应于待跟踪目标，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；对目标图和已有的轨迹图进行图匹配，以计算待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分；轨迹图的顶点对应于已有的已跟踪轨迹，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；按照匹配得分确定待跟踪目标的匹配轨迹。在图匹配时全面参考目标图和轨迹图中的边特征，防止某一目标被遮挡时出现跟踪失败的问题，避免视频多目标跟踪的局限性，提高视频多目标跟踪的鲁棒性。

著录项

公开/公告号CN114913386A

专利类型发明专利
公开/公告日2022-08-16

原文格式PDF
申请/专利权人北京图森智途科技有限公司;
展开▼

申请/专利号CN202110130055.4
发明设计人何嘉伟;黄泽昊;王乃岩;
展开▼

申请日2021-01-29
分类号G06V10/774(2022.01);G06V10/75(2022.01);G06V20/40(2022.01);
代理机构北京品源专利代理有限公司 11332;
代理人孟金喆
地址 101300 北京市顺义区中关村科技园区顺义园临空二路1号
入库时间 2023-06-19 16:23:50

法律信息

法律状态公告日

法律状态信息

法律状态
2022-09-02

实质审查的生效 IPC(主分类):G06V10/774 专利申请号:2021101300554 申请日:20210129

实质审查的生效

说明书

技术领域

本发明实施例涉及视频数据处理技术领域，尤其涉及一种多目标跟踪模型的训练方法以及多目标跟踪方法。

背景技术

随着计算机视觉和深度学习的快速发展，视频多目标跟踪算法已经广泛应用于智能监控、机器人视觉系统和虚拟现实(Virtual Reality，简称为VR)等领域，以关注视频中各个目标物体随着时间变化的运动轨迹。

目前，现有的多目标跟踪算法主要分为目标检测和目标跟踪两个阶段，在目标检测阶段会逐帧检测每一视频帧中存在的各个目标，然后在目标跟踪阶段，会通过神经网络模型提取出每一视频帧中各个目标的特征，并采用二分图匹配算法按照每一相邻视频帧内前一视频帧中的目标和后一视频帧中的目标之间的特征相似度，对连续视频帧中的同一目标进行关联，从而得到视频中各个目标的运动轨迹。

但这种方法如果某一目标被遮挡或者目标非常多时，无法准确匹配目标物体的轨迹，使得视频多目标跟踪存在一定的局限性，导致视频多目标跟踪算法的鲁棒性较低。因此，需要提供一种鲁棒性更好的多目标跟踪方法。

发明内容

有鉴于此，本发明实施例提供一种多目标跟踪模型的训练方法以及多目标跟踪方法，以实现视频内多目标的准确跟踪，避免视频多目标跟踪的局限性，提高视频多目标跟踪的鲁棒性。

第一方面，本发明实施例提供了一种多目标跟踪模型的训练方法，该方法包括：构建初始的多目标跟踪模型，多目标跟踪模型包括目标图提取网络、轨迹图提取网络和图匹配网络；目标图提取网络用于根据当前视频帧中的待跟踪目标构建目标图，轨迹图提取网络用于根据历史视频帧中的已跟踪轨迹构建轨迹图，图匹配网络用于对所述目标图和轨迹图进行图匹配，以预测待跟踪目标的匹配轨迹；其中，目标图和轨迹图均包括顶点和连接顶点的边，目标图的顶点分别对应于所述待跟踪目标，轨迹图的顶点对应于已跟踪轨迹，且目标图和所述轨迹图中两个顶点的边的边特征包括两个顶点之间的属性关系；利用多目标跟踪模型的预设损失函数，根据训练样本中待跟踪目标的真实匹配轨迹和预测得到的匹配轨迹，对多目标跟踪模型内的各个网络进行联合训练，得到训练后的多目标跟踪模型。

第二方面，本发明实施例提供了一种多目标跟踪方法，该方法包括：根据当前视频帧中的待跟踪目标构建目标图；其中，目标图包括顶点和连接顶点的边，目标图的顶点对应于待跟踪目标，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；对目标图和已有的轨迹图进行图匹配，以计算待跟踪目标与所述轨迹图中已跟踪轨迹之间的匹配得分；其中，轨迹图包括顶点和连接顶点的边，轨迹图的顶点对应于已有的已跟踪轨迹，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；按照匹配得分确定所述待跟踪目标的匹配轨迹。

第三方面，本发明实施例提供了一种多目标跟踪模型的训练装置，该装置包括：模型构建模块，用于构建初始的多目标跟踪模型，多目标跟踪模型包括目标图提取网络、轨迹图提取网络和图匹配网络；目标图提取网络用于根据当前视频帧中的待跟踪目标构建目标图，轨迹图提取网络用于根据历史视频帧中的已跟踪轨迹构建轨迹图，图匹配网络用于对所述目标图和轨迹图进行图匹配，以预测待跟踪目标的匹配轨迹；其中，目标图和轨迹图均包括顶点和连接顶点的边，目标图的顶点分别对应于所述待跟踪目标，所述轨迹图的顶点对应于所述已跟踪轨迹，且所述目标图和所述轨迹图中两个顶点的边的边特征包括两个顶点之间的属性关系；模型训练模块，用于利用多目标跟踪模型的预设损失函数，根据训练样本中待跟踪目标的真实匹配轨迹和预测得到的匹配轨迹，对多目标跟踪模型内的各个网络进行联合训练，得到训练后的多目标跟踪模型。

第四方面，本发明实施例提供了一种多目标跟踪装置，该装置包括：目标图构建模块，用于根据当前视频帧中的待跟踪目标构建目标图；其中，目标图包括顶点和连接顶点的边，目标图的顶点对应于所述待跟踪目标，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；图匹配模块，用于对所述目标图和已有的轨迹图进行图匹配，以计算待跟踪目标与所述轨迹图中已跟踪轨迹之间的匹配得分；其中，轨迹图包括顶点和连接顶点的边，轨迹图的顶点对应于已有的已跟踪轨迹，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；轨迹确定模块，用于按照匹配得分确定所述待跟踪目标的匹配轨迹。

第五方面，本发明实施例提供了一种计算设备，该计算设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面中的多目标跟踪模型的训练方法，或者，实现上述第二方面中的多目标跟踪方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中的多目标跟踪模型的训练方法，或者，实现上述第二方面中的多目标跟踪方法

本发明实施例提供的一种多目标跟踪模型的训练方法以及多目标跟踪方法，在跟踪当前视频帧中各个待跟踪目标的轨迹时，已针对历史视频帧确定出各个已跟踪轨迹，并构建出对应的轨迹图，该轨迹图的每一顶点对应于已有的每一已跟踪轨迹，且两个顶点之间的边的边特征包括两个顶点之间的属性关系，此时根据当前视频帧中的各个待跟踪目标构建目标图，该目标图的每一顶点对应于每一待跟踪目标，且两个顶点之间的边的边特征包括两个顶点之间的属性关系，然后对目标图和轨迹图进行图匹配，来计算每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分，从而确定出每一待跟踪目标的匹配轨迹，实现视频多目标的准确跟踪。

在图匹配时全面参考目标图和轨迹图中的边特征，防止某一目标被遮挡时出现跟踪失败的问题，避免视频多目标跟踪的局限性，提高视频多目标跟踪的鲁棒性；同时，如果通过多目标跟踪模型来实现多目标跟踪时，则首先需要对该多目标跟踪模型进行训练，此时初始构建的多目标跟踪模型内包括目标图提取网络、轨迹图提取网络和图匹配网络，分别用于执行多目标跟踪过程中的目标图构建、轨迹图构建和图匹配步骤，并为该多目标跟踪模型设定对应的预设损失函数，进而利用该预设损失函数，按照训练样本中每一待跟踪目标的真实匹配轨迹和由多目标跟踪模型预测得到的匹配轨迹，对该多目标跟踪模型内的各个网络进行联合训练，得到训练后的多目标跟踪模型，无需对多目标跟踪模型内的各个网络专门进行单独训练，提高多目标跟踪模型内各网络之间的关联性和多目标跟踪的准确性。

附图说明

图1A为本发明实施例一提供的一种多目标跟踪模型的训练方法的流程图；

图1B为本发明实施例一提供的多目标跟踪模型的训练过程的原理示意图；

图2A为本发明实施例二提供的一种多目标跟踪模型的训练方法的流程图；

图2B为本发明实施例二提供的方法中多目标跟踪模型的具体训练过程的原理示意图；

图3为本发明实施例三提供的一种多目标跟踪方法的流程图；

图4A为本发明实施例四提供的一种多目标跟踪方法的流程图；

图4B为本发明实施例四提供的方法中图匹配过程的原理示意图；

图5为本发明实施例五提供的一种多目标跟踪方法的流程图；

图6为本发明实施例六提供的一种多目标跟踪模型的训练装置的结构示意图；

图7为本发明实施例七提供的一种多目标跟踪装置的结构示意图；

图8为本发明实施例八提供的一种计算设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

图1A为本发明实施例一提供的一种多目标跟踪模型的训练方法的流程图，本实施例可适用于对任意视频执行多目标跟踪的情况中，本实施例提供的一种多目标跟踪模型的训练方法可以由本发明实施例提供的多目标跟踪模型的训练装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的计算设备中。

具体的，参考图1A，该方法可以包括如下步骤：

S110，构建初始的多目标跟踪模型。

具体的，为了实现视频多目标的准确跟踪，通常会通过训练神经网络模型来针对各个视频帧不断执行相应的多目标跟踪操作，使得训练后的神经网络模型能够准确输出任一视频帧内各目标跟踪后的匹配轨迹；此时，在对某一视频内的任一视频帧进行多目标跟踪时，可以分为需要进行多目标跟踪的当前视频帧和已经完成多目标跟踪的历史视频帧，也就是当前视频帧中存在需要跟踪的多个待跟踪目标，而通过分析每一目标在不同历史视频帧中的位置，即可实现历史视频帧中对该目标的跟踪，从而确定出多个已跟踪轨迹，此时对当前视频帧进行多目标跟踪就是将当前视频帧内的各个待跟踪目标与历史视频帧下的各个已跟踪轨迹进行匹配，以从各个已跟踪轨迹中确定出每一待跟踪目标的匹配轨迹。

在本实施例中，针对当前视频帧中的待跟踪目标，会将每一待跟踪目标作为相应的顶点，然后连接各个顶点，来构建对应的目标图，此时该目标图中包括顶点和连接顶点的边，目标图中的每一顶点对应于当前视频帧中的每一待跟踪目标，且每一顶点的顶点特征为该顶点对应的待跟踪目标的属性特征，该属性特征可以包括待跟踪目标的外观特征、几何形状特征和轨迹速度等各类能够描述待跟踪目标在当前视频帧中的独有特点的特征，同时该目标图中连接两个顶点的边的边特征可以包括两个顶点之间的属性关系，也就是该两个顶点的属性特征之间的关系。

同时，针对历史视频帧中的已跟踪轨迹，也会将每一已跟踪轨迹作为相应的顶点，然后连接各个顶点，来构建对应的轨迹图，此时该轨迹图中也包括顶点和连接顶点的边，轨迹图中的每一顶点对应于历史视频帧中已完成跟踪的每一已跟踪轨迹，该已跟踪轨迹由不同历史视频帧内同一目标的位置连接而成，该轨迹图中每一顶点的顶点特征为该顶点对应的已跟踪轨迹的属性特征，且已跟踪轨迹的属性特征可以由该已跟踪轨迹在不同历史视频帧内对应的各目标的属性特征进行融合得到，例如对每一已跟踪轨迹在不同历史视频帧内对应的各目标的属性特征进行求均值即可得到该已跟踪轨迹的属性特征，而且轨迹图中连接两个顶点的边的边特征也可以包括两个顶点之间的属性关系，也就是该两个顶点的属性特征之间的关系。

此时，通过目标图中的顶点特征和边特征能够全面描述当前视频帧中的每一待跟踪目标，而通过轨迹图中的顶点特征和边特征也能够全面描述历史视频帧中的每一已跟踪轨迹，因此通过对目标图和轨迹图进行图匹配，即可从各个已跟踪轨迹中确定出每一待跟踪目标的匹配轨迹。

换而言之，本实施例中对于视频多目标跟踪的执行步骤主要可以分为：构建当前视频帧中待跟踪目标的目标图，构建历史视频帧中已跟踪轨迹的轨迹图，以及对目标图和轨迹图进行图匹配三步。因此，为了确保视频多目标跟踪中每一步的执行准确性，本实施例在构建初始的多目标跟踪模型时，可以在该多目标跟踪模型内分别设置好对应的目标图提取网络、轨迹图提取网络和图匹配网络。其中，目标图提取网络用于根据当前视频帧中的待跟踪目标构建目标图，轨迹图提取网络用于根据历史视频帧中的已跟踪轨迹构建轨迹图，图匹配网络用于对所构建的目标图和轨迹图进行图匹配，从而从各个已跟踪轨迹中预测每一待跟踪目标的匹配轨迹，以使多目标跟踪模型内的每一网络能够专门执行视频多目标跟踪过程中对应的某一特定步骤，从而保证视频多目标跟踪的准确性。

需要说明的是，本实施例中的待跟踪目标可以为在某一视频的不同视频帧中位置会不断发生变化的目标物体，例如需要进行轨迹跟踪的行人、车辆、动物等，对此不作限定，通过特定的目标检测算法即可从当前视频帧中识别出各个待跟踪目标。同时，为了保证目标图和轨迹图中的顶点特征和边特征在后续图匹配过程中的高效便捷使用，本实施例中目标图和轨迹图的顶点的属性特征均可以表示为向量特征，且两个顶点的边的边特征也可以表示为两个顶点对应的向量特征的拼接向量或加权向量。

此外，为了确保目标图与轨迹图进行图匹配时所参考特征的全面性，本实施例中可以设定目标图和轨迹图均为完全图，也就是在目标图和轨迹图的每两个顶点之间都会连接一条边，以将目标图中每两个顶点对应的待跟踪目标或者轨迹图中每两个顶点对应的已跟踪轨迹进行关联，便于后续准确对目标图与轨迹图进行图匹配。当然，本领域技术人员也可以根据需要设置目标图和轨迹图为非完全图，即允许部分顶点之间没有边连接。

S120，利用多目标跟踪模型的预设损失函数，根据训练样本中待跟踪目标的真实匹配轨迹和预测得到的匹配轨迹，对多目标跟踪模型内的各个网络进行联合训练，得到训练后的多目标跟踪模型。

可选的，在构建好初始的多目标跟踪模型后，需要对该多目标跟踪模型进行多目标跟踪训练，以使该多目标跟踪模型能够准确对任一视频中的待跟踪目标进行轨迹跟踪。此时，在训练所构建的多目标跟踪模型时，首先会为该多目标跟踪模型设置对应的预设损失函数，通过该预设损失函数来判断当前训练过程中，多目标跟踪后的预测结果与真实结果之间的差异，以不断调整多目标跟踪模型中的各类模型参数。

具体的，首先获取大量包含多目标跟踪内容的历史视频，作为多目标跟踪模型的训练样本，此时针对每一训练样本，会标记该训练样本中各个视频帧内每一待跟踪目标的真实匹配轨迹，以在模型训练过程中不断预测该训练样本中各个视频帧内的待跟踪目标的匹配轨迹后，通过预设损失函数比对每一待跟踪目标的真实匹配轨迹与预测得到的匹配轨迹之间的差异，来对多目标跟踪模型进行调整。也就是，该历史视频有各目标在视频帧中所构成的已跟踪轨迹，历史视频中的每一个帧都可以作为当前帧，且每个当前帧都标注有目标与历史视频的已跟踪轨迹的匹配轨迹。

此时，将训练样本中的当前视频帧输入到所构建的多目标跟踪模型内的目标图提取网络中，通过该目标图提取网络识别出当前视频帧中的各个待跟踪目标，并检测出各个待跟踪目标的属性特征，然后以各个待跟踪目标为顶点，连接各个顶点，来构建对应的目标图，同时确定出该目标图中各个顶点的顶点特征，并按照两个顶点之间的属性关系确定出连接这两个顶点的边的边特征，以在后续图匹配过程中使用。

同时，将该训练样本中的历史视频帧输入到所构建的多目标跟踪模型内的轨迹图提取网络中。此时每一历史视频帧已经完成多目标跟踪，也就是通过轨迹图提取网络能够识别出多个相同目标在不同历史视频帧内跟踪后形成的各个已跟踪轨迹，并通过对同一目标在各个历史视频帧内的属性特征进行特征融合(例如特征均值处理等)，来得到该目标对应的已跟踪轨迹的属性特征。然后以各个已跟踪轨迹为顶点，连接各个顶点，来构建对应的轨迹图，同时确定出轨迹图中各个顶点的顶点特征，并按照两个顶点之间的属性关系确定出连接这两个顶点的边的边特征，以在后续图匹配过程中使用。

然后，将目标图和轨迹图输入到所构建的多目标跟踪模型内的图匹配网络中，由该图匹配网络按照目标图和轨迹图中各个顶点的顶点特征和每条边的边特征，来计算目标图与轨迹图之间的顶点相似度和边相似度。由于目标图中的顶点对应于各个待跟踪目标，轨迹图中的顶点对应于各个已跟踪轨迹，从各个已跟踪轨迹中确定每一待跟踪目标的匹配轨迹，也就是对目标图和轨迹图中的各个顶点进行匹配。因此针对目标图中的每一顶点，图匹配网络可以按照目标图中该顶点的顶点特征以及该顶点相关的各个边的边特征，与轨迹图中各个顶点的顶点特征以及轨迹图中与各个顶点相关的各个边的边特征，全面分析该顶点与轨迹图中各个顶点之间的整体匹配程度，即使目标图中的某一顶点部分被遮挡，也能够通过相关的边特征来分析与轨迹图中的各个顶点之间的匹配程度，从而防止某一目标被遮挡时出现跟踪失败的问题，避免视频多目标跟踪的局限性。

也就是图匹配网络能够从训练样本内历史视频帧中的各个已跟踪轨迹中预测出训练样本的当前视频帧中每一待跟踪目标的匹配轨迹；进而，将训练样本中每一待跟踪目标的真实匹配轨迹与该待跟踪目标预测得到的匹配轨迹代入到多目标跟踪模型的预设损失函数中，通过该预设损失函数分析当前训练过程中预测得到的匹配轨迹与真实匹配轨迹之间的差异，进而按照多目标跟踪过程的反向流程，将该差异在多目标跟踪模型内的图匹配网络、轨迹图提取网络和目标图提取网络中反向传播，以同步修正图匹配网络、轨迹图提取网络和目标图提取网络中的各类网络参数，使当前训练过程中预测得到的匹配轨迹与真实匹配轨迹之间的差异不断趋于收敛，从而对多目标跟踪模型内的各个网络进行联合训练，最终得到训练后的多目标跟踪模型，提高多目标跟踪模型内各网络之间的关联性和多目标跟踪的准确性。

本实施例提供的技术方案，如果通过多目标跟踪模型来实现多目标跟踪时，则首先需要对该多目标跟踪模型进行训练，此时初始构建的多目标跟踪模型内包括目标图提取网络、轨迹图提取网络和图匹配网络，分别用于执行多目标跟踪过程中的目标图构建、轨迹图构建和图匹配步骤，并为该多目标跟踪模型设定对应的预设损失函数，进而利用该预设损失函数，按照训练样本中每一待跟踪目标的真实匹配轨迹和由多目标跟踪模型预测得到的匹配轨迹，对该多目标跟踪模型内的各个网络进行联合训练，得到训练后的多目标跟踪模型，无需对多目标跟踪模型内的各个网络专门进行单独训练，提高多目标跟踪模型内各网络之间的关联性和多目标跟踪的准确性。

实施例二

图2A为本发明实施例二提供的一种多目标跟踪模型的训练方法的流程图，图2B为本发明实施例二提供的方法中多目标跟踪模型的具体训练过程的原理示意图。本实施例是在上述实施例的基础上进行的优化。具体的，如图2B所示，在上述技术方案的基础上，为了提高图匹配网络按照目标图和轨迹图之间的顶点相似度和边相似度来对目标图和轨迹图进行图匹配的准确性，本实施例还会在构建初始的多目标跟踪模型时，在该多目标跟踪模型内额外设置一个特征增强网络，该特征增强网络用于在通过目标图提取网络构建出当前视频帧中的待跟踪目标的目标图，并通过轨迹图提取网络构建出历史视频帧中的已跟踪轨迹的轨迹图之后，对所构建的目标图和轨迹图中的顶点特征和边特征进行特征增强，以使图匹配网络根据目标图和轨迹图中增强后的顶点特征和边特征，对目标图和轨迹图进行图匹配。

具体的，如图2B所示，本实施例中可以包括如下步骤：

S210，构建初始的多目标跟踪模型。

S220，利用多目标跟踪模型内的目标图提取网络构建训练样本内当前视频帧中待跟踪目标的目标图。

可选的，将训练样本中的当前视频帧输入到所构建的多目标跟踪模型内的目标图提取网络中，通过该目标图提取网络识别出当前视频帧中的各个待跟踪目标，并检测出各个待跟踪目标的属性特征，然后以各个待跟踪目标为顶点，连接各个顶点，来构建对应的目标图，同时确定出该目标图中各个顶点的顶点特征，并按照两个顶点之间的属性关系确定出连接这两个顶点的边的边特征。

S230，利用多目标跟踪模型内的轨迹图提取网络构建训练样本内历史视频帧中已跟踪轨迹的轨迹图。

可选的，将该训练样本中的历史视频帧输入到所构建的多目标跟踪模型内的轨迹图提取网络中，得到该目标对应的已跟踪轨迹的属性特征，然后以各个已跟踪轨迹为顶点，连接各个顶点，来构建对应的轨迹图，同时确定出轨迹图中各个顶点的顶点特征，并按照两个顶点之间的属性关系确定出连接这两个顶点的边的边特征。

S240，利用多目标跟踪模型内的特征增强网络对目标图和轨迹图中的顶点特征和边特征进行特征增强，并将目标图和轨迹图中增强后的顶点特征和边特征输入到多目标跟踪模型内的图匹配网络中，预测待跟踪目标的匹配轨迹。

在本实施例中，为了进一步提高目标图和轨迹图中各个顶点之间的匹配准确性，首先会将目标图和轨迹图中各个顶点的顶点特征和连接两个顶点的边的边特征分别输入到多目标跟踪模型内的特征增强网络中，由该特征增强网络针对目标图中每一顶点的顶点特征，分析该顶点与轨迹图中各个顶点之间的特征相似度。然后分别将特征相似度作为该顶点与轨迹图中各个顶点之间的权重，并利用该顶点与轨迹图中各个顶点之间的权重，将轨迹图中各个顶点的顶点特征，加权融合到该顶点的顶点特征中，从而得到该顶点在特征增强后的顶点特征。

例如，如果目标图中的某一顶点的顶点特征为h

在一种实现方式中，可以直接将增强后的顶点特征进行拼接或加权后，作为增强后的边特征。

在另一种实现方式中，针对目标图和轨迹图中每一条边的边特征，也可以采用与上述提供的顶点特征增强的相同方式，分别计算目标图中每一条边的边特征与轨迹图中每一条边的边特征之间的特征相似度，作为目标图中每一条边与轨迹图中每一条边之间的权重。然后利用该权重，将轨迹图中每一条边的边特征，加权融合到目标图的该边的边特征中，或者将目标图中每一条边的边特征，加权融合到轨迹图的该边的边特征中，从而对目标图和轨迹图中每一条边的边特征进行特征增强，得到目标图和轨迹图中每一条边在特征增强后的边特征。后续在通过图匹配网络采用目标图和轨迹图中特征增强后的顶点特征和边特征，计算目标图与轨迹图之间的顶点相似度和边相似度后，能够更加准确的预测出每一待跟踪目标的匹配轨迹。

作为上述方案中权重计算的一种可选方式，本实施例可以采用下述公式计算目标图中各个顶点与轨迹图中各个顶点之间的权重，或者计算目标图中各个边与轨迹图中各个边之间的权重：w

需要说明的是，本实施例中的特征增强网络可以为跨图的图卷积网络或者信息传递网络等具备特征聚合和增强功能的图神经网络。

进一步的，在将目标图和轨迹图中增强后的顶点特征和边特征输入到多目标跟踪模型内的图匹配网络中后，图匹配网络可以根据目标图和轨迹图中增强后的顶点特征和边特征计算目标图与轨迹图之间的顶点相似度和边相似度，根据顶点相似度和边相似度计算目标图中待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分，并根据匹配得分预测待跟踪目标的匹配轨迹。具体的，图匹配网络首先会针对目标图中每一顶点和每一条边，分别采用对应增强后的顶点特征和边特征，与轨迹图中各个顶点的顶点特征和每条边的边特征，来计算目标图中每一顶点与轨迹图中各个顶点之间的顶点相似度，以及目标图中每一条边与轨迹图中各条边之间的边相似度。然后针对每一待跟踪目标在目标图中对应的顶点，通过分析该顶点与轨迹图中各个顶点之间的顶点相似度，以及目标图中连接该顶点的每条边与轨迹图中各条边之间的边相似度，整体判断目标图中各个顶点与轨迹图中各个顶点之间的匹配程度，从而得到目标图中待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分。然后通过查找每一待跟踪目标与各个已跟踪轨迹之间的最高匹配得分，来从各个已跟踪轨迹中预测每一待跟踪目标的匹配轨迹。

在上述技术方案的基础上，如图2B所示，本实施例中的图匹配网络可以由顶点相似转换层、边相似转换层和二次规划层构成，该顶点相似转换层用于计算目标图与轨迹图之间的顶点相似度并进行维数转换，边相似转换层用于计算目标图与轨迹图之间的边相似度并进行维数转换，二次规划层用于基于二次规划问题，采用维数转换后的顶点相似度和边相似度计算匹配得分。

具体的，在将目标图中每一顶点的顶点特征和每一条边的边特征，以及轨迹图中每一顶点的顶点特征和每一条边的边特征分别输入到图匹配网络后，该图匹配网络中的顶点相似转换层会分析目标图中每一顶点与轨迹图中各个顶点之间的特征相似度，从而计算出目标图与轨迹图之间的顶点相似度。此时该顶点相似度为一个m

进而，二次规划层会预先将在原始图匹配过程中使用的二次分配问题中的离散分配目标松弛调整为对应的连续规划目标，然后对调整后的二次分配问题进行相应转换，得到对应的二次规划问题，使得二次规划层具备可微分和可学习的功能，以便后续进行神经网络的训练。示例性的，二次规划层中的二次规划问题可以为：

S250，利用多目标跟踪网络的预设损失函数，根据训练样本内当前视频帧中每一待跟踪目标在历史视频帧中的真实匹配轨迹和预测得到的匹配轨迹，对图匹配网络、特征增强网络、轨迹图提取网络和目标图提取网络进行梯度的反向传播，以联合训练多目标跟踪模型内的各网络。

可选的，在预测出每一待跟踪目标的匹配轨迹后，查找出训练样本中各个待跟踪目标的真实匹配轨迹，然后将每一待跟踪目标的真实匹配轨迹与预测得到的匹配轨迹，代入到多目标跟踪模型的预设损失函数内，分析当前训练下预测得到的匹配轨迹与真实匹配轨迹之间的差异。本实施例中的预设损失函数可以为加权二值交叉熵的损失函数，且预设损失函数中的权重按照目标图和轨迹图中的顶点数量设定，如

本实施例提供的技术方案，将原始图匹配过程中使用的二次分配问题转换为二次规划问题，使得图匹配网络具备可微分和可学习的功能，从而对多目标跟踪模型内的各个网络进行联合训练，提高多目标跟踪模型内各网络之间的关联性和多目标跟踪的准确性。

实施例三

图3为本发明实施例三提供的一种多目标跟踪方法的流程图，本实施例可适用于对任意视频执行多目标跟踪的情况中。本实施例提供的一种多目标跟踪方法可以由本发明实施例提供的多目标跟踪装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的计算设备中。

具体的，参考图3，该方法可以包括如下步骤：

S310，根据当前视频帧中的待跟踪目标构建目标图。

具体的，在视频多目标跟踪场景下，会依次对视频内每一视频帧中的各个目标进行轨迹跟踪，此时该视频可以分为正在进行多目标跟踪的当前视频帧和已经完成多目标跟踪的历史视频帧，通过分析历史视频帧已完成的多目标跟踪，按照同一目标在各个历史视频帧内的跟踪位置，可以确定出多个已跟踪轨迹；此时对当前视频帧进行多目标跟踪就是将当前视频帧内的各个待跟踪目标与历史视频帧下的各个已跟踪轨迹进行匹配，以从各个已跟踪轨迹中确定出每一待跟踪目标的匹配轨迹。

本实施例中，通过预设的目标检测算法可以从当前视频帧内识别出需要被跟踪的各个待跟踪目标，然后将每一待跟踪目标作为相应的顶点，连接各个顶点，来构建对应的目标图。其中，该目标图中包括顶点和连接顶点的边，目标图的每一顶点分别对应于每一待跟踪目标，使得目标图中每一顶点的顶点特征为该顶点对应的待跟踪目标的属性特征，同时该目标图中两个顶点之间的边的边特征可以包括两个顶点之间的属性关系，也就是该两个顶点的属性特征之间的关系，例如两个顶点对应的待跟踪目标在当前视频帧中的距离、外观差异或者相对轨迹速度等。

示例性的，本实施例中根据当前视频帧中的待跟踪目标构建目标图，具体可以为：提取当前视频帧中每一待跟踪目标的属性特征；以每一待跟踪目标为顶点，构建目标图，并得到目标图的每个顶点的顶点特征。也就是，分析当前视频帧中每一待跟踪目标的外观特征、几何形状特征和轨迹速度等各类能够描述待跟踪目标在当前视频帧中的独有特点的特征，得到该待跟踪目标的属性特征，然后以每一待跟踪目标为顶点，连接各个顶点，来构建出目标图，此时目标图的每个顶点的顶点特征为该顶点对应的待跟踪目标的属性特征。

S320，对目标图和已有的轨迹图进行图匹配，以计算待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分。

由于对当前视频帧进行多目标跟踪时，历史视频帧已经完成多目标跟踪，此时按照同一目标在各个历史视频帧内的跟踪位置，可以确定出多个已跟踪轨迹。因此在完成历史视频帧的多目标跟踪后，也会将历史视频帧下的每一已跟踪轨迹作为相应的顶点，并连接各个顶点，来构建对应的轨迹图。此时该轨迹图中也包括顶点和连接顶点的边，轨迹图的每一顶点对应于已有的每一已跟踪轨迹，该已跟踪轨迹由不同历史视频帧内同一目标的位置连接而成，该轨迹图中每一顶点的顶点特征为该顶点对应的已跟踪轨迹的属性特征，该属性特征由已跟踪轨迹在各个历史视频帧内对应的目标的属性特征融合得到，同时轨迹图中两个顶点之间的边的边特征也可以包括两个顶点之间的属性关系，也就是两个顶点的属性特征之间的关系。

需要说明的是，本实施例中可以设定目标图和轨迹图可以为非完全图，也可以为完全图，后者也就是在目标图和轨迹图的每两个顶点之间都会连接一条边，以将目标图中每两个顶点对应的待跟踪目标或者轨迹图中每两个顶点对应的已跟踪轨迹进行关联，便于后续准确对目标图与轨迹图进行图匹配。

具体的，通过对目标图和轨迹图进行图匹配，可以分析出目标图中的每一顶点与轨迹图的各个顶点之间的匹配程度，从而计算出目标图中每一待跟踪目标(也就是目标图中的每一顶点)与轨迹图中各个已跟踪轨迹(也就是轨迹图中各个顶点)之间的匹配得分，以便后续按照该匹配得分来从各个已跟踪轨迹中预测每一待跟踪目标的匹配轨迹。

S330，按照匹配得分确定待跟踪目标的匹配轨迹。

可选的，在计算出目标图中每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分后，针对每一待跟踪目标，可以查找出与该待跟踪目标的匹配得分最高的已跟踪轨迹，进而将该已跟踪轨迹作为该待跟踪目标的匹配轨迹；按照上述方式，可以确定出每一待跟踪目标的匹配轨迹。

进一步的，为了确保后续多目标跟踪的准确性，在按照匹配得分确定当前视频帧中每一待跟踪目标的匹配轨迹之后，还会按照当前视频帧内待跟踪目标的匹配轨迹，更新轨迹图，并按照当前视频帧内各待跟踪目标的匹配轨迹的属性特征更新轨迹图中每个顶点的顶点特征。也就是以当前视频帧完成多目标跟踪后重新确定的各个已跟踪轨迹为顶点，重新构建对应的轨迹图，并通过分析当前视频帧内各个待跟踪目标的属性特征，来重新确定由当前视频帧内各待跟踪目标的匹配轨迹确定的各个已跟踪轨迹的属性特征，从而对应更新轨迹图中每个顶点的顶点特征，保证后续视频帧在多目标跟踪时的准确性。

本实施例提供的技术方案，在跟踪当前视频帧中各个待跟踪目标的轨迹时，已针对历史视频帧确定出各个已跟踪轨迹，并构建出对应的轨迹图，该轨迹图的每一顶点对应于已有的每一已跟踪轨迹，且两个顶点之间的边的边特征包括两个顶点之间的属性关系。此时根据当前视频帧中的各个待跟踪目标构建目标图，然后对目标图和轨迹图进行图匹配，来计算每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分，从而确定出每一待跟踪目标的匹配轨迹，实现视频多目标的准确跟踪。

实施例四

图4A为本发明实施例四提供的一种多目标跟踪方法的流程图，图4B为本发明实施例四提供的方法中图匹配过程的原理示意图。本实施例是在上述实施例的基础上进行的优化。具体的，如图4B所示，本实施例可以采用上述实施例提供的多目标跟踪模型的训练方法中所训练好的多目标跟踪模型来执行具体的多目标跟踪流程。

可选的，如图4A所示，本实施例中可以包括如下步骤：

S410，根据历史视频帧中的已跟踪轨迹构建轨迹图。

可选的，在视频多目标跟踪场景下，对当前视频帧进行多目标跟踪时，首先需要按照已经完成多目标跟踪的各个历史视频帧内的多目标跟踪情况，分析出同一目标在各个历史视频帧内的跟踪位置，进而确定出历史视频帧下的各个已跟踪轨迹，并以每一已跟踪轨迹作为相应的顶点，连接各个顶点，来构建对应的轨迹图。此时，如图4B所示，可以将该历史视频帧输入到预先训练好的多目标跟踪模型内的轨迹图提取网络中，由该轨迹图提取网络来构建历史视频帧中已跟踪轨迹的轨迹图。

示例性的，为了准确获得轨迹图中各个顶点的顶点特征，本实施例在构建轨迹图时，会针对每一已跟踪轨迹，确定该已跟踪轨迹在各历史视频帧内的关联目标；提取该已跟踪轨迹在各历史视频帧内关联目标的属性子特征，并计算对应的属性子特征均值，作为该已跟踪轨迹的属性特征；以每一已跟踪轨迹为顶点，构建轨迹图，并得到轨迹图的每个顶点的顶点特征。

其中，每一已跟踪轨迹在各个历史视频帧内的关联目标为同一目标，该同一目标在各个历史视频帧的位置可以连成该已跟踪轨迹，此时，通过采用预设的特征提取算法能够准确提取出该已跟踪轨迹在各个历史视频帧内指向的每一关联目标的属性子特征。然后对每一已跟踪轨迹指向的各个关联目标的属性子特征进行均值处理，可以得到该已跟踪轨迹的属性特征，例如本实施例中可以采用滑动平均的方式，根据每一已跟踪轨迹在各个历史视频帧内关联目标的属性子特征，计算对应的属性子特征均值，进而将该属性子特征均指作为该已跟踪轨迹的属性特征，保证已跟踪轨迹的属性特征的准确性和全面性。然后，在得到每一已跟踪轨迹的属性特征后，可以将每一已跟踪轨迹作为相应的顶点，并连接各个顶点，来构建对应的轨迹图，并按照各个已跟踪轨迹的属性特征确定轨迹图中各个顶点的顶点特征。

此外，在构建当前视频帧中待跟踪目标的目标图时，也可以将该当前视频帧输入到预先训练好的多目标跟踪模型内的目标图提取网络中，由该目标图提取网络来构建当前视频帧中待跟踪目标的目标图。

S420，根据当前视频帧中的待跟踪目标构建目标图。

S430，根据目标图和轨迹图中的顶点特征和边特征，计算目标图与轨迹图之间的顶点相似度和边相似度。

可选的，在构建出待跟踪目标的目标图和已跟踪轨迹的轨迹图后，会将目标图和轨迹图中各个顶点的顶点特征和每条边的边特征，共同输入到训练好的多目标跟踪模型内的图匹配网络中，通过该图匹配网络中的顶点相似转换层来分析目标图中每一顶点与轨迹图中各个顶点之间的特征相似度，以计算出目标图与轨迹图之间的顶点相似度。同时，通过图匹配网络中的边相似转换层来分析目标图中每一条边与轨迹图中各个边之间的特征相似度，以计算出目标图与轨迹图之间的边相似度。此时，目标图与轨迹图之间的顶点相似度和边相似度能够准确描述目标图与轨迹图中每两个顶点之间的相似度以及每两条边之间的相似度，以便后续通过分析目标图与轨迹图之间的顶点相似度和边相似度，全面分析目标图中每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配程度。

此外，为了进一步提高目标图和轨迹图中各个顶点之间的匹配准确性，更加容易通过目标图和轨迹图中各个顶点的顶点特征来区分不匹配的顶点，本实施例还会通过多目标跟踪模型内的特征增强网络对所计算出的目标图和轨迹图中各个顶点的顶点特征和每一条边的边特征进行特征增强；具体的，在构建出目标图和轨迹图之后，如图4B所示，会将目标图和轨迹图中的顶点特征和边特征输入到预构建的特征增强网络中，对目标图和轨迹图中的顶点特征和边特征进行特征增强；采用目标图和轨迹图中增强后的顶点特征和边特征，计算目标图与轨迹图之间的顶点相似度和边相似度。

具体的，按照上述实施例提供的多目标跟踪模型的训练方法中对特征增强网络提出的特征增强方式，采用目标图中各个顶点与轨迹图中各个顶点之间的特征相似度，作为对应的权重，然后利用对应权重，分别将轨迹图中各个顶点的顶点特征，加权融合到目标图中每一顶点的顶点特征中，以及将目标图中各个顶点的顶点特征，加权融合到轨迹图中每一顶点的顶点特征中，从而对目标图和轨迹图中各个顶点的顶点特征进行特征增强。将增强后的顶点特征进行拼接得到增强后的边特征；或者按照上述特征增强方式，采用目标图中各个边与轨迹图中各个边之间的特征相似度，作为对应的权重，然后利用对应权重，分别将轨迹图中各个边的边特征，加权融合到目标图中每一条边的边特征中，以及将目标图中各个边的边特征，加权融合到轨迹图中每一条边的边特征中，从而对目标图和轨迹图中各个边的边特征进行特征增强，后续采用特征增强后的顶点特征和边特征计算目标图与轨迹图之间的顶点相似度和边相似度。

S440，根据顶点相似度和边相似度，计算目标图中待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分。

可选的，在计算出目标图与轨迹图之间的顶点相似度和边相似度后，由于目标图和轨迹图中的顶点数量和边数量可能不同，会导致目标图与轨迹图之间的顶点相似度和边相似度的维数不同。为了确保通过对顶点相似度和边相似度进行融合分析而计算对应的匹配得分的高效准确性，本实施例还会根据目标图和轨迹图中的顶点数量为顶点相似度和边相似度分别设定对应的转换维数，以通过图匹配网络中的顶点相似转换层对初步计算出的顶点相似度进行维数转换，通过图匹配网络中的边相似转换层对初步计算出的边相似度进行维数转换，使得维数转换后的顶点相似度和边相似度之间能够准确高效的整合。然后，通过图匹配网络中的二次规划层，将维数转换后的顶点相似度和边相似度直接代入到预先松弛设定的二次规划问题中，从而计算出目标图中每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分。

示例性的，如图4B所示，如果当前视频帧中存在4个待跟踪目标，历史视频帧下存在5个已跟踪轨迹，那么所构建的目标图中存在4个顶点和6条边，轨迹图中存在5个顶点和10条边。此时将目标图和轨迹图输入到特征增强网络中，对目标图和轨迹图中的顶点特征和边特征均进行特征增强后，可以根据特征增强后的顶点特征和边特征计算出目标图与轨迹图之间的顶点相似度和边相似度。假设一条边包括A点和B点两个顶点，则该条边按照两条边计算，一条从A点到B点的AB边，另一条为从B点到A点的BA边；对应的该边的边特征包括从A点到B点的顶点特征的拼接；以及从B点到A点的顶点特征的拼接。相应的边相似度也包含该同方向的边之间的相似度。此时顶点相似度为4*5矩阵，且边相似度为12*20矩阵。此时为了保证顶点相似度和边相似度之间能够准确高效的整合，会通过顶点相似转换层对顶点相似度进行维数转换，并通过边相似转换层对边相似度进行维数转换，如将顶点相似度直接拉长为1*20矩阵，而将边相似度进行相似度扩展填充，转换为20*20矩阵，使得维数转换后的顶点相似度和边相似度之间能够进行准确高效的矩阵整合。此时，通过二次规划层，将维数转换后的顶点相似度和边相似度直接代入到预先松弛设定的二次规划问题中后，所计算出的每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分为4*5矩阵，以表示目标图中每一顶点与轨迹图中各个顶点之间的匹配程度，从而便于后续按照该匹配得分来确定每一待跟踪目标的匹配轨迹。

S450，按照匹配得分确定待跟踪目标的匹配轨迹。

本实施例提供的技术方案，利用预先训练好的多目标跟踪模型内的轨迹图提取网络来构建历史视频帧下已跟踪轨迹的轨迹图，并通过多目标跟踪模型内的目标图提取网络来构建当前视频帧内待跟踪目标的目标图，然后通过图匹配网络全面参考目标图和轨迹图中的顶点特征和边特征，来计算每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分，从而确定出每一待跟踪目标的匹配轨迹，实现视频多目标的准确跟踪，防止某一目标被遮挡时出现跟踪失败的问题，避免视频多目标跟踪的局限性，提高视频多目标跟踪的鲁棒性。

实施例五

图5为本发明实施例五提供的一种多目标跟踪方法的流程图。本实施例是在上述实施例的基础上进行优化。具体的，如图5所示，本实施例主要对于按照匹配得分从已跟踪轨迹中确定每一待跟踪目标的匹配轨迹的具体匹配过程进行详细的解释说明。

可选的，如图5所示，本实施例中可以包括如下步骤：

S510，根据当前视频帧中的待跟踪目标构建目标图。

S520，对目标图和已有的轨迹图进行图匹配，以计算待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分。

S530，针对每一待跟踪目标，从该待跟踪目标与各已跟踪轨迹之间的匹配得分中，筛选最高匹配得分。

可选的，在计算出目标图中每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分后，针对每一待跟踪目标，该待跟踪目标与每一已跟踪轨迹之间均会有一个具体的匹配分值。因此在查找与该待跟踪目标最为匹配的已跟踪轨迹时，首先需要从该待跟踪目标与各个已跟踪轨迹之间的匹配得分中，筛选出最高匹配得分，此时该最高匹配得分指向的已跟踪轨迹可以认为是各个已跟踪轨迹中与该待跟踪目标最为匹配的轨迹，后续进一步判断该最高匹配得分指向的已跟踪轨迹是否为该待跟踪轨迹真正的匹配轨迹。

S540，按照每一待跟踪目标的最高匹配得分和预设的帧内目标新增条件，确定每一待跟踪目标的匹配轨迹。

可选的，由于当前视频帧内的某一待跟踪目标可能是新加入的，在历史视频帧中并没有出现过，使得历史视频帧下的各个已跟踪轨迹中并不存在新加入的待跟踪目标的匹配轨迹，因此在预测每一待跟踪轨迹的匹配轨迹时，首先需要判断各个待跟踪目标是否为当前视频帧内新加入的目标，本实施例针对新加入目标的特点，预先设定了一个帧内目标新增条件，该帧内目标新增条件具体可以包括以下条件中的至少一种：1)待跟踪目标与轨迹图中每一已跟踪轨迹之间的顶点相似度均小于预设相似度阈值；2)待跟踪目标在当前视频帧内的中心位置与轨迹图中每一已跟踪轨迹内的目标中心位置之间的位置差均大于预设位置差值；3)待跟踪目标在当前视频帧内的目标检测框与轨迹图中每一已跟踪轨迹的目标检测框之间不存在交集。

其中，对于第1)点，如果某一待跟踪目标与轨迹图中每一已跟踪轨迹之间的顶点相似度均小于预设相似度阈值，说明该待跟踪目标与轨迹图中的各个已跟踪轨迹之间的匹配程度均较低，因此将该待跟踪目标作为当前视频帧的新加入目标。对于第2)点，可以通过对轨迹图中每一已跟踪轨迹在各个历史视频帧内指向的关联目标所处的中心位置坐标作均值计算，来得到该已跟踪轨迹的目标中心位置坐标。此时如果某一待跟踪目标在当前视频帧内所处的中心位置坐标与轨迹图中每一已跟踪轨迹内的目标中心位置坐标之间的位置差均大于预设位置差值，说明该待跟踪目标与各个已跟踪轨迹的位置均相差较远，因此将该待跟踪目标作为当前视频帧的新加入目标。对于第3)点，在从当前视频帧中识别各个待跟踪目标时，会标记出各个待跟踪目标的目标检测框，因此已跟踪轨迹在历史视频帧内的关联目标也存在目标检测框，通过对关联目标的目标检测框进行均值处理，也能够得到各个已跟踪轨迹的目标检测框。此时如果某一待跟踪目标在当前视频帧内的目标检测框与轨迹图中每一已跟踪轨迹的目标检测框之间不存在交集，说明该待跟踪目标与各个已跟踪轨迹的位置相差较远，因此将该待跟踪目标作为当前视频帧的新加入目标。

此时，在筛选出每一待跟踪目标与已跟踪轨迹的最高匹配得分后，首先会判断每一待跟踪目标是否满足预设的帧内目标新增条件。如果某一待跟踪目标符合上述帧内目标新增条件中的至少一项，则可以确定该待跟踪目标为当前视频帧内的新加入目标，说明该待跟踪目标在历史视频帧内从未出现过，该待跟踪目标的轨迹从当前视频帧开始，因此可以直接将该新加入目标在当前视频帧的位置作为新加入目标的匹配轨迹。然而，对于当前视频帧中除新加入目标外的每一剩余待跟踪目标，该剩余待跟踪目标在历史视频帧内已经出现过，也就是历史视频帧下的各个已跟踪轨迹中存在该剩余待跟踪目标的轨迹。因此可以从历史视频帧下的各个已跟踪轨迹中直接查找出该剩余待跟踪目标的最高匹配得分指向的已跟踪轨迹，并将所查找出的已跟踪轨迹作为该剩余待跟踪目标的匹配轨迹。

此外，为了保证多目标跟踪的准确性，本实施例在按照每一待跟踪目标的最高匹配得分和预设的帧内目标新增条件，确定每一待跟踪目标的匹配轨迹时，针对每一待跟踪目标，首先会对该待跟踪目标与各已跟踪轨迹之间的匹配得分中的最高匹配得分向上取整，对其他匹配得分向下取整，从而对目标图中待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分进行贪婪舍入，构成对应的最优匹配得分，该最优匹配得分为普通分数矩阵转换后的0-1矩阵，后续可以按照上述步骤，直接按照该最优匹配得分和预设的帧内目标新增条件，来确定每一待跟踪目标的匹配轨迹。

本实施例提供的技术方案，在计算出目标图中待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分后，可以针对每一待跟踪目标，从该待跟踪目标与各已跟踪轨迹之间的匹配得分中，筛选最高匹配得分，然后按照每一待跟踪目标的最高匹配得分和预设的帧内目标新增条件，来确定每一待跟踪目标的匹配轨迹，从而筛选出当前视频帧内的新加入目标，实现视频多目标的准确跟踪，提高视频多目标跟踪的鲁棒性。

实施例六

图6为本发明实施例六提供的一种多目标跟踪模型的训练装置的结构示意图，如图6所示，该装置可以包括：

模型构建模块610，用于构建初始的多目标跟踪模型，该多目标跟踪模型包括目标图提取网络、轨迹图提取网络和图匹配网络；目标图提取网络用于根据当前视频帧中的待跟踪目标构建目标图，轨迹图提取网络用于根据历史视频帧中的已跟踪轨迹构建轨迹图，图匹配网络用于对目标图和轨迹图进行图匹配，以预测待跟踪目标的匹配轨迹；其中，目标图和轨迹图均包括顶点和连接顶点的边，目标图的顶点分别对应于待跟踪目标，轨迹图的顶点对应于已跟踪轨迹，且目标图和轨迹图中两个顶点的边的边特征包括两个顶点之间的属性关系；

模型训练模块620，用于利用多目标跟踪模型的预设损失函数，根据训练样本中待跟踪目标的真实匹配轨迹和预测得到的匹配轨迹，对多目标跟踪模型内的各个网络进行联合训练，得到训练后的多目标跟踪模型。

进一步的，上述顶点具有顶点特征，目标图中顶点的顶点特征为该顶点对应的待跟踪目标的属性特征，轨迹图中顶点的顶点特征为该顶点对应的已跟踪轨迹的属性特征，目标图和轨迹图中两个顶点的边的边特征中两个顶点之间的属性关系为两个顶点的属性特征之间的关系。

进一步的，上述多目标跟踪模型还可以包括特征增强网络，特征增强网络用于对目标图和轨迹图中的顶点特征和边特征进行特征增强，以使图匹配网络根据目标图和轨迹图中增强后的顶点特征和边特征，对目标图和轨迹图进行图匹配。

进一步的，上述图匹配网络可以具体用于根据目标图和轨迹图中增强后的顶点特征和边特征计算目标图与轨迹图之间的顶点相似度和边相似度，根据顶点相似度和边相似度计算目标图中待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分，并根据匹配得分预测待跟踪目标的匹配轨迹。

进一步的，上述训练样本可以包括每个当前视频帧的待跟踪目标在历史视频帧中的真实匹配轨迹，上述模型训练模块620，可以具体用于：

利用多目标跟踪模型内的目标图提取网络构建训练样本内当前视频帧中待跟踪目标的目标图；

利用多目标跟踪模型内的轨迹图提取网络构建训练样本内历史视频帧中已跟踪轨迹的轨迹图；

利用多目标跟踪模型内的特征增强网络对目标图和轨迹图中的顶点特征和边特征进行特征增强，并将目标图和轨迹图中增强后的顶点特征和边特征输入到多目标跟踪模型内的图匹配网络中，预测待跟踪目标的匹配轨迹；

利用多目标跟踪网络的预设损失函数，根据训练样本内当前视频帧中每一待跟踪目标在历史视频帧中的真实匹配轨迹和预测得到的匹配轨迹，对图匹配网络、特征增强网络、轨迹图提取网络和目标图提取网络进行梯度的反向传播，以联合训练多目标跟踪模型内的各网络。

进一步的，上述预设损失函数可以为加权二值交叉熵的损失函数，且预设损失函数中的权重按照目标图和轨迹图中的顶点数量设定；特征增强网络为交叉图卷积网络。

进一步的，上述图匹配网络可以由顶点相似转换层、边相似转换层和二次规划层构成，顶点相似转换层用于计算目标图与轨迹图之间的顶点相似度并进行维数转换，边相似转换层用于计算目标图与轨迹图之间的边相似度并进行维数转换，二次规划层用于基于二次规划问题，采用维数转换后的顶点相似度和边相似度计算匹配得分。

进一步的，上述二次规划问题可以通过将二次分配问题中的离散分配目标调整为对应的连续规划目标后，对二次分配问题进行相应转换后得到。

进一步的，上述顶点相似转换层和边相似转换层可以按照目标图和轨迹图中的顶点数量设定对应的转换维数。

进一步的，上述顶点的属性特征可以表示为向量特征，两个顶点的边的边特征可以表示为两个顶点对应的向量特征的拼接向量或加权向量。

本实施例提供的多目标跟踪模型的训练装置可适用于上述任意实施例提供的多目标跟踪模型的训练方法，具备相应的功能和有益效果。

实施例七

图7为本发明实施例七提供的一种多目标跟踪装置的结构示意图，如图7所示，该装置可以包括：

目标图构建模块710，用于根据当前视频帧中的待跟踪目标构建目标图；其中，目标图包括顶点和连接顶点的边，目标图的顶点对应于待跟踪目标，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；

图匹配模块720，用于对目标图和已有的轨迹图进行图匹配，以计算待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分；其中，轨迹图包括顶点和连接顶点的边，轨迹图的顶点对应于已有的已跟踪轨迹，且两个顶点之间的边的边特征包括两个顶点之间的属性关系；

轨迹确定模块730，用于按照匹配得分确定待跟踪目标的匹配轨迹。

本实施例提供的技术方案，在跟踪当前视频帧中各个待跟踪目标的轨迹时，已针对历史视频帧确定出各个已跟踪轨迹，并构建出对应的轨迹图，该轨迹图的每一顶点对应于已有的每一已跟踪轨迹，且两个顶点之间的边的边特征包括两个顶点之间的属性关系，此时根据当前视频帧中的各个待跟踪目标构建目标图，该目标图的每一顶点对应于每一待跟踪目标，且两个顶点之间的边的边特征包括两个顶点之间的属性关系，然后对目标图和轨迹图进行图匹配，来计算每一待跟踪目标与轨迹图中各个已跟踪轨迹之间的匹配得分，从而确定出每一待跟踪目标的匹配轨迹，实现视频多目标的准确跟踪，在图匹配时全面参考目标图和轨迹图中的边特征，防止某一目标被遮挡时出现跟踪失败的问题，避免视频多目标跟踪的局限性，提高视频多目标跟踪的鲁棒性。

进一步的，上述图匹配模块720，可以包括：

相似度计算单元，用于根据目标图和轨迹图中的顶点特征和边特征，计算目标图与轨迹图之间的顶点相似度和边相似度；

匹配得分计算单元，用于根据顶点相似度和边相似度，计算目标图中待跟踪目标与轨迹图中已跟踪轨迹之间的匹配得分。

进一步的，上述相似度计算单元，可以具体用于：将目标图和轨迹图中的顶点特征和边特征输入到预构建的特征增强网络中，对目标图和轨迹图中的顶点特征和边特征进行特征增强；采用目标图和轨迹图中增强后的顶点特征和边特征，计算目标图与轨迹图之间的顶点相似度和边相似度。

进一步的，上述多目标跟踪装置，还可以包括：轨迹图构建模块，用于根据历史视频帧中的已跟踪轨迹构建轨迹图。

进一步的，上述轨迹图构建模块，可以包括：

关联目标确定单元，用于针对每一已跟踪轨迹，确定该已跟踪轨迹在各历史视频帧内的关联目标；

属性特征计算单元，用于提取该已跟踪轨迹在各历史视频帧内关联目标的属性子特征，并计算对应的属性子特征均值，作为该已跟踪轨迹的属性特征；

轨迹图构建单元，用于以每一已跟踪轨迹为顶点，构建轨迹图，并得到轨迹图的每个顶点的顶点特征。

进一步的，上述属性特征计算单元，可以具体用于：采用滑动平均的方式，根据已跟踪轨迹在每一历史视频帧内关联目标的属性子特征，计算对应的属性子特征均值。

进一步的，上述轨迹确定模块730，可以包括：

匹配得分筛选单元，用于针对每一待跟踪目标，从该待跟踪目标与各已跟踪轨迹之间的匹配得分中，筛选最高匹配得分；

轨迹确定单元，用于按照每一待跟踪目标的最高匹配得分和预设的帧内目标新增条件，确定每一待跟踪目标的匹配轨迹。

进一步的，上述轨迹确定单元，可以具体用于：针对每一待跟踪目标，对该待跟踪目标与各已跟踪轨迹之间的匹配得分中的最高匹配得分向上取整，对其他匹配得分向下取整，构成对应的最优匹配得分；按照最优匹配得分和预设的帧内目标新增条件，确定每一待跟踪目标的匹配轨迹。

进一步的，上述轨迹确定单元，还可以具体用于：确定当前视频帧的待跟踪目标中符合帧内目标新增条件的待跟踪目标为新加入目标，并将新加入目标在当前视频帧的位置作为新加入目标的匹配轨迹；针对当前视频帧中除新加入目标外的每一剩余待跟踪目标，将该剩余待跟踪目标的最高匹配得分指向的已跟踪轨迹，作为该剩余待跟踪目标的匹配轨迹。

进一步的，上述帧内目标新增条件可以包括以下条件中的至少一种：待跟踪目标与轨迹图中每一已跟踪轨迹之间的顶点相似度均小于预设相似度阈值；待跟踪目标在当前视频帧内的中心位置与轨迹图中每一已跟踪轨迹内的目标中心位置之间的位置差均大于预设位置差值；待跟踪目标在当前视频帧内的目标检测框与轨迹图中每一已跟踪轨迹的目标检测框之间不存在交集。

进一步的，上述目标图构建模块710，可以具体用于：提取当前视频帧中每一待跟踪目标的属性特征；以每一待跟踪目标为顶点，构建目标图，并得到目标图的每个顶点的顶点特征。

进一步的，上述多目标跟踪装置，还可以包括：轨迹图更新模块，用于按照当前视频帧内待跟踪目标的匹配轨迹，更新轨迹图，并按照当前视频帧内各待跟踪目标的匹配轨迹的属性特征更新轨迹图中每个顶点的顶点特征。

本实施例提供的多目标跟踪装置可适用于上述任意实施例提供的多目标跟踪方法，具备相应的功能和有益效果。

实施例八

图8为本发明实施例八提供的一种计算设备的结构示意图。如图8所示，该计算设备包括处理器810、存储装置820和通信装置830；计算设备中处理器810的数量可以是一个或多个，图8中以一个处理器810为例；计算设备的处理器810、存储装置820和通信装置830可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储装置820作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块。处理器810通过运行存储在存储装置820中的软件程序、指令以及模块，从而执行计算设备的各种功能应用以及数据处理，即实现上述的多目标跟踪模型的训练方法或者多目标跟踪方法。

存储装置820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置820可进一步包括相对于多功能控制器远程设置的存储器，这些远程存储器可以通过网络连接至车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置830可用于实现计算设备间的网络连接或者移动数据连接。

本实施例提供的一种计算设备可用于执行上述任意实施例提供的多目标跟踪模型的训练方法或者多目标跟踪方法，具备相应的功能和有益效果。

实施例九

本发明实施例九还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的多目标跟踪模型的训练方法或者多目标跟踪方法。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的多目标跟踪模型的训练方法或者多目标跟踪方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述多目标跟踪模型的训练装置或者多目标跟踪装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 对象跟踪方法、多目标跟踪模型训练方法及相关设备 [P] . 中国专利： CN113837977A . 2021-12-24
2. 一种多目标跟踪网络模型的训练方法、装置及相关设备 [P] . 中国专利： CN112614156A . 2021-04-06
3. A METHOD OF DETECTING AND TRACKING MULTIPLE OBJECTS ON A TOUCHPAD [P] . 韩国专利： KR101234909B1 . 2013-02-19

机译：一种检测和跟踪多目标的方法
4. A METHOD OF DETECTING AND TRACKING MULTIPLE OBJECTS ON A TOUCHPAD USING A DATA COLLECTION ALGORITHM THAT ONLY DETECTS AN OUTER EDGE OF THE OBJECTS AND THEN ASSUMES THAT THE OUTER EDGES DEFINE A SINGLE LARGE OBJECT [P] . 欧洲知识产权局专利： EP2210165A4 . 2013-06-12

机译：一种使用数据收集算法检测和跟踪多目标的方法，该算法仅检测对象的外边缘，然后假设外边缘定义单个大对象
5. A METHOD FOR INDIVIDUAL TRACKING OF MULTIPLE OBJECTS [P] . 世界知识产权组织专利： WO2012141663A1 . 2012-10-18

机译：一种多目标个体跟踪的方法