计算;推算;计数设备的制造及其应用技术1.本发明属于深度学习与自动驾驶领域,具体为基于拓扑图结构和深度自注意力网络的行人轨迹预测方法。背景技术:2.在复杂人群场景下,行人的参与给移动机器人和无人车动态避障运动规划带来了巨大挑战,预测行人运动轨迹有助于提高无人车避障规划的效率,减少安全事故发生率。传统的行人轨迹预测方法主要采用隐马尔可夫链、贝叶斯等统计概率方法,或者采用人为设置的规则和函数,这类方法在往往应用稀疏人群环境以及运动状态随机性较差的场景中,难以迁移到复杂非线性环境中,一旦出现行人间复杂社会性交互,就很难保证预测结果的有效性。而随着神经网络的发展,将轨迹预测任务转化为时序生成任务的方法被提出(alahi a,goel k,ramanathan v,et al.social lstm:human trajectory prediction in crowded spaces[c].cvpr,2016)。该类方法的核心思想为采用长短期记忆网络等循环神经网络提取行人轨迹中的时序信息,并对网络中隐含状态采用池化的方式模拟行人轨迹间空间交互信息,但该类方法行人间空间交互特征提取能力不足。随着深度学习技术的发展,尤其是图神经网络和自注意力机制,使得采用图神经网络及注意力机制模拟行人交互的方法成为可能。现有的较优良的轨迹预测方法是利用稀疏图卷积网络(shi l,wang l,long c,et al.sgcn:sparse graph convolution network for pedestrian trajectory prediction[c]//cvpr,2021.),尽管该方法可以在一定程度上模拟行人之间的交互信息,但其时序特征提取能力不足,更重要的,该方法无法有效地模拟行人运动轨迹中的多模态特征,而行人运动轨迹中的固有不确定性在轨迹预测任务中尤为重要。技术实现要素:[0003]为了克服现有技术的不足,平衡时序特征提取和空间交互特征提取之间的关系,并满足行人轨迹的固有随机性要求,本发明提出了基于拓扑图结构和深度自注意力网络的行人轨迹预测方法,提取历史轨迹中的时序特征,发掘行人之间的交互信息和行为模式,还原行人运动轨迹中的多模态特性,扩大轨迹预测的探索空间,预测行人未来的轨迹点。[0004]为达到上述目的,本发明的技术方案如下:[0005]基于拓扑图结构和深度自注意力网络的行人轨迹预测方法,包括以下步骤:[0006]步骤一、对数据进行预处理,以满足神经网络对输入数据的要求,采用留一交叉验证法对模型参数进行训练和测试;[0007]步骤二、在获得步骤一中行人轨迹原始数据后,利用全连接网络将数据嵌入高维空间,并构造拓扑图结构以满足空间交互特征编码器的输入要求,为了充分提取空间交互特征,将高维数据送入空间交互特征编码器中,得到具有空间交互特征的高维数据,将两网络输出数据利用全连接网络拼接,使其维度与原始高维数据保持一致;[0008]步骤三、将步骤二得到的具有空间交互特征的高维数据和原始高维数据拼接,送入时序特征编码器中以提取时间序列特征;[0009]采用两种自注意力机制分别提取行人轨迹间的全局和局部空间交互信息,充分发掘行人之间的交互信息和行为模式,其中,图注意力网络采用基于邻居相对距离相关参数的注意力机制:[0010][0011][0012]其中(xi,yi)为行人i的二维空间位置坐标点,为全连接网络嵌入函数,w为网络矩阵参数,这部分注意力主要强调局部邻居间的相对距离对运动轨迹影响,而基于图的深度自注意力网络采用自注意力机制以强调全局关系的对运动轨迹影响;[0013]步骤四、为了模拟行人运动轨迹的固有不确定性和多模态特性,将高斯采样噪声引入步骤三得到的同时具有空间交互特征和时间序列特征的高维数据,随后将数据送入全连接神经网络解码器中得到预测的行人轨迹序列;[0014]步骤五、将结果送入轨迹矫正模块以提高路径平滑度和连续性。[0015]作为本发明进一步改进,所述步骤二中空间交互特征编码器所述高维数据包含图注意力网络和基于图的深度自注意力网络,所述步骤二中,采用空间交互特征编码器(包含图注意力网络和基于拓扑图结构的深度自注意力网络)对行人轨迹数据进行空间交互特征提取。[0016]作为本发明进一步改进,所述步骤三中,利用时序特征编码器(包含一个原始深度自注意力网络)提取行人轨迹数据中的时序特征。[0017]作为本发明进一步改进,所述步骤四中,通过在数据中引入高斯采样噪声的方式模拟行人运动轨迹中的固有不确定性和多模态特性,并拓展行人轨迹的探索空间。[0018]作为本发明进一步改进,所述步骤五中采用曲线拟合和二分类网络进一步扩展网络探索空间,增强曲线连续性,其中曲率s计算公式为:[0019][0020]与现有技术相比,本发明的有益效果是:(1)采用两种自注意力机制,包括图注意力网络和基于图的深度自注意力网络提取空间交互特征,分别提取局部临近行人相对距离和全局关系的对行人轨迹的影响,更加充分发掘和辨识行人轨迹中的社会交互信息和各种交互模式,例如行人之间并排行走、提前绕道并避免潜在的碰撞以及单独行走面对成群行人等各种复杂交互情况;(2)采用深度自注意力网络提取行人历史轨迹中的时序特征,利用深度自注意力网络中的掩码机制(masked)增强了模型对于时间序列特征的提取能力;(3)在多模态编码器中引入高斯噪声,模拟行人运动轨迹中的多模态特性以及固有不确定性,拓展了行人运动轨迹的探索空间,使其更加逼近现实情况。(4)将最终位置点送入矫正模块,进一步提升轨迹探索空间和连续性。附图说明[0021]图1为本发明流程示意图;[0022]图2本发明给出的轨迹预测网络框架;[0023]图3发明提及的行人拓扑图结构;[0024]图4本发明行人候选轨迹生成模块;[0025]图5本发明二分类网络。具体实施方式[0026]下面结合附图与具体实施方式对本发明作进一步详细描述:[0027]本发明提出一种基于拓扑图结构和深度自注意力神经网络的行人轨迹预测方法,具体流程如图1所示,该方法由四个部分构成,分别是数据预处理、深度神经网络模型构建、模型参数训练以及行人轨迹预测。[0028]在数据预处理阶段,对行人数据预处理,将行人轨迹转化为空间二维坐标中的坐标点,编码时间序列信息,将二维空间数据拓展到高维空间以满足深度自注意力网络输入要求,并利用行人轨迹数据构建拓扑图结构以满足图神经网络输入需求。[0029]在深度神经网络构建阶段,利用机器学习库pytorch等构建相应的深度神经网络框架。构建深度学习框架中的两个编码器和一个解码器,包括空间特征提取编码器(包括图注意力网络和基于图的深度自注意力网络)、时序特征提取编码器(包括深度自注意力网络)以及多模态解码器(包括全连接网络)。[0030]在模型参数训练阶段,设置网络超参数以及损失函数,采用留一交叉验证法训练网络模型参数,采用平均位置偏差和最终位置偏差两种评价指标对模型进行评估。[0031]在轨迹矫正阶段,利用最终位置点生成多条候选轨迹,送入二分类网络进行训练对轨迹进行评价。[0032]在行人轨迹预测阶段,输入需要预测的行人运动轨迹序列,利用训练好的轨迹预测网络框架进行预测,生成行人未来运动轨迹序列。[0033]下面详细介绍各阶段具体内容:[0034](1)数据预处理阶段,需要对数据进行预处理以达到网络模型的训练输入要求。原始数据一般包含时间信息t、行人标号i和行人空间位置点(xi,yi),为了满足深度自注意力网络输入和训练要求,需要利用全连接网络将二维空间坐标数据映射为高维数据(本发明设置为32维)。同时为了满足图注意力网络和基于拓扑图的自注意力网络输入需求,需要根据空间位置点将行人构建为拓扑图结构,并求出邻接矩阵n(i)。[0035](2)模型构建阶段,需要利用深度学习库构建轨迹预测整体框架,包括空间交互特征提取编码器、时间序列特性提取编码器和多模态解码器,整体模型框架如图2所示。并构建矫正模块如图4和5,其框架如图1所示。[0036]其中,空间交互特征提取编码器由图注意力网络和基于图的深度自注意力网络构成,其中行人拓扑图结构如图3所示。考虑到行人社会性交互的复杂特征,简单使用单一网络难以充分提取行人空间特征的复杂情况,如,友人之间的并排行走以及陌生人之间的潜在避障。故本发明采用图注意力网络和基于图的深度自注意力网络两种网络结构来增强对行人轨迹中全局和局部空间交互特征的提取能力,其中图注意力网络采用邻居间相对距离相关系数的注意力机制以获取局部关系对行人轨迹影响,相关系数计算方式为:[0037][0038]其中,l为图注意力网络迭代层数,为行人i在时间点t的空间坐标,wr为嵌入函数的参数矩阵。[0039]根据相关系数可以求得注意力[0040][0041]其中为行人i在时间点t的状态值,初始输入n(i)为邻接矩阵,同样的wα为嵌入函数的参数矩阵。[0042]图注意力网络的消息传递机制为:[0043][0044]基于图的深度自注意力网络同样采用拓扑图结构,输入与图注意力网络相同,而采用自注意力机制以强调全局交互信息对自身轨迹的影响,首先根据空间高维输入数据提取查询矩阵qi、关键矩阵ki、值矩阵vi:[0045][0046]基于图的深度自注意力网络同样采用消息传递机制:[0047][0048]注意力计算方式及其输出h′s,i为:[0049][0050]h's,t=fout(att(i))+att(i)[0051]其中dk为矩阵维度,fout为输出函数,这里选择全连接网络,如公式所示,输出采用跳跃连接。[0052]分别求得图注意力网络和深度自注意力网络输出后,使用全连接网络对两输出拼接,使之与原始高维数据维度保持一致:[0053][0054]之后将具有空间交互特征的高维数据与原始高维数据拼接,得到时间序列特性提取编码器的输入该编码器采取原始深度自注意力网络结构,同样的,首先提取得到查询矩阵qi、关键矩阵ki、值矩阵vi:[0055][0056]自注意力公式为:[0057][0058]为了提取不同方面的特征信息,增强网络的特征提取能力,本发明采用多头注意力机制:[0059][0060]其中headj=attentionj(qi,ki,vi)为第j个头,fo为全连接网络输出函数,其目的是对多头特征进行加权融合。[0061]得到融合空间交互特征和时间序列特征的数据后,在数据中加入高斯采样噪声,并输入多模态解码器中,多模态解码器采用全连接网络将高维数据映射到二维空间坐标系中的坐标点中以输出轨迹序列。[0062]随后已知轨迹点和最终位置预测点送入矫正模块,如图三所示,矫正模块首先在最终位置预测点周围采集八个候选点,随后利用三次曲线拟合根据候选点生成候选轨迹,曲率s计算公式为:[0063][0064]其中,已知最终点坐标为(x1,y1),候选点坐标为(x2,y2),n为拓扑图中的邻居数,而曲率点为两点连线中垂线上距两点连线中点距离为s的一点。[0065]将所有候选轨迹根据平均位置偏差按照1:3设置为正负样本,将轨迹送入二分类网络进行训练,二分类网络由两个全连接网络构成。[0066](3)模型参数训练阶段,设置好超参数和损失函数后,本发明采用使用两个公开行人规矩数据集eth和ucy进行训练,eth由eth和hotel两个小数据集构成,ucy由zara1、zara2和univ构成。采用留一法交叉验证,即一个数据集作为测试集,其他四个作为训练集。[0067]也可以采用自制的数据集,数据集每隔0.4秒对场景中的行人进行采样作为一帧数据,在进行模型训练时,取8帧数据(3.2秒)数据作为行人历史轨迹,预测未来12帧(4.8s)行人轨迹序列。[0068]评价指标采用平均位置偏差ade和最终位置偏差fde,其中ade为未来12帧预测数据与实际轨迹数据的欧式距离偏差的平均值:[0069][0070]其中,n为预测行人数量,tp=12为最大帧数,为实际位置序列,为预测轨迹序列,||·||为两点间欧式距离。而fde为最后一帧预测数据与实际轨迹数据的欧式距离偏差:[0071][0072]其中,tf为最终时间点。[0073](4)行人轨迹预测阶段,输入需要预测的行人运动轨迹至已经训练好的深度网络框架中,框架将输出对应的未来12帧行人运动轨迹,本发明提出的方法在稀疏人群和密集人群场景下对行人轨迹拟合均有较好表现,其中稀疏人群场景人群交互较少,直线行走情况较多,对模型时序特征提取能力要求较高;而密集场景复杂社会交互频繁,多曲线轨迹,对模型行人间空间交互特征提取能力要求较高。本发明能对密集人群场景下的复杂全局和局部交互进行有效辨别,其中包括组队并排行走,规避潜在碰撞,单独行走并与人群保持合理社交范围等复杂情况,并极大程度上逼近了行人运动轨迹的固有不确定性和多模态特性。[0074]以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
基于拓扑图结构和深度自注意力网络的行人轨迹预测方法
作者:admin
2022-09-21 09:25:48
898
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种海洋污水重金属成分检测前处理装置的制作方法
- 上一篇: 一种软件代码不可达路径自动检测的方法和装置