发布信息

一种基于模态对齐的动作提示的视觉语言导航系统及方法

作者:admin      2022-08-31 15:23:26     786



计算;推算;计数设备的制造及其应用技术1.本发明涉及视觉语言导航领域,更具体地,涉及一种基于模态对齐的动作提示的视觉语言导航系统及方法。背景技术:2.视觉语言导航是一项具有挑战性的任务,需要具体化的主体按照自然语言的说明导航到目标位置。为了进行成功的导航,智能体应通过理解给定指令的意图并逐步将指令基于周围的观察结果,依次做出正确的动作决策,以在动态变化的场景中移动。3.早期的视觉语言导航方法探索了不同的数据增强策略,高效的学习范式和有用的模型架构用于提高智能体性能。受到视觉语言任务中大规模跨模态预训练模型取得的重大进展的启发之后,越来越多的工作试图将预训练范式和模型引入到视觉语言导航任务中。prevalent在大量的图像-语言-动作三元组上对模型进行自监督预训练。在预训练模型中引入循环函数使智能体具有时间感知功能。虽然对象级别对齐能力可能在预训练过程中被显著提高,这些智能体仍然是在隐式地学习动作级别的模态对齐,这在很大程度上限制了不同场景下的行动决策的鲁棒性。4.现有技术公开了一种视觉与语言多模态融合的导航方法的专利,该专利,属于机器人导航、自然语言处理和计算机视觉领域;该专利首先在机器人上安装双目相机,利用该机器人训练一个多模态融合神经网络模型;选取任一真实场景,对机器人下达自然语言导航指令并转化为对应语义向量;利用机器人在每个时刻获取的rgb图,分别转化为对应的特征;对语义向量、rgb图特征特征进行特征融合,得到当前时刻的动作特征;利用提示对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,机器人执行该动作直至完成导航任务。然而,该专利对于如何实现较为鲁棒的视觉语言导航模型,提高准确性和泛化能力,具备良好解释性却鲜有报道。技术实现要素:5.本发明提供一种基于模态对齐的动作提示的视觉语言导航系统,该系统可实现强制智能体显式地学习跨模态动作知识,以改善导航期间的行动决策。6.本发明的又一目的在于提供一种上述系统的导航方法。7.为了达到上述技术效果,本发明的技术方案如下:8.一种基于模态对齐的动作提示的视觉语言导航系统,包括:9.动作提示集产生模块,输入指令到动作提示集产生模块,智能体在导航开始前从动作提示库中检索与指令相关的动作提示集;10.模态对齐动作提示的视觉语言导航模块,动作提示集通过提示编码模块,输出提示特征与文本编码模块的输出指令特征连接在一起;基于提示的指令特征和视觉编码模块的输出视觉特征被提供给多层transformer用来做动作决策;11.优化学习模块,即模态对齐损失模块和连续一致性损失模块,实现有效的动作提示学习。12.进一步地,所述模态对齐动作提示的视觉语言导航模块包括:13.文本编码模块该模块接收语言信息的输入,利用多层transformer神经网络分别进行编码,获得相应的特征向量;14.提示解码模块,该模块由两个单模态子提示编码器和一个多模态提示编码器组成,图像子提示和文本子提示分别通过对应的单模态自编码器得到子提示特征,连接以后输入进多模态提示编码器,获得提示特征;15.视觉编码模块,该模块接收视觉观察信息的输入,通过视觉编码器进行编码,获取对应的特征向量。16.进一步地,所述优化学习模块包括:17.模态对齐损失模块,当动作提示已经有匹配的图像和文本子提示,利用infonce损失使得它们在在特征空间中对齐,动作提示可以变得更加具有识别力;18.连续一致性损失模块,促使智能体根据其观察,按顺序关注检索到的提示集中的相关动作提示。19.一种基于模态对齐的动作提示的视觉语言导航方法,包括以下步骤:20.s1:在导航的开始,智能体获取指令,通过动作提示产生模块从动作提示库中检索与指令相关的动作提示集;21.s2:通过视觉编码模块和文本编码模块,对神经网络分别对输入的图像信息和指令信息进行编码,分别获得视觉编码,指令编码,状态特征;22.s3:通过提示编码模,动作提示集中图像子提示和文本子提示分别通过对应的单模态自编码器得到子提示特征,连接以后输入进多模态提示编码器,获得提示特征;23.s4:将上述指令编码和提示编码连接起来获得基于提示的指令特征,将上述状态特征与视觉编码连接起来,得到状态视觉特征;24.s5:通过模态对齐动作提示的视觉语言导航模块,状态视觉特征基于自身和基于提示的指令特征之间的跨模态注意力更新,将该注意力分解为两部分,第一部分对指令编码加权更新,用于更新状态特征,第二部分对图像和文本子提示特征进行加权更新,用于计算顺序一致性损失,将状态视觉特征输入另一个自注意力模块,以获得状态特征关于视觉特征的注意力分数,即基于提示的动作预测概率;25.s6:通过优化学习模,结合常用的模仿学习损失和强化学习损失,以及本发明特有的模态对齐损失和连续一致性损失,进行加权求和,获得总训练目标,对模型进行更新优化,提高智能体导航性能和泛化能力。26.进一步地,所述步骤s1包括以下子步骤:27.s100:动作提示库的建设,为了对齐图像和动作短语,形成动作提示符,设计两分支方案来收集图像和文本子提示:首先,对于训练数据集中的一个指令路径实例,使用一个提前创建好的视觉物体visual object/位置location词汇表来查找指令中提及的视觉物体/位置,对于每个视觉物体/位置,分别获得相关的图像和文本子提示,使用具有优秀的0-shot跨模态对齐能力的clip,用于定位物体/位置相关的图像,为了适应clip的推理过程,将短语“a photo of{class}”中的标记{class}token替换为类别标签是c的可视物体/位置,在动作序列中一个图像b属于c类的概率由以下方法计算:[0028][0029]其中τ1为温度temperature参数,sim为余弦相似度,b,wc分别为clip生成的图像特征和短语特征,m为词汇表的尺寸,然后选择与该短语相似度最大的图像作为图像子提示,为了获得文本子提示,使用简单的最近动词搜索方案,即找到一个特定的物体/位置词之前最近的动词,该动词在预先构建的动词词汇中,最后,拥有相同的视觉物体/位置和动作的图像和文本子提示形成一个对齐的动作提示;[0030]s101:动作提示集的检索,在导航的开始,智能体从动作提示库中检索与指令相关的动作提示,计算提示库中每个与对象/位置相关的动作短语与文本子提示之间的句子相似度,用于检索与指令相关的动作提示集其中n为该集合的大小。[0031]进一步地,所述步骤s2包括以下子步骤:[0032]s200:视觉输入的编码,对于时间步长t时,候选视图中的每个图像视图ot,i,都将使用一个预先训练的卷积神经网络cnn或transformer提取图像特征vt,i,然后vt,i被视觉编码器fv映射为视觉编码:[0033]vt,i=fv(vt,i;θv)[0034]其中θv为fv的参数,一组代表时间t下的候选视觉编码;[0035]s201:语言输入的编码,初始化时,指令编码x和初始化后的状态特征s0通过输入指令序列i和[cls]和[sep]tokens给transformer中的self-attention模块获得:[0036][0037]其中concat(·)代表连接concatenation操作,表示self-attention模组的参数,s0将会在时间步骤t被更新为st。[0038]进一步地,所述步骤s3包括以步骤:[0039]使用通过提示编码器得到提示编码该提示编码器由两个单模态子提示编码器和一个多模态提示编码器组成,其中图像子提示和文本子提示分别为和和首先通过单模态子提示编码器得到子提示特征和[0040][0041][0042]其中ei(·)使用参数θi,eu(·)使用参数θu,分别表示图像子提示编码器和文本子提示编码器,然后将和输送到多模态提示编码器ep(·),得到提示编码[0043][0044]其中θp为ep(·)的参数,concat(·)为连接运算,编码器ei(·),eu(·)和ep(·)由一个线性层组成,后接dropout操作,以减少过拟合。[0045]进一步地,所述步骤s4包括以下子步骤:[0046]在提示编码和指令编码x的基础上,通过简单地将x和连接起来,得到基于提示的指令特征xp。[0047]进一步地,所述步骤s5包括以下子步骤:[0048]状态视觉特征kt基于kt和xp之间的跨模态注意力更新:[0049][0050]然后将分解为和获得不同的基于注意力机制增强的特征,参与指令特征是通过对x进行加权得到的,基于注意力机制增强的图像子提示特征和基于注意力机制增强的文本子提示特征通过对和进行加权获得,和用于计算顺序一致性损失lc,和baseline智能体一样,用于更新状态特性,最后,将输入得到基于提示的动作预测概率[0051]进一步地,所述步骤s6包括以下子步骤:[0052]s600:模态对齐损失,促使动作提示已经有匹配的图像和文本子提示在特征空间中对齐,遵循clip中使用的对比学习范式,使成对的图像和文本特征相似,而不成对的图像和文本特征疏远,使用infonce损失以促进每个动作提示中图像和文本子提示的特征对齐:[0053][0054]其中τ2是温度参数,表示动作提示pn的成对的图像和文本子提示的特征,表示非配对的子提示,通过模态对齐损失,动作提示可以变得更加具有识别力,从而知道学习动作级别的模态对齐;[0055]s601:顺序一致性损失,由于指令通常顺序地指向不同的视觉标志,因此检索到的动作提示集{pn}中的动作提示也与不同的物体/位置相关,为了促使智能体根据其观察,按顺序关注检索到的提示集中的相关动作提示,提出顺序一致性损失,即两个单模态一致性损失之和;在每个时间步骤t上,基于注意力机制增强的文本子提示特征以及基于注意力机制增强的指导特征必须接近:[0056][0057]定义,用于提高基于注意力机制增强的图像子提示特征和基于注意力机制增强的视觉特征之间的相似性,则顺序一致性损失lc为:[0058][0059]s602:总目标使用导航损失ln,即模仿损失lil和强化学习损失lrl,总训练目标为:[0060]l=lrl+λ1lil+λ2lc+λ3la[0061]其中λ1,λ2和λ3是平衡损失的损失权重。[0062]与现有技术相比,本发明技术方案的有益效果是:[0063]本发明提出模态对齐的动作提示用于强制智能体显式地学习跨模态动作知识,以改善导航期间的行动决策,在视觉语言导航任务中开发基于提示的导航;开发了一种模态对齐损失和连续一致性损失,以实现有效的学习动作提示。使用对比语言-图像预训练(clip)模型来保证动作提示的质量;有效提升了基于r2r和rxr的智能体导航性能,且具有良好的可解释性和泛化能力。附图说明[0064]图1为本发明一种基于模态对齐的动作提示的视觉语言导航系统架构图;[0065]图2为本发明一种基于模态对齐的动作提示的视觉语言导航方法的步骤流程图;[0066]图3为本发明具体实施例中模态对齐动作提示的视觉语言导航模块示例图;[0067]图4为本发明具体实施例中动作提示集产生模块的动作提示库建造的示例图;[0068]图5为本发明具体实施例中应用视觉语言导航方法与baseline方法结果导航的结果样例对比展示。具体实施方式[0069]附图仅用于示例性说明,不能理解为对本专利的限制;[0070]为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;[0071]对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。[0072]下面结合附图和实施例对本发明的技术方案做进一步的说明。[0073]实施例1[0074]如图1所示,一种基于模态对齐的动作提示的视觉语言导航系统,包括:[0075]动作提示收集模块10,为了制作高质量动作提示库,采用新近开发的具有强大的跨模态对象/位置级对齐能力的对比语言图像预训练clip模型,用于定位物体/位置相关的图像。为了更好的对齐图像和动作短语,形成动作提示符,设计一个两分支方案用来收集图像和文本子提示。首先,对于训练数据集中的一个指令路径实例,使用一个提前创建好的视觉物体/位置词汇表来查找指令中提及的视觉物体/位置。然后对于每个视觉物体/位置,分别获得相关的图像和文本子提示。导航开始时,输入指令到动作提示集产生模块,智能体从提前建好的动作提示库中检索与指令相关的动作提示,构成动作提示集。[0076]模态对齐动作提示的视觉语言导航模块11,通过一个提示编码器来获取提示特征,与文本编码模块的输出指令特征连接在一起获得基于提示的指令特征。该特征和视觉编码模块的输出视觉特征被提供给多层transformer用来做动作决策。[0077]优化学习模块12,即模态对齐损失模块和连续一致性损失模块,实现有效的动作提示学习。[0078]在本发明具体实施例中,具体地,模态对齐动作提示的视觉语言导航模块11进一步包括:[0079]文本编码模块110,模块接收语言信息的输入,利用自监督神经网络进行编码,获得相应的文本特征向量和状态特征。[0080]提示编码模块111,该模块由两个单模态子提示编码器和一个多模态提示编码器组成,图像子提示和文本子提示分别通过对应的单模态自编码器得到子提示特征,连接以后输入进多模态提示编码器,获得提示特征。[0081]视觉编码模块112,该模块接收视觉观察信息的输入,通过预训练的视觉特征编码器进行编码,获取对应的特征向量。[0082]在本发明具体实施例中,具体地,优化学习模块12进一步包括:[0083]模态对齐损失模块120,当动作提示已经有匹配的图像和文本子提示,它们可能不会在特征空间中对齐。要解决这个问题,遵循clip中使用的对比学习范式,使成对的图像和文本特征相似,而不成对的图像和文本特征疏远,使用infonce损失以促进每个动作提示中图像和文本子提示的特征对齐。通过模态对齐损失,动作提示可以变得更加具有识别力,从而知道学习动作级别的模态对齐。[0084]连续一致性损失模块121,由于指令通常顺序地指向不同的视觉标志,因此检索到的动作提示集中的动作提示也与不同的物体/位置相关。为了促使智能体根据其观察,按顺序关注检索到的提示集中的相关动作提示,提出顺序一致性损失,即两个单模态一致性损失之和。以文本模态为例,在每个时间步骤t上,文本子提示特征以及指导特征必须接近;类似的损失定义在图像模态,用于提高图像子提示特征和视觉特征之间的相似性。[0085]实施例2[0086]如图2所示,一种基于模态对齐的动作提示的视觉语言导航方法,包括如下步骤:[0087]步骤s1,根据输入的指令信息检索相关动作提示集。[0088]具体地,步骤s1进一步包括:[0089]步骤s100,动作提示库的建设。为了更好的对齐图像和动作短语,形成动作提示符,设计了一个两分支方案来收集图像和文本子提示。首先,对于训练数据集中的一个指令路径实例,使用一个提前创建好的视觉物体/位置词汇表来查找指令中提及的视觉物体/位置。然后对于每个视觉物体/位置,分别获得相关的图像和文本子提示,如下所述。[0090]请注意,ground-truth路径序列包含一个单视图图像的集合,每一个都表示一个需要在特定的时间步骤进行的动作。因此,为了派生动作提示中的图像子提示,只从ground-truth路径序列中检索与物体/位置相关的图像,它本身包含行动信息。相比诉诸于现有的物体分类器或在固定的物品类别集合上训练的检测器,使用具有优秀的0-shot跨模态对齐能力的clip,用于定位locate物体/位置相关的图像。为了适应clip的推理过程,将短语“a photo of{class}”中的标记{class}token替换为类别标签是c的可视物体/位置。在动作序列中一个图像b属于c类的概率由以下方法计算:[0091][0092]其中τ1为温度temperature参数,sim为余弦相似度,b,wc分别为clip生成的图像特征和短语特征,m为词汇表的尺寸,然后选择与该短语相似度最大的图像作为图像子提示。[0093]为了获得文本子提示,使用一个简单的最近动词搜索方案,即找到一个特定的物体/位置词之前最近的动词(在预先构建的动词词汇中)。最后,拥有相同的视觉物体/位置和动作的图像和文本子提示形成一个对齐的动作提示。[0094]步骤s101,动作提示集的检索。在导航的开始,智能体从动作提示库中检索与指令相关的动作提示。计算提示库中每个与对象/位置相关的动作短语与文本子提示之间的句子相似度,用于检索与指令相关的动作提示集其中n为该集合的大小。[0095]步骤s2,通过神经网络分别对输入的图像信息和指令信息进行编码。[0096]具体地,步骤s2进一步包括:[0097]步骤s200,视觉输入的编码,对于时间步长t时,候选视图中的每个图像视图ot,i,都将使用一个预先训练的卷积神经网络cnn或transformer提取图像特征vt,i,然后vt,i被视觉编码器fv映射为视觉编码:[0098]vt,i=fv(vt,i;θv)[0099]其中θv为fv的参数,一组代表时间t下的候选视觉编码。[0100]步骤s201,语言输入的编码,初始化时,指令编码x和初始化后的状态特征s0通过输入指令序列i和[cls]和[sep]tokens给transformer中的self-attention模块获得:[0101][0102]其中concat(·)代表连接concatenation操作,表示self-attention模组的参数,s0将会在时间步骤t被更新为st。[0103]步骤s3,通过模态编码器对动作提示集进行编码。使用通过提示编码器得到提示编码该提示编码器由两个单模态子提示编码器和一个多模态提示编码器组成,其中图像子提示和文本子提示分别为和和首先通过单模态子提示编码器得到子提示特征和[0104][0105][0106]其中ei(·)使用参数θi,eu(·)使用参数θu,分别表示图像子提示编码器和文本子提示编码器,然后将和输送到多模态提示编码器ep(·),得到提示编码[0107][0108]其中θp为ep(·)的参数,concat(·)为连接运算,编码器ei(·),eu(·)和ep(·)由一个线性层组成,后接dropout操作,以减少过拟合。[0109]步骤s4,在提示编码和指令编码x的基础上,通过简单地将x和连接起来,得到基于提示的指令特征xp。[0110]步骤s5,状态视觉特征kt基于kt和xp之间的跨模态注意力更新:[0111][0112]然后将分解为和获得不同的基于注意力机制增强的特征,参与指令特征是通过对x进行加权得到的,基于注意力机制增强的图像子提示特征和基于注意力机制增强的文本子提示特征通过对和进行加权获得,和用于计算顺序一致性损失lc,和baseline智能体一样,用于更新状态特性,最后,将输入得到基于提示的动作预测概率[0113]步骤s6,计算各损失的加权求和总目标,对模型进行更新优化,提高智能体导航性能和泛化能力。[0114]具体地,步骤s6进一步包括:[0115]步骤s600,模态对齐损失,促使动作提示已经有匹配的图像和文本子提示在特征空间中对齐,遵循clip中使用的对比学习范式,使成对的图像和文本特征相似,而不成对的图像和文本特征疏远,使用infonce损失以促进每个动作提示中图像和文本子提示的特征对齐:[0116][0117]其中τ2是温度参数,表示动作提示pn的成对的图像和文本子提示的特征,表示非配对的子提示,通过模态对齐损失,动作提示可以变得更加具有识别力,从而知道学习动作级别的模态对齐。[0118]步骤s601,顺序一致性损失,由于指令通常顺序地指向不同的视觉标志,因此检索到的动作提示集{pn}中的动作提示也与不同的物体/位置相关,为了促使智能体根据其观察,按顺序关注检索到的提示集中的相关动作提示,提出顺序一致性损失,即两个单模态一致性损失之和;在每个时间步骤t上,基于注意力机制增强的文本子提示特征以及基于注意力机制增强的指导特征必须接近:[0119][0120]定义,用于提高基于注意力机制增强的图像子提示特征和基于注意力机制增强的视觉特征之间的相似性,则顺序一致性损失lc为:[0121][0122]步骤s602,总目标使用导航损失ln,即模仿损失lil和强化学习损失lrl,总训练目标为:[0123]l=lrl+λ1lil+λ2lc+λ3la[0124]其中λ1,λ2和λ3是平衡损失的损失权重。[0125]实施例3[0126]如图1所示,一种基于模态对齐的动作提示的视觉语言导航系统,包括:[0127]动作提示收集模块10,为了制作高质量动作提示库,采用新近开发的具有强大的跨模态对象/位置级对齐能力的对比语言图像预训练clip模型,用于定位物体/位置相关的图像。为了更好的对齐图像和动作短语,形成动作提示符,设计一个两分支方案用来收集图像和文本子提示。首先,对于训练数据集中的一个指令路径实例,使用一个提前创建好的视觉物体/位置词汇表来查找指令中提及的视觉物体/位置。然后对于每个视觉物体/位置,分别获得相关的图像和文本子提示。导航开始时,输入指令到动作提示集产生模块,智能体从提前建好的动作提示库中检索与指令相关的动作提示,构成动作提示集。[0128]模态对齐动作提示的视觉语言导航模块11,通过一个提示编码器来获取提示特征,与文本编码模块的输出指令特征连接在一起获得基于提示的指令特征。该特征和视觉编码模块的输出视觉特征被提供给多层transformer用来做动作决策。[0129]优化学习模块12,即模态对齐损失模块和连续一致性损失模块,实现有效的动作提示学习。[0130]在本发明具体实施例中,具体地,模态对齐动作提示的视觉语言导航模块11进一步包括:[0131]文本编码模块110,模块接收语言信息的输入,利用自监督神经网络进行编码,获得相应的文本特征向量和状态特征。[0132]提示编码模块111,该模块由两个单模态子提示编码器和一个多模态提示编码器组成,图像子提示和文本子提示分别通过对应的单模态自编码器得到子提示特征,连接以后输入进多模态提示编码器,获得提示特征。[0133]视觉编码模块112,该模块接收视觉观察信息的输入,通过预训练的视觉特征编码器进行编码,获取对应的特征向量。[0134]在本发明具体实施例中,具体地,优化学习模块12进一步包括:[0135]模态对齐损失模块120,当动作提示已经有匹配的图像和文本子提示,它们可能不会在特征空间中对齐。要解决这个问题,遵循clip中使用的对比学习范式,使成对的图像和文本特征相似,而不成对的图像和文本特征疏远,使用infonce损失以促进每个动作提示中图像和文本子提示的特征对齐。通过模态对齐损失,动作提示可以变得更加具有识别力,从而知道学习动作级别的模态对齐。[0136]连续一致性损失模块121,由于指令通常顺序地指向不同的视觉标志,因此检索到的动作提示集中的动作提示也与不同的物体/位置相关。为了促使智能体根据其观察,按顺序关注检索到的提示集中的相关动作提示,提出顺序一致性损失,即两个单模态一致性损失之和。以文本模态为例,在每个时间步骤t上,文本子提示特征以及指导特征必须接近;类似的损失定义在图像模态,用于提高图像子提示特征和视觉特征之间的相似性。[0137]如图2所示,上述基于模态对齐的动作提示的视觉语言导航系统的导航方法,包括如下步骤:[0138]步骤s1,根据输入的指令信息检索相关动作提示集。[0139]具体地,步骤s1进一步包括:[0140]步骤s100,动作提示库的建设。为了更好的对齐图像和动作短语,形成动作提示符,设计了一个两分支方案来收集图像和文本子提示。首先,对于训练数据集中的一个指令路径实例,使用一个提前创建好的视觉物体/位置词汇表来查找指令中提及的视觉物体/位置。然后对于每个视觉物体/位置,分别获得相关的图像和文本子提示,如下所述。[0141]请注意,ground-truth路径序列包含一个单视图图像的集合,每一个都表示一个需要在特定的时间步骤进行的动作。因此,为了派生动作提示中的图像子提示,只从ground-truth路径序列中检索与物体/位置相关的图像,它本身包含行动信息。相比诉诸于现有的物体分类器或在固定的物品类别集合上训练的检测器,使用具有优秀的0-shot跨模态对齐能力的clip,用于定位locate物体/位置相关的图像。为了适应clip的推理过程,将短语“a photo of{class}”中的标记{class}token替换为类别标签是c的可视物体/位置。在动作序列中一个图像b属于c类的概率由以下方法计算:[0142][0143]其中τ1为温度temperature参数,sim为余弦相似度,b,wc分别为clip生成的图像特征和短语特征,m为词汇表的尺寸,然后选择与该短语相似度最大的图像作为图像子提示。[0144]为了获得文本子提示,使用一个简单的最近动词搜索方案,即找到一个特定的物体/位置词之前最近的动词(在预先构建的动词词汇中)。最后,拥有相同的视觉物体/位置和动作的图像和文本子提示形成一个对齐的动作提示。[0145]步骤s101,动作提示集的检索。在导航的开始,智能体从动作提示库中检索与指令相关的动作提示。计算提示库中每个与对象/位置相关的动作短语与文本子提示之间的句子相似度,用于检索与指令相关的动作提示集其中n为该集合的大小。[0146]步骤s2,通过神经网络分别对输入的图像信息和指令信息进行编码。[0147]具体地,步骤s2进一步包括:[0148]步骤s200,视觉输入的编码,对于时间步长t时,候选视图中的每个图像视图ot,i,都将使用一个预先训练的卷积神经网络cnn或transformer提取图像特征vt,i,然后vt,i被视觉编码器fv映射为视觉编码:[0149]vt,i=fv(vt,i;θv)[0150]其中θv为fv的参数,一组代表时间t下的候选视觉编码。[0151]步骤s201,语言输入的编码,初始化时,指令编码x和初始化后的状态特征s0通过输入指令序列i和[cls]和[sep]tokens给transformer中的self-attention模块获得:[0152][0153]其中concat(·)代表连接concatenation操作,表示self-attention模组的参数,s0将会在时间步骤t被更新为st。[0154]步骤s3,通过模态编码器对动作提示集进行编码。使用通过提示编码器得到提示编码该提示编码器由两个单模态子提示编码器和一个多模态提示编码器组成,其中图像子提示和文本子提示分别为和和首先通过单模态子提示编码器得到子提示特征和[0155][0156][0157]其中ei(·)使用参数θi,eu(·)使用参数θu,分别表示图像子提示编码器和文本子提示编码器,然后将和输送到多模态提示编码器ep(·),得到提示编码[0158][0159]其中θp为ep(·)的参数,concat(·)为连接运算,编码器ei(·),eu(·)和ep(·)由一个线性层组成,后接dropout操作,以减少过拟合。[0160]步骤s4,在提示编码和指令编码x的基础上,通过简单地将x和连接起来,得到基于提示的指令特征xp。[0161]步骤s5,状态视觉特征kt基于kt和xp之间的跨模态注意力更新:[0162][0163]然后将分解为和获得不同的基于注意力机制增强的特征,参与指令特征是通过对x进行加权得到的,基于注意力机制增强的图像子提示特征和基于注意力机制增强的文本子提示特征通过对和进行加权获得,和用于计算顺序一致性损失lc,和baseline智能体一样,用于更新状态特性,最后,将输入得到基于提示的动作预测概率[0164]步骤s6,计算各损失的加权求和总目标,对模型进行更新优化,提高智能体导航性能和泛化能力。[0165]具体地,步骤s6进一步包括:[0166]步骤s600,模态对齐损失,促使动作提示已经有匹配的图像和文本子提示在特征空间中对齐,遵循clip中使用的对比学习范式,使成对的图像和文本特征相似,而不成对的图像和文本特征疏远,使用infonce损失以促进每个动作提示中图像和文本子提示的特征对齐:[0167][0168]其中τ2是温度参数,表示动作提示pn的成对的图像和文本子提示的特征,表示非配对的子提示,通过模态对齐损失,动作提示可以变得更加具有识别力,从而知道学习动作级别的模态对齐。[0169]步骤s601,顺序一致性损失,由于指令通常顺序地指向不同的视觉标志,因此检索到的动作提示集{pn}中的动作提示也与不同的物体/位置相关,为了促使智能体根据其观察,按顺序关注检索到的提示集中的相关动作提示,提出顺序一致性损失,即两个单模态一致性损失之和;在每个时间步骤t上,基于注意力机制增强的文本子提示特征以及基于注意力机制增强的指导特征必须接近:[0170][0171]定义,用于提高基于注意力机制增强的图像子提示特征和基于注意力机制增强的视觉特征之间的相似性,则顺序一致性损失lc为:[0172][0173]步骤s602,总目标使用导航损失ln,即模仿损失lil和强化学习损失lrl,总训练目标为:[0174]l=lrl+λ1lil+λ2lc+λ3la[0175]其中λ1,λ2和λ3是平衡损失的损失权重。[0176]图3为本发明具体实施例中模态对齐动作提示的视觉语言导航模块示例图。[0177]本图展示baseline智能体和之间的动作决策比较。借助“走向楼梯”相关的动作提示,本发明可以选择正确的动作,在给定的观测中成功导航。[0178]图4为本发明具体实施例中动作提示集产生模块的动作提示库建造的示例图。[0179]本发明使用一个两分支方案来收集图像和文本子提示,首先,对于训练数据集中的一个指令路径实例,采用新近开发的具有强大的跨模态对象/位置级对齐能力的对比语言图像预训练clip模型,将短语“a photo of{class}”中的标记{class}token替换为类别标签是c的可视物体/位置。计算在动作序列中一个图像b属于c类的概率,然后选择与该短语相似度最大的图像作为图像子提示。对于文本子提示,使用最近动词搜索方案,即找到一个特定的物体/位置词之前最近的动词(在预先构建的动词词汇中)。[0180]图5为本发明具体实施例中应用视觉语言导航方法与baseline方法结果导航的结果样例对比展示。本发明通过引入动作提示,可以准确地做出动作决策,完成成功的导航。在与“走过窗户”相关的动作提示的帮助下,本发明在前两个导航步骤中执行正确的“走过窗户”动作。然而,baseline智能体在导航过程中未能执行“走过窗户”的动作,从而导致错误的轨迹。[0181]相同或相似的标号对应相同或相似的部件;[0182]附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;[0183]显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部