控制;调节装置的制造及其应用技术1.本发明属路径规划技术领域,具体涉及一种狭窄转弯工作环境下智能体的路经规划方法。背景技术:2.无人驾驶技术应用在狭小工作空间中,尤其是在狭小的转弯工作环境下,传统的机器人导航算法实现过程是从出发点到目的地的路径计算,其中路径中的每条路就是前面记录在导航系统中的地图数据。3.但是由于障碍物膨胀半径的存在,往往在狭窄的拐弯处会造成障碍物膨胀半径重叠,导致机器人无法计算出合理路径,从而需要人工调参来降低膨胀层的膨胀半径,但是如果膨胀半径过小,又容易导致机器人与障碍物相撞。且在诸如地下开采、隧道/管道检查等特殊工作环境下,无法提前采样得到地图数据。技术实现要素:4.为了克服上述现有技术存在的不足,本发明提供了一种狭窄转弯工作环境下智能体的路经规划方法。5.为了实现上述目的,本发明提供如下技术方案:6.一种狭窄转弯工作环境下智能体的路经规划方法,包括:7.搭建深度神经网络,并将其作为估计网络;8.将智能体的状态输入训练好的估计网络中,输出智能体下一步动作的q值,并选择q值最大的动作作为智能体下一步进行的动作;其中,所述智能体的状态包括:激光雷达线数、智能体朝向、当前的位置、距离障碍物的最小距离、距离障碍物的角度;所述智能体的动作为角速度;9.根据智能体下一步的动作,实现智能体在狭窄转弯工作环境下的路经规划。10.进一步,所述估计网络包括:11.输入层,其神经元个数为28,对应智能体的28个状态;12.隐藏层,其神经元个数为128;13.输出层,其神经元个数为5,对应智能体的5个对应的动作。14.进一步,还包括:15.设置q目标网络,利用q目标网络计算td误差,根据td误差更新估计网络中的模型参数;其中,所述q目标网络的模型参数与估计网络的模型参数相同。16.进一步,所述估计网络的网络参数更新方法为:17.θt+1=θt+α(r+γmaxa'q(s,a;θ-)-q(s,a;θ))▽q(s,a;θ)18.其中,θ为估计网络的模型参数,q(s,a;θ-)为q目标网络,θ-为q目标网络的模型参数,s为状态,a为动作,r+γmaxa'q(s,a;θ)为td目标,α为折扣率。19.进一步,还包括:利用经验回放技术训练估计网络,其包括:20.采集智能体的状态数据放到一个记忆库中,从记忆库中均匀随机采样,从中提取状态数据进行估计网络的训练;其中,输入估计网络中的的数据相互独立并满足统一分布。21.进一步,设置奖励函数为智能体的每一步动作计算奖励值,所述奖励函数为:[0022][0023]其中,r是总的奖励,r1是每回合内每一步的稀疏奖励,r2是每回合终止的奖励。[0024]进一步,所述估计网络的训练方式为:[0025]当智能体发生碰撞或者到达目标点后,结束本回合训练,计算总奖励r;[0026]如果智能体没有发生碰撞也没有到达目标点,到回合时间结束或者回合步数最大时,结束本回合,计算总奖励r;[0027]当智能体获得的总奖励r收敛时,结束对估计网络的训练。[0028]进一步,智能体状态的设计方法为:[0029]state=lid_line+heading+current_distance+obstacle_distance+done[0030]其中,state为雷达线数,heading为航向角,current_distance为当前位置到目标点位置,obstacle_distance为障碍物距离当前位置的距离,done为是否碰撞和到达目标点。[0031]进一步,智能体的动作设置方法为:[0032]ang_vel=((action_s ize-1)/2-action)*v*0.5[0033]其中,action_size为动作设置的个数,angular_vel为角速度。[0034]本发明提供的一种狭窄转弯工作环境下智能体的路经规划方法具有以下有益效果:[0035]本发明利将智能体的状态作为估计网络的输入端,利用估计网络输出智能体下一步动作的q值,选择q值最大的动作作为智能体下一步进行的动作;智能体能够在没有采集地图数据的情况下,在狭窄转弯工作环境下根据自身的当前状态,自行规划路径,完成从出发点到达终点并且无碰撞的任务。附图说明[0036]为了更清楚地说明本发明实施例及其设计方案,下面将对本实施例所需的附图作简单地介绍。下面描述中的附图仅仅是本发明的部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0037]图1为本发明实施例的智能体在狭窄空间下无人车路径规划遇到的问题;[0038]图2为本发明dqn神经网络的搭建示意图;[0039]图3为本发明通过深度强化学习训练智能体的q值;[0040]图4为本发明深度强化学习训练智能体的奖励;[0041]图5为本发明所提供智能体完整跑完地图的仿真结果。具体实施方式[0042]为了使本领域技术人员更好的理解本发明的技术方案并能予以实施,下面结合附图和具体实施例对本发明进行详细说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。[0043]实施例:[0044]本发明提供了一种狭窄转弯工作环境下智能体的路经规划方法,具体如图1所示,包括:搭建深度神经网络,并将其作为估计网络;将智能体的状态输入训练好的估计网络中,输出智能体下一步动作的q值,并选择q值最大的动作作为智能体下一步进行的动作;其中,智能体的状态包括:激光雷达线数、智能体朝向、当前的位置、距离障碍物的最小距离、距离障碍物的角度;智能体的动作为角速度;根据智能体下一步的动作,实现智能体在狭窄转弯工作环境下的路经规划。[0045]以下为本发明具体实施方式:[0046]步骤一,建立智能体工作环境并设置奖惩函数:[0047]使用ros通讯机制,对智能体发布速度话题并订阅,对智能体位置进行判断,如果智能体与墙壁相撞或到达目标点,则结束本回合的训练。[0048]奖励函数如式(1)所示:奖励值大小不进行具体约束,按照实际工作场景而定,本发明给定的奖励如下:[0049][0050]步骤二,设计智能体状态和动作的选择方法:[0051]本发明所使用机器人搭载雷达为24线激光雷达,深度强化学习智能体的建立主要有两个方面,一方面是对于状态的选择,本专利设置智能体的状态为28,具体构成为:激光雷达线数+智能体朝向,当前的位置,距离障碍物的最小距离,距离障碍物的角度。[0052]state=lid_line+heading+current_distance+obstacle_distance+doneꢀꢀꢀ(2)[0053]式中:state为雷达线数,heading为航向角,current_distance为当前位置到目标点位置,obstacle_distance为障碍物距离当前位置的距离,done为是否碰撞和到达目标点。[0054]因为本专利主要用于解决狭窄的转弯处无法顺利转弯的问题,所以不将线速度作为动作供智能体选择,默认使用0.15m/s速度作匀速前进,将角速度设置为动作。具体设置方法如下:动作设置方法如下:[0055]ang_vel=((action_size-1)/2-action)*v*0.5ꢀꢀꢀ(3)[0056]式中:action_size为动作设置的个数,max_angular_vel为最大角速度[0057]步骤三,确定强化学习的更新策略:[0058][0059]式中:q(st,at)为动作价值函数,α为学习率,γ为折扣因子,rt为奖励[0060]α为学习率,γ为折扣因子。st+1:为在状态s下,执行动作a到达状态。[0061]步骤四,使用深度神经网络模拟q值函数:[0062]智能体与环境进行交互,使用深度神经网络模拟q值函数(状态动作价值函数);q值函数与卷积神经网络的每一层权重相对应,即[0063]q(s,a;θ)=q(s,a)ꢀꢀꢀ(5)[0064]式中:θ为神经网络参数。[0065]利用式(5),q(s,a)值函数的更新过程实质上就是对神经网络参数θ的更新。[0066]步骤五,建立目标网络和估计网络:[0067]设置q目标网络,来计算td(均方)误差,使用卷积网络对估计网络进行近似时,对其中的参数θ采用梯度下降的方法进行处理[0068]θt+1=θt+α(r+γmaxa'q(s,a;θ)-q(s,a;θ))▽q(s,a;θ)ꢀꢀ(6)[0069]式中:r+γmaxa'q(s,a;θ)为td目标,[0070]在计算td目标所使用的网络被称之为目标网络,[0071]用来近似的神经网络称之为估计网络:[0072]q(s,a;θ)目标网络使用参数为与估计网络所使用的参数相同这样所得到的结果会存在关联性,导致强化学习训练结果不出问题,为解决此问题dqn算法将目标网络中的参数表示为θ-。[0073]在神经网络更新过程中,估计网络的参数是实时更新的,目标网络的参数是经过n轮迭代后,将估计网络中的参数赋值给目标网络得到的,因此可将上式更改为:[0074]θt+1=θt+α(r+γmaxa'q(s,a;θ-)-q(s,a;θ))▽q(s,a;θ)ꢀꢀꢀ(7)[0075]损失函数定义为:[0076]l(θ)=e[(r+γmaxa'q(s,a;θ)-q(s,a;θ))2]▽q(s,a;θ)ꢀꢀꢀ(8)[0077]步骤六,使用经验回放技术训练神经网络:[0078]使用经验回放技术训练神经网络。古迹网络采用监督神经网络模型,需要输入的数据相互独立并满足统一分布,由于智能体在环境中收集到的数据是连续的,相邻的数据存在关联,在使用此数据进行训练时,梯度下降的方向就会变得一致,在同样的训练步长下计算梯度就会导致结果不收敛,经验回放机制将智能体采集到的数据放到一个记忆库中,然后从记忆库中均匀随机采样,从中提取数据进行神经网络的训练。[0079]结合图1在狭窄空间下无人车路径规划遇到的问题:[0080]如图所示,无人车陷入僵局,即无法找到路径,原因是两个障碍物之间空间过于狭窄,导致膨胀半径交错,被小车误认为前面都是障碍物,因此无法通过,故而本专利提出使用dqn算法解决在狭窄空间下的路径规划。[0081]结合图2dqn神经网络的搭建示意图可得:[0082]本发明搭建的神经网络如下所示:设置第一个全连接层(从隐藏层到输入层),初始化权重值设均值为0,方差为0.1的正态分布。输入层神经元个数对应28个状态,第二层为隐藏层设置128个神经元,并使用激活函数relu来处理经过隐藏层的数值。设置第二个全联阶层从隐藏层到输出层,输出层为5个神经元输出五个对应的动作值。本发明设置目标网络和估计网络相同的网络结构。[0083]结合图3本发明通过深度强化学习训练智能体的q值和图4本发明通过深度强化学习训练智能体的奖励可得:[0084]智能体训练过程已经完全收敛,完成上述过程步骤五,[0085]结合图5为本发明所提供智能体完整跑完地图的仿真结果可得:[0086]图中红色位置为目标点,蓝色区域为雷达扫描区域,该工作环境存在较多狭窄弯道。[0087]以上所述实施例仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换,均属于本发明的保护范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种狭窄转弯工作环境下智能体的路经规划方法 专利技术说明
作者:admin
2023-07-07 08:38:01
979
关键词:
控制;调节装置的制造及其应用技术
专利技术