发布信息

训练用于自主车辆的人工智能单元的制作方法

作者:admin      2022-09-24 09:26:23     449



计算;推算;计数设备的制造及其应用技术1.本发明涉及用于训练针对自主车辆(automated vehicle)的人工智能单元的系统和方法。背景技术:2.自主车辆是具有自主纵向引导和/或自主横向引导的车辆。术语“自主车辆”还包括自动化(autonomous)车辆。术语“自主车辆”特别地包括具有任意自主等级的车辆,例如在标准sae j3016(sae-车辆工程协会)中定义的自主等级:3.等级0:自主系统发出警告并且可能暂时进行干预,但没有持续的车辆控制。4.等级1(“手参与”):驾驶员和自主系统共享车辆的控制权。示例为自适应巡航控制(acc),其中驾驶员控制转向,而自主系统控制速度;以及停车辅助,其中转向是自主的,而速度是手动控制的。驾驶员必须随时准备好重新获得完全控制权。车道保持辅助(lka)ii型是等级1自动驾驶的另一示例。5.等级2(“手离开”):自主系统完全控制车辆(加速、制动和转向)。驾驶员必须监控驾驶情况,并且准备好在自主系统无法正确响应时随时进行干预。简写“手离开”并不是按字面意思理解的。实际上,在sae 2驾驶期间,手和方向盘之间的接触通常是强制性的,以确认驾驶员已准备好进行干预。6.等级3(“眼离开”):驾驶员可以安全地将注意力从驾驶任务上移开,例如司机可以发短信或看电影。车辆将处理需要立即响应的情况,例如紧急制动。当车辆要求驾驶员进行干预时,驾驶员仍必须准备好在制造方指定的某有限时间内进行干预。7.等级4(“心神力离开”):与等级3一样,但不需要驾驶员的注意力在安全上,即驾驶员可以安全地睡觉或离开驾驶员座位。仅在有限的空间区域(地理围栏)或特殊情况下(如交通拥堵)支持自身驾驶。在这些区域或情况之外,车辆必须能够安全地中止行程,即如果驾驶员不重新控制车辆,则停车。8.等级5(“转向方向盘可选”):完全不需要人为干预。一个示例是机器人出租车。9.自主车辆可以使用各种技术进行运动规划,例如使用人工智能。技术实现要素:10.本发明的目的是学习自主车辆以按照符合社会要求的方式安全地导航到其目标。11.本发明的一个方面是一种用于训练针对自主车辆的人工智能单元的系统。例如,自主车辆是能够移动的移动机器人或车辆或卡车。12.人工智能单元的一个示例是强化学习单元。13.基本强化被建模为马尔可夫(markov)决策过程:14.·环境和代理状态集;15.·代理的动作集;16.·从一种状态转换到另一状态的概率,17.·通过特定动作从一种状态转换到另一种状态后的奖励,以及18.·描述代理观察的规则。19.规则通常是随机的。观察通常涉及与最后一个转换相关联的标量即时奖励。在许多作品中,假定代理观察当前环境状态(完全可观察性)。如果不是,则代理具有部分可观察性。有时,对代理可用的动作集受到限制(无法减少零余额)。20.强化学习代理以离散的时间步长与其环境交互。在每个时间步长,代理收到观察,通常包括奖励。然后它从可用动作集中选择动作,其随后被发送到环境。环境移动到新状态,并且与转换相关联的奖励被确定。强化学习代理的目标是收集尽可能多的奖励。代理可以(可能随机地)选择任何作为历史函数的动作。21.人工智能单元的另一示例是q学习单元。22.q学习是强化学习技术。q学习的目标是学习策略,它告诉代理在什么情况下要采取什么行动。它不需要环境模型,并且可以处理随机转换和奖励的问题,而不需要适应。23.针对任何有限马尔可夫决策过程,q学习会找到最优策略,即它从当前状态开始,在所有连续步骤中最大化总奖励的期望值。在给定无限探索时间和部分随机策略的情况下,q学习可以针对任何给定的有限马尔可夫决策过程标识最佳动作选择策略。“q”命名返回用于提供强化的奖励的函数,并且可以说代表在给定状态下所采取的动作的“质量”。24.人工智能单元的另一示例是深度q学习单元。25.深度q学习使用深度卷积神经网络,具有用以模拟感受域的效果的平铺卷积过滤器层,其中卷积神经网络是一类前馈人工神经网络。当使用诸如神经网络之类的非线性函数逼近器来表示q时,强化学习是不稳定或发散的。这种不稳定性来自观察序列中存在的相关性,对q的小更新可能会显著改变策略和数据分布的事实,以及q与目标值之间的相关性。26.所述人工神经网络是受构成动物大脑的生物神经网络的模糊启发的计算系统。这样的系统通过考虑示例来“学习”执行任务,通常无需利用任何任务特定的规则进行编程。例如,在图像识别中,他们可能会通过分析已经被手动标记为“猫”或“无猫”的示例图像并且使用结果以标识其他图像中的猫来学习标识包含猫的图像。他们在没有任何关于猫的先验知识的情况下这样做,例如,它们有毛皮、尾巴、胡须和猫一样的脸。相反,他们会自动从他们处理的学习材料中生成标识特性。27.人工神经网络基于称为人工神经元的连接单元或节点的集合,它们对生物大脑中的神经元进行松散的建模。每个连接,就像生物大脑中的突触一样,可以将信号从一个人工神经元传输到另一人工神经元。接收信号的人工神经元可以对其进行处理,然后向与其相连的附加人工神经元发出信号。28.在常见的人工神经网络实现中,人工神经元之间连接处的信号是实数,并且每个人工神经元的输出是通过其输入之和的某个非线性函数而被计算的。人工神经元之间的连接称为“突触”。人工神经元和突触具有会随着学习的进行而调整的权重。权重增加或减少连接处的信号强度。人工神经元可以具有阈值,使得仅当聚合信号超过该阈值时才发送信号。通常,人工神经元被聚合成层。不同的层可以对其输入执行不同类型的变换。信号从第一层(输入层)行进到最后一层(输出层),可能是在多次遍历这些层之后。29.人工神经网络方法的最初目标是以与人脑相同的方式解决问题。然而,随着时间的推移,注意力转移到执行特定任务上,导致与生物学的偏差。人工神经网络已被用于各种任务,包括计算机视觉、语音识别、机器翻译、社交网络过滤、玩棋盘和视频游戏以及医学诊断。30.所述人工智能单元包括知识配置,例如q表(如果所述人工智能单元是q学习单元)或突触权重(如果所述人工智能单元是深度q学习单元)。31.所述人工智能单元考虑输入状态并且考虑知识配置来确定针对自主车辆的至少两个运动动作的评估值,所述输入状态表征自主车辆和至少一个其他道路使用者,例如自主车辆的空间位置和至少一个其他道路使用者的空间位置。32.至少两个运动动作具体是关于自主车辆的纵向和/或横向运动的运动动作,例如加速、减速、左转、右转、换到左边车道、留在车道或换到右边车道。33.此外,所述系统被配置为考虑到相应运动动作的评估值而从运动动作集中选择一个运动动作,并且通过考虑所选择的运动动作来调整人工智能单元的知识配置来训练人工智能单元。34.本发明的特征在于,所述知识配置至少表征至少一个其他道路使用者的授权(empowerment)。35.授权是一个信息论容量,其反映了代理在多大程度上控制了它可以感知的世界。它是由代理在给定时间间隔期间的动作之间的信息论通道容量以及在该间隔之后的时间对其感官感知的影响而形式被化的。36.授权的引入是为了给代理提供通用的、先验的内在动机,这可能是迈向更复杂行为的垫脚石。一种信息论测量,它量化了代理对其可以感知的世界有多少潜在的因果影响。37.非正式地,这意味着代理以一种使他能够达到尽可能多的未来状态的方式来选择其动作。38.在本发明的优选实施例中,至少一个其他道路使用者的授权至少由该至少一个其他道路使用者的许多可能的未来运动动作来表征。39.特别地,所述系统被配置为针对自主车辆的至少两个运动动作来确定至少一个其他道路使用者的可能的未来运动动作的数目,并且将该信息存储在知识配置中,使得所述系统在从运动动作集中选择一个运动动作时考虑该信息。40.在另一优选实施例中,所述知识配置还表征关于自主车辆达到目标的奖励。该优选实施例的优点在于,除了增加至少一个其他道路使用者的授权之外,自主车辆还能够朝着特定目标移动。例如,该目标是自主车辆被编程或编辑任务要到达的位置。41.在另一优选实施例中,所述知识配置还表征自主车辆与至少一个其他道路使用者之间的距离,这有助于避免与至少一个其他道路使用者的碰撞。42.在另一优选实施例中,所述人工智能单元确定针对自主车辆的至少两个运动动作的评估值,使得如果第一运动动作向至少一个其他道路使用者提供比第二运动动作更多的可能的未来运动动作,则第一运动动作被确定为比第二运动动作更高的评估值。该优选实施例考虑到可能的未来运动动作的数目是至少一个其他道路使用者的授权的特定情况。43.在另一优选实施例中,所述人工智能单元确定针对自主车辆的至少两个运动动作的评估值,使得如果自主车辆的环境的未来状态针对第一运动动作比针对第二运动动作更可预测,则第一运动动作被确定为比第二运动动作更高的评估值。44.例如,如果给定第一运动的第一状态发生的条件概率高于给定第二运动动作的第二状态发生的条件概率,则第一运动动作的未来状态比第二运动动作更可预测。45.在另一优选实施例中,所述人工智能单元确定针对自主车辆的至少两个运动动作的评估值,使得在以下情况下第一运动动作被确定为比第二运动动作更高的评估值:如果自主车辆将执行第一运动动作、则自主车辆的环境的未来状态的发生概率相比于如果自主车辆将执行第二运动动作、则自主车辆的环境的未来状态的发生概率更高。46.在另一优选实施例中,所述人工智能单元针预测对自主车辆的运动动作中的每个运动动作的自主车辆的环境的未来状态,所述人工智能单元确定针对自主车辆的环境的未来状态中的每个未来状态的两个发生概率,其中第一发生概率是给定相应运动动作发生的条件概率,其中第二概率与相应运动动作的发生无关,其中所述人工智能单元确定针对自主车辆的至少两个运动动作的评估值,使得如果针对第一运动动作的两个概率之差大于针对第二运动动作的两个概率之差,则第一运动动作被确定为比第二运动动作更高的评估值。47.在另一优选实施例中,人工智能单元是强化学习单元。48.本发明的另一方面是一种用于训练针对自主车辆的人工智能单元的方法,其中所述人工智能单元包括知识配置,其中所述人工智能单元考虑输入状态并且考虑知识配置的来确定或读出针对自主车辆的至少两个运动动作的评估值,所述输入状态表征自主车辆和至少一个其他道路使用者,该方法包括以下步骤:考虑相应运动动作的评估值而从运动动作集中选择一个运动动作,并且通过考虑所选择的运动动作而调整人工智能单元的知识配置来训练人工智能单元,并且其特征在于所述知识配置至少表征至少一个其他道路使用者的授权。附图说明49.为了更好地理解本发明,并且为了说明本发明可以如何实施,现在将通过示例的方式参考附图,在附图中:50.图1示出了示例性的交通情况,51.图2示出了强化学习的基本原理,52.图3示出了用于训练人工智能单元的系统的示例性结构,以及53.图4示出了针对人工智能单元的知识配置的示例。具体实施方式54.图1示出了包括三个车道l0、l1、l2的道路上的示例化交通情况。自主车辆ego正在中间车道l1上行驶,一个道路使用者ru1也在中间车道l1上行驶但在自主车辆ego前面,而另一位道路使用者ru2正在右侧车道l0上行驶。55.自主车辆ego具有三个可用的运动动作ma1、ma2、ma3,其中一个运动动作ma1是向左车道l2的车道变换,一个运动动作ma2是停留在当前车道l1,并且一个运动动作ma3是向右车道l0的车道变换。56.取决于所选择的运动动作ma1、ma2、ma3和自主车辆ego的速度,至少一个其他道路使用者ru1、ru2将体验不同等级的授权。57.例如在当前时间步长,自主车辆ego可以执行三个不同的运动动作ma1、ma2、ma3,因为它在中间车道l1上行驶。至少一个其他道路使用者ru2在当前时间步长处只能停留在其当前车道l0上。58.然而,在向左车道l2变道后,至少一个其他道路使用者ru2将有两个可用的运动动作,因为它可以停留在其当前车道l0上并且可以切换到中间车道l1。59.图2示出了强化学习的基本原理。自主车辆ego正在选择并且执行运动动作ma,该动作会影响自主车辆的环境env。自动车辆ego接收输入状态is和用于从一种状态转换到另一状态的奖励r,该输入状态is表征自主车辆ego和/或其环境env。60.图3示出了用于训练针对自主车辆ego的人工智能单元aiu的系统的示例结构。61.所述人工智能单元aiu包括知识配置kc,并且所述人工智能单元aiu考虑输入状态is、s1至s5并且考虑知识配置kc来确定针对自主车辆ego的至少两个运动动作ma1、ma2、ma3的评估值,其中所述输入状态is、s1至s5表征自主车辆ego和至少一个其他道路使用者ru1、ru2。62.此外,所述系统被配置为考虑相应运动动作ma1、ma2、ma3的评估值而从至少两个运动动作ma1、ma2、ma3中选择一个运动动作ma。63.例如所述系统包括选择单元s,用于考虑相应运动动作ma1、ma2、ma3的评估值而从至少两个运动动作ma1、ma2、ma3中选择一个运动动作ma。64.附加地,所述系统被配置为通过考虑所选择的运动动作ma调整人工智能单元aiu的知识配置kc来训练人工智能单元aiu。65.特别地,人工智能单元aiu是神经网络。所述神经网络aiu包括经由多个突触互连的多个神经元a1至a4;b1至b5;c1至c5;d1至d3。神经元的第一集a1至a4正在接收关于输入状态is、s1至s5的信息,并且神经元的第二集b1至b5;c1至c5在考虑到输入状态is、s1至s5的情况下,正在逼近至少两个评估函数。神经元的第三集d1至d3正在将至少两个评估函数分配给自主车辆的至少两个运动动作ma1、ma2、ma3。66.人工智能单元aiu的知识配置kc是突触的第二集中的至少一个突触的突触权重。67.图4示出了人工智能单元aiu的知识配置kc的示例。68.在该示例中,对于输入状态is、s1至s5中的每个输入状态,针对自主车辆ego的每个运动动作ma1、ma2、ma3的奖励r在知识配置kc中被限定,知识配置kc被表示为表格。69.所述人工智能单元aiu考虑到来自知识配置kc的输入状态is、s1至s5而读出奖励r作为针对自主车辆ego的至少两个运动动作ma1、ma2、ma3的评估值。所述输入状态is、s1-s5表征自主车辆ego和/或其环境env。70.此外,所述系统被配置为考虑相应运动动作ma1、ma2、ma3的评估值而从至少两个运动动作ma1、ma2、ma3中选择一个运动动作ma。例如,具有最高奖励r的运动动作ma可以被选择。在该示例中,所选择的运动动作ma是运动动作ma3,因为考虑到当前输入状态s2,它在至少两个运动动作ma1、ma2、ma3中具有最高的奖励r。71.附加地,所述系统被配置为通过考虑所选择的运动动作ma调整人工智能单元aiu的知识配置kc来训练人工智能单元aiu。72.特别地,可以通过确定以下输入状态is、s1至s5,特别是以下输入状态s4,来执行在考虑所选择的运动动作ma而对人工智能单元aiu的知识配置kc的调整。例如,可以通过考虑至少两个运动动作ma1、ma2、ma3中的一个运动动作(其具有关于以下输入状态s4的最高奖励)的奖励r来调整所选择的运动动作ma、ma3和当前输入状态s2的奖励r。在该示例中,考虑到以下输入状态s4,运动动作ma1在至少两个运动动作ma1、ma2、ma3中具有最高奖励r。73.例如,所选择的运动动作ma、ma3和当前输入状态s2的奖励r可以被设置针对所选择的运动动作ma、ma3的奖励r的旧值与针对运动动作ma1的奖励r的旧值的加权和,其中考虑以下输入状态s4,运动动作ma1具有至少两个运动动作ma1、ma2、ma3的最高奖励r。加权和的权重指定学习速率或步长大小,其确定了新获取的信息覆盖旧信息的程度。因子0使人工智能单元aiu什么都不学习(专门利用先验知识),而因子1使人工智能单元aiu仅考虑最新信息(忽略先验知识以探索可能性)。74.所述知识配置kc至少表征至少一个其他道路使用者ru1、ru2的授权。此外,所述知识配置kc特别地还表征关于自主车辆ego达到目标的奖励。奖励r例如可以是表征至少一个其他道路使用者ru1、ru2的授权的第一值和表征自主车辆ego达到目标的第二值的总和。75.所述人工智能单元aiu特别地确定该第一值,使得如果第一运动动作向至少一个其他道路使用者ru1、ru2提供比第二运动动作更高数目的可能的未来运动动作,则第一运动动作被确定为比第二运动动作更高的第一值。76.备选地,所述人工智能单元aiu特别地确定针对自主车辆ego的至少两个运动动作ma1、ma2、ma3的该奖励r,使得如果自主车辆ego的环境的未来状态针对第一运动动作比针对第二运动动作更可预测,则针对第一运动动作的奖励r被确定为比针对第二运动动作的奖励r更高的第一值。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部