发布信息

一种基于深度强化学习的共享电动汽车调度方法与流程

作者:admin      2022-08-31 17:33:10     548



计算;推算;计数设备的制造及其应用技术1.本发明涉及车辆调度管理技术领域,具体的是一种基于深度强化学习的共享电动汽车调度方法。背景技术:2.随着交通、环境、能源问题与出行需求矛盾的日益尖锐,汽车共享作为一种新兴的绿色交通方式,该方式使城市地区的人员出行以及货物配送效率大大提升。电动汽车是汽车共享领域的一个重点研究及应用技术,电动汽车具有零污染、低噪音的优势,但也存在续航里程短、充电时间长等技术约束。3.在电动汽车共享服务中,运营中心需安排运营车辆将驾驶员送至电动汽车供给地点,驾驶员驾驶车辆到理想的需求地点,维持供需平衡。同时,由于电动汽车需要具备一定的充电水平才能供客户使用,所以还需安排驾驶员驾驶电动汽车至充电站。最后运营车辆需要在相应的地点接送驾驶员返回运营中心。因此如何在电动汽车技术约束下实现共享车辆优化管理成为重大挑战。共享电动汽车调度问题的解决,对于节能驾驶、共享车辆调度等先进控制技术的应用有着重要意义。4.现有技术中,针对共享车辆调度问题的研究多针对于供给点和需求点之间的供需平衡,而共享电动汽车调度还需考虑到电动车至充电站的路线规划,现有模型无法适用。技术实现要素:5.为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于深度强化学习的共享电动汽车调度方法,本发明旨在提高共享车辆的节能水平以及运营效率。6.本发明的目的可以通过以下技术方案实现:7.一种基于深度强化学习的共享电动汽车调度方法,包括如下步骤:8.s1、构建共享车辆调度交通网络模型:9.g=(v,a),g为包括节点及节点间连接弧段的无向连通图,节点集合v={0}∪n,其中0,n分别代表运营中心、车辆停靠节点,a为图中弧段集合。车辆停靠节点集合n包括:有多余的电动汽车辆的供应商节点、需要电动汽车辆的需求方节点、充电站。运营车辆从运营中心出发,将驾驶员运送至相应节点,并接送所有驾驶员返回运营中心。基于电量阈值设计电动汽车调度规则。10.s2、构建运营车辆路由决策马尔可夫决策过程:11.s2.1、构建马尔可夫决策过程五元组m=《x,a,p,r,t》,分别表示状态、动作、转移概率、奖励函数和时间范围。12.s2.2、状态转移过程描述为:当运营车辆选择节点不是当前节点时,则转移到下一节点时对系统状态进行更新;当运营车辆选择节点处于当前节点时,则等待下一次延迟转移的发生进而更新状态,当前时钟时间tc可以表示为:[0013][0014]式中,τ表示时间t-1到时间t时运营车辆访问节点之间的行驶时间,nt-1,nt分别表示t-1,t时刻所选择的节点(nt-1,nt∈n),wt表示节点n处的等待时间,即节点n处发生延迟状态转移的时间与运营车辆到达节点n的时间之差。[0015]s2.3、根据城市网络的当前状态设置掩蔽方案:动作空间内存储可以访问的节点,其余节点被屏蔽。对于n∈n,时间t的动作空间可表示为:[0016][0017]集合et表示而具有或预期具有电动汽车的节点,集合dt表示具有或预期具有驾驶员的节点,lt表示在时间t时运营车辆中的驾驶员数量。[0018]s3、构建运营车辆路径问题的神经网络模型[0019]actor神经网络模型由编码器和解码器组成,输入当前状态,输出选择节点待概率分布。[0020]critic神经网络模型对当前状态xt的静态信息和动态信息进行编码后,送入注意力层,输出当前状态价值函数vπ(xt);[0021]s4、设计a2c强化学习算法对神经网络模型进行训练。[0022]进一步地,所述步骤s1中,电动汽车调度规则如下:[0023]电动汽车的供应商节点存在驾驶员时,电动汽车会被调度到最近的可用充电站或需求方节点。其中电动汽车的充电水平超过阈值b,则直接调度到需求方节点,否则调度到充电站充电。[0024]进一步地,所述步骤s2中,五元组的描述如下:[0025]状态:将系统的状态空间表示为x,将在时间t的状态表示为xt,包括每个节点的位置、相对距离、电动汽车数量、节点驾驶员数量、电动汽车充电水平以及表示是否有预期的电动汽车到达节点的二进制向量。[0026]动作:其中at是时间t运营车辆的动作空间,动作at表示为运营车辆i在时间t将要访问的节点;[0027]转移概率:转移概率函数p表示在状态xt采取动作at转移到下一时刻状态xt+1的状态转移概率p(xt+1|xt,at);[0028]奖励函数:t时刻的奖励rt表示为运营车辆在状态xt采取动作at所得到的奖励,同时一个回合的总奖励表示为r;[0029]时间范围:当满足所有需求方节点并将所有驾驶员带回运营中心,或者总时间步数超过了预定义的最大时间步数t(其值根据网络大小设置),则一个回合终止。每个时间步t由运营车辆完成一个动作所确定[0030]进一步地,所述步骤s3中,神经网络模型的组成如下:[0031]actor神经网络模型由编码器和解码器组成,在给定网络停靠节点n的情况下,参数化策略表示为:[0032][0033]式中,式中,表示节点n在时间t的状态,可表示为其中表示静态信息,包括节点位置坐标和供应商节点处电动汽车的初始充电水平;表示动态信息,包括节点电动汽车的数量、运营车辆中的驾驶员数量以及当前节点到其他节点的距离;yt表示在时间t要访问的节点,集合yt={y1,...,yt},φ表示函数转换关系。[0034]分别对静态信息和动态信息进行编码:[0035][0036][0037]其中bs、bd、ws、wd分别表示静态信息和动态信息编码的偏置项和权重矩阵,进而编码后的状态可表示为:[0038]使用递归神经网络进行解码,通过获取最后访问的节点的静态状态,并按如下方式存储序列:[0039][0040]其中,ht表示时间t循环神经网络的记忆状态,f表示非线性变换,可训练的权重矩阵wh和wx分别表示隐藏状态到隐藏状态和隐藏状态到输入之间的连接,采用lstm作为循环神经网络基本单元。[0041]通过注意力机制以计算下一节点访问概率:[0042][0043]其中ν和w为可训练的权重矩阵,最后采取贪婪策略,选择概率最大的点进行访问。[0044]critic神经网络模型对当前状态xt的静态信息和动态信息进行编码后,直接送入注意力层,生成当前状态价值函数xt。[0045]进一步地,所述步骤s4中,a2c强化学习算法训练过程如下:[0046]采用a2c强化学习算法对神经网络模型进行训练,训练的目的是找到使总奖励最大化的策略参数θ:[0047][0048]进而训练目标函数可表述为:[0049][0050]其中r(π|x)表示状态空间x采取策略π获得的总奖励,pθ(·|x)表示在策略参数θ情况下选择节点的概率。[0051]actor网络的目标函数梯度可表述为:[0052][0053]其中δv为td误差:δv=rt+vπ(xt+1)-vπ(xt);log pθ(π|x)表示在状态空间x下策略所采取动作对应的概率对数。critic网络采用td误差的均方误差损失函数进行更新。[0054]进一步地,所述训练过程中实例由数据生成器生成,actor网络在每个时间步生成运营车辆访问节点的概率,并相应地更新状态,直到回合结束。根据相应的梯度,更新actor和critic网络的参数。[0055]本发明的有益效果:[0056]本发明基于运营车辆的路由决策和电动汽车的调度建立模型,并且考虑到运营车辆的路由时间以及电动汽车充电时间对模型状态转移的影响,使模型更符合实际情况。[0057]本发明将共享电动汽车调度问题转换为马尔可夫决策过程,便于a2c算法求解,使共享电动汽车调度问题模型对于强化学习算法具有普适性。[0058]本发明采用由编码器和解码器组成的神经网络架构,并引入注意力机制,更有效地提取了模型的特征,并且能够应对随时变化的动态信息,对输入信息具有鲁棒性。[0059]本发明通过a2c算法对共享电动汽车调度问题进行求解,经过训练后可应用于来自同一分布的任何输入,在线决策所需的计算量非常小,针对具有较高的实时性,求解精度高,实现了共享电动汽车调度配送整体效率提升。[0060]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解;附图说明[0061]下面结合附图对本发明作进一步的说明。[0062]图1是本发明实施例的共享电动汽车调度问题模型。[0063]图2是本发明实施例的调度方法的流程图。[0064]图3是本发明实施例的ac算法框架图。具体实施方式[0065]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。[0066]在本发明的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。[0067]一种基于深度强化学习的共享电动汽车调度方法,如图所示,本实施例提供了一种基于深度强化学习的共享电动汽车调度方法,通过构建共享车辆调度交通模型、建立运营车辆路由决策马尔可夫决策过程,构建运营车辆路径问题神经网络模型,最后通过a2c算法对模型进行训练。[0068]所述共享电动汽车调度问题模型参见图1。[0069]所述调度方法参见图2,具体包括以下步骤:[0070]s1、构建共享车辆调度交通网络模型:[0071]g=(v,a),g为包括节点及节点间连接弧段的无向连通图,节点集合v={0}∪n,其中0,n分别代表运营中心、车辆停靠节点,a为图中弧段集合。车辆停靠节点集合n包括:有多余的电动汽车辆的供应商节点、需要电动汽车辆的需求方节点、充电站。运营车辆从运营中心出发,将驾驶员运送至相应节点,并接送所有驾驶员返回运营中心。[0072]电动汽车的调度规则如下:电动汽车的供应商节点存在驾驶员时,电动汽车会被调度到最近的可用充电站或需求方节点。其中电动汽车的充电水平超过阈值b,则直接调度到需求方节点,否则调度到充电站充电[0073]s2、构建运营车辆路由决策马尔可夫决策过程,包括:[0074]s21、构建马尔可夫决策过程五元组m=《x,a,p,r,t》,分别表示状态、动作、转移概率、奖励函数和时间范围,具体表示为:[0075]状态:将系统的状态空间表示为x,将在时间t的状态表示为xt,包括每个节点的位置、相对距离、电动汽车数量、节点驾驶员数量、电动汽车充电水平以及表示是否有预期的电动汽车到达节点的二进制向量。[0076]动作:其中at是时间t运营车辆的动作空间,动作at表示为运营车辆i在时间t将要访问的节点。[0077]转移概率:转移概率函数p表示在状态xt采取动作at转移到下一时刻状态xt+1的状态转移概率p(xt+1|xt,at)。[0078]奖励函数:t时刻的奖励rt表示为运营车辆在状态xt采取动作at所得到的奖励,同时一个回合的总奖励表示为r;[0079]时间范围:当满足所有需求方节点并将所有驾驶员带回运营中心,或者总时间步数超过了预定义的最大时间步数t(其值根据网络大小设置),则一个回合终止。每个时间步t由运营车辆完成一个动作所确定。[0080]s22、状态转移过程描述为:当运营车辆选择节点不是当前节点时,则转移到下一节点时对系统状态进行更新;当运营车辆选择节点处于当前节点时,则等待下一次延迟转移的发生进而更新状态,当前时钟时间tc可以表示为:[0081][0082]式中,τ表示时间t-1到时间t时运营车辆访问节点之间的行驶时间,wt表示节点n处的等待时间,即节点n处发生延迟状态转移的时间与运营车辆到达节点n的时间之差。[0083]将奖励函数定义为在系统中花费的总时间的负数,如下所示:[0084][0085]其中τt和wt分别是时间t行驶时间和等待时间,因此总奖励表示为:[0086]根据城市网络的当前状态设置屏蔽方案,动作空间内存储可以访问的节点,其余节点被屏蔽。对于n∈n,时间t的动作空间可表示为:[0087][0088]集合et表示而具有或预期具有电动汽车的节点,集合dt表示具有或预期具有驾驶员的节点,lt表示在时间t时运营车辆中的驾驶员数量。[0089]s3、构建运营车辆路径问题的神经网络模型[0090]actor神经网络模型由编码器和解码器组成,在给定网络停靠节点n的情况下,参数化策略表示为:[0091][0092]式中,式中,表示节点n在时间t的状态,可表示为其中表示静态信息,包括节点位置坐标和供应商节点处电动汽车的初始充电水平;表示动态信息,包括节点电动汽车的数量、运营车辆中的驾驶员数量以及当前节点到其他节点的距离;yt表示在时间t要访问的节点,集合yt={y1,...,yt},φ表示函数转换关系。[0093]分别对静态信息和动态信息进行编码:[0094][0095][0096]其中bs、bd、ws、wd分别表示静态信息和动态信息编码的偏置项和权重矩阵,进而编码后的状态可表示为:[0097]使用递归神经网络进行解码,通过获取最后访问的节点的静态状态,并按如下方式存储序列:[0098][0099]其中,ht表示时间t循环神经网络的记忆状态,f表示非线性变换,可训练的权重矩阵wh和wx分别表示隐藏状态到隐藏状态和隐藏状态到输入之间的连接,采用lstm作为循环神经网络基本单元。[0100]通过注意力机制以计算下一节点访问概率:[0101][0102]其中ν和w为可训练的权重矩阵,最后采取贪婪策略,选择概率最大的点进行访问。[0103]critic神经网络模型对当前状态xt的静态信息和动态信息进行编码后,直接送入注意力层,生成当前状态价值函数vπ(xt)。[0104]s4、设计a2c强化学习算法对神经网络模型进行训练[0105]采用a2c强化学习算法对神经网络模型进行训练,训练的目的是找到使总奖励最大化的策略参数θ:[0106][0107]进而训练目标函数可表述为:[0108][0109]其中r(π|x)表示状态空间x采取策略π获得的总奖励,pθ(·|x)表示在策略参数θ情况下选择节点的概率。[0110]actor网络的目标函数梯度可表述为:[0111][0112]其中δv为td误差:δv=rt+vπ(xt+1)-vπ(xt);logpθ(π|x)表示在状态空间x下策略所采取动作对应的概率对数。critic网络采用td误差的均方误差损失函数进行更新。a2c算法框架如图3所示。[0113]训练过程中实例由数据生成器生成,actor网络在每个时间步生成运营车辆访问节点的概率,并相应地更新状态,直到回合结束。根据相应的梯度,更新actor和critic网络的参数。[0114]在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。[0115]以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部