发布信息

基于二阶目标检测和语义识别的货车归属识别方法与流程

作者:admin      2022-08-31 15:38:41     903



计算;推算;计数设备的制造及其应用技术1.本发明涉及车辆设别技术,具体涉及一种基于二阶目标检测和语义识别的货车归属识别方法。背景技术:2.人工智能给道路交通领域的带来了巨大变革,基于神经网络的车型识别、车牌检测、路标识别等技术已获得普遍应用,无人驾驶等先进技术也在逐渐走进人们的生活。神经网络模型的普遍在降低误判率的同时,大大减少人工劳动,避免了极端环境给人身早成的威胁。3.在无人化设备普及的浪潮下,推动人工智能技术向专用领域部署应用成为一项重要议题。在过去,对于货车车辆归属的问题需长时间人工监测,尤其在夜间、极端天气等情况下,人为监控难度较大。长时间连续人工监测易带来因疲劳等因素引起的误判。4.而目前,车辆归属识别大都以车牌识别技术为基础,但是依据车牌识别结果进行车辆归属识别,需要待识别车牌号码已存储在本单位的数据中。此外,受到摄像头拍摄角度限制,车牌号码并不一定能被捕捉到,会造成识别不及时和不准确的问题。技术实现要素:5.发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于二阶目标检测和语义识别的货车归属识别方法,本发明融合二阶目标监测和文字识别技术,依据货车车身侧面的贴标类型自主判断货车归属。6.技术方案:本发明的一种基于二阶目标检测和语义识别的货车归属识别方法,其特征在于:包括以下步骤:7.步骤1:在车辆出入口、货车停车区域等位置部署网路摄像头,并确保网络摄像头正对货车两侧,各网络摄像头通过网络模块与监控中心的神经网络推理服务器连接,神经网络推理服务器将推理结果(包括当前的摄像头图像,以及其中的车辆位置、车辆归属信息等等)推送至网路监视器;8.此处所述网路模块包括网线、交换机、路由器等组成的物理网络,通过局域网传输;所述神经网络推理服务器采用并行计算服务器,该并行计算服务器内设有nvidia计算卡、ai处理器等;9.步骤2:通过网络摄像头采集货车车身两侧图片,经人工筛选后,手工标注车身贴标的位置及类型,依据贴标位置裁剪贴标图片,并标注贴标主要内容,按一定比例(例如5:1)制作训练集和测试集;10.此处人工筛选删除车身不是正对摄像头/车贴不清晰的图片,其过程包括:通过肉眼观察,从货车车身图片中筛选出包含贴标的图片;手工标注时使用labelme开源工具,操作方式为:右键-》创建矩形-》从车贴位置的左上角拉到右下角画好矩形框-》输入贴车类别-》点击ok完成标注,labelme工具会按照矩形的坐标、尺寸,以及输入的标签,自动保存贴标位置和类型;11.步骤3:利用标注车身贴标位置的数据集来训练二阶pp-yolo目标检测模型;使用依据贴标位置裁剪得到的图片和内容标注来训练文字识别神经网络seed;12.步骤4:一阶目标检测利用公开的pp-yolo物体识别模型确定货车位置,二阶目标检测在货车位置内使用自训练好的二阶pp-yolo目标检测模型检测贴标位置及类型,并使用训练好的文字识别神经网络seed识别车标内容;13.按一定比例组合pp-yolo输出的车标类型和seed文字识别内容,确定车身贴标类型,进而确定车辆归属;14.将一阶目标检测确定的货车位置及车辆归属表述在实时视频上,推送至网络监控器显示。15.本发明只需检测货车车身的车贴,不仅可以识别到本单位车贴,对于存在车贴的外单位车辆也能做出相应的归属判定,并且加上车身车贴一般都尺寸较大,受到的摄像头拍摄角度的限制也就较小。16.进一步地,所述pp-yolo目标检测模型中的backbone骨干网络采用resnet-50_vd(将resnet50的下采样模块中shortcut分支加上均值池化层);detection neck采用特征金字塔结构实现特征融合;detection head通过3x3卷积,并在最后用1x1卷积调整通道数量;17.二阶pp-yolo目标检测模型的训练过程为:18.步骤①、通过labelme手工标注货车图片中的贴车位置和贴车类别,转换形成xml标签文件;19.步骤②、分批次将步骤①处理后的货车图片输入到未经训练的初始pp-yolo网络,使用手工标签计算如公式(1)所示的损失函数;20.l=lcross+λlbox+βlobjectꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(1)21.其中lcross表示交叉熵损失,用于计算输出类别和实际类别之间的交叉熵,lbox表示回归损失,用于计算网络输出目标位置和实际位置之间的l1距离,lobject表示置信度损失,用于判别当前边界框中是否存在目标,λ和β都是超参数;22.步骤③、重复步骤①和步骤②,直至损失函数小于预设值。23.本发明中使用开源的pp-yolo进行一阶目标检测即可实现货车位置的检测,不需要重新训练,只需要训练用于第二次识别(识别贴车位置)用到的二阶pp-yolo目标检测。24.进一步地,所述步骤3中文字识别神经网络seed的结构包括编码器、语义模块、解码器和预训练语言模型;编码器包括cnn(图5中的resnet45)主干和rnn(图5中的bilstm),通过编码器来提取视觉特征;所述语义模块从已提取的视觉特征中预测语义信息;所述预训练语言模型监督语义模块预测的语义信息;所解码器包括rnn(图5中的att-gru),用于生成识别结果的注意力机制。25.上述文字神经网络seed的训练过程为:26.步骤①、将损失函数设计,在语义模块和解码器模块中均加入监督,如公式(2)所示;27.l=lrec+γlsemꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(2)28.其中,lrec是预测概率相对于真实标签的标准交叉熵损失,lsem是预测语义信息相对于转录标签的词嵌入损失;γ是平衡损失的超参数(可临时设置为1),lsem使用简单的余弦函数计算损失,如公式(3)所示;29.其中,s表示预测的语义信息,em是真实语义的词嵌入输出;30.lsem=1-cos(s,em)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(3)31.步骤②、对二阶pp-yolo目标检测所得图片进行剪裁,得到车贴位置图片,并人工标注图片的文字内容;32.步骤③、用预训练语言模型输出的词嵌入向量对解码器进行初始化;33.步骤④、将车贴位置图片输入seed网络,将人工标注的车贴文字内容作为监督训练的标签,使用公式(2)进行端到端的有监督训练(即只需要给定网络的输入和正确标签就可进行训练);34.步骤⑤、重复步骤②、③和④,直至损失函数小于预设值。35.有益效果:本发明在固定场所出入口车辆通道、停车区域等位置布置高清视频采集设备,收集货车图片,手工标注车身贴标位置及具有标识性的问题,分别用于训练第二阶段目标检测模型和语义识别模型。在一阶目标检测阶段完成货车位置的确定,二阶目标检测阶段实现车身贴标的位置确定和类型识别,结合文字识别结果完成车身贴标类型的最终确定,依据贴标类型判定车辆归属,给出是否本单位车辆的判别结果。整体流程由采集端、网络模块及推理端协作完成,可实现无人监测,有效降低了对人工的依赖度。附图说明36.图1为本发明中硬件结构部署示意图;37.图2为本发明前期部署准备阶段示意图;38.图3为本发明中整体流程示意图;39.图4为本发明中pp-yolo网络结构示意图;40.图5为本发明中文字识别神经网络seed结构示意图;41.图6为本发明一实施例应用示意图。具体实施方式42.下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。43.如图1至图3所示,本实施例的基于二阶目标检测和语义识别的货车归属识别方法,包括以下步骤:44.步骤1:在车辆出入口、货车停车区域等位置部署网路摄像头,并确保网络摄像头正对货车两侧,各网络摄像头通过网络模块与监控中心的神经网络推理服务器连接,神经网络推理服务器将推理结果(包括训练结果和测试结果等)推送至网路监视器;45.此处所述网路模块包括网线、交换机、路由器等组成的物理网络,通过局域网传输;所述神经网络推理服务器采用并行计算服务器,该并行计算服务器内设有nvidia计算卡、ai处理器等;46.步骤2:通过网络摄像头采集货车车身两侧图片,经人工筛选后,手工标注车身贴标的位置及类型,依据贴标位置裁剪贴标图片,并标注贴标主要内容,按一定比例(例如5:1)制作训练集和测试集;47.此处人工筛选删除车身不是正对摄像头/车贴不清晰的图片,其过程包括:通过肉眼观察,从货车车身图片中筛选出包含贴标的图片;手工标注时使用labelme开源工具,操作方式为:右键-》创建矩形-》从车贴位置的左上角拉到右下角画好矩形框-》输入贴车类别-》点击ok完成标注,labelme工具会按照矩形的坐标、尺寸,以及输入的标签,自动保存贴标位置和类型;48.步骤3:利用标注车身贴标位置的数据集来训练二阶pp-yolo目标检测模型;使用依据贴标位置裁剪得到的图片和内容标注来训练文字识别神经网络seed;49.步骤4:如图4所示,一阶目标检测利用公开的pp-yolo物体识别模型确定货车位置,二阶目标检测在货车位置内使用自训练好的二阶pp-yolo目标检测模型检测贴标位置及类型,并使用训练好的文字识别神经网络seed识别车标内容;50.按一定比例组合pp-yolo输出的车标类型和seed文字识别内容,确定车身贴标类型,进而确定车辆归属;51.将一阶目标检测确定的货车位置及车辆归属表述在实时视频上,推送至网络监控器显示。52.如图4所示,本实施例的pp-yolo目标检测模型中的backbone骨干网络采用resnet-50_vd(将resnet50的下采样模块中shortcut分支加上均值池化层);detection neck采用特征金字塔结构实现特征融合;detection head通过3x3卷积,并在最后用1x1卷积调整通道数量;53.二阶pp-yolo目标检测模型的训练过程为:54.步骤①、通过labelme手工标注货车图片中的贴车位置和贴车类别,转换形成xml标签文件;55.步骤②、分批次将步骤①处理后的货车图片输入到未经训练的初始化yolo网络,使用手工标签计算如公式(1)所示的损失函数;56.l=lcross+λlbox+βlobjectꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(1)57.其中lcross表示交叉熵损失,用于计算输出类别和实际类别之间的交叉熵,lbox表示回归损失,用于计算网络输出目标位置和实际位置之间的l1距离,lobject表示置信度损失,用于判别当前边界框中是否存在目标,λ和β都是超参数;需要依据实际情况调整;58.步骤③、重复步骤①和步骤②,直至损失函数小于预设值。59.如图5所示,本实施例使用开源的开源的pp-yolo进行一阶目标检测即可实现货车位置的检测,不需要重新训练,也就是只需要训练用于第二次识别(识别贴车位置)用到的二阶pp-yolo目标检测。文字识别神经网络seed的结构包括编码器、语义模块、解码器和预训练语言模型;编码器包括cnn(图5中的resnet45)主干和rnn(图5中的bilstm),用于提取视觉特征;所述语义模块,用于从视觉特征中预测语义信息;所述预训练语言模型,用于监督语义模块预测的语义信息;所解码器包括rnn(图5中的att-gru),用于生成识别结果的注意力机制。60.上述文字神经网络seed的训练过程为:61.步骤①、将损失函数设计,在语义模块和解码器模块中均加入监督,如公式(2)所示;62.l=lrec+γlsemꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(2)63.其中,lrec是预测概率相对于真实标签的标准交叉熵损失,lsem是预测语义信息相对于转录标签的词嵌入损失;γ是平衡损失的超参数(我们把它临时设置为1),lsem使用简单的余弦函数计算损失,如公式(3)所示;64.其中,s表示预测的语义信息,em是真实语义的词嵌入输出;65.lsem=1-cos(s,em)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(3)66.步骤②、对二阶pp-yolo目标检测所得图片进行剪裁,得到车贴位置图片,并人工标注图片的文字内容;67.步骤③、用预训练语言模型输出的词嵌入向量对解码器进行初始化;68.步骤④、将车贴位置图片输入seed网络,将人工标注的车贴文字内容作为监督训练的标签,使用公式(2)进行端到端的有监督训练(即只需要给定网络的输入和正确标签就可以进行的训练);69.步骤⑤、重复步骤②、③和④,直至损失函数小于预设值。70.如图6所示,本发明的整体流程为:71.步骤①、检测货车在哪里(第一次用pp-yolo),即一阶目标检测出其货车位置,并进行裁剪等处理;72.步骤②、从货车所在位置里面检测出车贴在哪里,及车贴类型(第二次用pp-yolo),即一阶目标检测,并再次进行裁剪等处理;73.步骤③、识别贴车上的文字内容,即使用训练好的文字神经网络seed进行语义识别;74.步骤④结合②中的车贴类型和③中的文字内容判断货车归属。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部