计算;推算;计数设备的制造及其应用技术1.本发明涉及计算机视觉技术领域以及目标检测领域,具体来说是一种兼顾检测速度和检测准确率的目标检测方法。背景技术:2.目标检测算法是计算机视觉的核心基础,具有重要的研究意义与应用价值。随着深度学习的发展,计算机视觉领域也在各个领域发挥重要作用。由于传统目标检测算法通常使用基于手工设计的特征进行分类,对于目标的多样性不能很好地兼容,而经典的深度学习目标检测算法大多采用的模型体积大、参数量多、计算速度慢,如rcnn(region convolutional neural network),不能很好地集成在移动设备或嵌入式设备中,而现有轻量化模型又难以兼顾检测精度和实时性,如googlenet(google inception net)。因此设计具有高精度且速度更快的目标检测网络成为了学术研究与实际应用中亟待解决的问题。技术实现要素:3.本发明旨在解决基于深度卷积神经网络的目标检测方法的不足,提出一种兼顾检测速度和检测准确率的目标检测方法,该方法能够在保证检测准确度的情况下大幅提高检测速度,有效发挥网络在实际应用中的性能。4.本发明的目的通过以下技术方案来实现:5.一种兼顾检测速度和检测准确率的目标检测方法,包括如下步骤:6.s1,采集数据,构建数据集;7.从任务需求出发,采集数据,构建检测任务所需的数据集;8.s2,标注数据集:9.对数据集进行标注,将数据集划分为训练集、验证集和测试集;10.s3,搭建目标检测网络:11.yolo v4目标检测网络包括主干网络、特征融合网络和检测头组成,包括如下步骤:12.s3-1,在主干网络部分,利用轻量化网络mobilenet v2代替yolo v4中的主干网络进行特征提取,从而获得三个初步的不同大小的有效特征层;13.s3-2,结合协调注意力(coordinate attention,简称ca),在最小的有效特征层后添加一个协调注意空洞金字塔池化(coordinate attention atrous spatial pyramid pooling,简称caaspp);14.s4,训练网络:15.使用s2中所述的训练集和验证集对s3中的网络进行训练,得到训练完成的网络检测模型;16.s5,目标检测测试:17.使用s4中已经训练好的网络,对s2中的测试集进行测试,以检验训练结果,并对目标进行检测。18.进一步地,s2中,训练集占78-84%,验证集占6-12%,测试集占7-13%。19.进一步地,s4包括如下步骤:20.s4-1,将用于训练的图片归一化为416×416像素大小;21.s4-2,设置模型参数:22.训练迭代周期epoch的次数为100~300,初始学习率lr为3e-5~5e-5,每次放入网络训练的图片数量batch_size为4~32;23.s4-3,经过目标检测网络的backbone部分对图片进行卷积操作,获得三个有效特征图,对这三个有效特征图进行特征信息提取和融合,在融合过程中特征图经过多次上采样操作提取高维特征,再分别与不同尺度的特征融合,最后,由目标检测网络的预测头输出检测结果,得到检测模型。24.本发明的优点或有益效果:25.1.本发明针对经典的深度学习目标检测算法模型体积大、参数量多、计算速度慢,不能很好地集成在移动设备或嵌入式设备中的问题,提出了一种兼顾检测准确率和检测速度的目标检测方法,此方法采用轻量化网络替换原有的深度网络,在很大程度上降低了网络的计算量和参数量,能够大大提高对物体进行目标检测的速度,从而满足实时性检测的要求;26.2.本发明在网络中引入了注意力机制,更好地获取丰富的上下文信息,通过结合注意力机制的方法,弥补模型轻量化带来的部分精度损失,提高网络模型的准确率;27.3.本发明具有广阔的应用前景,在生物资源探测、物种保护等领域具有重要的实用价值。附图说明28.图1为本发明实施例中一种兼顾检测速度和检测准确率的目标检测方法流程图;29.图2为改进后的yolo v4算法原理图;30.图3为caaspp原理图;31.图4为ca原理图。具体实施方式32.下面结合附图和实施例对本发明内容作详细描述,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。33.实施例:34.如图1所示,一种兼顾检测速度和检测准确率的目标检测方法,包括如下步骤:35.步骤1),采集数据,构建数据集;36.通过相机或其他设备获取水下生物照片,包含所需检测的水下生物,采取相关的数据集。本发明中的仿真实验主要为水下鱼类检测,数据集使用labeled fishes in the wild鱼类数据集以及来自网络上整理的观赏鱼图片,统计共2100张鱼的图像;37.步骤2),标注数据集:38.将步骤1)中的图像人工标注为voc格式的数据集,使训练集占81%,验证集占9%,测试集占10%,其中训练集占1701张,验证集占189张,测试集占210张;39.步骤3),搭建目标检测网络:40.目标检测网络由改进的yolo v4网络构成,如图2所示,mobilenet v2代表改进后yolo v4网络的主干网络,linear bottleneck代表线性瓶颈结构,aspp代表空洞金字塔池化部分,concat代表连接操作,conv代表卷积操作,upsampling代表上采样操作,downsampling代表下采样操作,ca代表协调注意力模块,head代表检测头;41.改进后的目标检测网络与原yolo v4网络不同之处在于以下两点:42.1)主干网络由mobilenet v2代替原有的cspdarknet53进行特征提取,将生成的三个初步的有效特征层相同尺寸的特征层进行特征融合,便可以将mobilenet v2替换进yolo v4当中了,三个初步的有效特征层的大小分别为13×13×1024,26×26×512,52×52×256;43.2)在最小的有效特征层13×13×1024后添加一个caaspp。44.在检测时,只需将待检测图像输入到主干网络,最后在检测头中即可检测出是否存在待检测的目标。45.如图3所示,在caaspp中,input代表输入,conv代表卷积操作,rate代表膨胀因子,image pooling代表全局平均池化,ca代表协调注意力模块,concat代表连接操作,output46.代表输出。47.caaspp具体实现过程可以表述为以下内容:48.输入特征图映射为六个部分,分别通过四个卷积、一个池化和一个ca模块,由此得到六个特征图,将这六个特征图进行拼接操作,再通过连接1×1卷积调整通道数与输入特征图一致,即可得到输出特征图。49.对于卷积部分,采用一个1×1的卷积模块和三个3×3的膨胀因子分别为rate={1、3、5}的空洞卷积;对于池化部分,采用全局平均池化;对于ca部分,则采用ca注意力机制的计算方式。50.如图4所示,在ca模块中,x avg pool代表对水平方向上进行全局平均池化,y avg pool代表对垂直方向上进行全局平均池化,concat代表连接操作,conv2d代表二维卷积操作,batchnorm代表批量归一化操作,non-linear代表非线性处理操作,split代表分割操作,sigmoid代表激活函数。51.ca具体实现过程可以表述为以下内容:52.定义初始输入特征图为f=(h,w,c),其中h是特征图的高,w是特征图的宽,c是特征图的通道数,即空间维度。53.ca为了获取图像宽度和高度上的注意力并对精确位置信息进行编码,先将输入特征图分别在宽度(x方向)和高度(y方向)两个方向上进行全局平均池化,分别获得在宽度和高度两个方向上的特征图,如公式(1)和公式(2)所示:54.[0055][0056]其中,代表高度方向上的感知特征图,代表宽度方向上的感知特征图;其中i表示宽度方向上的每一个位置,j表示高度方向上的每一个位置;[0057]接着将获得全局感受野的宽度和高度两个方向的特征图拼接在一起,之后将拼接好的特征图送入共享的卷积核为1×1的卷积模块,并将其维度降低为原来的c/r,r表示缩放因子;然后将经过批量归一化的特征图f1送入非线性激活函数中得到形如1×(w+h)×c/r的特征图f,如公式(3)所示:[0058]f=δ(f1([zw,zh]))ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(3)[0059]其中,δ(·)表示非线性激活函数;zw代表宽度方向上的感知特征图;zh代表高度方向上的感知特征图;[0060]接着将特征图f按照原来f的高度和宽度进行卷积核为1×1的卷积分别得到通道数与原来一样的特征图fh和fw,经过sigmoid激活函数后分别得到特征图在高度方向上的注意力权重gh和宽度方向上的注意力权重gw,如下公式(4)和公式(5)所示:[0061]gh=σ(fh(fh))ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(4)[0062]gw=σ(fw(fw))ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(5)[0063]其中,σ(·)表示sigmoid激活函数,fh表示经过非线性激活函数后高度方向上的感知特征图,fw表示经过非线性激活函数后宽度方向上的感知特征图;[0064]经过上述计算后得到输入特征图在高度方向的注意力权重gh和在宽度方向上的注意力权重gw;最后在初始输入特征图上通过乘法加权计算,得到在宽度和高度方向上带有注意力权重的特征图,如公式(6)所示:[0065][0066]其中,yc(i,j)代表第c个通道上的特征图上第i行j列的坐标注意力输出,xc(i,j)代表第c个通道上的特征图上第i行j列的元素,代表第c个通道上的特征图上第i行的权重值,代表第c个通道上的特征图上第j列的权重值;[0067]步骤4),使用步骤2)中所述的带有类别与位置标签的图像数据集对改进后yolo v4网络模型进行训练,具体操作如下:[0068]a.将用于训练的图片归一化为416×416像素大小;[0069]b.设置模型参数:[0070]训练迭代周期设置为epoch=200,初始学习率设置为lr=5e-5,其中每次放入网络训练的图片设置为batch_size=8;[0071]c.经过目标检测网络的backbone部分对图片进行卷积操作,获得三个有效特征图,对这三个有效特征图进行特征信息提取和融合,在融合过程中特征图经过多次上采样操作提取高维特征,再分别与不同尺度的特征融合,最后,由目标检测网络的预测头输出检测结果,得到检测模型;[0072]d.经过200轮迭代后,损失函数趋于稳定,证明模型是可信的;[0073]步骤5),使用训练完成的改进yolo v4模型,对步骤2)中的测试集进行测试,以检验训练结果;并采用非极大值抑制方法对步骤1)中的水下鱼类进行目标检测,其中抑制值设置为0.5,经过上述步骤,可以实现在保证目标检测准确率的同时,大幅提高目标监测的实时性。[0074]以上公开的本发明的优选实施例,只是帮助阐述本发明,不限制本发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种兼顾检测速度和检测准确率的目标检测方法 专利技术说明
作者:admin
2023-06-29 22:33:55
488
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术