发布信息

基于域混合对比学习的鲁棒水下目标检测方法和系统 专利技术说明

作者:admin      2023-07-05 18:33:27     575



计算;推算;计数设备的制造及其应用技术1.本发明属于机器视觉中的目标识别和智能人机交互领域,具体涉及一种基于域混合和对比学习的鲁棒水下目标检测方法和系统。背景技术:2.海洋占地球总面积的71%,海洋拥有着异常丰富的生物资源和矿产资源。然而长期以来,由于技术上的限制,人类一直集中于开发陆地上的资源,海洋中丰富的资源仍未有进行大规模开采,因此水下目标的检测起了广大研究者的兴趣。近年来,越来越多的研究团队考虑在水下机器人上搭载视觉系统,以实现更加复杂更加智能的水下工作。例如在海产品捕捞上,水下机器人可以通过摄像头得到需要捕捞的海胆、海参、扇贝等生物的位置,操控特殊的机械臂或捕捞器对海产品进行捕捞,能够大大降低人力成本,提升捕捞效率。3.在现实场景中,水下目标检测技术应用有众多难点:(1)水下数据难以采集,给水下生物进行标注往往需要更专业的知识,因此囊括多种水质场景的大规模水下数据集在工程上难以实现;(2)不同水质下的水下环境非常不同,如江、河、海拥有着不同的水质成分,导致水对不同波长光有不同的衰减率,其水质的清晰度和颜色均不一样;(3)一天不同时刻的光照条件极其不同,而水下的各种地形环境(礁石等)会导致视觉系统采集到的图像呈现出不均匀光照的现象。而在工业应用中,例如水下机器人的海产捕捞,人们希望设计的算法能够不加调整或者尽可能减少调整立即投入使用。若模型的鲁棒性不能达到要求,机器人的产品化便难以实现。而深度学习模型在自然水下环境上的实际应用可以被视作是域泛化任务:模型在一系列已知域上进行训练,却要在未知但相关的域上进行泛化。之前的大多数工作集中在将源域特征进行对齐,如最小化最大均值差异或对抗训练方法。除此之外,现有的域泛化工作集中在识别任务,对于检测任务的域泛化工作很少。因此,提升模型对于域迁移的鲁棒性是必不可少的。技术实现要素:4.本发明的内容是使用一个域泛化训练框架——域混合对比训练(domain mixup and contrastive learning,dmc)方法和对比学习的方法来解决水下目标检测的域泛化问题。5.本发明的技术方案如下:6.一种基于域混合对比学习的鲁棒水下目标检测方法,其步骤包括:7.利用条件双边风格迁移(conditional bilateral style transfer,cbst)模型将一张水下图像从一种域转换到另外一种域,得到成对图像;8.将成对图像输入参数共享的骨干网络中,提取出成对特征;9.将域混合(domain mixup,dmx)作用于特征层面,将两个不同的域的图像的成对特征进行插值,以合成新的域的数据,从而通过cbst和dmx增加训练数据的域多样性;10.将空间选择性间隔对比损失(spatial selective marginal contrastive loss,ssmc loss)作用于成对特征,对域相关信息进行正则化;11.利用条件双边风格迁移和域混合得到的训练数据,采用空间选择性间隔对比损失训练水下目标检测模型;12.利用训练完成的水下目标检测模型进行水下目标检测。13.更进一步,本发明的域泛化训练框架是基于水下图像成像模型ifm的推理结果,一张水下环境的图像是可以由其他环境的水下图像通过线性加权的方式进行结合。因此,本发明使用了一个风格迁移模型,即cbst,其输出是一个在颜色空间上的线性变换矩阵而非直接输出一个完整的图像,并将此用于将水下图像从一种水质(域)转换到另外一种水质(域),增加训练数据的域多样性。14.更进一步,所述域混合采用混合(mixup)操作将不同域在特征层面上进行线性加权,可以在域流形上采样新的域。15.更进一步,所述空间选择性间隔对比损失有选择性地作用于来自不同域的特征,以捕捉域无关的特征,但同时保留了模型的辨别能力。使用本方法可以极大提高模型的域泛化能力。各种综合实验体现了本方法能够辅助模型学习域无关的表征,并且超越其他域泛化方法的性能。16.更进一步,本发明可以将dmc应用在yolov3和faster r-cnn+fpn上,这两个是分别是广泛使用的一阶段检测器和二阶段检测器。其中一阶段检测器是指直接对图像输出检测目标的坐标和类别的检测器;二阶段检测器是指在第一阶段使用区域提议网络作为坐标预回归和前景筛选,且在第二阶段进行分类和精细坐标回归的检测器。一阶段检测器和二阶段检测器的区别在于检测头(detection head)的不同,而本发明的方法只对骨干网络上进行操作。一阶段检测器和二阶段检测器这两者都在nvidia gtx 1080ti gpu和pytorch环境进行训练。对于yolov3,模型会以批大小8来训练100个epochs(一个epoch是使用训练集中的全部样本训练一次)。使用adam作为优化器,学习率设置为0.001,β1和β2分别被设为0.9和0.999。使用多尺度训练,多尺度是指在训练过程中,不断变换输入图像的尺寸,使得模型的输出能够获得尺寸不变性。iou、置信度和非极大值抑制值分别设为0.5,0.02和0.5。使用累积梯度技术,每两次迭代才进行一次梯度下降。dmx在darknet的第36、46、55和71层进行。ssmc loss应用到第71层。对于faster r-cnn,模型会以批大小4来训练24个epochs。使用sgd作为优化器,学习率、动量和权重衰减分别设为0.02,0.9和0.0001。iou、置信度、非极大值抑制阈值分别被设为0.5、0.05和0.5。dmx在resnet50的最后三个阶段之后进行。ssmc loss应用在resnet50的最后一层。17.一种基于域混合对比学习的鲁棒水下目标检测系统,其包括:18.风格迁移模块,用于利用条件双边风格迁移模型将一张水下图像从一种域转换到另外一种域,得到成对图像;19.域混合模块,用于将成对图像输入参数共享的骨干网络中,提取出成对特征,并采用域混合对两个不同域的图像的成对特征进行插值;20.模型训练模块,用于将空间选择性间隔对比损失作用于成对特征,对域相关信息进行正则化;利用所述条件双边风格迁移和所述域混合得到的训练数据,采用所述空间选择性间隔对比损失训练水下目标检测模型;21.检测模块,用于利用训练完成的所述水下目标检测模型进行水下目标检测。22.本发明的技术效果是:23.本发明实现了基于域混合对比学习的鲁棒水下目标检测方法和系统,即提出的风格迁移模型cbst可以将图像从一种域转换成另外一种域,提高了训练数据的域多样性;提出的数据增强方法dmx通过对现有域进行插值,对域流形进行采样,并且通过正则化项ssmc loss,对骨干网络中得到的域特定信息进行正则化。本发明中cbst的效果图如图4所示,可以看出本发明的风格迁移方法的质量效果最好。本发明通过域混合对比训练来极大提高模型的域泛化能力,能够辅助模型学习域无关的表征,并且超越其他域泛化方法的性能。附图说明24.图1是域混合对比训练流程图;25.图2是条件双边风格迁移的模型结构图;26.图3是空间选择性对比损失的流程图;27.图4是本发明和其他风格迁移方法的质量对比图,其中content表示内容图像,type2、type4、type6表示三种不同的水质风格。具体实施方式28.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。29.如图1所示,为本发明的域混合对比训练流程图。本实施例所采用的检测器为faster r-cnn,主要包含三个主要模块:条件双边风格迁移(cbst)、域混合和空间选择性间隔对比损失。首先从一个域获得的图像先被送进cbst中转换成另外一种源域,得到成对图像。其次成对图像送进参数共享的骨干网络中,提取出成对特征,dmx将成对特征进行插值,可以从源域构成的域凸包中获取新的域。最后ssmc loss作用于成对特征上,可以对域相关信息进行正则化。30.(1)条件双边风格迁移31.根据水下图像成像原理,水下图像的形成可以建模为:32.iλ(x)=jλ(x)·tλ(x)+((1-tλ(x))·bλ,λ∈{red,green,blue}ꢀꢀꢀꢀꢀꢀꢀꢀ(1)33.其中x是水下图像i上的一个坐标点,iλ(x)表示被摄像头获取的图像上x点的值(图像上λ通道的值,其范围为[0,255],λ通道是指红、绿、蓝三个通道中的一个通道),jλ(x)是隐式清晰图像j在点x上的值,tλ(x)是点x上从水下场景反射到相机的残差能量比,bλ是背景光。根据上述公式可知,水下图像i可以被视作是清晰图像j的在颜色空间上的线性变换,换句话说,两个水下图像之间也可以通过特定的线性变换互相转换。因此,提出了条件双边风格迁移以合成水下图像,其从低分辨率风格图像中学习一个局部颜色仿射换,应用于高分辨率内容图像上。cbst的设计是基于实时风格迁移模型bst,参见“xia,xide,et al."joint bilateral learning for real-time universal photorealistic style transfer."computer vision–eccv 2020:16th european conference,glasgow,uk,august 23–28,2020,proceedings,part viii 16.springer international publishing,2020.”。相比于bst,cbst有两个主要的改进。[0034]第一个改进是使用了条件实例归一化(conditional instance normalization,cin)替代了自适应实例归一化(adaptive instance normalization,adain)。其中,cin参见“johnson j,alahi a,fei-fei l.perceptual losses for real-time style transfer and super-resolution.european conference on computer vision(eccv),2016:694-711”,adain参见“huang x,belongie s.arbitrary style transfer in real-time with adaptive instance normalization.ieee international conference on computer vision(iccv),2017:1501-1510”。原bst模型中所有的adain都被置换成了cin。cin的数学表达式为:[0035][0036]其中,μ和σ是x的空间维度的均值和标准差,γs和βs是风格s的缩放和平移参数。使用cin的模型会更加容易训练,消耗更少的推理时间,因为省略了一次从vgg提取特征的过程。[0037]第二个改进是cbst提出了掩码损失,即在损失函数中增加掩码损失。风格迁移会让图像变得非常风格化,导致最终输出图像的语义内容都产生了变化。检测器在过度风格化到已经改变了实际内容的图像上训练反而会造成和标注的不匹配,最终导致性能下降。[0038]cbst的模型结构如图2所示,对其工作过程具体说明如下:[0039]首先,一个低分辨率内容图像ic,送进已经预训练好的vgg19,提取特征fconv1_1,fconv2_1,fconv3_1和fconv4_1。[0040]第二,fconv1_1被送进三个连续的印迹模块(splatting block,sb)。每一个sb包含一个步幅为2的卷积层、一个cin和一个步幅为1的卷积层。另外,在经过cin之后的fconv2_1,fconv3_1和fconv4_1会被加到三个sb的顶部通路。在三个sb之后,跟着两个额外的卷积。其公式如下:[0041]f1=s1(fconv1_1,fconv2_1)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(3)[0042]f2=s2(f1,fconv3_1)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(4)[0043]f3=s3(f2,fconv4_1)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(5)[0044]f4=c1(c2(f3))ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(6)[0045]其中,s1,s2和s3表示三个sb,c1和c2表示两个额外的卷积层。[0046]第三,网络被分割成两个不对称的路径:一个局部路径,一个全局路径。局部路径由全卷积网络构成,用以学习颜色变换,以及设置网格分辨率。全局路径包含卷积和全连接层,考虑了所有像素的特征去学习了场景的一个总结性的特征,可以对颜色变换进行正则化:[0047][0048]其中,l和g分别是是局部特征和全局场景总结,表示concatenation操作。f和t是两个卷积层,a是输出特征图,a可以被视作一个16×16×8的双边仿射变换网格(affine bilateral grid),每一个网格单元包含12个元素,可以被写成一个3×4的仿射颜色矩阵,即[0049]第四,一个全分辨率的内容图像ic,full送进了指导图辅助网络(guidance map auxiliary network,以p代替)去获得指导图g:[0050]g=p(ic,full)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(8)[0051][0052]其中,h和w是ic,的高和宽,[x,y]是内容图像的像素坐标。sx和sy是网格维度相对于全分辨率图像的维度的宽比率和高比率,τ(·)=max(1-|·|,0),d表示网格深度,d=8,k表示网格深度索引。[0053]第五,将颜色仿射变换应用到内容图像上,[0054][0055]其中,ic是内容图像,是输出图像,是输出图像,指矩阵乘法,[:]指矩阵切片运算。[0056]cbst的损失函数分为四部分:内容损失、风格损失、双边空间拉格朗日正则项和掩码损失。内容损失和风格损失的表达式为:[0057][0058][0059]其中,nc和ns是从预训练vgg19中选出来以代表图像内容和风格的中间层的数量,fi[o]表示输出图像的在vgg第i层特征,fi[ic]表示内容图像在vgg第i层的特征,fi[is]表示风格图像在vgg第i层的特征,μ表示均值运算,σ表示标准差运算。双边空间拉格朗日正则项的表达式为:[0060][0061]其中,a[s]是双边网格的一个单元格,a[t]是它其中的一个近邻。双边空间拉格朗日正则项惩罚双边网格6个近邻的不同。掩码损失旨在阻止重要语义信息的变化:[0062][0063][0064]其中,表示目标框创造的掩码。cbst的总损失为:[0065]l=λclc+λsalsa+λrlr+λmasklmaskꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(16)[0066]在实验中,超参数λc、λsa、λr和λmask分别被设为0.5,1,0.015和1。[0067]本发明中cbst的效果图如图4所示,可以看出本发明的风格迁移方法的质量效果最好。[0068](2)域混合[0069]cbst可以实现图像层次的数据增强,但数据集中源域提供的域多样性仍然很有限。为了进一步丰富数据集中的域多样性,可以在特征层面上采样更多的域。通过cbst,可以得到原始图像i1以及它对应的生成图像i2。在骨干网络中,i1和i2的特征包括两部分的信息:域信息和语义信息。其中域信息是指和检测任务无关的信息,如水质、光照等,语义信息是指和检测任务相关的信息,如类别、物体的形状等。因为i1和i2的标注框是一样的,因此可以认为其语义信息也是一样的,而其无关的域信息是不同的。如果将i1和i2的隐层特征进行插值,语义信息不会改变,而域信息进行插值。因为域流形在隐层空间上更加平缓,线性插值可以在域凸包生成更多新域。其中域流形是指域的分布在隐式空间上组成的一个流形(manifold),而在平缓的域流形的局部,可近似看成一个平面,由这个平面上的多个点组成的凸包(convex hull)称为域凸包。k=k1,k2,…,kn]表示骨干网络中选中用于进行混合的层。将i1和i2同时送进骨干网络中(主流和支流,如图1所示)。支流上的特征可以用于增强主流上的特征。[0070]在主流上,第k层的隐层特征可以表示为:[0071][0072]其中,h1,k-1表示主流上第k-1层的特征值。[0073]在支流上,隐层特征可以表示为:[0074]h2,=fk(h2,)(18)[0075]其中,h1,k和h2,k分别是是第k层主流和支流的特征图,λk~betaα,α)是第k层的混合比率,α∈(0,∞),即λk采样自beta分布,其分布的两个参数均为α。fk表示骨干网络的第k层。使用混合后的特征(第k层的h1,k)送进检测头中。梯度反向传播的路径采用同时对主流和支流做梯度反向传播的方式。[0076](3)空间选择性间隔对比损失[0077]给定两张有着同样语义但来自不同域的图像,可以假定其通过骨干网络提出的隐式特征都是相同的。使用对比学习的思路设计空间选择性间隔对比损失(ssmc loss)。具体而言,对于原图像i1和其对应图像i2,空间对比损失(spatial contrastive loss,scloss)的计算方式如下:[0078][0079]其中,f表示骨干网络,h,w,c分别是特征图的高、宽和通道大小。||·||表示l2归一化。然而,过于受限的正则化会对检测器的辨别能力有负面影响。为了解决这一问题,本发明提出两个解决方法。首先,可以选择那些有着最高变化值的像素进行正则化。因此可以将sc loss改进为空间选择性对比损失(spatial selective contrastive loss,ssc loss):[0080]v=f(i1)-f9i2))1(20)[0081][0082]其中,v表示方差矩阵,vj是v的第j个通道,kmaxpooling可以定义为:[0083][0084]其中,topk(h)是特征图h中最大的k个点的值,k(h×w/16)。其中k是需要设置的超参数,h、w表示特征图的高和宽。[0085]其次,再将间隔概念引入到ssc loss中,让所有空间方差都限制在一定的间隔之内,而非直接优化至0,可以得到空间选择性间隔对比损失(spatial selective marginal contrastive loss,ssmc loss):[0086][0087]其中,δ表示间隔约束。[0088]本发明的空间选择性间隔对比损失,选择成对特征空间方差的最大k个点进行间隔约束,k为特征图像素点的1/16。所述的成对特征空间方差为两成对图像输入到同一个骨干网络中,在骨干网络的中间层提取出来的特征。所述的间隔约束,在成对特征图的像素级计算成对特征空间方差,其中小于δ的值当作0来处理。[0089]如图3所示,为ssmc loss的流程图,提出的ssmc loss可以正则化域相关的像素,并且允许一定的空间以维持网络的辨别能力。整个目标检测网络的总损失为:[0090]ltotal=lssmc+lrpn_+lrpn_+lcls+lreg(24)[0091]其中,lrpn_和lrpn_表示rpn的分类损失和回归损失,lcls和lreg表示r-cnn头的分类损失和回归损失。[0092]表1为本方法(dmc)和其他方法在suodac2020数据的对比,基于一阶段检测器yolov3和二阶段检测器faster r-cnn实现对比,可以看出,本发明提出的方法分类正确率最高。[0093]表1.本发明和其他方法的对比[0094][0095]本发明的另一实施例一种基于域混合对比学习的鲁棒水下目标检测系统,其包括:[0096]风格迁移模块,用于利用条件双边风格迁移模型将一张水下图像从一种域转换到另外一种域,得到成对图像;[0097]域混合模块,用于将成对图像输入参数共享的骨干网络中,提取出成对特征,并采用域混合对两个不同域的图像的成对特征进行插值;[0098]模型训练模块,用于将空间选择性间隔对比损失作用于成对特征,对域相关信息进行正则化;利用所述条件双边风格迁移和所述域混合得到的训练数据,采用所述空间选择性间隔对比损失训练水下目标检测模型;[0099]检测模块,用于利用训练完成的所述水下目标检测模型进行水下目标检测。[0100]本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。[0101]本发明的另一实施例提供一种计算机可读存储介质(如rom/ram、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。[0102]本发明的其他实施方式:[0103](1)风格迁移方法可以采用其他类型的真实风格迁移模型,也可以使用直接在hsv空间进行扰动得到新图像。[0104](2)域混合的线性混合系数可以为其他分布采样而得。[0105](3)域混合也可以使用非线性加权实现。[0106](4)域混合可以使用主流中域混合前的特征输入到检测头中。[0107](5)域混合可以只对主流进行梯度反向传播。[0108](6)本发明不仅限于在faster r-cnn和yolov3上实现,也可以在其他一阶段和二阶段检测器框架下使用,例如retinanet等。[0109]以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部