发布信息

少量网络参数操控参数小样本增量学习的方法、设备及介质

作者:admin      2022-07-30 19:21:32     774



计算;推算;计数设备的制造及其应用技术1.本发明涉及一种少量网络参数操控参数小样本增量学习的方法,属于计算机视觉技术领域。背景技术:2.卷积神经网络(cnn)具有精确注释和能够吸收注释信息,继而通过大规模数据集从而增加了其可用性,使得其在视觉图像识别中被广泛应用。3.然而,在对卷积神经网络训练过程中,需要提供大量的样本,即注释大量对象,注释大量对象既昂贵又费力,这也与认知学习不一致。并且,当训练完成后,需要增加新的识别类别时,又需要重新获取大量新类别的图片对卷积神经网络重新训练。4.因此,有必要提供一种增加新识别类型时,只需少量样本对卷积神经网络训练即可实现其对新类图像的有效识别的方法。技术实现要素:5.为了克服上述问题,本发明人进行了深入研究,设计出一种少量网络参数操控参数小样本增量学习的方法,包括以下步骤:6.s1、设置小样本增量学习神经网络,所述小样本增量学习神经网络通过在卷积神经网络中增加参数编码模块获得;7.s2、通过基类样本集,即具有基类标签的图片样本集,对小样本增量学习神经网络进行训练,获得基类识别网络,8.s3、将具有基类标签的图片输入基类识别网络,由基类识别网络输出图片的标签,从而获得图片中的信息;9.当需要辨识新的类型标签的图片时,即新类标签图片时,还具有步骤:10.s4、通过具有新类标签的图片样本集对基类识别网络进行训练,获得增类识别网络,11.s5、将具有基类或新类标签的图片输入增类识别网络,由增类识别网络输出图片的标签,从而获得图片的信息。12.进一步地,在s4中,新类标签的图片样本集中任一类样本的个数少于基类样本集中任一类样本的个数。13.进一步地,在s1中,所述参数编码模块设置在卷积神经网络的特征提取器与分类器之间;14.卷积神经网络的特征提取器将特征图传递至参数编码模块,通过参数编码模块对特征图编码,获得编码特征传递至分类器,分类器根据编码特征输出预测结果;15.所述参数编码模块包括少量参数控制子模块和基参数控制子模块,16.所述少量参数控制子模块用于生成图片的控制系数α,所述基参数控制子模块用于生成图片的基参数θγ,所述编码特征为控制系数α和基参数θγ的线性组合。17.优选地,所述少量参数控制子模块包括依次连接的池化层、全连接层、非线性层、全连接层和softmax层,其输出表示为:[0018][0019]α为控制系数的集合,x为特征提取器传递的特征图,θα表示不同层的网络参数的集合,其中,表示第二个全连接层参数,表示第一个全连接层参数,表示第一个全连接层的偏置,表示第二个全连接层的偏置;[0020]所述基参数控制子模块为一个卷积核或多个卷积核串联形成,将卷积核的可训练参数集合称为基参数θγ。[0021]优选地,所述编码特征θe可以表示为[0022][0023]其中,αn表示控制系数集合中不同的参数,表示基参数集合中不同的参数,n为超参数,表示集合中参数的个数。[0024]优选地,在s2中,训练过程中特征提取器中参数、基参数控制子模块的基参数θγ、少量参数控制子模块的网络参数θα均为可训练参数。[0025]优选地,在s4中,训练过程中特征提取器中参数、基参数控制子模块的基参数θγ保持不变,少量参数控制子模块的网络参数θα为可训练参数。[0026]优选地,在s4中,在训练过程中采用蒸馏损失函数。[0027]此外,本发明还提供了一种电子设备,包括:[0028]至少一个处理器;以及[0029]与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。[0030]此外,本发明还提供了一种存储有计算机指令的计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。[0031]本发明所具有的有益效果包括:[0032](1)本发明提供了一个简单而有效的方法来解决增量类别中的少量训练样本和大量训练参数之间的根本矛盾;[0033](2)本发明揭示了一种可学习的参数编码机制,使得在一组固定的基参数上生成更加丰富的特征表示成为可能;[0034](3)本发明显著地改进了准确率,获得了较好的预测性能。附图说明[0035]图1示出根据本发明一种优选实施方式的少量网络参数操控参数小样本增量学习的方法中小样本增量学习神经网络结构图;[0036]图2示出根据本发明一种优选实施方式的少量网络参数操控参数小样本增量学习的方法中少量参数控制子模块结构图;[0037]图3示实验例中实施例1与对比例7分类后的特征降维可视化结果。具体实施方式[0038]下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。[0039]在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。[0040]根据本发明提供的一种少量网络参数操控参数小样本增量学习的方法,包括以下步骤:[0041]s1、设置小样本增量学习神经网络,所述小样本增量学习神经网络通过在卷积神经网络中增加参数编码模块获得;[0042]s2、通过基类样本集,即具有基类标签的图片样本集,对小样本增量学习神经网络进行训练,获得基类识别网络,[0043]s3、将具有基类标签的图片输入基类识别网络,由基类识别网络输出图片的标签,从而获得图片中的信息;[0044]当需要辨识新的类型标签的图片时,即新类标签图片时,还具有步骤:[0045]s4、通过具有新类标签的图片样本集对基类识别网络进行训练,获得增类识别网络,即对卷积神经网络进行增量训练;[0046]s5、将具有基类或新类标签的图片输入增类识别网络,由增类识别网络输出图片的标签,从而获得图片的信息。[0047]根据本发明,所述在s4中,所述新类标签的图片样本集中,任一类样本的个数少于基类样本集中任一类样本的个数,即对卷积神经网络增量训练时,只需要少量样本即可完成有效的训练。优选地,增量训练过程中,训练用任一类样本数量仅需基类样本集中任一类样本数量的0.5~1%,例如,基类样本集中共60类样本,每类样本数量为600个,在增量训练过程中,新类标签的图片样本集中,每类样本的数量为5个即可。[0048]在本发明中,所述卷积神经网络可以为任意一种已知的卷积网络,例如resnet18、resnet20等,本领域技术人员可根据实际需要挑选适合的卷积神经网络增加参数编码模块获得小样本增量学习神经网络。[0049]进一步地,在卷积神经网络中,包含了输入层、特征提取器和分类器,其中,特征提取器用于从输入的图片中提取特征图并传递值分类器,分类器根据特征图将图片标签类型预测输出。[0050]在本发明中,不对卷积神经网络的输入层、特征提取器和分类器进行改进,仅在其中增加参数编码模块,所述参数编码模块可以增加在特征提取器之中,例如不同的块中,也可以设置在特征提取器与分类器之间。[0051]优选地,所述参数编码模块设置在卷积神经网络的特征提取器与分类器之间,如图1所示;[0052]卷积神经网络的特征提取器将特征图传递至参数编码模块,通过参数编码模块对特征图编码,获得编码特征传递至分类器,分类器根据编码特征输出预测结果;[0053]在本发明中,利用了小样本类别增量学习方法对卷积神经网络进行改进,虽然本发明与现有的小样本类别增量学习方法相同,都是利用基类训练一个模型,然后不断地通过新类样本使模型泛化到新的类,但是现有的小样本类别增量学习忽略了大量网络参数和少量训练样本之间的内在矛盾,使得神经网络存在着遗忘和欠拟合问题,如何解决上述问题,是本发明的难点所在。[0054]在本发明中,所述参数编码模块包括少量参数控制子模块和基参数控制子模块,[0055]所述少量参数控制子模块用于生成图片的控制系数α,所述基参数控制子模块用于生成图片的基参数θγ,所述编码特征为控制系数α和基参数θγ的线性组合。通过控制系数α扩大增量新类上的特征表示能力。[0056]优选地,所述少量参数控制子模块包括依次连接的池化层、全连接层、非线性层、全连接层和softmax层,如图2所示,其输出表示为:[0057][0058]α为控制系数的集合,x为特征提取器传递的特征图,θα表示不同层的网络参数的集合,其中,表示第二个全连接层参数,表示第一个全连接层参数,表示第一个全连接层的偏置,表示第二个全连接层的偏置;[0059]进一步地,少量参数控制子模块中两个全连接层用于将图像特征降维到控制系数的维度,最后的softmax层保证了输出的每组控制系数之和为1。[0060]所述基参数控制子模块为一个卷积核或多个卷积核串联形成,将卷积核的可训练参数集合称为基参数θγ。[0061]在一个优选的实施方式中,所述编码特征θe可以表示为[0062][0063]其中,αn表示控制系数集合中不同的参数,表示基参数集合中不同的参数,n为超参数,表示集合中参数的个数。[0064]在本发明中,通过引入控制系数为不同样本生成新的编码特征,利用基参数控制子模块输出的控制系数作为组合权重,将基参数按照线性加权的方式组合起来,为每一个样本生成一组独特的参数,以同时解决遗忘和欠拟合问题,具体地,[0065]在s2中,训练过程中特征提取器中参数、基参数控制子模块的基参数θγ、少量参数控制子模块的网络参数θα均为可训练参数。在s4中,训练过程中特征提取器中参数、基参数控制子模块的基参数θγ保持不变,少量参数控制子模块的网络参数θα为可训练参数。[0066]在本发明中,通过冻结特征提取器中参数和基参数来减轻基类的特征漂移,解决遗忘问题,同时微调少量参数控制子模块,以使得特征空间逐渐泛化到新类,减轻了新类上的欠拟合。[0067]根据本发明,步骤s2、s4训练过程中,与传统的卷积神经网络训练相同,通过计算预测输出与标注的损失,优选为交叉熵损失,并计算损失函数的梯度,对网络进行误差梯度反传,更新网络参数。[0068]进一步地,在s4中,与传统的小样本类别增量学习方法相同,在增加新类标签的图片后,对应增加分类器的头,使得分类器与增加后的图片种类数量相适应。[0069]根据本发明一个优选的实施方式,s4中,在训练过程中采用蒸馏损失函数,通过蒸馏损失函数进一步防止基类特征的遗忘,从而实现仅利用新类的少量样本更新少量控制参数和分类器参数,以控制特征表示向新类延展。[0070]本发明中以上描述的方法的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0071]用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0072]在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0073]为了提供与用户的交互,可以在计算机上实施此处描述的方法和装置,该计算机具有:用于向用户显示信息的显示装置 (例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。[0074]可以将此处描述的方法和装置实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统 (例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。[0075]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。[0076]应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。[0077]实施例[0078]实施例1[0079]采用公开数据集进行少量网络参数操控参数小样本增量学习实验,其中,数据集为cub200数据集。[0080]cub200为一个细粒度数据集,也是目前细粒度分类识别研究的基准图像数据集,该数据集共有11788张鸟类图像,包含200 个鸟类子类,其中用于训练由5994张图像,用于测试有5794张图像,实验中前100个类别作为基类,后100个类别作为新类。[0081]在新类训练过程中采用5-way-5-shot的设定,即每次任务包含5个新类,其中每个类有5张图像。[0082]在本实验中,采用准确率(accuracy)指标来进行性能评测,该指标为所有样本中,预测正确的概率,对于每个类,准确率的计算方式为accuracy=(tp+tn)/(tp+fn+fp+tn),其中tp、fp、fn分别代表真正类、假正类、假负类。[0083]具体地,少量网络参数操控参数小样本增量学习采用以下步骤进行:[0084]s1、设置小样本增量学习神经网络,所述小样本增量学习神经网络通过在卷积神经网络中增加参数编码模块获得;[0085]s2、通过基类样本集,即具有基类标签的图片样本集,对小样本增量学习神经网络进行训练,获得基类识别网络,[0086]s3、将具有基类标签的图片输入基类识别网络,由基类识别网络输出图片的标签,从而获得图片中的信息;[0087]s4、通过具有新类标签的图片样本集对基类识别网络进行训练,获得增类识别网络,[0088]s5、将具有基类或新类标签的图片输入增类识别网络,由增类识别网络输出图片的标签,从而获得图片的信息。[0089]进一步地,在s4中,新类标签的图片样本集中任一类样本的个数少于基类样本集中任一类样本的个数。[0090]进一步地,在s1中,卷积神经网络为resnet18网络,所述参数编码模块设置在卷积神经网络的特征提取器与分类器之间;[0091]卷积神经网络的特征提取器将特征图传递至参数编码模块,通过参数编码模块对特征图编码,获得编码特征传递至分类器,分类器根据编码特征输出预测结果;[0092]所述参数编码模块包括少量参数控制子模块和基参数控制子模块,[0093]所述少量参数控制子模块用于生成图片的控制系数α,所述基参数控制子模块用于生成图片的基参数θγ,所述编码特征为控制系数α和基参数θγ的线性组合。[0094]进一步地,所述少量参数控制子模块包括依次连接的池化层、全连接层、非线性层、全连接层和softmax层,表示为:[0095][0096]其中,α为控制系数的集合,x为特征提取器传递的特征图,表示第二个全连接层参数,表示第一个全连接层参数,表示第一个全连接层的偏置,表示第二个全连接层的偏置;[0097]所述基参数控制子模块为一个卷积核,将卷积核的可训练参数称为基参数θγ。[0098]进一步地,所述编码特征θe可以表示为[0099][0100]进一步地,在s2中,训练过程中特征提取器中参数、基参数控制子模块的基参数θγ、少量参数控制子模块的网络参数θα均为可训练参数。进一步地,在s4中,训练过程中特征提取器中参数、基参数控制子模块的基参数θγ保持不变,少量参数控制子模块的网络参数θα为可训练参数。[0101]对比例[0102]对比例1[0103]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用icarl方法进行,其中icarl在文献“icarl: incremental classifier and representation learning.in:ieee cvpr. (2017)”中提出。[0104]对比例2[0105]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用eeil方法进行,其中eeil在文献“end-to‑ꢀend incremental learning.in:eccv.(2018)”中提出。[0106]对比例3[0107]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用ncm方法进行,ncm在文献“learning aunified classifier incrementally via rebalancing.in:ieee cvpr. (2019)”中提出。[0108]对比例4[0109]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用topic方法进行,其中topic在文献“few‑ꢀshot classincremental learning.in:ieee cvpr.(2020)”中提出。[0110]对比例5[0111]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用skw方法进行,其中skw在文献“semantic‑ꢀaware knowledge distillation for few-shot class-incrementallearning.in:ieee cvpr(2021)”中提出。[0112]对比例6[0113]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用fsll方法进行,其中fsll在文献“few-shotlifelonglearning.in:aaai(2021)”中提出。[0114]对比例7[0115]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用sppr方法进行,其中sppr在文献“self-promotedprototyperefinementforfew-shotclass-incrementallearning.in:cvpr.(2021)”中提出。[0116]对比例8[0117]采用与实施例1相同的数据集进行小样本类别增量图像分类,区别在于,采用cec方法进行,其中cec在文献“few-shotincrementallearningwithcontinuallyevolvedclassifiers.in:cvpr.(2021)”中提出。[0118]实验例[0119]对比实施例1与对比例1-7的结果,如表所示。[0120]表1cub200数据集测试性能[0121]方法准确率对比例756.43实施例157.52[0122]表1示出了实施例1与对比例7在cub200数据集测试性能的结果,从表1可以看出,实施例1提高了1.09%的准确性(57.52%相较于56.43%)。[0123]表2cub200数据集各方法性能[0124][0125]表2中,实施例1与对比例1~7在cub200数据集上做了对比,可以看出实施例1比最高性能对比例8还提高了5.58%(57.86%相较于52.28%),即实施例1中的方法显著优于其它技术。[0126]图3示出了实施例1与对比例7方法分类后的特征降维可视化结果,实施例1通过引入少量参数控制子模块和基参数控制子模块,其在小样本新类训练过程中有效地减少了基类的特征漂移,从而降低了基类的遗忘。[0127]对比实施例1中s2训练、s4训练中的参数量;其中步骤s2中特征提取器、分类器参数、基参数和控制系数分别为11.2m,0.78m,9.4m和66.6k;在s4中,需要更新的参数为0.84m,仅占总参数量的1/25,大大降低了模型在新类上的过拟合。[0128]在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。[0129]在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应作广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接普通;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。[0130]以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部