计算;推算;计数设备的制造及其应用技术3d姿态检测模型的训练方法以及3d姿态检测方法技术领域1.本公开涉及计算机视觉技术领域,具体涉及了一种3d姿态检测模型的训练方法以及3d姿态检测方法。背景技术:2.活体3d检测通常通过识别活体的3d骨骼识别实现,活体的3d骨骼识别是指通过技术手段自动识别活体(如人体、猫、狗、兔)的3d骨骼点,将预测的3d骨骼点用于构建虚拟动物、3d动物动画生成、3d宠物道具效果驱动等。3.单目相机是用来为活体拍照的主要工具,但是目前包括智能手机在内的单目相机是主流的图像采集手段,获得的数据是3d世界在二维世界的投影,即2d图像,目前对于采用2d图像进行3d姿态检测的技术还鲜有报道。技术实现要素:4.针对上述情况,本技术实施例提供了一种3d姿态检测模型的训练方法以及3d姿态检测方法,以克服或者部分克服现有技术的不足之处。5.第一方面,本技术实施例提供了一种3d姿态检测模型的训练方法,所述方法包括:6.获取训练样本集,所述训练样本集包括多组动画数组,各组动画数组包括3d动画和由所述3d动画生成的连续多帧2d图像,其中,3d动画的各帧标注有3d骨骼点和3d先验姿态,各帧2d图像标注有2d骨骼点;7.获取3d姿态检测初始模型,所述3d姿态检测初始模型包括依次连接的姿态初步处理网络和姿态优化处理网络,其中,姿态优化处理网络包括依次连接的多级特征提取和转化层和结果输出层,所述姿态初步处理网络与所述各层特征提取和转化层的计算单元结构一致;8.将所述训练样品集输入所述3d姿态检测初始模型进行训练,得到所述3d姿态检测模型。9.第二方面,本技术实施例还提供了一种3d姿态检测方法,包括:10.获取待检测对象的2d视频流;11.基于滑窗方式,采用预设数量的队列确定所述2d视频流中的连续多帧图像作为当前待识别视频流;12.采用上述的训练方法得到的3d姿态检测模型对所述当前待识别视频流进行识别,获得活体的3d姿态检测结果,所述3d姿态检测结果包括3d骨骼点以及3d姿态。13.第三方面,本技术实施例还提供了一种3d姿态检测模型的训练装置,所述3d姿态检测模型的训练装置包括:14.样本获取单元,用于获取训练样本集,所述训练样本集包括多组动画数组,各组动画数组包括3d动画和由所述3d动画生成的连续多帧2d图像,其中,3d动画的各帧标注有3d骨骼点和3d先验姿态,各帧2d图像标注有2d骨骼点;15.模型获取单元,用于获取3d姿态检测初始模型,所述3d姿态检测初始模型包括依次连接的姿态初步处理网络和姿态优化处理网络,其中,姿态优化处理网络包括依次连接的多级特征提取和转化层和结果输出层,所述姿态初步处理网络与所述各层特征提取和转化层的计算单元结构一致;16.训练单元,用于将所述训练样品集输入所述3d姿态检测初始模型进行训练,得到所述3d姿态检测模型。17.第四方面,本技术实施例还提供了一种3d姿态检测装置,所述3d姿态检测装置包括:18.视频获取单元,用于获取待检测对象的2d视频流;19.对象确定单元,用于基于滑窗方式,采用预设数量的队列确定所述2d视频流中的连续多帧图像作为当前待识别视频流;20.预测单元,用于采用上述任一项所述的训练方法得到的3d姿态检测模型对所述当前待识别视频流进行识别,获得活体的3d姿态检测结果,所述3d姿态检测结果包括3d骨骼点以及3d姿态。21.第五方面,本技术实施例还提供了一种电子设备,包括:22.处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述的3d姿态检测模型的训练方法或者3d姿态检测方法。23.第六方面,本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被包括多个应用程序的电子设备执行时,使得电子设备执行上述任一所述的3d姿态检测模型的训练方法或者3d姿态检测方法。24.本技术实施例采用的上述至少一个技术方案能够达到以下有益效果:25.本技术提供了设计了一种3d姿态检测模型,该模型包括依次连接的姿态初步处理网络和姿态优化处理网络,其中,姿态优化处理网络包括依次连接的多级特征提取和转化层和结果输出层,所述姿态初步处理网络与所述各层特征提取和转化层的计算单元结构一致;通过采用包括多组动画数组的训练样本集对其进行训练,其中,在训练样本集中包括多组动画数组,各组动画数组包括3d动画和由所述3d动画生成的连续多帧2d图像,其中,3d动画标注有3d骨骼点和3d先验姿态,各帧2d图像标注有2d骨骼点,从而得到活体的3d姿态检测模型,该模式可以实现活体的2d图像到3d预测结果的转化,可适用于人体和宠物等活体的姿态的识别,可以快速、准确地检测到图像中包含的活体的骨骼点以及活体的姿态类别;且该模型计算量小、算力要求低,可不依赖服务器端,无需占用大量带宽资源;且可以用于多种场景,如宠物姿态识别、人体运动姿态识别等等多种,弥补现有技术中3d姿态识别的空白,显著提高了用户的使用感受和趣味性。附图说明26.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:27.图1示出了根据本技术的一个实施例的3d姿态检测模型的训练方法的流程示意图;28.图2示出了根据本技术的一个实施例的3d姿态检测初始模型的结构示意图;29.图3示出了根据本技术的一个实施例的计算单元的结构示意图;30.图4-a示出了根据本技术的一个实施例的训练样品集在3d姿态检测初始模型的数据流转的示意图;31.图4-b示出了根据本技术的另一个实施例的训练样品集在3d姿态检测初始模型的数据流转的示意图;32.图5示出了根据本技术的一个实施例的3d姿态检测方法的流程示意图;33.图6示出了根据本技术的一个实施例的3d姿态检测结果的示意图;34.图7示出了根据本技术的一个实施例的3d姿态检测模型的训练装置的结构示意图;35.图8示出了根据本技术的一个实施例的3d姿态检测装置的结构示意图;36.图9示出了本技术实施例提供的一种电子设备的结构示意图。具体实施方式37.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。38.以下结合附图,详细说明本技术各实施例提供的技术方案。39.活体姿态的识别越来越多的应用于人们生活中的多种场景,如人体运动动作的识别、宠物姿态的识别等等。40.但现有技术中,对于活体的姿态识别主要集中于二维空间,而对于活体的3d姿态识别尚没有成熟的技术可以参考。以宠物姿态的识别为例,活体动物3d骨骼识别是指通过技术手段自动识别活体动物(主要是猫、狗、兔)的3d骨骼点,3d骨骼点预测可以用于构建虚拟动物,3d动物动画生成、3d宠物道具效果驱动等。人类双眼基于双目视差原理,能够看到真实世界的远近层次关系,从而获得对真实世界的3d认知;基于类似原理的双目相机也能够获得3d认知。智能手机等单目相机动物主人特别是宠物主人常用来为动物拍照的主要工具,但是目前包括智能手机在内的单目相机是主流图像采集手段,获得的数据是3d世界在二维世界的投影,是2d图像。另外,由于动物的配合性较差,获得活体动物3d骨骼点也存在诸多困难。活体动物具有形体小,移动速度快、自由不受控制体态小,图像及姿态数据获取不易等问题,活体动物3d姿态识别相对来说是一个全新的领域。41.对此,本技术提供了一种3d姿态检测模型的训练方法,图1示出了根据本技术的一个实施例的3d姿态检测模型的训练方法的流程示意图,从图1可以看出,本技术至少包括步骤s110~步骤s130:42.步骤s110:获取训练样本集,所述训练样本集包括多组动画数组,各组动画数组包括3d动画和由所述3d动画生成的连续多帧2d图像,其中,3d动画的各帧标注有3d骨骼点和3d先验姿态,各帧2d图像标注有2d骨骼点。43.本技术的主要构思在于,提供一种3d姿态检测初始模型,通过训练样本集对该模型进行训练,得到可以实现2d数据到3d数据的转化和识别,从而确定出活体在三维空间的多个骨骼点的坐标以及姿态检测。44.首先构造训练样本集,训练样本集包括多组动画数组,在一些实施例中,动画数组可以由但不限于由3d动画设计师依据经验生成,和真实世界数据神似,并不完全一致。一个3d动画对应着连续多帧2d图像,这些2d图像根据相机在特定视角情况下3d动画在特定平面的投影计算得出。45.以3d动画中的对象为宠物为例,对于3d动画的每一帧中的宠物进行骨骼点以及姿态进行标注,这里将标注的骨骼点记为3d骨骼点,将标注的姿态记为3d先验姿态,在一些实施例中,对可以对目标宠物的3d骨骼点和姿态类型进行标注。其中,针对3d骨骼点,标注位置可以为但不限于:46.(1)头部:1头顶,2左耳尖,3左耳前根部,4左耳后根部,5右耳尖,6右耳前根部,7右耳后根部,8左眼,9右眼,10鼻子,11嘴巴;其中,每个耳朵标注3个点,形成一个3角形耳朵,类似于人耳朵的3个点(耳尖,耳根前或上部,耳根后或下部)。47.(2)脖子:12脖子上端,13脖子下端。48.(3)躯体:14左后腿根部,15右后腿根部,16左前腿根部,17右前腿根部,18前腿对应的背顶,19后腿对应的背顶。49.(4)四肢:20左后腿肘,21右后腿肘,22左前腿肘,23右前腿肘,24左后腿脚,25右后腿脚,26左前腿脚,27右前腿脚,相当于人的胳膊肘和手掌、腿的膝盖和脚掌。50.(5)尾巴:28尾巴根部,29尾巴中部,30尾巴尾部;31根部和中部的中心点,32中部和尾部的中心点;其中,骨骼关键点有三种状态:可见、不可见、以及不在图内或不可推测。51.针对姿态类型,3d先验姿态类型可以为卧倒、跳跃、觅食、交友、摇尾巴、玩耍等等。其中,目标宠物的3d骨骼点和3d先验姿态类型可以根据实际需要进行设置,此处仅为示例性说明。比如,姿态类型还可以包括平躺、进食等等。52.对于各帧2d图像标注的2d骨骼点,与其在3d动画中的对应帧的3d骨骼点一一对应即可。53.步骤s120:获取3d姿态检测初始模型,所述活体3d姿态检测初始模型包括依次连接的姿态初步处理网络和姿态优化处理网络,其中,姿态优化处理网络包括依次连接的多级特征提取和转化层和结果输出层,所述姿态初步处理网络与所述各层特征提取和转化层的计算单元结构一致。54.本技术设计了一种3d姿态检测模型,在进行训练时,首先为3d姿态检测模型的各权重参数随机赋值,将赋值后的模型记为3d姿态检测初始模型,经过训练后,即可得到3d姿态检测模型,训练前后,模型的结构不会发生变化,只是对各权重参数进行了调整。55.图2示出了根据本技术的一个实施例的3d姿态检测模型的结构示意图,从图2可以看出,3d姿态检测模型200包括依次连接的姿态初步处理网络210和姿态优化处理网络220,其中,姿态初步处理网络210的输入端作为模型整体的输入端,姿态初步处理网络210的输出端连接姿态优化处理网络220的输出端,且姿态优化处理网络220的作为模型的输出端;其中,姿态优化处理网络220包括多级特征提取和转化层221和结果输出层222,其中,姿态初步处理网络210可以包含一个或者多个计算单元,由于姿态初步处理网络210只是对图像进行简单的预处理,因此为了节省算力,通常为姿态初步处理网络210部署一个计算单元;每一级的特征提取和转化层221至少包含一个计算单元,优选的包括两个或者两个以上的计算单元,以上所述的计算单元的结构是一致。56.在本技术的一些实施例中,计算单元可以是现有的卷积神经网络的任意一种,在本技术的另一些实施例中,推荐了一种计算单元的结构,从图3示出了根据本技术的一个实施例的计算单元的结构示意图,可以看出计算单元300包括依次连接的卷积算子层310、批量标准化层320、激活函数层330、以及随机失活函数层340,其中,卷积算子层310用于特征提取;卷积算子层310后接批量标准化层320,批量标准化层320由batchnorm算子构成,用于对输入特征进行归一化,防止激活函数relu激活时梯度弥散;批量标准化层320后接激活函数层330,其中的激活函数relu用于加入非线性因素,提高模型的表达能力;激活函数层330后接随机失活函数层340,其中的随机失活函数dropout,用于将来自不同模型的估计值或预测值按一定的权重进行平均,避免过拟合。57.结果输出层222主要用于对姿态初步处理网络210的输出进行图像大小、以及坐标归一化的处理等。58.步骤s130:将所述训练样品集输入所述3d姿态检测初始模型进行训练,得到所述3d姿态检测模型。59.将训练样品集中的各组动画数据对应的输入3d姿态检测初始模型中,对该模型进行训练,即可得到3d姿态检测模型。60.首次训练随机为3d姿态检测初始模型的权重数据赋值,可以将训练样品集的各组动画数组依次送入模型中,也可以将各组动画数据分成多个批次每次送入模型中多组进行训练,以一组3d动画数组为例,通过预测得到一个3d预测图像,该图像以一个向量的形式体现,在该3d预测图像中包含预测得到的3d预测骨骼点和3d预测姿态,在对应的3d动画数组中,对其标注了先验的3d骨骼点和3d先验姿态,代入损失函数可以确定出损失函数的值,通过损失函数的值对模型的各个权重参数值进行反向传播,实现模型权重参数的更新,将训练样品集中的全部数据预测完毕,或者达到一定的训练要求,如损失函数的值小于预设的阈值,则可以确定训练结束,即可得到训练好的3d姿态检测模型。61.由图1所示的方法可以看出,本技术提供了设计了一种3d姿态检测模型,该模型包括依次连接的姿态初步处理网络和姿态优化处理网络,其中,姿态优化处理网络包括依次连接的多级特征提取和转化层和结果输出层,所述姿态初步处理网络与所述各层特征提取和转化层的计算单元结构一致;通过采用包括多组动画数组的训练样本集对其进行训练,其中,在训练样本集中包括多组动画数组,各组动画数组包括3d动画和由所述3d动画生成的连续多帧2d图像,其中,3d动画标注有3d骨骼点和3d先验姿态,各帧2d图像标注有2d骨骼点,从而得到活体的3d姿态检测模型,该模式可以实现活体的2d图像到3d预测结果的转化,可适用于人体和宠物等活体的姿态的识别,可以快速、准确地检测到图像中包含的活体的骨骼点以及活体的姿态类别;且该模型计算量小、算力要求低,可不依赖服务器端,无需占用大量带宽资源;且可以用于多种场景,如宠物姿态识别、人体运动姿态识别等等多种,弥补现有技术中3d姿态识别的空白,显著提高了用户的使用感受和趣味性。62.以下以图2示出了的3d姿态检测模型为例,对训练样品集在3d姿态检测初始模型的数据流转进行更加详细的说明,具体的,在本技术的一些实施例中,所述将所述训练样品集输入所述3d姿态检测初始模型进行训练,得到所述3d姿态检测模型,包括:将各组动画数组输入所述姿态初步处理网络;基于所述姿态初步处理网络,对所述动画数组中的连续多帧2d图像进行图像大小同化处理,得到连续多帧2d中间图像;基于所述姿态优化处理网络,对所述连续多帧2d中间图像进行多级特征提取以及融合转化、以及坐标归一化处理,得到3d预测图像,所述3d预测图像包括3d预测骨骼点和3d预测姿态;根据所述3d预测图像和所述3d动画,确定损失函数值,并根据所述损失函数值对所述活体3d姿态检测初始模型进行反向传播,得到所述宠物姿态识别模型。63.请参考图4-a,图4-a示出了根据本技术的一个实施例的训练样品集在3d姿态检测初始模型的数据流转的示意图,从图4-a可以看出,以一组动画数组为例,该组动画数组首先进入姿态初步处理网络210,姿态初步处理网络210的主要目的是将不同大小的图像处理为相同的大小,以便后续的进一步处理,将姿态初步处理网络210输出的连续多帧图像记为连续多帧2d中间图像;然后使连续多帧2d中间图像输入姿态优化处理网络220中,使得连续多帧2d中间图像依次经过每一级的特征提取和转化层221的处理,需要说明的是,特征提取和转化层221对图像进行特征提取时,是一个降维的过程,如连续多帧2d中间图像的数量为243,每经过一个特征提取和转化层221,其数量会减少为原来的三分之一,如经过4层特征提取和转化层221,则末级的特征提取和转化层221输出的图像的数量为3张,这3张图像被输入结果输出层222,模型计算输出的是3d骨骼点数据以及对应的预测姿态分类结果,其中,对3d骨骼点数据进行了归一化,每个骨骼点保存为例如相对宠物的尾巴根为基准的三维坐标(x,y,z)。64.在本技术的另一些实施例中,为了实现特征的跨级传播,所述各级特征提取和转化层对所述连续多帧2d中间图像进行相邻时序帧之间关联关系的提取,得到多帧3d特征图像,包括:基于首级特征提取和转化层,分别对所述连续多帧2d中间图像中的多组连续多帧图像进行特征提取以及信息融合,得到第一融合图像组;对所述第一融合图像组和所述连续多帧2d中间图像进行特征融合,并基于第二级特征提取和转化层,分别对融合后的第一融合图像组中的多组多帧图像的进行特征提取以及信息融合,得到第二融合图像组;对所述第二融合图像组和所述第一融合图像组进行特征融合,并基于第三级特征提取和转化层,分别对融合后的第二融合图像组中的多组多帧图像进行特征提取以及信息融合,得到第三融合图像组;依次类推,直到末级特征提取和转化层输出多帧3d特征图像。。65.也就是说,对于在后的模型网络可以将上一级的模型网络以及上两级的模型网络的输出进行特征融合作为输入,从而时间特征的跨级传播。请参考图4,图4-b示出了根据本技术的另一个实施例的训练样品集在3d姿态检测初始模型的数据流转的示意图,从图4-b可以看出,对于一组动画数组而言,其先进入姿态初步处理网络210,姿态初步处理网络210输出连续多帧2d中间图像,连续多帧2d中间图像进入首级特征提取和转化层221-1,首级特征提取和转化层221-1将连续多帧2d中间图像分为数量相同的连续多帧图像组,对于每一组连续多帧图像,分别进行特征提取和融合,每一组连续多帧图像合并为一张图像输出,如连续多帧2d中间图像有243张,每一组连续多帧图像为3张,经过首级特征提取和转化层221-1的处理后,输出81张图像,这81张图像可以作为下一级特征提取和转化层221-2的输入的一部分,且为了实现特征的跨级传播,这81张图像与243张连续多帧2d中间图像进行特征融合后,再进入特征提取和转化层221-2;特征提取和转化层221-2输出27张图像,特征提取和转化层221-3输出9张图像,依次类推,直到特征提取和转化层221-4输出3张图像;最后这3张图像与特征提取和转化层221-3输出的9张图像进行特征融合后,进入结果输出层222,进行3d坐标的归一化处理以及预测结果的输出,预测结果为一个3d预测图像,从人的视觉效果看,其处于三维空间,其中包含3d预测骨骼点以及3d预测分类。66.采用图4-b示出的方式,能够实现特征的跨级传播,得到更加准确的3d姿态检测模型。67.在得到3d预测图像,即可根据其与3d动画的各帧标注的3d骨骼点和3d先验姿态的损失函数进行模型参数的反向传播,具体的,在本技术的一些实施例中,述根据所述3d预测图像和所述3d动画,确定损失函数值,并根据所述损失函数值对所述3d姿态检测初始模型进行反向传播,得到所述3d姿态检测模型,包括:对于一组动画数组,根据所述3d预测图像和所述3d动画,确定损失函数值;确定所述损失函数值是否小于预设阈值,若否,则对所述活体3d姿态检测初始模型的参数进行微调;根据微调后的活体3d姿态检测初始模型,对所述动画数组进行再次预测,得到3d再次预测图像;根据所述3d再次预测图像和所述3d动画,再次确定损失函数值,直到所述损失函数值小于所述预设阈值。68.在本技术的一些实施例中,对于损失函数本技术不作限定,可以采用现有技术中的任意一种,也可以根据训练精度自行设置,如设置该3d预测图像(向量)和对应的3d动画数据中的标注之间的均方差并求和,将所求的和定义为损失函数。69.以一组动画数组为例,通过对其中的连续多帧2d图像进行预测得到3d预测图像,根据该3d预测图像以及3d动画中对应的批注信息确定损失函数值,并确定损失函数值是否小于预设的阈值,若小于,则说明当前模型的权重参数值无需调整,可进行下一条数据的处理;若不小于,则对所述活体3d姿态检测模型的参数进行微调,然后对连续多帧2d图像进行再次预测,将得到的结果记为3d再次预测图像,根据所3d再次预测图像和所述3d动画中的相关数据,再次确定损失函数值,直到所述损失函数值小于所述预设阈值。70.若输入的是一批动画数组,则可以对损失函数值进行累计,记为li,每批对权重变量进行随机微调,当该批次结果的损失函数累计li比此前值更小,则将此时的权重变量值作为一个优选,再次随机微调,如此反复,则可以获得一个较好的权重变量值,记为训练结果,将该权重变量结果与模型结构保存,即得到训练好的3d姿态检测模型。71.图5示出了根据本技术的一个实施例的3d姿态检测方法的流程示意图,从图5可以看出,本实施例至少包括步骤s510~步骤s520:72.步骤s510:获取待检测对象的2d视频流。73.本技术可适用于活体的3d姿态检测,可以将本实施例的业务流程集成为前端应用app、小程序等,作为客户端安装在用户的终端,如手机、平板电脑等。74.以手机为例,手机通常安装有单目相机,可以通过单目相机采集待检测对象的2d视频流。75.需要说明的是:本技术可直接采用智能手机获取的2d图像,无需惯性导航、光学传感器等数据采集仪等,即有智能手机的人即可本技术的技术识别活体的3d姿态,对设备要求低。76.步骤s520:基于滑窗方式,采用预设数量的队列确定所述2d视频流中的连续多帧图像作为当前待识别视频流。77.如在执行视频检测时,维持一个243帧的队列,每次新产生一帧,则在队列中补充该帧,并剔除最早的一帧,并将该队列送入3d姿态检测方法进行计算。78.也就是说,在图像帧是会被重复利用的,在用户的视觉上,仍然是每一帧输出一个结果,而输入的预测队列是当前帧与历史时间内的若干帧的总和。79.步骤s530:采用上述任一项的训练方法得到的3d姿态检测模型对所述当前待识别视频流进行识别,获得活体的3d姿态检测结果,所述3d姿态检测结果包括3d骨骼点以及3d姿态。80.一个具体的实施例,单帧2d和3d数据格式示例(以j=17点为例):2d:[x1,y1,x2,y2…x16,y16];3d:[x1,y1,z1,x2,y2,z2…x16,y16,z16]。[0081]设置本技术的3d姿态检测模型的感受野为243帧图片,b=4blocks,每张图关键点数量j=17),输入为243张图片的2d关键点坐标数组,数组形状为(243,34),即34通道243帧;输出为1帧的3d坐标预测(1,51),即51通道1帧。3d姿态检测模型为对称结构,该帧对应为121帧的3d输出结果(243时序帧中间帧),从而获得到队列中心帧的3d预测图像。[0082]在3d姿态检测结果,所述3d姿态检测结果包括3d骨骼点以及3d姿态。图6示出了根据本技术的一个实施例的3d姿态检测结果的示意图,其左图示出的是获取的2d视频流中的一帧,右图为检测结果,从图6可以看出,本技术通过对2d视频流的识别,可以得到人体在三维空间的骨骼点的坐标以及姿态识别结果(图中未示出),姿态识别结果通常为文字说明,显示在图像中,如俯卧、直立、下蹲等等。由于输出的结果是包含3d骨骼点和3d姿态标识的3d复合图像,因此用户更加直观。[0083]由图5所示的方法可以看出,本技术可以实现活体的2d图像到3d预测结果的转化,可适用于人体和宠物等活体的姿态的识别,可以快速、准确地检测到图像中包含的活体的骨骼点以及活体的姿态类别;且该模型计算量小、算力要求低,可不依赖服务器端,无需占用大量带宽资源;且可以用于多种场景,如宠物姿态识别、人体运动姿态识别等等多种,弥补现有技术中3d姿态识别的空白,显著提高了用户的使用感受和趣味性。[0084]图7示出了根据本技术的一个实施例的3d姿态检测模型的训练装置的结构示意图,从图7可以看出,所述3d姿态检测模型的训练装置700包括:[0085]样本获取单元710,用于获取训练样本集,所述训练样本集包括多组动画数组,各组动画数组包括3d动画和由所述3d动画生成的连续多帧2d图像,其中,3d动画的各帧标注有3d骨骼点和3d先验姿态,各帧2d图像标注有2d骨骼点;[0086]模型获取单元720,用于获取3d姿态检测初始模型,所述活体3d姿态检测初始模型包括依次连接的姿态初步处理网络和姿态优化处理网络,其中,姿态优化处理网络包括依次连接的多级特征提取和转化层和结果输出层,所述姿态初步处理网络与所述各层特征提取和转化层的计算单元结构一致;[0087]训练单元730,用于将所述训练样品集输入所述活体3d姿态检测初始模型进行训练,得到所述3d姿态检测模型。[0088]在本技术的一些实施例中,在上述3d姿态检测模型的训练装置700中,训练单元730,用于将各组动画数组输入所述姿态初步处理网络;基于所述姿态初步处理网络,对所述动画数组中的连续多帧2d图像进行图像大小同化处理,得到连续多帧2d中间图像;基于所述姿态优化处理网络,对所述连续多帧2d中间图像进行多级特征提取以及融合转化、以及坐标归一化处理,得到3d预测图像,所述3d预测图像包括3d预测骨骼点和3d预测姿态;根据所述3d预测图像和所述3d动画,确定损失函数值,并根据所述损失函数值对所述活体3d姿态检测初始模型进行反向传播,得到所述宠物姿态识别模型。[0089]在本技术的一些实施例中,在上述3d姿态检测模型的训练装置700中,训练单元730,用于各级特征提取和转化层对所述连续多帧2d中间图像进行相邻时序帧之间关联关系的提取,得到多帧3d特征图像,其中,首级特征提取和转化层将所述连续多帧2d中间图像作为输入,非首级特征提取和转化层将所述上一级特征提取和转化层的输出与所述连续多帧2d中间图像或者上两级特征提取和转化层的输出的融合信息作为输入;基于所述结果输出层,对所述多帧3d特征图像进行坐标归一化处理,得到所述3d预测图像。[0090]在本技术的一些实施例中,在上述3d姿态检测模型的训练装置700中,训练单元730,用于基于首级特征提取和转化层,分别对所述连续多帧2d中间图像中的多组连续多帧图像进行特征提取以及信息融合,得到第一融合图像组;对所述第一融合图像组和所述连续多帧2d中间图像进行特征融合,并基于第二级特征提取和转化层,分别对融合后的第一融合图像组中的多组多帧图像的进行特征提取以及信息融合,得到第二融合图像组;对所述第二融合图像组和所述第一融合图像组进行特征融合,并基于第三级特征提取和转化层,分别对融合后的第二融合图像组中的多组多帧图像进行特征提取以及信息融合,得到第三融合图像组;依次类推,直到末级特征提取和转化层输出多帧3d特征图像。[0091]在本技术的一些实施例中,在上述3d姿态检测模型的训练装置700中,训练单元730,用于对于一组动画数组,根据所述3d预测图像和所述3d动画,确定损失函数值;确定所述损失函数值是否小于预设阈值,若否,则对所述活体3d姿态检测初始模型的参数进行微调;根据微调后的活体3d姿态检测初始模型,对所述动画数组进行再次预测,得到3d再次预测图像;根据所述3d再次预测图像和所述3d动画,再次确定损失函数值,直到所述损失函数值小于所述预设阈值。[0092]在本技术的一些实施例中,在上述3d姿态检测模型的训练装置700中,所述特征提取和转化层包括至少两个连接的计算单元;所述计算单元包括依次连接的卷积算子层、批量标准化层、激活函数层、以及随机失活函数层。[0093]需要说明的是,3d姿态检测模型的训练装置700可一一实现前述的3d姿态检测模型的训练方法,这里不再赘述。[0094]图8示出了根据本技术的一个实施例的3d姿态检测装置的结构示意图,从图8可以看出,所述3d姿态检测装置800包括:[0095]视频获取单元810,用于获取待检测对象的2d视频流;[0096]对象确定单元820,用于基于滑窗方式,采用预设数量的队列确定所述2d视频流中的连续多帧图像作为当前待识别视频流;[0097]预测单元830,用于采用上述任一项的训练方法得到的3d姿态检测模型对所述当前待识别视频流进行识别,获得活体的3d姿态检测结果,所述3d姿态检测结果包括3d骨骼点以及3d姿态。[0098]需要说明的是,3d姿态检测装置800可一一实现前述的3d姿态检测方法,这里不再赘述。[0099]图9示出了本技术实施例提供的一种电子设备的结构示意图。如图9所示,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。[0100]处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。[0101]存储器,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。[0102]处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成3d姿态检测模型的训练装置700或者3d姿态检测装置800。处理器,执行存储器所存放的程序,并具体用于执行前述方法。[0103]处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。[0104]该电子设备可执行本技术多个实施例提供的3d姿态检测模型的训练方法或者3d姿态检测方法,并实现成3d姿态检测模型的训练装置700或者3d姿态检测装置800在图7或图8所示实施例的功能,本技术实施例在此不再赘述。[0105]本技术实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行本技术多个实施例提供的任务脚本的更新方法。[0106]本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0107]本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0108]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0109]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0110]在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。[0111]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。[0112]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。[0113]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限定的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的同一要素。[0114]本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0115]以上仅为本技术的实施例而已,并不用于限定本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
3D姿态检测模型的训练方法以及3D姿态检测方法与流程 专利技术说明
作者:admin
2023-07-07 13:04:35
365
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术