发布信息

视频动画生成方法、装置、设备及存储介质与流程

作者:admin      2022-07-30 22:00:53     591



计算;推算;计数设备的制造及其应用技术1.本发明涉及人工智能技术领域,尤其涉及一种视频动画生成方法、装置、设备及存储介质。背景技术:2.目前,在根据语音和图像生成视频动画时,一般是从图像中提取面部特征参数,然后通过输入语音和面部特征参数生成视频动画,由于输入语音中存在较多的噪音,而且直接根据输入语音和提取的面部特征参数生成视频动画,导致生成的视频动画质量低。3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是相关技术。技术实现要素:4.本发明的主要目的在于提供了一种视频动画生成方法、装置、设备及存储介质,旨在解决现有技术直接根据输入语音和面部特征参数生成的视频动画质量低的技术问题。5.为实现上述目的,本发明提供了一种视频动画生成方法,所述方法包括以下步骤:6.将去噪后的目标用户语音转换为纯净语音;7.根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音;8.将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画。9.可选地,所述根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音,包括:10.根据所述目标用户语音的语音特征判断所述目标用户语音是否存在波动;11.在所述目标用户语音存在波动时,根据环境声音确定所述目标用户语音产生波动的影响因素;12.在所述影响因素为环境因素时,根据所述环境声音和所述目标用户语音的语音特征差值确定所述目标用户语音对应的特定原始语音。13.可选地,所述在所述目标用户语音存在波动时,根据环境声音确定所述目标用户语音产生波动的影响因素之后,还包括:14.在所述影响因素为非环境因素时,根据所述目标用户语音的语音特征确定所述目标用户语音中波动语音片段的持续时长和语音片段位置;15.在所述持续时长小于预设时长时,根据所述语音片段位置确定所述波动语音片段的邻域语音片段;16.根据所述邻域语音片段对所述波动语音片段进行处理,获得所述目标用户语音对应的特定原始语音。17.可选地,所述将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画,包括:18.对所述纯净语音和所述特定原始语音进行语音特征提取,获得对应的纯净语音特征编码向量和特定语音特征编码向量;19.对目标图像进行图像特征提取,获得唇部特征编码向量和面部特征编码向量;20.将所述唇部特征编码向量与所述纯净语音特征编码向量融合,获得唇部融合特征向量;21.将所述面部特征编码向量与所述特定语音特征编码向量融合,获得面部融合特征向量;22.将所述唇部融合特征向量和所述面部融合特征向量拼接,并解码拼接后的向量,获得视频动画。23.可选地,所述对目标图像进行图像特征提取,获得唇部特征编码向量和面部特征编码向量,包括:24.通过第一图像特征提取网络对目标图像的唇部区域进行图像特征提取,获得唇部特征编码向量;25.通过第二图像特征提取网络对目标图像的面部区域进行图像特征提取,获得面部特征编码向量,所述第二图像特征提取网络卷积层的数量大于所述第一图像特征提取网络卷积层的数量。26.可选地,所述将所述面部特征编码向量与所述特定语音特征编码向量融合,获得面部融合特征向量,包括:27.将所述纯净语音特征编码向量和所述特定语音特征编码向量进行分块,获得若干特征块;28.将所述纯净语音特征编码向量的特征块与所述特定语音特征编码向量对应的特征块进行相似度对比,获得相似度数集;29.根据所述相似度数集将所述纯净语音特征编码向量和所述特定语音特征编码向量进行分块特征融合,获得特定融合编码向量;30.将所述面部特征编码向量与所述特定融合编码向量融合,获得面部融合特征向量。31.可选地,所述将去噪后的目标用户语音转换为纯净语音,包括:32.对输入语音进行降噪处理,获得降噪语音;33.对所述降噪语音进行语音分离,并根据语音分离后各语音的语音信息确定目标用户语音;34.对所述目标用户语音进行文字转换,获得语音文字信息;35.通过语音合成系统将所述语音文字信息转换为纯净语音。36.此外,为实现上述目的,本发明还提出一种视频动画生成装置,所述装置包括:37.转换模块,用于将去噪后的目标用户语音转换为纯净语音;38.确定模块,用于根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音;39.融合模块,用于将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画。40.此外,为实现上述目的,本发明还提出一种视频动画生成设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频动画生成程序,所述视频动画生成程序配置为实现如上文所述的视频动画生成方法的步骤。41.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有视频动画生成程序,所述视频动画生成程序被处理器执行时实现如上文所述的视频动画生成方法的步骤。42.本发明将去噪后的目标用户语音转换为纯净语音;根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音;将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画。由于本发明是通过将去噪后的目标用户语音转换为纯净语音,根据目标用户语音的语音特征确定对应的特定原始语音,再将纯净语音的语音特征、特定原始语音的语音特征和目标图像的图像特征融合生成视频动画,能够将输入语音中的噪音去除,并根据纯净语音、特定原始语音和目标图像生成视频动画,可以保证视频动画流畅平滑,提高了视频动画的质量。附图说明43.图1是本发明实施例方案涉及的硬件运行环境的视频动画生成设备的结构示意图;44.图2为本发明视频动画生成方法第一实施例的流程示意图;45.图3为本发明视频动画生成方法第二实施例的流程示意图;46.图4为本发明视频动画生成方法第三实施例的流程示意图;47.图5为本发明视频动画生成方法第三实施例中确定特定融合编码向量的示意图;48.图6为本发明视频动画生成装置第一实施例的结构框图。49.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式50.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。51.参照图1,图1为本发明实施例方案涉及的硬件运行环境的视频动画生成设备结构示意图。52.如图1所示,该视频动画生成设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。53.本领域技术人员可以理解,图1中示出的结构并不构成对视频动画生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。54.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频动画生成程序。55.在图1所示的视频动画生成设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明视频动画生成设备中的处理器1001、存储器1005可以设置在视频动画生成设备中,所述视频动画生成设备通过处理器1001调用存储器1005中存储的视频动画生成程序,并执行本发明实施例提供的视频动画生成方法。56.本发明实施例提供了一种视频动画生成方法,参照图2,图2为本发明视频动画生成方法第一实施例的流程示意图。57.本实施例中,所述视频动画生成方法包括以下步骤:58.步骤s10:将去噪后的目标用户语音转换为纯净语音。59.需要说明的是,本实施例的执行主体可以是一种具有数据处理、网络通信以及程序运行功能的计算服务设备,例如平板电脑、个人电脑、手机等,或者是一种能够实现上述功能的电子设备、视频动画生成设备等。以下以视频动画生成设备为例,对本实施例及下述各实施例进行举例说明。60.可以理解的是,目标用户语音可以是用于生成视频动画的目标用户的语音;纯净语音可以是去除噪声的具有特定音色的语音;将去噪后的目标用户语音转换为纯净语音可以是对输入语音进行降噪处理,获得降噪语音,从降噪语音中选取目标用户语音,并将目标用户语音转换为纯净语音。61.步骤s20:根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音。62.可以理解的是,特定原始语音可以将目标用户语音中产生波动的语音片段进行处理获得的与目标用户语音对应的语音;根据所述目标用户语音的语音特征确定所述目标用户对应的特定原始语音可以是根据目标用户语音的语音特征确定目标用户语音中存在的波动语音片段,对各波动语音片段进行处理,获得目标用户语音对应的特定原始语音。63.步骤s30:将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画。64.可以理解的是,目标图像可以是用于生成视频动画的图像;将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画可以是将纯净语音的语音特征与图像特征中的唇部区域特征融合,将特定原始语音的语音特征与图像特征中的面部区域特征融合,并将上述融合后的特征进行拼接获得拼接特征,并对拼接特征解码,获得视频动画。65.在具体实现中,视频动画生成设备对输入语音进行降噪处理,获得降噪语音,从降噪语音中分离出目标用户语音,并将目标用户语音转换为纯净语音,根据目标用户语音的语音特征确定目标用户语音中存在的波动语音片段,对各波动语音片段进行处理,获得目标用户语音对应的特定原始语音,将纯净语音的语音特征与图像特征中的唇部区域特征融合,将特定原始语音的语音特征与图像特征中的面部区域特征融合,将上述融合后的特征拼接获得拼接特征,对拼接特征解码,获得视频动画。66.进一步地,由于现实场景中可能存在多人对话或者多人杂音的情况,而且环境中也会存在噪音,为了获得更准确的纯净语音,从而提高唇部区域运动的准确度,以提高视频动画的质量,所述步骤s10包括:对输入语音进行降噪处理,获得降噪语音;对所述降噪语音进行语音分离,并根据语音分离后各语音的语音信息确定目标用户语音;对所述目标用户语音进行文字转换,获得语音文字信息;通过语音合成系统将所述语音文字信息转换为纯净语音。67.可以理解的是,输入语音可以是由目标用户语音和其他语音组成,可通过下式表示:ssound=sspeech+senv,其中ssound表示输入语音,sspeech表示目标用户语音,senv表示其他语音,其他语音包括环境声音和非目标用户的语音;对输入语音进行降噪处理,获得降噪语音可以是对输入语音进行前端降噪,以剔除所述输入语音中的噪声,获得降噪语音,所述降噪语音中仅保留人声。68.应该理解的是,语音信息包括语音音量、语音时长等信息;对所述降噪语音进行语音分离,并根据语音分离后各语音的语音信息确定目标用户语音可以是对降噪语音进行语音分离,获得各声源对应的语音,根据各语音的语音时长对各声源对应的语音排序,获得语音时长序列,从所述语音序列中选取语音时长最长的语音作为目标用户语音,若所述语音序列中的前若干语音之间的语音时长之间时长差值小于预设阈值,则根据所述若干语音的语音音量重新对若干语音排序,获得语音音量序列,从所述语音音量序列中选取音量最大的语音作为目标用户语音。69.在具体实现中,视频动画生成设备获取输入语音,对输入语音进行前端降噪,以剔除输入语音中的噪声,获得降噪语音,对降噪语音进行语音分离,获得各声源对应的语音,按照语音时长进行排序,选取语音时长最长的语音作为目标用户语音,并将其余语音丢弃,若存在若干语音的语音时长之间的时长差值小于预设阈值,则将若干语音按照语音音量排序,选取语音音量最大的语音作为目标语音。70.可以理解的是,对所述目标用户语音进行文字转换,获得语音文字信息可以是通过自动语音识别技术(automatic speech recognition,asr)将目标用户语音转换为语音文字信息。71.应该理解的是,语音合成系统可将文字信息转换特定音色的纯净语音输出;通过语音分离、语音转文字和文字转语音得到纯净语音,语音转文字只从目标用户语音中提取语音文字信息,从而丢弃消除不同用户的声音差异,将语音文字信息转换为纯净语音,可有效去除输入语音中的噪声,从而提高视频动画的质量。72.本实施例将去噪后的目标用户语音转换为纯净语音;根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音;将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画。由于本实施例是通过将去噪后的目标用户语音转换为纯净语音,根据目标用户语音的语音特征确定对应的特定原始语音,再将纯净语音的语音特征、特定原始语音的语音特征和目标图像的图像特征融合生成视频动画,能够将输入语音中的噪音去除,并根据纯净语音、特定原始语音和目标图像生成视频动画,可以保证视频动画流畅平滑,提高了视频动画的质量。73.参考图3,图3为本发明视频动画生成方法第二实施例的流程示意图。74.基于上述第一实施例,在本实施例中,所述步骤s20包括:75.步骤s201:根据所述目标用户语音的语音特征判断所述目标用户语音是否存在波动。76.可以理解的是,可通过语音提取器对目标用户语音进行特征提取,获得目标用户语音对应的梅尔谱图,根据梅尔谱图可确定各时刻的语音特征值;根据所述目标用户语音的语音特征判断所述目标用户语音是否存在波动可以是通过语音特征提取器对目标用户语音进行特征提取,获得对应的梅尔图谱,根据梅尔图谱确定各时刻的语音特征值,求相邻时刻语音特征值之间的特征差值,根据特征差值判断目标用户语音是否存在波动。77.应该理解的是,在特征差值大于预设阈值时,判定目标用户语音不存在波动,将目标用户语音作为特定原始语音;在特征差值大于或等于预设阈值时,判定目标用户语音存在波动;预设阈值可根据具体场景设定,本实施例对此不作限制。78.步骤s202:在所述目标用户语音存在波动时,根据环境声音确定所述目标用户语音产生波动的影响因素。79.可以理解的是,环境声音可以是输入语音中的其他语音;在所述目标用户语音存在波动时,根据环境声音确定所述目标用户语音产生波动的影响因素可以是在所述目标用户语音存在波动时,获取所述目标用户语音发生波动的波动时刻,确定所述环境声音中与所述波动时刻对应的时刻,判断环境声音在所述时刻的前后预设时长内是否发生波动,若是,则判定目标用户语音产生波动的影响因素为环境因素;若不存在,则判定目标用户语音产生波动的影响因素为非环境因素。80.步骤s203:在所述影响因素为环境因素时,根据所述环境声音和所述目标用户语音的语音特征差值确定所述目标用户语音对应的特定原始语音。81.可以理解的是,在影响因素为环境因素时,获取目标用户语音的语音特征与对应环境声音的语音特征的语音特征差值,根据语音特征差值生成新语音,并将所述新语音作为目标用户语音对应的特定原始语音。82.在具体实现中,视频动画生成设备通过语音提取器对目标用户语音进行特征提取,获得目标用户语音对应的梅尔图谱,根据梅尔图谱确定各时刻的语音特征值,求相邻时刻语音特征值之间的特征差值,在特征差值小于预设阈值时,判定目标用户语音不存在波动,将目标用户语音作为特定原始语音;在特征差值大于或等于预设阈值时,判定目标用户语音存在波动,获取目标用户语音中发生波动的波动时刻,并确定环境声音中与波动时刻对应的时刻,判断环境声音在所述时刻的前后预设时长内是否发生波动,若是,则判定目标用户语音产生波动的影响因素为环境因素;若否,则为非环境因素;在影响因素为环境因素时,获取目标用户语音的语音特征和环境声音的语音特征之间的特征差值,根据特征差值生成新语音,将该新语音作为特定原始语音。83.进一步地,在用户输入语音时,可能在某时段内主动提高音调或音量来表达情绪,从而引起目标用户语音发生波动,也有可能是用户在某时刻遇到突发状况被动提高音调或音量,从而引起目标用户语音发生波动,需要区分不同情况以去除目标用户语音中的异常波动,从而提高视频动画的质量,所述步骤s202之后,还包括:在所述影响因素为非环境因素时,根据所述目标用户语音的语音特征确定所述目标用户语音中波动语音片段的持续时长和语音片段位置;在所述持续时长小于预设时长时,根据所述语音片段位置确定所述波动语音片段的邻域语音片段;根据所述邻域语音片段对所述波动语音片段进行处理,获得所述目标用户语音对应的特定原始语音。84.可以理解的是,波动语音片段可以是目标用户语音中发生波动的语音片段;语音片段位置可以是波动语音片段在目标用户语音中的时刻;邻域语音片段可以是与波动语音片段相邻的语音片段。85.应该理解的是,在持续时长大于或等于预设时长时,可判定目标用户语音存在的波动为用户主动引发,将目标用户语音确定为特定原始语音;在持续时长小于预设时长时,可判定目标用户语音存在的波动为被动引发,根据波动语音片段在目标用户语音中的时刻确定与波动语音片段相邻的邻域语音片段。86.可以理解的是,根据所述邻域语音片段对所述波动语音片段进行处理,获得所述目标用户语音对应的特定原始语音可以是将波动语音片段删除,用邻域语音片段的语音特征值的均值来填充波动语音片段处的语音特征,获得特定原始语音。87.本实施例根据所述目标用户语音的语音特征判断所述目标用户语音是否存在波动;在所述目标用户语音存在波动时,根据环境声音确定所述目标用户语音产生波动的影响因素;在所述影响因素为环境因素时,根据所述环境声音和所述目标用户语音的语音特征差值确定所述目标用户语音对应的特定原始语音。本实施例通过目标用户的语音特征判断目标用户语音是否存在波动,在存在波动时,由于目标用户语音的语音特征与环境声音的语音特征受外界环境的影响是一致的,因此可根据环境声音对应时刻的语音特征判断目标用户语音产生波动的影响因素是否为环境因素,若是,则根据环境声音和目标用户语音的特征差值确定特定原始语音,能够去除外部环境的影响,提升了特定原始语音的准确度,提高了视频动画的质量。88.参考图4,图4为本发明视频动画生成方法第三实施例的流程示意图。89.基于上述各实施例,在本实施例中,所述步骤s30,包括:90.步骤s301:对所述纯净语音和所述特定原始语音进行语音特征提取,获得对应的纯净语音特征编码向量和特定语音特征编码向量。91.可以理解的是,可通过语音特征提取网络对纯净语音和特定原始语音进行特征提取,获得纯净语音特征编码向量f_strans和特定语音特征编码向量f_sori;所述语音特征提取网络可以是残差网络、mfcc或其他具有相同或相似功能的网络,本实施例在此不做限制。92.步骤s302:对目标图像进行图像特征提取,获得唇部特征编码向量和面部特征编码向量。93.可以理解的是,可通过图像特征提取网络对目标图像进行图像特征提取,获取唇部编码特征编码向量f_imgmouth和面部特征编码向量f_imgface2;所述图像特征提取网络可以是vgg网络或其他具有相同或相似功能的网络,本实施例对此不作限制。94.在具体实现中,可通过图像特征提取网络对目标图像对应的唇部区域矩阵进行特征提取,获得唇部特征编码向量,通过图像特征提取网络对目标图像对应的面部区域矩阵进行特征提取,获得面部特征编码向量。95.步骤s303:将所述唇部特征编码向量与所述纯净语音特征编码向量融合,获得唇部融合特征向量。96.可以理解的是,可通过concat或add将唇部特征编码向量与纯净语音特征编码向量融合。97.在具体实现中,通过concat将唇部特征编码向量f_imgmouth与纯净语音特征编码向f_strans量融合,获得唇部融合特征向量fmerge1,即fmerge1=f_imgmouthconcatf_strans。98.步骤s304:将所述面部特征编码向量与所述特定语音特征编码向量融合,获得面部融合特征向量。99.在具体实现中,通过concat将面部特征编码向量f_imgface2和f_sori融合,获得面部融合特征向量。100.步骤s305:将所述唇部融合特征向量和所述面部融合特征向量拼接,并解码拼接后的向量,获得视频动画。101.在具体实现中将唇部融合特征向量和面部融合特征向量拼接,将拼接后的向量输入至多模态信息融合解码器,获得运动状态的脸部视频动画。102.进一步地,由于唇部区域与面部区域对应的特征维度不同,所含有的信息量差异较大,为了使唇部特征向量与面部特征向量的特征大小一致,所述步骤s302,包括:通过第一图像特征提取网络对目标图像的唇部区域进行图像特征提取,获得唇部特征编码向量;通过第二图像特征提取网络对目标图像的面部区域进行图像特征提取,获得面部特征编码向量,所述第二图像特征提取网络卷积层的数量大于所述第一图像特征提取网络卷积层的数量。103.在具体实现中,通过第一图像特征提取网络对唇部区域进行图像特征提取,获得唇部特征编码向量,通过第二图像特征提取网络对面部区域进行图像特征提取,获得面部特征编码向量,第二图像特征网络的卷积层数量大于第一图像特征提取网络,以使唇部特征编码向量与面部特征编码向量的特征大小一致。104.进一步地,为了得到流畅平滑的面部全部变化,以提高视频动画的质量,所述步骤s304,包括:将所述纯净语音特征编码向量和所述特定语音特征编码向量进行分块,获得若干特征块;将所述纯净语音特征编码向量的特征块与所述特定语音特征编码向量对应的特征块进行相似度对比,获得相似度数集;根据所述相似度数集将所述纯净语音特征编码向量和所述特定语音特征编码向量进行分块特征融合,获得特定融合编码向量;将所述面部特征编码向量与所述特定融合编码向量融合,获得面部融合特征向量。105.在具体实现中,可将纯净语音特征编码向量和特定语音特征编码向量进行恒等分块,获得若干特征块,将对应的特征块进行余弦相似度对比,获得各特征块对应的若干相似度值,该若干相似度值构成相似度数集,对该相似度数据求掩码,获得掩码数集,根据相似度数集和掩码数集将纯净语音特征编码向量和特定语音特征编码向量进行分块特征融合,获得特定融合编码向量,将面部特征编码向量与特定融合编码向量融合,获得面部融合特征向量。106.例如,参照图5,图5为确定特定融合编码向量的示意图,将特定原始语音输入带有注意力机制的浅层特征提取网络进行语音特征提取,获得特定语音特征编码向量;将纯净语音输入浅层特征提取网络进行语音特征提取,获得纯净语音特征编码向量;将特定语音特征编码向量和纯净语音特征编码向量恒等分块,将对应的分块进行余弦相似度对比获得相似度数集list=[0.1,0.8,0.9,...],则其掩码为list2=[0.9,0.2,0.1,...],对特定语音特征编码向量和纯净语音特征编码向量进行分块特征融合:f_strans3=[0.9*f+0.1*f2,0.2*f+0.8*f2,0.2*f+0.9*f2,...],其中f_strans3表示特定融合编码向量,f表示特定语音特征编码向量对应的特征块,f2表示纯净语音特征编码向量对应的特征块;将特定融合编码向量与面部特征编码向量融合,获得面部融合特征向量。[0107]本实施例对所述纯净语音和所述特定原始语音进行语音特征提取,获得对应的纯净语音特征编码向量和特定语音特征编码向量;对目标图像进行图像特征提取,获得唇部特征编码向量和面部特征编码向量;将所述唇部特征编码向量与所述纯净语音特征编码向量融合,获得唇部融合特征向量;将所述面部特征编码向量与所述特定语音特征编码向量融合,获得面部融合特征向量;将所述唇部融合特征向量和所述面部融合特征向量拼接,并解码拼接后的向量,获得视频动画。由于本实施例是将唇部特征编码向量与纯净语音特征编码向量融合,将面部特征编码向量与特定语音特征编码向量融合,并将唇部融合特征向量与面部融合特征向量拼接,将拼接后的向量解码获得视频动画,能够将纯净语音与唇部区域深度融合,将特定原始语音与面部区域深度融合,实现了根据纯净语音精细化处理唇部变化的同时得到流畅平滑的面部全部变化,提升了视频动画的平滑度,从而提高了视频动画的质量。[0108]此外,本发明实施例还提出一种存储介质,所述存储介质上存储有视频动画生成程序,所述视频动画生成程序被处理器执行时实现如上文所述的视频动画生成方法的步骤。[0109]参照图6,图6为本发明视频动画生成装置第一实施例的结构框图。[0110]如图6所示,本发明实施例提出的视频动画生成装置包括:转换模块10、确定模块20和融合模块30。[0111]所述转换模块10,用于将去噪后的目标用户语音转换为纯净语音;[0112]所述确定模块20,用于根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音;[0113]所述融合模块30,用于将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画。[0114]本实施例将去噪后的目标用户语音转换为纯净语音;根据所述目标用户语音的语音特征确定所述目标用户语音对应的特定原始语音;将所述纯净语音的语音特征、所述特定原始语音的语音特征和目标图像的图像特征进行融合,获得视频动画。由于本实施例是通过将去噪后的目标用户语音转换为纯净语音,根据目标用户语音的语音特征确定对应的特定原始语音,再将纯净语音的语音特征、特定原始语音的语音特征和目标图像的图像特征融合生成视频动画,能够将输入语音中的噪音去除,并根据纯净语音、特定原始语音和目标图像生成视频动画,可以保证视频动画流畅平滑,提高了视频动画的质量。[0115]基于本发明上述视频动画生成装置第一实施例,提出本发明视频动画生成装置的第二实施例。[0116]在本实施例中,所述确定模块20,还用于根据所述目标用户语音的语音特征判断所述目标用户语音是否存在波动;在所述目标用户语音存在波动时,根据环境声音确定所述目标用户语音产生波动的影响因素;在所述影响因素为环境因素时,根据所述环境声音和所述目标用户语音的语音特征差值确定所述目标用户语音对应的特定原始语音。[0117]所述确定模块20,还用于在所述影响因素为非环境因素时,根据所述目标用户语音的语音特征确定所述目标用户语音中波动语音片段的持续时长和语音片段位置;在所述持续时长小于预设时长时,根据所述语音片段位置确定所述波动语音片段的邻域语音片段;根据所述邻域语音片段对所述波动语音片段进行处理,获得所述目标用户语音对应的特定原始语音。[0118]所述融合模块30,还用于对所述纯净语音和所述特定原始语音进行语音特征提取,获得对应的纯净语音特征编码向量和特定语音特征编码向量;对目标图像进行图像特征提取,获得唇部特征编码向量和面部特征编码向量;将所述唇部特征编码向量与所述纯净语音特征编码向量融合,获得唇部融合特征向量;将所述面部特征编码向量与所述特定语音特征编码向量融合,获得面部融合特征向量;将所述唇部融合特征向量和所述面部融合特征向量拼接,并解码拼接后的向量,获得视频动画。[0119]所述融合模块30,还用于通过第一图像特征提取网络对目标图像的唇部区域进行图像特征提取,获得唇部特征编码向量;通过第二图像特征提取网络对目标图像的面部区域进行图像特征提取,获得面部特征编码向量,所述第二图像特征提取网络卷积层的数量大于所述第一图像特征提取网络卷积层的数量。[0120]所述融合模块30,还用于将所述纯净语音特征编码向量和所述特定语音特征编码向量进行分块,获得若干特征块;将所述纯净语音特征编码向量的特征块与所述特定语音特征编码向量对应的特征块进行相似度对比,获得相似度数集;根据所述相似度数集将所述纯净语音特征编码向量和所述特定语音特征编码向量进行分块特征融合,获得特定融合编码向量;将所述面部特征编码向量与所述特定融合编码向量融合,获得面部融合特征向量。[0121]所述转换模块10,还用于对输入语音进行降噪处理,获得降噪语音;对所述降噪语音进行语音分离,并根据语音分离后各语音的语音信息确定目标用户语音;对所述目标用户语音进行文字转换,获得语音文字信息;通过语音合成系统将所述语音文字信息转换为纯净语音。[0122]本发明视频动画生成装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。[0123]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。[0124]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。[0125]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。[0126]以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部