发布信息

歌声合成方法、系统及计算机设备

作者:admin      2022-08-31 14:53:51     677



乐器;声学设备的制造及制作,分析技术1.本技术涉及人工智能及声乐处理相关技术领域,具体而言,涉及一种歌声合成方法、系统及计算机设备。背景技术:2.歌声既是一种人们借以传达信息的媒介,也是一种传达创作者、歌唱者思绪的艺术形式。随着人工智能及计算机技术的不断发展,让计算机能够唱出像人唱出一样优美动听的歌声,是人工智能必不可少的一个研究课题,同时也是现在计算机音乐的热门研究领域之一。3.歌声合成技术是计算机根据乐谱合成人清唱的歌声,如今歌声合成技术已经给现代生活带来了一定的改变,比如红遍全球的虚拟歌姬,如初音未来、洛天依等,她们的出现,降低了音乐制作的门槛,让许多创作者可以简单的使用自己的笔记本电脑而不需要去请专业的乐队、歌手就能创作出自己的歌曲,目前已有不少脍炙人口的歌曲是借助虚拟歌姬创作出来的。4.然而,除了原始的基于单元挑选和波形拼接式方法的歌声合成技术,现如今的合成歌声在表现力和自然度方面还不及人声,同时也缺乏一些个人特色。此外,拼接式合成技术需求录音量大、覆盖要求高,需要消耗大量的人力物力。因此,如何提高合成歌声的表现力是让歌声合成技术能投入市场应用(如虚拟歌姬、计算机音乐创作、音乐教育等)是目前的一个重要研究课题。技术实现要素:5.基于以上内容,为了至少提高合成歌声的表现力,第一方面,本技术实施例提供一种歌声合成方法,所述方法包括:6.将数字乐谱进行切分,得到多个乐谱片段,并获取每个乐谱片段的帧数序列和音高id序列;7.依次将各所述乐谱片段的帧数序列和音高id序列输入倚音预测模型中,得到所述数字乐谱的倚音位置信息以及倚音音高信息;8.根据所述倚音位置信息以及倚音音高信息在所述数字乐谱中添加对应的倚音信息;9.将添加了倚音信息后的数字乐谱输入歌声合成模型中进行歌声合成。10.基于第一方面的一种实施方式,将数字乐谱进行切分,得到多个乐谱片段,包括:11.从所述数字乐谱中提取每个音符的音阶信息和时长信息;12.根据所述音阶信息和时长信息对所述数字乐谱进行前处理;13.根据前处理后的数字乐谱中的休止符和换气符对该数字乐谱进行切分,得到多个乐谱片段,其中,每个乐谱片段包括至少三个音符,且每个乐谱片段的开头和结尾分别包括一个换气符时长和一个休止符时长。14.基于第一方面的一种实施方式,根据所述音阶信息和时长信息对所述数字乐谱进行前处理,包括:15.将所述数字乐谱中连续的、且具有相同音阶的同一个字进行合并,并将合并前的各个字的时长之和作为合并后的字的时长;和/或16.将连续的休止符以及连续的换气符进行合并,并将合并前的各个休止符的时长之和作为合并后的休止符的时长以及将合并前的各个换气符的时长之和作为合并后的换气符的时长。17.基于第一方面的一种实施方式,获取每个乐谱片段的帧数序列和音高id序列添加对应的倚音信息,包括:18.针对每一乐谱片段,将该乐谱片段中的各个音阶转化为对应的音高id,得到一音高id序列;19.将该乐谱片段中的各个音阶的浮点数时长,转化为帧数,得到一帧数序列。20.基于第一方面的一种实施方式,所述倚音预测模型包括嵌入层、双向长短期记忆层、全连接层、以及条件随机场层,其中,依次将各所述乐谱片段的帧数序列和音高id序列输入倚音预测模型中,得到所述数字乐谱的倚音位置信息以及倚音音高信息,包括:21.将所述乐谱片段的帧数序列和音高id序列输入所述嵌入层,对所述帧数序列和音高id序列进行向量映射,得到所述乐谱片段各音符的时长向量和音高向量,并将各音符的时长向量和音高向量相加得到各音符对应的输入特征向量;22.将所述各音符对应的输入特征向量输入所述双向长短期记忆层进行处理,并将所述双向长短期记忆层的输出送入所述全连接层得到每个输入特征向量对多个预测标签的分数;将每个输入特征向量对各预测标签的分数输入所述条件随机场层,由所述条件随机场层根据每个输入特征向量对各预测标签的分数得到所述乐谱片段对应的倚音位置序列以及倚音音高差序列;所述倚音位置序列包括表征对应位置处是否包含倚音的标识,所述倚音音高差序列包括所述乐谱片段中每个位置的倚音音高差。23.基于第一方面的一种实施方式,所述预测标签包括倚音预测标签和音高预测标签,所述倚音预测标签包括“句头”、“句尾”、“倚音”、“非倚音”四个标签,所述输入特征向量被预测为各所述倚音预测标签的概率值作为该输入特征向量对各所述倚音预测标签的分数;所述音高预测标签包括“开头”、“结尾”、“音高差为0”、“音高差为1”、“音高差为2”五个音高预测标签,所述输入特征向量被预测为各所述音高预测标签的概率值作为该输入特征向量对各所述音高预测标签的分数;音高差为0表示对应的音符位置不含倚音、音高差为1表示对应的音符位置的倚音比其后一个主音的音高低一个半音,音高差为2表示对应的音符位置的倚音比其后一个主音的音高低一个全音。24.基于第一方面的一种实施方式,根据所述倚音位置信息以及倚音音高信息在所述数字乐谱中添加对应的倚音信息,包括:25.根据所述倚音位置序列,针对各所述乐谱片段在预测的每个倚音位置对应的音符增加一个倚音音阶;26.根据所述倚音位置之后一个主音的时长为该倚音位置的音符设置对应的时长,并将该主音的时长调整为该主音的原始时长与所述倚音位置的音符的时长之差;27.将所述主音的歌词移动到其前一个倚音位置,并将该主音的歌词改为延音符号,以得到进行倚音处理之后的乐谱片段;28.去掉各个经过倚音处理之后的乐谱片段开头的休止符和换气符后进行拼接,得到添加了倚音信息的数字乐谱。29.基于第一方面的一种实施方式,所述方法还包括:30.获取乐谱数据集,所述乐谱数据集包括多个带标签的数字乐谱片段样本,每个数字乐谱片段样本的标签包括各音符位置是否有含有倚音的标志序列以及假设各音符位置具有倚音时的倚音和主音的音高差序列,其中,若某位置没有倚音,则对应的音高差为0,若具有倚音,音高差则为1或2,1表示对应位置的倚音比其后一个主音低一个半音,2表示对应位置的倚音比其后一个主音低一个全音;31.依序将各个数字乐谱片段样本输入预先选定的ai模型中,根据所述ai模型输出的结果以及所述数字乐谱片段样本的标签计算损失函数,并通过损失函数调整所述ai模型的参数,直到训练收敛,得到训练后的ai模型作为所述倚音预测模型。32.第二方面,本技术实施例还提供一种歌声合成系统,应用于计算机设备,所述歌声合成系统包括:33.切分模块,用于将数字乐谱进行切分,得到多个乐谱片段,并获取每个乐谱片段的帧数序列和音高id序列;34.预测模块,用于依次将各所述乐谱片段的帧数序列和音高id序列输入倚音预测模型中,得到所述数字乐谱的倚音位置信息以及倚音音高信息;35.添加模块,用于根据所述倚音位置信息以及倚音音高信息在所述数字乐谱中添加对应的倚音信息;36.合成模块,用于将添加了倚音信息后的数字乐谱输入歌声合成模型中进行歌声合成。37.第三方面,本技术实施例还提供一种计算机设备,包括机器可读存储介质以及一个或多个处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述一个或多个处理器执行时,实现上述的歌声合成方法。38.基于本技术实施例的上述内容,相对于现有技术而言,本技术实施例提供的歌声合成方法、系统及计算机设备,通过使用原始数字乐谱上的音阶、时长去预测乐谱倚音信息,预测出的倚音音高,可以融入原始乐谱信息,直接作为输入送入歌声合成模型当中,且不需要对歌声合成模型进行额外的训练,能够适应各种歌声合成模型。同时,基于预测出的倚音信息可以使得歌声合成模型合成更具有表现力、且能传达出更丰富的情感的歌声,使得合成歌声显得更具个人特色,而不是完全符合乐谱的死板变化。附图说明39.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。40.图1是本技术实施例提供的一种歌声合成方法的流程示意图。41.图2是图1中步骤s100的实现流程示意图。42.图3是本技术实施例中提供的一种倚音预测模型的结构示意图。43.图4是图1中步骤s200的实现流程示意图。44.图5是图1中步骤s300的实现流程示意图。45.图6是现有的一种歌声合成方法的示意图。46.图7是本技术实施例对应的歌声合成方法的示意图。47.图8是本技术实施例提供的歌声合成系统的功能模块示意图。48.图9是本技术实施例提供的用于实现上述歌声合成方法的计算机设备的示意图。具体实施方式49.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。50.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。51.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。52.在本技术的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。53.在本技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。54.基于前述背景技术中所提及的技术问题,本技术发明人发现,含有倚音的合成歌声,会更具有表现力,能传达出更丰富的情感,让歌声显得更动听,能让合成歌声拥有不同于原始乐谱,而又符合原始乐谱整体节奏的音高变化,让合成歌声显得更具个人特色,而不是完全符合乐谱的死板变化。55.此外,现有的歌声合成模型中,有部分模型针对装饰音中的颤音做了改进工作,比如park等人将音高曲线通过颤音程度、颤音率等参数来进行控制。而bonada等人使用混合参数统计方法和神经网络方法对音高曲线进行预测时,也使用高斯函数对颤音现象进行了模拟。但目前,都还没有针对倚音在歌声合成中的相关应用及技术。56.在本技术的研发过程中,通过组织具有一定音乐理论背景的人去听一些选定的歌曲,并要求他们根据歌曲的实际歌唱效果,包括音高、歌词文字、歌词拼音和是否有倚音来制作乐谱。而后,删除了除普通话外的所有乐谱。对于含有多声部或多谱表的乐谱,将其修改为单声部和单谱表。获得干净的数据后,分别用带有倚音标签的乐谱和没有倚音标签的乐谱合成歌曲,并对声乐表现进行了abx测试。最终的测试结果是绝大多数人都认为带倚音的歌声更具有表现力。当简单地展示有无倚音的乐谱时,几乎所有的测试者都认为,有倚音的乐谱歌唱效果会更好。因为使用的歌曲合成模型没有针对倚音的情况进行优化,所以一些合成的歌曲不能很好地显示倚音的效果。尽管如此,abx测试表明,倚音能有效地提高合成歌声的表现力。57.基于上述背景,本技术提出一种基于倚音预测以给后续歌声合成模型提供含有倚音的乐谱,方便合成含有倚音的高表现力歌声的歌声合成方法、系统及计算机设备。下面将结合附图对本技术的相关方案进行示例性说明。58.为了方便理解,在介绍本技术的技术方案之前,先对本技术所涉及的一些相关技术术语进行解释性说明。59.歌声合成(singing synthesis),指将乐谱信息转换为标准流畅的歌声。60.倚音(grace note),倚音可以分为长倚音和短倚音,其中长倚音主要在古典作品中出现,现在的音乐记谱中已经极其少见了。61.短倚音(acciaccatura),短倚音是我们日常谈论中一般概念上的倚音,它并非旋律或和声上的主要音,时值被包含在它倚靠的主音上,通常比主音低一个半音或一个全音。62.bilstm(bi-directional long short-term memory,双向长短期记忆),由前向lstm与后向lstm组合而成。63.crf(conditional random fields,条件随机场),给定一组输入序列条件下得到另一组输出序列的条件概率分布模型。64.embedding:向量映射,将离散变量转为连续向量表示的一个方式。65.下面将结合附图对本技术实施例的实施方案进行示例性的介绍。66.如图1所示,是本技术实施例提供的一种歌声合成方法的流程示意图,本实施例中,所述歌声合成方法可以由计算机设备执行并实现。应当理解,本实施例提供的歌声合成方法所包含的其中部分步骤的顺序在实际实施时可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除,本实施例对此不进行具体限定。67.下面结合图1对本实施例的歌声合成方法的各个步骤通过示例的方式进行详细介绍,详细地,如图1所示,所述方法可以包括下述的步骤s100至步骤s400所述的相关内容。68.步骤s100,将数字乐谱进行切分,得到多个乐谱片段,并获取每个乐谱片段的帧数序列和音高id序列。69.其中本实施例中,所述数字乐谱可以是用户提供的原始乐谱,包括歌词、音阶、时长等信息。所述数字乐谱可以是包含音阶、时长信息的简谱或五线谱所对应的musicxml形式的数字乐谱。其中,针对每个乐谱片段,可以将该乐谱片段中的各个音阶转化为对应的音高id,得到一音高id序列,例如,可以将该乐谱片段的每个音阶通过查表的方式转换为对应的音高id,进而得到所述乐谱片段对应的音高id序列。例如,所述音阶对应的音高id通过查表可以为c0-12,c#0-13等。70.此外,可以将各乐谱片段中的各个音阶的浮点数时长,转化为帧数,得到一帧数序列。例如,可以通过以下公式将各乐谱片段中的各个音阶的浮点数时长转化为帧数,进而得到帧数序列:71.72.其中,sr为设定的针对所述乐谱片段的音频进行采样的采样率,dur为音阶的浮点数时长,win指对音频进行分帧时每一帧的窗口长度,hop指窗口移动长度,表示分帧时每间隔多久取1帧。73.针对步骤s100,在本实施例的一种可能的实现方式中,如图2所示,步骤s100中将数字乐谱进行切分,得到多个乐谱片段,可以通过下述的s110-s130实现。74.步骤s110,从所述数字乐谱中提取每个音符的音阶信息和时长信息。75.其中,本实施例可以通过已有的音阶时长提取器实现所述音阶信息和时长信息的提取,本实施例不再具体赘述。76.步骤s120,根据所述音阶信息和时长信息对所述数字乐谱进行前处理。77.在本实施例的一种可能的实现方式中,对所述数字乐谱进行前处理至少包括下述两种处理方式的其中至少一种。78.方式一:将所述数字乐谱中连续的、且具有相同音阶的同一个字进行合并,并将合并前的各个字的时长之和作为合并后的字的时长。79.方式二:将连续的休止符以及连续的换气符进行合并,并将合并前的各个休止符的时长之和作为合并后的休止符的时长以及将合并前的各个换气符的时长之和作为合并后的换气符的时长。80.步骤s130,根据前处理后的数字乐谱中的休止符和换气符对该数字乐谱进行切分,得到多个乐谱片段。其中,本实施例中,每个乐谱片段包括至少三个音符,且每个乐谱片段的开头和结尾分别包括一个换气符时长和一个休止符时长。81.通过上述两种方式对所述数字乐谱进行前处理使得整个数字乐谱经过时长和音符的合并后,可根据乐谱当中的休止符和换气符对整个数字乐谱进行切分,切分过程中需要保证每一片段最少拥有3个音符,且将休止符和换气符的时长复制后分别放在前一乐谱片段的结尾和后一乐谱片段的开头。82.步骤s200,依次将各所述乐谱片段的帧数序列和音高id序列输入倚音预测模型中,得到所述数字乐谱的倚音位置信息以及倚音音高信息。83.其中,本实施例中,所述倚音预测模型可以是通过预先采集的乐谱数据集对设定的ai模型(例如bilstm-crf模型)进行训练而得到。84.如前述技术背景中所描述,在明确了数据有效性和倚音预测必要性之后,可以对数据集进行数据分析,借此来找到模型训练的输入特征。数字乐谱中直接提取的数据可以有汉字、拼音、音高、时长、是否为倚音,这5种信息。为了确定倚音位置是否和语义相关,还可以提取每个词的词性、韵律标签。为了便于数据分析,将拼音拆分成声母、韵母、声调,时长这一浮点数转化为帧数,并将它们和音高一起转化为id,进行各自归一化之后,将它们和是否有倚音进行了相关系数分析,最终验证得到上述特征中音高、时长是和倚音位置相关性最高的2个特征,因此本技术实施例中主要是用这两种特征进行倚音的预测。85.除了对倚音的位置开展相关性分析,我们还对倚音音高进行了分析。在音乐人的常识中,倚音音高一般比主音音高低1个全音或1个半音,数据库中主音音高减去倚音音高的占比大约为74%的为2表示差1个全音,占比20%的为1表示差一个半音,这两种情况覆盖了94%的倚音。86.由上述的分析可知倚音位置预测主要基于时长信息,而倚音音高预测主要基于音高信息,故本技术决定将倚音预测拆分成2个任务,一个是进行倚音位置预测,另一个是进行倚音音高预测。87.基于上述内容,本实施例中,所述乐谱数据集可以包括大量的带标签的数字乐谱片段样本。每个数字乐谱片段样本的标签包括各音符位置是否有含有倚音的标志序列以及假设各音符位置具有倚音时的倚音和主音的音高差序列,其中,若某位置没有倚音,则对应的音高差为0,若具有倚音,音高差则为1或2,1表示对应位置的倚音比其后一个主音低一个半音,2表示对应位置的倚音比其后一个主音低一个全音。在模型训练时,可以依序将各个数字乐谱片段样本输入所述ai模型中,根据模型输出的结果以及所述数字乐谱片段样本的标签计算损失函数,通过损失函数调整ai模型的参数,直到训练收敛,得到训练后的ai模型作为所述倚音预测模型。88.在本技术实施例中,例如图3所示,所述倚音预测模型可以包括嵌入层(embedding layer)、双向长短期记忆层(bilstm layer)、全连接层(full connecting layer)、以及条件随机场层(crf layer)。其中,如图4所示,针对步骤s200中,依次将各所述乐谱片段的帧数序列和音高id序列输入倚音预测模型中,得到所述数字乐谱的倚音位置信息以及倚音音高信息,可以包括下述的s210-s230的步骤。89.步骤s210,将所述乐谱片段的帧数序列和音高id序列输入所述嵌入层,对所述帧数序列和音高id序列进行向量映射,得到所述乐谱片段各音符的时长向量和音高向量,并将各音符的时长向量和音高向量相加得到各音符对应的输入特征向量。例如,嵌入层可以通过查表将输入的乐谱片段中的各个音高/音阶(pitch)转化为对应的音高id,进而得到所述音高id序列,并通过向量映射将对应的浮点数时长转化为帧数,进而得到所述帧数序列。90.步骤s220,将所述各音符对应的输入特征向量输入所述双向长短期记忆层进行处理,并将所述双向长短期记忆层的输出送入所述全连接层得到每个输入特征向量对多个预测标签的分数。其中,所述预测标签为预先设定的,包括倚音预测标签和音高预测标签。倚音预测标签可以包括“句头”、“句尾”、“倚音”、“非倚音”四个标签,所述输入特征向量被预测为各所述倚音预测标签的概率值作为该输入特征向量对各所述倚音预测标签的分数。音高预测标签可以包括“开头”、“结尾”、“音高差为0”、“音高差为1”、“音高差为2”等五个音高预测标签,所述输入特征向量被预测为各所述音高预测标签的概率值作为该输入特征向量对各所述音高预测标签的分数。其中,音高差为0表示对应的音符位置不含倚音、音高差为1表示对应的音符位置的倚音比其后一个主音的音高低一个半音,音高差为2表示对应的音符位置的倚音比其后一个主音的音高低一个全音。91.步骤s230,将每个输入特征向量对各预测标签的分数输入所述条件随机场层,由所述条件随机场层根据每个输入特征向量对各预测标签的分数得到所述乐谱片段对应的倚音位置序列以及倚音音高差序列,所述倚音位置序列包括表征对应位置处是否包含倚音的标识(如0或1,0表示无倚音,1表示有倚音)所述倚音音高差序列包括所述乐谱片段中每个位置的倚音音高差。92.步骤s300,根据所述倚音位置信息以及倚音音高信息在所述数字乐谱中添加对应的倚音信息。93.在本实施例的一种可能的实现方式中,例如图5所示,所述步骤s300可以通过下述的s310-s340的步骤实现,下面进行示例性介绍。94.步骤s310,根据所述倚音位置序列,针对各所述乐谱片段在预测的每个倚音位置对应的音符增加一个倚音音阶。95.步骤s320,根据所述倚音位置之后一个主音的时长为该倚音位置的音符设置对应的时长,并将该主音的时长调整为该主音的原始时长与所述倚音位置的音符的时长之差。例如,可以将所述倚音位置的音符的时长设为后面主音的1/8,后面主音时长设为原时长与新增倚音时长之差(如7/8)。96.步骤s330,将所述主音的歌词移动到其前一个倚音位置,并将该主音的歌词改为延音符号,以得到进行倚音处理之后的乐谱片段。97.步骤s340,去掉各个经过倚音处理之后的乐谱片段开头的休止符和换气符后进行拼接,得到添加了倚音信息的数字乐谱。98.步骤s400,将添加了倚音信息后的数字乐谱输入歌声合成模型中进行歌声合成。99.其中,本技术实施例中,所述歌声合成模型可以是任意一种现有的歌声合成模型,根据本实施例的歌声合成方法,所述歌声合成模型所合成的歌声包含了倚音信息,具有更好的表现力。100.结合以上内容,请参阅图6和图7所示,图6为现有的一种歌声合成方法的示意图,图7为本技术实施例对应的歌声合成方法的示意图。相比较可以看出,在现有的方法中一般直接根据用户输入的乐谱信息通过计算机或服务器等设备直接进行合成得到清唱歌声,而后可以通过增加伴奏信息得到具有演唱效果的演唱音频歌声。而本技术中,首先会对用户输入的乐谱信息通过音高时长提取、倚音位置预测、倚音音高预测等处理,得到各个切分后的乐谱片段(可以是一句话)的音高、时长信息,然后在每个乐谱片段中会添加相应的倚音信息,最后再将添加了倚音信息之后的乐谱片段拼接为一个完整的乐谱,以用于作为后续歌声合成模型的输入。如此,通过使用原始数字乐谱上的音阶、时长去预测乐谱倚音信息,预测出的倚音音高,可以融入原始乐谱信息,直接作为输入送入歌声合成模型当中,且不需要对歌声合成模型进行额外的训练,能够适应各种歌声合成模型。同时,基于预测出的倚音信息可以使得歌声合成模型合成更具有表现力、且能传达出更丰富的情感的歌声,使得合成歌声显得更具个人特色,而不是完全符合乐谱的死板变化。101.如图8所示,是本技术实施例中提供的用于实现上述的歌声合成方法的歌声合成系统的示意图。本实施例中,所述歌声合成系统可以应用于图9所示的计算机设备100。详细地,所述计算机设备100可以包括一个或多个处理器110、机器可读存储介质120以及歌声合成系统130。处理器110与机器可读存储介质120可经由系统总线通信连接。机器可读存储介质120存储有机器可执行指令,处理器110通过读取并执行机器可读存储介质120中机器可执行指令实现上文描述的歌声合成方法。本实施例中,所述计算机设备100可以是用于执行所述歌声合成系统的前端所包括的各功能模块的云端服务器,也可以是用于执行歌声合成系统的后端所包括的各功能模块的用户客户端,或者也可以是同时用于执行所述歌声合成系统的前端和后端所包括的各功能模块的云端服务器,又或者也可以是分别执行所述歌声合成系统的前端和后端所包括的各功能模块的云端服务器以及用户客户端的组合,本实施例对此不进行限制。102.其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。其中,机器可读存储介质120用于存储程序,所述处理器110在接收到执行指令后,执行所述程序。103.所述处理器110可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是,但不限于,通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)等。104.本实施例中,所述歌声合成系统130可以包括切分模块131、预测模块132、添加模块133、以及合成模块134。105.其中,所述切分模块131用于将数字乐谱进行切分,得到多个乐谱片段,并获取每个乐谱片段的帧数序列和音高id序列。106.本实施例中,所述切分模块131可以用于执行上述的步骤s100,关于该切分模块131的更多的详细内容可以参照上述步骤s100的相关内容,此处不再赘述。107.所述预测模块132用于依次将各所述乐谱片段的帧数序列和音高id序列输入倚音预测模型中,得到所述数字乐谱的倚音位置信息以及倚音音高信息。108.本实施例中,所述预测模块132可以用于执行上述的步骤s200,关于该预测模块132的更多的详细内容可以参照上述步骤s200的相关内容,此处不再赘述。109.所述添加模块133用于根据所述倚音位置信息以及倚音音高信息在所述数字乐谱中添加对应的倚音信息。110.本实施例中,所述添加模块133可以用于执行上述的步骤s300,关于该添加模块133的更多的详细内容可以参照上述步骤s300的相关内容,此处不再赘述。111.所述合成模块134用于将添加了倚音信息后的数字乐谱输入歌声合成模型中进行歌声合成。112.本实施例中,所述合成模块134可以用于执行上述的步骤s400,关于该合成模块134的更多的详细内容可以参照上述步骤s400的相关内容,此处不再赘述。113.综上所述,本技术实施例提供的歌声合成方法、系统及计算机设备,通过使用原始数字乐谱上的音阶、时长去预测乐谱倚音信息,预测出的倚音音高,可以融入原始乐谱信息,直接作为输入送入歌声合成模型当中,且不需要对歌声合成模型进行额外的训练,能够适应各种歌声合成模型。同时,基于预测出的倚音信息可以使得歌声合成模型合成更具有表现力、且能传达出更丰富的情感的歌声,使得合成歌声显得更具个人特色,而不是完全符合乐谱的死板变化。114.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。115.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。116.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。117.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。118.以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部