发布信息

命令词识别方法及电子设备和存储介质与流程 专利技术说明

作者:admin      2023-06-29 08:34:36     418



乐器;声学设备的制造及制作,分析技术1.本发明属于命令词识别技术领域,尤其涉及一种命令词识别方法及电子设备和存储介质。背景技术:2.随着越来越多的端侧设备使用语音命令词识别,对该技术的要求也越来越高。端侧设备由于成本和技术的限制,往往没有充裕的计算资源,同时面对的智能家居,控制面板,物联网等场景的命令词存在许多易混淆词,提升易混淆词的识别正确率对用户体验有着关键作用。采用现有技术往往对计算资源要求较高,但是面对低成本芯片往往达不到这样的要求,同时易混淆词有其特殊性无法达到更好的效果。3.对于现有的易混淆词的识别一些技术是使用两级处理模块,将通过第一识别模块的结果再送入第二识别模块,通过两级识别提升命令词识别正确性。基于音频序列输入第一识别模块生成命令词置信度,基于置信度获得易混淆词,将其送入第二识别模块,进一步区分命令词,缓解易混淆词的误识别问题。现有技术中在第一识别模块的计算结果基础上增加模块二的计算,势必会增加计算占用算力,如果第二识别模块有比较高实时率,那么会带来明显的计算延时造成数据堵塞,这个实时系统是不可忍受的,而低实时率需要芯片有较高的计算能力,从而支持两级模块,这个要求对低成本芯片往往比较苛刻。4.发明人发现:现有的相似技术需要两级处理模块,增加了计算资源占用;应用于实时系统要求第二识别模块有较低的实时率,对于低成本芯片来说该条件比较苛刻,在调整模块时没有涉及针对易混淆词优化的操作。技术实现要素:5.本发明实施例旨在至少解决上述技术问题之一。6.第一方面,本发明实施例提供一种命令词识别方法,包括:获取用户输入的音频,对所述音频进行解码得到解码结果;若所述解码结果匹配到命令词表中的某一命令词,查找所述命令词表中是否存在与所述某一命令词的字符串互为前缀子父串的其他命令词,其中,前缀字符相同的字符串互为前缀子父串;若所述命令词表中存在与所述某一命令词的字符串互为前缀子父串的其他命令词,则根据前缀子父串对应的解码配置进行后续解码;若所述命令词表中不存在与所述某一命令词的字符串互为前缀子父串的其他命令词,则继续采用当前解码配置进行后续解码。7.第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项命令词识别方法。8.第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项命令词识别方法。9.第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项命令词识别方法。10.本发明实施例通过判断命令词词表中是否含有前缀子父串,如果含有该种子父串则解码器中使用不同解码配置,可以实现减少父串串子串的错误,同时没有增加计算资源。附图说明11.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。12.图1为本发明的命令词识别方法的一实施例的流程图;13.图2为本发明的命令词识别方法的过程实现流程图;14.图3为本发明的电子设备的一实施例的结构示意图。具体实施方式15.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。16.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。17.本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。18.在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。19.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。20.本发明实施例提供一种命令词识别方法,该方法可以应用于电子设备。电子设备可以是电脑、服务器或者其他电子产品等,本发明对此不作限定。21.请参考图1,其示出了本发明一实施例提供的一种命令词识别方法。22.如图1所示,在步骤101中,获取用户输入的音频,对所述音频进行解码得到解码结果;23.在步骤102中,若所述解码结果匹配到命令词表中的某一命令词,查找所述命令词表中是否存在与所述某一命令词的字符串互为前缀子父串的其他命令词,其中,前缀字符相同的字符串互为前缀子父串;24.在步骤103中,若所述命令词表中存在与所述某一命令词的字符串互为前缀子父串的其他命令词,则根据前缀子父串对应的解码配置进行后续解码;25.在步骤104中,若所述命令词表中不存在与所述某一命令词的字符串互为前缀子父串的其他命令词,则继续采用当前解码配置进行后续解码。26.在本实施例中,对于步骤101,获取用户输入的音频信息,利用麦克风等设备拾取用户输入的音频信息,通过解码器将用户输入的音频信息进行解码,例如,用户输入的音频信息为“帮我打开空调”,通过解码器对用户输入的音频中的每一个字进行解码,得到解码结果“帮我打开空调”。27.之后,对于步骤102,根据用户输入的音频得到的解码结果,查找解码结果中的命令词,其中解码结果中的命令词简称为解码命令词;然后在准备好的命令词表中查找或匹配与解码命令词对应命令词;如果在命令词表中匹配到与解码命令词对应的命令词,则继续在命令词表中查找与对应的命令词的字符串互为前缀子父串的其他命令词,前缀字符相同的字符串互为前缀子父串,查找命令词表与对应的命令词的前缀字符相同的其他命令词,其中命令词表中的某一命令词为解码结果中的命令词与命令词表中匹配的命令词。例如,解码命令词为“打开空调”,则在命令词表中匹配与“打开空调”对应的命令词;若匹配到对应的命令词为“打开空调”,则继续在命令词列表中查找与“打开空调”命令词前缀字符相同的其他命令词,如“打开电视”、“打开电灯”等命令词。28.然后,对于步骤103,如果在命令词表中查找到与某一命令词的前缀字符相同的其他命令词,则根据前缀字符相同的字符串对应的解码配置进行解码。例如命令词表中存在“打开”和“打开空调”两个命令词,系统检测到其互为前缀子父串,在解码器解码到“开”这个节点时,会等待一个相比默认解码器设置更长时间,如果不出“空”这个节点则输出“打开”,如果出“空”这个节点,则继续解码直到解码出“打开空调”。29.最后,对于步骤104,如果在命令词表中没有查找到与某一命令词的前缀字符相同的其他命令词,就继续采用当前命令词的解码配置进行解码。如果命令词中不存在前缀子父串,例如命令词表中“开启”这个命令词,解码器解码到“启”这个节点等待一个默认解码器设置的时长便输出解码结果。30.本发明实施例通过判断命令词词表中是否含有前缀子父串,如果含有该种子父串则解码器中使用不同解码配置,可以实现减少父串串子串的错误,同时没有增加计算资源。31.在一些可选的实施例中,互为前缀子父串的多个字符串中较短的字符串为子串,互为前缀子父串的多个字符串中最长的字符串为父串,例如“打开空调”其中“打开”为子串,“打开空调”为父串。当解码结果中的命令词与命令词表中匹配的命令词的字符串为父串时,则采用短延时解码配置;当解码结果中的命令词与命令词表中匹配的命令词的字符串为子串时,则采用长延时解码配置。短延时指解码默认时长一般几十毫秒,长延时指更长的时长一般几百毫秒。“长”和“短”可以理解为输出解码结果的慢和快,采用“长延时”则输出解码结果更慢,采用“短延时”则输出解码结果更快。32.在一些可选的实施例中,通过对比学习的方式对识别模块进行训练,对比学习方式是根据解码结果来对比学习目标序列和混淆序列,目标序列和混淆序列是通过从用户的命令词表中获取的与用户输入的相似的命令词;对识别模块训练完成后,利用训练好的识别模块对用户输入的音频信息进行识别解码,得到用户音频解码结果。针对易混淆词,对比学习目标序列和混淆序列,将识别模块的输出结果不断减小与目标序列的距离,同时增大与混淆序列的距离,提升识别模块的区分性,优化识别结果。目标序列指期望识别的正确序列结果,混淆序列指和正确结果相似但不期望输出的错误序列结果。例如“打开”和“点开”,“打开”为目标序列,则“点开”为混淆序列,在期望识别“打开”时会容易识别成“点开”造成混淆错误。33.需要说明的是,本技术的方案中的识别模块在训练过程中,不仅学习目标序列减小与目标序列的错误,而且针对易混淆词学习区分易混淆词,增大与易混淆序列的区分,通过这样的对比学习使识别模块增加对易混淆词的区分性。在识别模块解码器中,根据易混淆词的特性设置不同配置,对于一些子父串采用不同的解码延时,例如对于“打开”和“打开空调”两个命令使用不同的延时等待,能够有效降低两者互串。该方法是用一个解码模块采用不同配置,这样计算资源占用几乎无增加。34.在一些可选的实施例中,利用语音合成技术合成命令词表对应的语音数据,对命令词表对应的语音数据利用并行计算技术进行加速。为了降低成本,利用语音合成技术合成命令词音频和易混淆词的音频。为了提升效率合成音频过程利用并行计算技术进行加速。为了提升模型鲁棒性对音频进行数据仿真提升数据的多样性。当易混淆词音频数据获取成本较高时,使用语音合成技术生成相应音频数据,而且不仅可以合成命令词表内的数据还可以合成词表外与相应命令词相似的数据。此方式准备数据可以很大程度降低成本同时对提升易混淆词的正确率有一定帮助作用。35.需要说明的是,在本技术提供的方案中,还可以利用解码器来对用户输入的音频进行解码,来获取解码器输出的与命令词表匹配的第一个命令词,本技术在此不做限定。36.需要说明的是,本技术提供的技术方案,使用语音合成技术合成命令词音频和易混淆词音频进行数据准备,因为语音合成技术不需要真人录制指定语音数据,减少真人数据收集标注带来的成本,对成本有限的应用场景比较合适。对比学习目标序列和混淆序列,这种区分性学习的方式有利于减少识别串扰率,获得更高的识别率。这种方式是训练方式的改动,并不涉及工程推理的变动,因此该优化不会带来额外计算资源的变动。对于前缀子父串使用不用解码配置,因为子串使用长延时配置,所以当面对父串串子串的错误时等到父串后面的识别结果输出时就会得到正确的结果,从而减少这种串扰。由于使用同一解码器不同配置,所以并没有增加计算资源。37.需要说明的是,本技术还提供一种单模块多输出的方案,此方案为一个模块拥有两个输出,共享部分参数,两个输出联合决策共同决定输出结果。该方案两个分支共享部分参数一定程度上节省的计算资源占用,同时两个输出共同决策对易混淆词进行双重验证,减少易混淆词的错误,但是两个输出都要解码,则需要两个解码器,而且调整一个输出可能会影响另一个输出,改动起来不灵活此外联合决策的策略比较复杂不够稳定。单模块多输出的方案一定程度也能解决易混淆词错误问题,该方案识别模块含有两个识别结果,根据两个结果共同判断最终识别结果。该方案优点是两个输出共享部分参数,节省了一定的计算资源,联合决策对减少一些串扰错误起到一定作用;缺点是两个输出互相影响,调整起来不太灵活,联合决策涉及因素多,鲁棒性不够。38.请参考图2,其出示了本发明的命令词识别方法的实现流程图。39.如图2所示,步骤1:准备数据,为了降低成本利用语音合成技术,合成命令词音频和易混淆词的音频。为了提升效率,合成音频过程利用并行计算技术进行加速,为了提升模型鲁棒性,对音频进行数据仿真提升数据的多样性。40.步骤2:识别模块参数训练,针对易混淆词,对比学习目标序列和混淆序列,将识别模块的输出结果不断减小与目标序列的距离,同时增大与混淆序列的距离,提升识别模块的区分性,优化识别结果。41.步骤3:判断命令词词表中是否含有前缀子父串,如果含有该种子父串则解码器中使用不同解码配置,对于子串使用长延时配置,父串使用短延时配置,从而减少父串串子串的错误;如果不包含该种子父串则使用相同解码配置。42.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。43.在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项命令词识别方法。44.在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项命令词识别方法。45.在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行命令词识别方法。46.图3是本技术另一实施例提供的执行命令词识别方法的电子设备的硬件结构示意图,如图3所示,该设备包括:47.一个或多个处理器310以及存储器320,图3中以一个处理器310为例。48.执行命令词识别方法的设备还可以包括:输入装置330和输出装置340。49.处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。50.存储器320作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的命令词识别方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例命令词识别方法。51.存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据命令词识别设备的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至命令词识别设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。52.输入装置330可接收输入的数字或字符信息,以及产生与命令词识别设备的用户设置以及功能控制有关的信号。输出装置340可包括显示屏等显示设备。53.所述一个或者多个模块存储在所述存储器320中,当被所述一个或者多个处理器310执行时,执行上述任意方法实施例中的命令词识别方法。54.上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。55.本技术实施例的电子设备以多种形式存在,包括但不限于:56.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。57.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等。58.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。59.(4)其他具有数据交互功能的机载电子装置,例如安装上车辆上的车机装置。60.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。61.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。62.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部