发布信息

机器阅读理解方法及其装置、电子设备及存储介质与流程 专利技术说明

作者:admin      2023-06-29 10:05:21     296



计算;推算;计数设备的制造及其应用技术1.本发明涉及人工智能领域,具体而言,涉及一种机器阅读理解方法及其装置、电子设备及存储介质。背景技术:2.机器阅读理解是自然语言处理(nlp)中一项具有挑战性的任务,在智能问答、信息检索等领域有很好的应用前景。机器阅读理解旨在让机器学会根据相关文本内容自动回答相关问题,是自然语言理解(nlu)和强人工智能的重要基础。当前,根据答案的类型,可以将机器阅读理解任务分成完形填空、多项选择、区间提取和自由回答四种类型。由于存在比完形填空和多项选择模式更加贴合现实应用场景、比自由回答类型更容易评价的特性,区间提取式(span extraction)机器阅读理解已经成为最受欢迎的选择。给定段落和相关问题,机器需要提取段落中一段连续的文本区间作为答案。不局限于单词或实体,根据特定情况,答案可以是一个很长的句子。3.预训练语言模型,如bert等,可以有效利用非标注数据进行模型训练,从而学习丰富的词向量表示。对于下游任务而言,不再需要从零开始训练一个模型,从大规模语料中得到的预训练模型在新的数据集上经过简单的“微调”就可以取得非常好的效果。预训练方法经过不断发展,出现了众多优秀模型,已经在机器阅读理解领域取得了成功。4.相关技术中,基于预训练方法来完成机器阅读理解任务,其网络结构一般是预训练模型输出词向量表示后拼接全连接层,经过softmax(归一化指数函数)输出各个token(即字符)分别作为答案起止位置的概率分布。5.图1是根据相关技术的一种可选的基于bert的区间式机器阅读理解方法的示意图,如图1所示,将question(问题)和paragraph(段落)输入至bert模型中,question在输入bert模型前可以处理为tok1…tokn,paragraph在输入bert模型前可以处理为tok1…tokm,并且在tok1…tokn前加上[cls]符号,在tok1…tokn和tok1…tokm之间加入[sep]符号,将[cls]tok1…tokn[sep]tok1…tokm的表征ecls e1…en esep e1‘…em′输入至bert模型中,输出c t1…tn tsep t1‘…tm′,然后通过softmax输出各个token分别作为答案起止位置的概率分布,例如,t1‘的作为s(起始位置)的概率为pstart1,作为e(终止位置)的概率为pend1;tm‘的作为s(起始位置)的概率为pstartm,作为e(终止位置)的概率为pendm。[0006]然而,基于bert等预训练模型的机器阅读理解存在如下缺点:[0007](1)中英文预训练模型训练方式的差异。当前,中文预训练模型都是基于“字”训练得到,其输出的向量表示准确来说是字向量,而英文预训练模型都是基于词的,这对于答案区间获取有很大影响。例如:[0008]the/capital/city/of/china/is/beijing;[0009]中/国/的/首/都/是/北/京;[0010](2)忽略了临近词语之间的语义相关性,这对于机器阅读理解的答案区间定位至关重要。一个token是否属于答案起始词或结束词的范畴在一定程度上取决于它近邻词的语义,但相关技术中的预训练词向量表示直接经过全连接层输出起止位置概率的模式缺乏对近邻上下文的显式建模过程。例如,如果某一个token之后紧邻的位置是一个标点符号,那么该token作为答案起始位置的概率就会相对较低;如果某个单词在“坐落于”之后,那么它作为某“地点”类问题答案的起始位置概率就会相对较高。[0011]如:[0012]the palace museum is located atbeijing,which is completed in 1420;[0013]故宫坐落于北京,在1420年建成;[0014](3)进一步提升预训练模型机器阅读理解下游任务效果困难。由于预训练模型本身强大的特征建模能力及巨大参数量,单独地在预训练模型之后继续叠加各种注意力网络层并不能显著提升实际效果。当前的提升方式主要来自于更大规模的预训练模型或外部数据知识的引入,实施起来耗时较长且难度较高。[0015]针对上述的问题,目前尚未提出有效的解决方案。技术实现要素:[0016]本发明实施例提供了一种机器阅读理解方法及其装置、电子设备及存储介质,以至少解决相关技术中无法整合相邻字符之间的语义相关性,导致机器阅读理解准确性较低的技术问题。[0017]根据本发明实施例的一个方面,提供了一种机器阅读理解方法,包括:对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,其中,所述输入序列包括:多个字符;将所述输入序列输入至预训练模型,输出向量特征集合,其中,所述向量特征集合包括多个向量特征,每个所述向量特征对应一个所述字符;对所述向量特征集合中每两个相邻的所述向量特征进行整合,得到目标向量特征集合;基于所述目标向量特征集合,从所述预设段落文本中确定与所述预设问题文本匹配的答案文本,其中,所述答案文本是所述预设段落文本中一段连续的文本。[0018]可选地,对接收到的预设问题文本和预设段落文本进行处理,得到输入序列的步骤,包括:确定第一符号、第二符号以及第三符号,其中,所述第一符号是所述输入序列的开始符号,所述第二符号用于区分所述预设问题文本以及所述预设段落文本,所述第三符号用于区分所述预设段落文本以及预设补充文本,所述预设补充文本是增加的空白文本;将所述预设问题文本划分为多个问题字符,并将所述预设段落文本划分为多个段落字符;基于所述第一符号、所述第二符号、所述第三符号、所述问题字符以及所述段落字符,构建所述输入序列。[0019]可选地,在得到输入序列之后,还包括:确定所述输入序列中每个所述字符的输入结构,其中,所述输入结构包括:字符语义编码、字符类型编码、位置编码;确定预设特征提取器的编码层数以及所述向量特征的向量长度。[0020]可选地,将所述输入序列输入至预训练模型,输出向量特征集合的步骤,包括:将所述输入序列中每个所述字符的结构转换为所述输入结构;将转换后的所述输入序列输入至所述预训练模型;基于所述预训练模型,采用所述预设特征提取器对所述输入序列进行连续所述编码层数的编码,得到所述向量特征集合,其中,所述向量特征集合中每个所述向量特征的长度为所述向量长度。[0021]可选地,对所述向量特征集合中每两个相邻的所述向量特征进行整合,得到目标向量特征集合的步骤,包括:对所述向量特征进行升维操作,得到升维向量特征;基于第一预设卷积核、第一预设步长以及第一预设补充类型,对每两个相邻的所述升维向量特征进行卷积,得到新增向量特征;基于第二预设卷积核、第二预设步长以及第二预设补充类型,确定所述新增向量特征的向量权重;基于所述升维向量特征、所述向量权重与所述新增向量特征之积,确定目标向量特征;基于所有所述目标向量特征,得到所述目标向量特征集合。[0022]可选地,基于所述目标向量特征集合,从所述预设段落文本中确定与所述预设问题文本匹配的答案文本的步骤,包括:对所述目标向量特征集合中的每个所述目标向量特征进行降维操作,并将降维后的所述目标向量特征输入至预设输出层;采用所述预设输出层,计算所述目标向量特征的起始位置值和终止位置值;对所有所述起始位置值以及所有所述止位置值进行排序,得到排序结果;基于所述排序结果,确定满足预设位置条件的最大起始位置值以及最大终止位置值,其中,所述预设位置条件是起始位置位于终止位置之前的条件;基于所述最大起始位置值指示的目标起始位置以及所述最大终止位置值指示的目标终止位置,确定所述答案文本。[0023]可选地,在将降维后的所述目标向量特征输入至预设输出层之前,还包括:基于第一损失参数以及真实起始位置对应的字符输出概率值,确定起始交叉熵损失;基于第二损失参数以及真实终止位置对应的字符输出概率值,确定终止交叉熵损失;基于所述起始交叉熵损失以及所述终止交叉熵损失,构建损失函数;基于所述损失函数,训练所述预设输出层。[0024]根据本发明实施例的另一方面,还提供了一种机器阅读理解装置,包括:处理单元,用于对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,其中,所述输入序列包括:多个字符;输出单元,用于将所述输入序列输入至预训练模型,输出向量特征集合,其中,所述向量特征集合包括多个向量特征,每个所述向量特征对应一个所述字符;整合单元,用于对所述向量特征集合中每两个相邻的所述向量特征进行整合,得到目标向量特征集合;确定单元,用于基于所述目标向量特征集合,从所述预设段落文本中确定与所述预设问题文本匹配的答案文本,其中,所述答案文本是所述预设段落文本中一段连续的文本。[0025]可选地,所述处理单元包括:第一确定模块,用于确定第一符号、第二符号以及第三符号,其中,所述第一符号是所述输入序列的开始符号,所述第二符号用于区分所述预设问题文本以及所述预设段落文本,所述第三符号用于区分所述预设段落文本以及预设补充文本,所述预设补充文本是增加的空白文本;第一划分模块,用于将所述预设问题文本划分为多个问题字符,并将所述预设段落文本划分为多个段落字符;第一构建模块,用于基于所述第一符号、所述第二符号、所述第三符号、所述问题字符以及所述段落字符,构建所述输入序列。[0026]可选地,所述机器阅读理解装置还包括:第二确定模块,用于在得到输入序列之后,确定所述输入序列中每个所述字符的输入结构,其中,所述输入结构包括:字符语义编码、字符类型编码、位置编码;第三确定模块,用于确定预设特征提取器的编码层数以及所述向量特征的向量长度。[0027]可选地,所述输出单元包括:第一转换模块,用于将所述输入序列中每个所述字符的结构转换为所述输入结构;第一输入模块,用于将转换后的所述输入序列输入至所述预训练模型;第一编码模块,用于基于所述预训练模型,采用所述预设特征提取器对所述输入序列进行连续所述编码层数的编码,得到所述向量特征集合,其中,所述向量特征集合中每个所述向量特征的长度为所述向量长度。[0028]可选地,所述整合单元包括:第一升维模块,用于对所述向量特征进行升维操作,得到升维向量特征;第一卷积模块,用于基于第一预设卷积核、第一预设步长以及第一预设补充类型,对每两个相邻的所述升维向量特征进行卷积,得到新增向量特征;第四确定模块,用于基于第二预设卷积核、第二预设步长以及第二预设补充类型,确定所述新增向量特征的向量权重;第五确定模块,用于基于所述升维向量特征、所述向量权重与所述新增向量特征之积,确定目标向量特征;第一输出模块,用于基于所有所述目标向量特征,得到所述目标向量特征集合。[0029]可选地,所述确定单元包括:第一降维模块,用于对所述目标向量特征集合中的每个所述目标向量特征进行降维操作,并将降维后的所述目标向量特征输入至预设输出层;第一计算模块,用于采用所述预设输出层,计算所述目标向量特征的起始位置值和终止位置值;第一排序模块,用于对所有所述起始位置值以及所有所述止位置值进行排序,得到排序结果;第六确定模块,用于基于所述排序结果,确定满足预设位置条件的最大起始位置值以及最大终止位置值,其中,所述预设位置条件是起始位置位于终止位置之前的条件;第七确定模块,用于基于所述最大起始位置值指示的目标起始位置以及所述最大终止位置值指示的目标终止位置,确定所述答案文本。[0030]可选地,所述机器阅读理解装置还包括:第八确定模块,用于在将降维后的所述目标向量特征输入至预设输出层之前,基于第一损失参数以及真实起始位置对应的字符输出概率值,确定起始交叉熵损失;第九确定模块,用于基于第二损失参数以及真实终止位置对应的字符输出概率值,确定终止交叉熵损失;第二构建模块,用于基于所述起始交叉熵损失以及所述终止交叉熵损失,构建损失函数;第一训练模块,用于基于所述损失函数,训练所述预设输出层。[0031]根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述机器阅读理解方法。[0032]根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述机器阅读理解方法。[0033]在本公开中,对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,将输入序列输入至预训练模型,输出向量特征集合,对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合,基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本。在本公开中,可以先对预设问题文本和预设段落文本进行处理,然后将得到的输入序列输入至预训练模型中,之后对输出的向量特征集合中每两个相邻的向量特征进行整合,以得到目标向量特征集合,再根据目标向量特征集合从预设段落文本中确定与预设问题文本匹配的答案文本,通过整合相邻字符之间的相关信息,能够提升机器阅读理解水平,得到更加准确的答案,进而解决了相关技术中无法整合相邻字符之间的语义相关性,导致机器阅读理解准确性较低的技术问题。附图说明[0034]此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0035]图1是根据相关技术的一种可选的基于bert的区间式机器阅读理解方法的示意图;[0036]图2是根据本发明实施例的一种可选的机器阅读理解方法的流程图;[0037]图3是根据本发明实施例的一种可选的改进后的机器阅读理解结构的示意图;[0038]图4是根据本发明实施例的一种可选的机器阅读理解装置的示意图;[0039]图5是根据本发明实施例的一种用于机器阅读理解方法的电子设备(或移动设备)的硬件结构框图。具体实施方式[0040]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。[0041]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0042]为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:[0043]预训练模型,一种动态的词向量表示方法,被广泛应用于各种nlp任务中。预训练模型可以利用无标注文本语料进行预训练,得到词语的动态向量表示,通过简单的全连接层可在大多数下游任务上取得更好的效果。[0044]bert(bidirectional encoder representation from transformers),是一个预训练的语言表征模型。[0045]区间提取式机器阅读理解技术,输入用户问题和相关的文本段落,模型根据计算结果自动地从段落中提取一段连续的文本区间作为用户问题的答案输出。[0046]需要说明的是,本公开中的机器阅读理解方法及其装置可用于人工智能领域在基于进行机器阅读理解的情况下,也可用于除人工智能领域之外的任意领域在进行机器阅读理解的情况下,本公开中对机器阅读理解方法及其装置的应用领域不做限定。[0047]需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。[0048]本发明下述各实施例可应用于各种进行机器阅读理解的系统/应用/设备中。本发明提出了一种基于近邻语义整合的机器阅读理解增强方法,通过整合近邻字、词之间的语义关系,在引入少量额外参数的同时有效地提升了机器阅读理解效果。此外,还提出了一种新的网络结构,叫做近邻语义整合(neighbor context integration,简称nci)层,该nci层可以很便捷地嵌入到各种预训练模型中。[0049]下面结合各个实施例来详细说明本发明。[0050]实施例一[0051]根据本发明实施例,提供了一种机器阅读理解方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。[0052]图2是根据本发明实施例的一种可选的机器阅读理解方法的流程图,如图2所示,该方法包括如下步骤:[0053]步骤s201,对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,其中,输入序列包括:多个字符。[0054]步骤s202,将输入序列输入至预训练模型,输出向量特征集合,其中,向量特征集合包括多个向量特征,每个向量特征对应一个字符。[0055]步骤s203,对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合。[0056]步骤s204,基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本,其中,答案文本是预设段落文本中一段连续的文本。[0057]通过上述步骤,可以对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,将输入序列输入至预训练模型,输出向量特征集合,对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合,基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本。在本发明实施例中,可以先对预设问题文本和预设段落文本进行处理,然后将得到的输入序列输入至预训练模型中,之后对输出的向量特征集合中每两个相邻的向量特征进行整合,以得到目标向量特征集合,再根据目标向量特征集合从预设段落文本中确定与预设问题文本匹配的答案文本,通过整合相邻字符之间的相关信息,能够提升机器阅读理解水平,得到更加准确的答案,进而解决了相关技术中无法整合相邻字符之间的语义相关性,导致机器阅读理解准确性较低的技术问题。[0058]下面结合上述各步骤对本发明实施例进行详细说明。[0059]步骤s201,对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,其中,输入序列包括:多个字符。[0060]可选地,对接收到的预设问题文本和预设段落文本进行处理,得到输入序列的步骤,包括:确定第一符号、第二符号以及第三符号,其中,第一符号是输入序列的开始符号,第二符号用于区分预设问题文本以及预设段落文本,第三符号用于区分预设段落文本以及预设补充文本,预设补充文本是增加的空白文本;将预设问题文本划分为多个问题字符,并将预设段落文本划分为多个段落字符;基于第一符号、第二符号、第三符号、问题字符以及段落字符,构建输入序列。[0061]在本发明实施例中,可以先对接收到的预设问题文本和预设段落文本进行处理,以得到多个字符组成的输入序列(即tokens序列),具体为:预设问题文本可以用表示,预设段落文本可以用表示,其中,i表示问题q中的第i个字符,m表示问题文本的长度,j表示段落p中的第j个字符,n表示段落文本的长度。可以先加入三个特殊字符《cls》、《sep》、《sep》(即确定第一符号、第二符号以及第三符号),其中,《cls》符号(即第一符号)一般用于分类任务中,是输入序列的开始符号,用于指示该符号后面的字符为当前输入的问题和段落;而两个《sep》符号分别用于区分问题和段落区间,段落和padding(即预设补充文本,该预设补充文本是增加的空白文本,可以使用空白符(例如,0)进行补充直至达到预先设置的文本输入长度)区间(即第二符号用于区分预设问题文本以及预设段落文本,第三符号用于区分预设段落文本以及预设补充文本)。然后。可以将预设问题文本划分为多个问题字符,并将预设段落文本划分为多个段落字符,再基于第一符号、第二符号、第三符号、问题字符以及段落字符,构建输入序列,即可以按照如下顺序拼接,得到长度为m+n+3的tokens序列(即输入序列):[0062]s=[《cls》,q,《sep》,p,《sep》];[0063]可选地,在得到输入序列之后,还包括:确定输入序列中每个字符的输入结构,其中,输入结构包括:字符语义编码、字符类型编码、位置编码;确定预设特征提取器的编码层数以及向量特征的向量长度。[0064]在本发明实施例中,对于s中的每一个字符si,可以先确定模型初始输入的输入结构:(即确定输入序列中每个字符的输入结构,该输入结构包括:字符语义编码字符类型编码位置编码),其中,表示token语义编码、表示字符类型编码(即问题类型编码或者段落类型编码,可以用0和1表示)、表示位置编码,和都是可以通过网络进行学习的。[0065]还可以确定预设特征提取器(例如,transformer模块,transformer是一种特征提取器)的编码层数l以及向量特征的向量长度d。[0066]步骤s202,将输入序列输入至预训练模型,输出向量特征集合,其中,向量特征集合包括多个向量特征,每个向量特征对应一个字符。[0067]可选地,将输入序列输入至预训练模型,输出向量特征集合的步骤,包括:将输入序列中每个字符的结构转换为输入结构;将转换后的输入序列输入至预训练模型;基于预训练模型,采用预设特征提取器对输入序列进行连续编码层数的编码,得到向量特征集合,其中,向量特征集合中每个向量特征的长度为向量长度。[0068]在本发明实施例中,可以采用bert等预训练模型作为输入文本编码层,得到向量表示(即向量特征)(即可以将输入序列输入至预训练模型,输出向量特征集合,该向量特征集合包括多个向量特征,每个向量特征对应一个字符),具体为:可以先将输入序列中每个字符的结构转换为输入结构,然后将转换后的输入序列输入至预训练模型,再基于预训练模型,采用预设特征提取器对输入序列进行连续编码层数的编码,得到向量特征集合(该向量特征集合中每个向量特征的长度为向量长度),即可以将输入的输入序列通过l层(即编码层数)连续的transformer模块(即预设特征提取器)输出编码层结果(即向量特征集合),描述如下:[0069][0070]在本发明实施例中,最后编码层的输出隐状态为其中,rd表示向量长度为d的向量维度空间。对于small-version(小版本)模型,可以设置l=12,d=256;对于base-version(基础版本)模型,可以设置l=24,d=768。[0071]步骤s203,对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合。[0072]可选地,对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合的步骤,包括:对向量特征进行升维操作,得到升维向量特征;基于第一预设卷积核、第一预设步长以及第一预设补充类型,对每两个相邻的升维向量特征进行卷积,得到新增向量特征;基于第二预设卷积核、第二预设步长以及第二预设补充类型,确定新增向量特征的向量权重;基于升维向量特征、向量权重与新增向量特征之积,确定目标向量特征;基于所有目标向量特征,得到目标向量特征集合。[0073]在本发明实施例中,经过预训练模型编码之后,可以得到输入序列的向量特征集合,可以设定shape(形状)大小表示为[batch_size,max_length,embedding_size],其中,batch_size表示为一次训练选取的样本数,max_length表示最大长度,embedding_size表示词向量大小。尽管在多层transformer模块中会对问题和段落中每两个token之间的向量表示通过自注意力机制进行建模,但并没有显式地对段落中的单词及其前后近邻单词之间进行信息融合。尤其是在区间提取式mrc(机器阅读理解)任务中,通常会根据用户问题特征和段落特征的相关性,来输出表示答案区间的start(开始)和end(终止)的位置概率分布。编码过程中,问题特征通过注意力机制整合到段落词向量表示中,最后仅根据段落各个token的向量表示来独立输出概率值,这种情况下近邻上下文信息对单词是否属于起止位置的精确判定至关重要。例如,如果某一个token之后紧邻的位置是一个标点符号,那么该token作为起始位置的概率就会相对较低;如果某个单词在“坐落于”之后,那么它作为某“地点”类问题起始位置的概率就会相对较高。[0074]因此,本实施例提出了近邻语义整合层(neighbor context integration)来实现近邻上下文之间的特征融合功能。整个nci层实现很简单,设定该层输入为x(即向量特征集合),即可以通过nci层对向量特征集合中每两个相邻的向量特征进行整合,以得到目标向量特征集合。具体为:[0075]可以先通过公式(1)对向量特征进行升维操作,得到升维向量特征x,然后通过公式(2),根据预先确定的第一预设卷积核kernel1(即运算单元,可以根据实际情况进行设置)、第一预设步长strides(可以根据实际情况进行设置)以及第一预设补充类型(可以选择"same"类型,即可以用0进行补充),对每两个相邻的升维向量特征进行卷积,得到新增向量特征,再通过公式(3),根据预先确定的第二预设卷积核kernel2(即运算单元,可以根据实际情况进行设置)、第二预设步长strides(可以根据实际情况进行设置)以及第二预设补充类型(可以选择"same"类型,即可以用0进行补充),确定新增向量特征的向量权重,之后可以通过公式(4),根据升维向量特征x、向量权重g(x)与新增向量特征h(x)之积,确定目标向量特征y,再根据所有目标向量特征,得到目标向量特征集合。[0076]x=expand_dims(x,-1)ꢀꢀꢀꢀ(1);[0077]h(x)=conv2d(x,kernel1,strides,"same")ꢀꢀꢀꢀ(2);[0078]g(x)=σ(conv2d(x,kernel2,strides,"same"))ꢀꢀꢀꢀ(3);[0079]y=g(x)·h(x)+xꢀꢀꢀꢀ(4);[0080]其中,在公式(1)中,expand_dims表示升维函数,-1表示最后一位,输入的向量特征x原始维度是三维的,经过公式(1)增加了通道维度,输出的升维向量特征x的形状为x.shape=[batch_size,max_length,embedding_size,1]。[0081]在公式(2)中,采用二维卷积的操作conv2d对近邻上下文信息整合,可以设置第一预设卷积核的形状为kernel.shape=[3,1,1,1],第一预设步长的形状为strides=[1,1,1,1],第一预设补充类型为padding="same"。[0082]在公式(3)中,σ表示门控单元,用于控制新增加特征权重比例,其中参数类型与公式(2)一致。[0083]在公式(4)中,可以采用残差的网络结构,将新提取的特征相加到原来特征上去。通过对比残差连接方式和bidaf(bi-directional attention flow,即一种机器阅读理解模型)中初始编码输入前的highway(一种网络)的连接方式效果,由于预训练模型可以很好地提取特征能力,不太需要对原本的特征进行权重抑制,因此残差连接效果更加明显。[0084]在本实施例中,公式(2)、(3)、(4)可以堆叠多次使用,从而扩大卷积层对于近邻上下文的感知面积,并且根据不同数据集和不同主干网络模型会有不同的堆叠次数最优值n。[0085]步骤s204,基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本,其中,答案文本是预设段落文本中一段连续的文本。[0086]可选地,基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本的步骤,包括:对目标向量特征集合中的每个目标向量特征进行降维操作,并将降维后的目标向量特征输入至预设输出层;采用预设输出层,计算目标向量特征的起始位置值和终止位置值;对所有起始位置值以及所有止位置值进行排序,得到排序结果;基于排序结果,确定满足预设位置条件的最大起始位置值以及最大终止位置值,其中,预设位置条件是起始位置位于终止位置之前的条件;基于最大起始位置值指示的目标起始位置以及最大终止位置值指示的目标终止位置,确定答案文本。[0087]在本发明实施例中,可以根据目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本,该答案文本是预设段落文本中一段连续的文本,具体为:可以通过公式(5)对目标向量特征集合中的每个目标向量特征进行降维操作,然后可以将降维后的目标向量特征输入至预设输出层(即可以通过公式(5)还原向量特征的原始维度,继续将新的向量特征表示输入到到网络输出层模块(即预设输出层))。[0088]y=squeeze(y,-1)ꢀꢀꢀꢀ(5);[0089]其中,squeeze表示降维函数。[0090]然后,可以采用预设输出层,计算目标向量特征的起始位置值和终止位置值(该预设输出层能够确定问题对应的答案在文本序列中的区间,即可以输出每个段落上token作为start和end位置的概率值)。再对所有起始位置值以及所有止位置值进行排序,得到排序结果,根据排序结果,确定满足预设位置条件(该预设位置条件是起始位置位于终止位置之前的条件)的最大起始位置值以及最大终止位置值(即选择概率最大的,且起始位置位于终止位置之前的起始位置值以及终止位置值),根据最大起始位置值指示的目标起始位置以及最大终止位置值指示的目标终止位置,确定答案文本(即将联合概率最大的、且符合start位于end位置之前的的组合作为最终预测区间(即答案文本))。[0091]本实施例中,可以采用全连接层加softmax作为预设输出层结构,计算目标向量特征的起始位置值和终止位置值的公式如下:[0092][0093][0094]其中,w1和w2表示预先设置的权重参数,yi表示第i个目标向量特征,yj表示求和j个目标向量特征集合中的第j个目标向量特征。[0095]可选地,在将降维后的目标向量特征输入至预设输出层之前,还包括:基于第一损失参数以及真实起始位置对应的字符输出概率值,确定起始交叉熵损失;基于第二损失参数以及真实终止位置对应的字符输出概率值,确定终止交叉熵损失;基于起始交叉熵损失以及终止交叉熵损失,构建损失函数;基于损失函数,训练预设输出层。[0096]在本发明实施例中,可以通过公式(8),根据第一损失参数γ以及真实起始位置对应的字符输出概率值确定起始交叉熵损失lossstart。通过公式(9),根据第二损失参数γ以及真实终止位置对应的字符输出概率值确定终止交叉熵损失lossend,然后通过公式(10),根据起始交叉熵损失以及终止交叉熵损失,构建损失函数loss。预设输出层可以基于损失函数,采用联合训练方式进行训练(即基于损失函数,训练预设输出层)。[0097][0098][0099][0100]其中,n表示样本数量,公式(8)、(9)分别表示起止输出的交叉熵损失,和是真实start、end对应位置token输出的预测的概率值。γ参数可以参考图像目标检测领域focal loss(损失函数)思想,用于减弱简单样本对于优化方向的影响,使得模型更倾向于去学习困难样本。在机器阅读理解任务中,通常较短文本答案类更容易学习,而长答案样本的区间定位效果远远低于短答案样本。因此,在机器阅读理解任务上加入γ参数对于模型效果有一定的提升作用。[0101]图3是根据本发明实施例的一种可选的改进后的机器阅读理解结构的示意图,如图3所示,可以在原有的机器阅读理解结构(即输入问题+段落进行预训练编码,输出向量表示,并计算每个向量表示的开始概率和结束概率)上增加语义整合模块(即改进后的机器阅读理解结构为输入问题+段落进行预训练编码,通过语义整合后,输出向量表示,并计算每个向量表示的开始概率和结束概率),其中,语义整合模块结构包括:先进行升维操作,然后进行n次的卷积操作、权重计算操作以及连接操作,再对得到的向量表示进行降维操作,输出最终的向量表示。[0102]本发明实施例中,提供了一种机器阅读理解方法,能够有效地利用近邻词语之间的相关信息,在原本基于预训练词字量的基础上得到更好的特征表示,进而提升了机器阅读理解水平,达到了如下有益效果:[0103](1)针对中英文领域预训练方式存在的差异,通过近邻语义整合模块很好地整合了字间的语义关系,得到了更好的向量表示;[0104](2)通过近邻语义整合机制,在机器阅读理解输出答案区间预测过程中有效地考虑了上下文信息,使得模型预测效果更好;[0105](3)与当前一些扩大预训练数据规模、重新设计预训练结构方法、引入外部知识等提升机器阅读理解效果方法相比,本实施例可以更加便捷,引入的额外参数量较小,而且可以随时替换预训练编码模型,此外,在一些小规模参数量的模型上机器阅读理解任务提升效果更加明显。[0106]下面结合另一实施例进行详细说明。[0107]实施例二[0108]本实施例中提供的一种机器阅读理解装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。[0109]图4是根据本发明实施例的一种可选的机器阅读理解装置的示意图,如图4所示,该机器阅读理解装置可以包括:处理单元40,输出单元41,整合单元42,确定单元43,其中,[0110]处理单元40,用于对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,其中,输入序列包括:多个字符;[0111]输出单元41,用于将输入序列输入至预训练模型,输出向量特征集合,其中,向量特征集合包括多个向量特征,每个向量特征对应一个字符;[0112]整合单元42,用于对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合;[0113]确定单元43,用于基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本,其中,答案文本是预设段落文本中一段连续的文本。[0114]上述机器阅读理解装置,可以通过处理单元40对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,通过输出单元41将输入序列输入至预训练模型,输出向量特征集合,通过整合单元42对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合,通过确定单元43基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本。在本发明实施例中,可以先对预设问题文本和预设段落文本进行处理,然后将得到的输入序列输入至预训练模型中,之后对输出的向量特征集合中每两个相邻的向量特征进行整合,以得到目标向量特征集合,再根据目标向量特征集合从预设段落文本中确定与预设问题文本匹配的答案文本,通过整合相邻字符之间的相关信息,能够提升机器阅读理解水平,得到更加准确的答案,进而解决了相关技术中无法整合相邻字符之间的语义相关性,导致机器阅读理解准确性较低的技术问题。[0115]可选地,处理单元包括:第一确定模块,用于确定第一符号、第二符号以及第三符号,其中,第一符号是输入序列的开始符号,第二符号用于区分预设问题文本以及预设段落文本,第三符号用于区分预设段落文本以及预设补充文本,预设补充文本是增加的空白文本;第一划分模块,用于将预设问题文本划分为多个问题字符,并将预设段落文本划分为多个段落字符;第一构建模块,用于基于第一符号、第二符号、第三符号、问题字符以及段落字符,构建输入序列。[0116]可选地,机器阅读理解装置还包括:第二确定模块,用于在得到输入序列之后,确定输入序列中每个字符的输入结构,其中,输入结构包括:字符语义编码、字符类型编码、位置编码;第三确定模块,用于确定预设特征提取器的编码层数以及向量特征的向量长度。[0117]可选地,输出单元包括:第一转换模块,用于将输入序列中每个字符的结构转换为输入结构;第一输入模块,用于将转换后的输入序列输入至预训练模型;第一编码模块,用于基于预训练模型,采用预设特征提取器对输入序列进行连续编码层数的编码,得到向量特征集合,其中,向量特征集合中每个向量特征的长度为向量长度。[0118]可选地,整合单元包括:第一升维模块,用于对向量特征进行升维操作,得到升维向量特征;第一卷积模块,用于基于第一预设卷积核、第一预设步长以及第一预设补充类型,对每两个相邻的升维向量特征进行卷积,得到新增向量特征;第四确定模块,用于基于第二预设卷积核、第二预设步长以及第二预设补充类型,确定新增向量特征的向量权重;第五确定模块,用于基于升维向量特征、向量权重与新增向量特征之积,确定目标向量特征;第一输出模块,用于基于所有目标向量特征,得到目标向量特征集合。[0119]可选地,确定单元包括:第一降维模块,用于对目标向量特征集合中的每个目标向量特征进行降维操作,并将降维后的目标向量特征输入至预设输出层;第一计算模块,用于采用预设输出层,计算目标向量特征的起始位置值和终止位置值;第一排序模块,用于对所有起始位置值以及所有止位置值进行排序,得到排序结果;第六确定模块,用于基于排序结果,确定满足预设位置条件的最大起始位置值以及最大终止位置值,其中,预设位置条件是起始位置位于终止位置之前的条件;第七确定模块,用于基于最大起始位置值指示的目标起始位置以及最大终止位置值指示的目标终止位置,确定答案文本。[0120]可选地,机器阅读理解装置还包括:第八确定模块,用于在将降维后的目标向量特征输入至预设输出层之前,基于第一损失参数以及真实起始位置对应的字符输出概率值,确定起始交叉熵损失;第九确定模块,用于基于第二损失参数以及真实终止位置对应的字符输出概率值,确定终止交叉熵损失;第二构建模块,用于基于起始交叉熵损失以及终止交叉熵损失,构建损失函数;第一训练模块,用于基于损失函数,训练预设输出层。[0121]上述的机器阅读理解装置还可以包括处理器和存储器,上述处理单元40,输出单元41,整合单元42,确定单元43等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。[0122]上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本。[0123]上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。[0124]本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:对接收到的预设问题文本和预设段落文本进行处理,得到输入序列,将输入序列输入至预训练模型,输出向量特征集合,对向量特征集合中每两个相邻的向量特征进行整合,得到目标向量特征集合,基于目标向量特征集合,从预设段落文本中确定与预设问题文本匹配的答案文本。[0125]根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述的机器阅读理解方法。[0126]根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的机器阅读理解方法。[0127]图5是根据本发明实施例的一种用于机器阅读理解方法的电子设备(或移动设备)的硬件结构框图。如图5所示,电子设备可以包括一个或多个(图5中采用502a、502b,……,502n来示出)处理器502(处理器502可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的机器阅读理解装置)、用于存储数据的存储器504。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。[0128]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。[0129]在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。[0130]在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。[0131]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0132]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0133]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。[0134]以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部