计算;推算;计数设备的制造及其应用技术1.本发明涉及计算机视觉技术领域,特别是涉及一种基于句首语义的文本要素抽取方法。背景技术:2.某公司聚焦钢铁产业金融,为生态圈中小企业提供小额高频的供应链金融业务,智能风控能力是保障业务高质量运行的重中之重。授信贷款业务场景中,对于客户经营及财务情况的分析意见篇幅长,非关键信息夹杂,无法结构化,审批人员需要花费大量的时间逐一阅读。因此,随着计算机视觉技术的发展,发明人发现,通过神经网络模型抽取合同中的文本要素可以节约时间,提高处理效率。但是,现有的要素模型抽取篇章级文本要素信息的方法存在遗漏、抽取错误的问题,导致的原因有:3.(1)篇章级文本由多个段落文本组成,每个段落文本可能存在过长的情况,使用bert(基于语义理解的深度双向预训练transformer)按单个字符为单位编码全部篇章级文本时,肯定会超过bert编码的最大长度,如果按bert的最大编码长度截取,则会丢失上下文语义信息,显然用bert对单个字符编码的最大长度无法满足篇章级文本编码的需求;4.(2)需要抽取的要素是段落文本,而传统的要素抽取模型以单个字符作为输入,放入要素抽取模型后会导致抽取的要素字段范围不准确,出现偏差,因为段落文本跨度太大,无法精确抽取所需段落文本的每一个字符,这样也时无法满足实际生成需求。技术实现要素:5.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于句首语义的文本要素抽取方法及系统,用于解决现有技术中存在的问题。6.为实现上述目的及其他相关目的,本发明提供一种基于句首语义的文本要素抽取方法,所述方法包括以下步骤:7.获取用于训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;8.基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;9.利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;10.对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;11.利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。12.可选地,利用预训练模型对分割后的段落文本进行编码的过程包括:13.判断分割后的段落文本是否超过预设字符数量;14.如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;15.如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。16.可选地,所述预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。17.可选地,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:18.将换行符作为所述目标分割符;19.利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。20.可选地,所述待进行文本要素抽取的合同文本包括授信贷款审批意见书。21.可选地,预设字符数量为510个字符。22.本技术还提供一种基于句首语义的文本要素抽取系统,所述系统包括有:23.训练文本模块,用于获取进行训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;24.文本切分模块,用于根据目标分割符对所述合同文本进行篇章级文本切分,得到分割后的段落文本;25.编码模块,用于利用预训练模型对分割后的段落文本进行编码;26.池化模块,用于对编码后的段落文本进行池化;27.模型训练模块,用于对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;28.文本要素抽取模块,用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。29.可选地,所述编码模块利用预训练模型对分割后的段落文本进行编码的过程包括:30.判断分割后的段落文本是否超过预设字符数量;31.如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;32.如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。33.可选地,所述预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。34.可选地,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:35.将换行符作为所述目标分割符;36.利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。37.如上所述,本发明提供一种基于句首语义的文本要素抽取方法及系统,具有以下有益效果:38.本技术首先获取用于训练的合同文本,然后基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。由此可知,本技术提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。附图说明39.图1为一实施例提供的基于句首语义的文本要素抽取方法的流程示意图;40.图2为另一实施例提供的基于句首语义的文本要素抽取方法的流程示意图;41.图3为一实施例提供的文本要素抽取系统的硬件结构示意图。具体实施方式42.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。43.需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。44.请参阅图1所示,本发明提供一种基于句首语义的文本要素抽取方法,包括以下步骤:45.s110,获取用于训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本。作为示例,本实施例中待进行文本要素抽取的合同文本包括但不限于授信贷款审批意见书。46.s120,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本。具体地,在本实施例中,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:将换行符作为所述目标分割符;利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。47.s130,利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化。具体地,利用预训练模型对分割后的段落文本进行编码的过程包括:判断分割后的段落文本是否超过预设字符数量;如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。作为示例,本实施例中的预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。其中,本实施例中预设字符数量可以为510个字符。48.s140,对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;49.s150,利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。50.由此可知,本实施例可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。51.发明人发现,现有技术中的要素抽取模型一般都是一个字符对应一个标签,对于抽取长文本来说,特别是篇章级的段落文本,这就会导致段落文本中的部分字符遗漏、抽取错误等问题。52.基于上述问题,在本技术另一示例性实施例中,如图2所示,该实施例还提供一种基于句首语义的文本要素抽取方法,包括以下步骤:53.第一步,对篇章级文本进行切分,这里以换行符进行分割,因为从业务结构来看,同一段落的文本,表达意思相近,并且这样分割后不会得到过长的段落序列数据,影响后续lstm(长短期记忆网络模型)+crf(条件随机场)的训练与运行效率,而且针对授信贷款审批意见书这种类型的篇章级文本,所要抽取的内容正好是以段落文本为基本单元,需要强调一点,这里是给切分后的段落文本打标签,而不是按字符打标签;54.第二步,对分割后的段落文本使用预训练模型bert(基于语义理解的深度双向预训练transformer)进行编码,如果段落文本过长,超过510个字符,那么就进行截断,这里截断的方式,不是直接截断,而是找到第一次出现句号的地方,以第一个出现的句号为界限进行截断,因为在授信贷款审批意见书中,能否判定该段落是否为所需的特征词或者特征语句基本都会在段落文本的第一句话有所体现,这就是所谓的“句首语义”,比如“前提条件:xxxx”,所以这里我们直接截取段落本文中特征最为明显的第一句话进行编码(段落文本中以句号作为划分),来代表整个段落信息;55.第三步,接着对第二步编码后的信息进行pooling(池化),因为篇章级中的段落长度各不相同,池化的操作可以统一输入模型前的长度,并且代表了段落文本中最为重要的句子特征,这里采取mean-pooling,取每个token的平均embedding,提取了段落级别的embedding,与第二步合称为paragraph-embedding;56.第四步,给第一步得到的段落级文本打标签,记为label,以bert+pooling后得到的段落级的embedding作为input,将input与label放入lstm+crf模型中进行训练,保存最优模型,得到output。57.第五步:根据得到的最优模型,结构化抽取篇章级段落文本要素信息,以供人工审核。58.本实施例的流程图以及paragraph-embedding如图2所示。由此可知,基于上述问题,本实施例首先解析篇章级的文本,得到篇章级切分后的段落文本信息,然后经过bert(基于语义理解的深度双向预训练transformer)+pooling,这一过程就是paragraph-embedding,最后放入要素抽取模型,过滤掉许多不重要的信息文本,得到最终所需段落文本,再由人工进行审核,这样可以大大提高审核的效率。相当于本实施例提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,该方法可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling的方式,统一段落文本输入的长度,再通过lstm模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。59.综上所述,本发明提供一种基于句首语义的文本要素抽取方法,首先获取用于训练的合同文本,然后基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。由此可知,本技术提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。60.如图3所示,本技术还提供一种基于句首语义的文本要素抽取系统,所述系统包括有:61.训练文本模块310,用于获取进行训练的合同文本,其中,用于训练的合同文本包括:待进行文本要素抽取的合同文本、普通合同文本;62.文本切分模块320,用于根据目标分割符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。具体地,在本实施例中,基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分的过程包括:将换行符作为所述目标分割符;利用所述换行符对所述合同文本进行篇章级文本切分,得到分割后的段落文本。63.编码模块330,用于利用预训练模型对分割后的段落文本进行编码。具体地,利用预训练模型对分割后的段落文本进行编码的过程包括:判断分割后的段落文本是否超过预设字符数量;如果分割后的段落文本超过预设字符数量,则从分割后的段落文本找出第一个句号出现的位置,并以所述位置为界限对分割后的段落文本进行截断,利用预训练模型对截断后的段落文本进行编码;如果分割后的段落文本未超过预设字符数量,则利用预训练模型对分割后的段落文本进行编码。作为示例,本实施例中的预训练模型包括bert模型,所述bert模型基于语义理解的深度双向预训练transformer得到。其中,本实施例中预设字符数量可以为510个字符。64.池化模块340,用于对编码后的段落文本进行池化;65.模型训练模块350,用于对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;66.文本要素抽取模块360,用于利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。67.由此可知,本实施例可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。68.发明人发现,现有技术中的要素抽取模型一般都是一个字符对应一个标签,对于抽取长文本来说,特别是篇章级的段落文本,这就会导致段落文本中的部分字符遗漏、抽取错误等问题。69.基于上述问题,在本技术另一示例性实施例中,还提供一种基于句首语义的文本要素抽取系统,用于执行以下步骤:70.第一步,对篇章级文本进行切分,这里以换行符进行分割,因为从业务结构来看,同一段落的文本,表达意思相近,并且这样分割后不会得到过长的段落序列数据,影响后续lstm(长短期记忆网络模型)+crf(条件随机场)的训练与运行效率,而且针对授信贷款审批意见书这种类型的篇章级文本,所要抽取的内容正好是以段落文本为基本单元,需要强调一点,这里是给切分后的段落文本打标签,而不是按字符打标签;71.第二步,对分割后的段落文本使用预训练模型bert(基于语义理解的深度双向预训练transformer)进行编码,如果段落文本过长,超过510个字符,那么就进行截断,这里截断的方式,不是直接截断,而是找到第一次出现句号的地方,以第一个出现的句号为界限进行截断,因为在授信贷款审批意见书中,能否判定该段落是否为所需的特征词或者特征语句基本都会在段落文本的第一句话有所体现,这就是所谓的“句首语义”,比如“前提条件:xxxx”,所以这里我们直接截取段落本文中特征最为明显的第一句话进行编码(段落文本中以句号作为划分),来代表整个段落信息;72.第三步,接着对第二步编码后的信息进行pooling(池化),因为篇章级中的段落长度各不相同,池化的操作可以统一输入模型前的长度,并且代表了段落文本中最为重要的句子特征,这里采取mean-pooling,取每个token的平均embedding,提取了段落级别的embedding,与第二步合称为paragraph-embedding;73.第四步,给第一步得到的段落级文本打标签,记为label,以bert+pooling后得到的段落级的embedding作为input,将input与label放入lstm+crf模型中进行训练,保存最优模型,得到output。74.第五步:根据得到的最优模型,结构化抽取篇章级段落文本要素信息,以供人工审核。75.本实施例的流程图以及paragraph-embedding如图2所示。由此可知,基于上述问题,本实施例首先解析篇章级的文本,得到篇章级切分后的段落文本信息,然后经过bert(基于语义理解的深度双向预训练transformer)+pooling,这一过程就是paragraph-embedding,最后放入要素抽取模型,过滤掉许多不重要的信息文本,得到最终所需段落文本,再由人工进行审核,这样可以大大提高审核的效率。相当于本实施例提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,该方法可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling的方式,统一段落文本输入的长度,再通过lstm模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。76.综上所述,本发明提供一种基于句首语义的文本要素抽取系统,首先获取用于训练的合同文本,然后基于预先确定的目标分割符对用于进行训练的合同文本进行篇章级文本切分,得到分割后的段落文本;再利用预训练模型对分割后的段落文本进行编码,并对编码后的段落文本进行池化;再然后对分割后的段落文本打标签,并将段落文本标签、池化后的段落文本输入至长短期记忆网络和条件随机场中进行训练,得到文本要素抽取模型;最后利用所述文本要素抽取模型从待进行文本要素抽取的合同文本中结构化抽取篇章级段落文本要素信息,并输出抽取到的篇章级段落文本要素信息。由此可知,本技术提出了基于“句首语义”的paragraph-embedding的方式进行段落特征提取的方法,可以解决篇章级文本抽取错误、遗漏的问题,在bert模型(基于语义理解的深度双向预训练transformer)编码后,采用pooling(池化)的方式,统一段落文本输入的长度,再通过lstm(long short-term memory,长短期记忆网络模型,简称lstm)模型让机器学习段落文本之间的关联,提高篇章级文本要素抽取模型的准确率,大大降低人工审核的时间,提高效率。77.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于句首语义的文本要素抽取方法及系统与流程 专利技术说明
作者:admin
2022-11-30 06:33:29
998
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术