发布信息

基于知识图谱的文本主题分割方法、装置及电子设备 专利技术说明

作者:admin      2023-06-29 20:34:53     720



计算;推算;计数设备的制造及其应用技术1.本技术属于人工智能领域,特别涉及基于知识图谱的文本主题分割方法、装置及电子设备。背景技术:2.文本主题分割是一种将文档按照文本表述主题是否转移的标准,将原文档分割为主题连贯一致的多个子文档的技术。3.文本主题分割技术可建模文档的主题结构,基于分割后的主题结构,可进行信息检索、文本摘要、主题检测与追踪等下游任务。常见的文本主题分割算法多基于有监督学习,有监督的文本主题分割算法需要大量标注数据且泛化能力、可解释性差。4.基于上述问题,提出本发明的基于知识图谱的文本主题分割方法、装置及电子设备。技术实现要素:5.为了解决所述现有技术的不足,本技术提供了一种基于知识图谱的文本主题分割方法,本发明基于知识图谱的文本主题分割方法,可在小规模数据集上训练得到较高精度的文本主题分割算法模型,获得算法泛化能力、可解释性强的技术效果。6.本技术所要达到的技术效果通过以下方案实现:7.第一方面,本发明实施例提供一种基于知识图谱的文本主题分割方法,包括:8.获取文本文档;9.通过实体识别算法,识别所述文本文档中的文本实体,所述实体识别算法包括第一识别算法和第二识别算法,第一识别算法和第二识别算法是不同的识别算法;将所述文本实体链接到知识图谱实体,其中,所述知识图谱实体表示知识图谱中与所述文本实体相对应的实体;10.基于所述文本实体与所述知识图谱实体的链接结果,对所述文本文档进行主题分割,其中,对所述文本文档进行文本主题分割包括:以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割。11.进一步地,所述通过实体识别算法,识别所述文本文档中的文本实体,包括:12.采用第一识别算法识别所述文本文档中的第一类文本实体,其中,所述第一识别算法为trie树识别算法,所述第一类文本实体表示已存在于所述知识图谱中的实体;13.采用第二识别算法识别所述文本文档中的第二类文本实体,其中,所述第二识别算法为bert-bilstm-crf识别算法,所述第二类文本实体表示不存在于所述知识图谱中的实体。14.进一步地,所述将所述文本实体链接到知识图谱实体,包括:15.基于bi-encoder候选实体召回算法,从所述知识图谱中匹配出与所述文本实体相对应的n个所述知识图谱实体,其中,n是正整数;16.基于cross-encoder候选实体消岐算法,从所述n个知识图谱实体中确定出与所述文本实体相似度评分最高的候选实体。17.进一步地,所述bert-bilstm-crf识别算法,包括:18.选择bert作为嵌入层模型,对bert-base-chinese预训练模型进行训练,得到bert嵌入层输出的嵌入向量;19.将所述嵌入向量输入至双向长短期记忆网络,得到所述双向长短期记忆网络输出的特征向量;20.将所述特征向量输入至条件随机场,利用所述条件随机场学习序列标签之间的转移概率,综合所述序列标签的全局信息,将所述特征向量解码成序列标注。21.进一步地,所述方法还包括:22.采用孪生网络训练进行所述文本实体的嵌入向量的训练,所述孪生网络训包括分类任务和回归任务;23.所述分类任务满足如下公式:24.o=softmax(wt(u1,v1,|u1-v1|)),25.其中,o表示输出向量,u1,v1表示所述嵌入向量,wt表示向量乘参数矩阵,n为所述嵌入向量的维度,k为分类标签的数量。26.进一步地,所述以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割,包括:27.以句子作为文本主题分割单位,将文本主题分割为文本段集合s,对所述文本段集合s中的每一段文本s构造句文本实体关系图g;28.所述句文本实体关系图g的每个节点表示所述知识图谱中的所述知识图谱实体,所述每个节点包括次数信息和属性信息,所述次数信息表示所述知识图谱实体在所述文本文档中被提及的次数;所述句文本实体关系图g的边表示两个节点之间的关系,所述关系的值为kno wre(u,v)且满足如下公式:[0029][0030]其中,u,v分别表示不同节点,e表示所述知识图谱的所有关系的集合,e(u,v)表示u,v之间存在关系e,kgremap(u,v)表示u,v之间存在关系e的情况下的相似度,pathre(u,v)表示u,v之间不存在关系e的情况下的相似度。[0031]进一步地,所述以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割,还包括:[0032]采用consistency(i,j)表示句文本实体关系图gi和gj的主题连贯度,所述consistency(i,j)的计算公式如下:[0033]consistency(i,j)=α×mc(i,j)+β×cc(i,j),[0034]其中,mc(i,j)表示词汇分布差异度,cc(i,j)表示主题内聚度损失,α、β分别为mc(i,j)和cc(i,j)重要性参数,i表示第i个句子,j表示第j个句子。[0035]进一步地,所述以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割,还包括:[0036]设定所述句文本实体关系图g的主题连贯度阈值σ,将所述主题连贯度大于所述主题连贯度阈值σ的相邻的所述句文本实体关系图合并;[0037]迭代至句文本实体关系图数组中不存在可合并的相邻的所述句文本实体关系图为止,得到文本主题分割结果。[0038]第二方面,本发明实施例提供一种基于知识图谱的文本主题分割方法装置,包括:[0039]获取模块,用于获取文本文档;[0040]实体链接模块,用于通过实体识别算法,识别所述文本文档中的文本实体,所述实体识别算法包括第一识别算法和第二识别算法,第一识别算法和第二识别算法是不同的识别算法;将所述文本实体链接到知识图谱实体,其中,所述知识图谱实体表示知识图谱中与所述文本实体相对应的实体;[0041]文本主题分割模块,用于基于所述文本实体与所述知识图谱实体的链接结果,对所述文本文档进行主题分割,其中,对所述文本文档进行文本主题分割包括:以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割。[0042]第三方面,本发明实施例提供一种电子设备,包括:[0043]存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任意一项所述的方法。[0044]第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任意一项所述的方法。[0045]通过本发明实施例提供的基于知识图谱的文本主题分割方法,基于知识图谱的文本主题分割方法,可在小规模数据集上训练得到较高精度的文本主题分割算法模型,获得算法泛化能力、可解释性强的技术效果。附图说明[0046]为了更清楚地说明本技术实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0047]图1为本技术一实施例中的基于知识图谱的文本主题分割方法的流程图;[0048]图2为本技术一实施例中的基于知识图谱的文本主题分割方法的技术框架图;[0049]图3为本技术一实施例中的命名实体识别示例图的示意图;[0050]图4为本技术一实施例中的基于知识图谱的trie树结构的示意图;[0051]图5为本技术一实施例中的bert-bilstm-crf实体识别算法的网络架构的示意图;[0052]图6为本技术一实施例中的bert网络架构的示意图;[0053]图7为本技术一实施例中的lstm网络架构的示意图;[0054]图8为本技术一实施例中的基于bi-encoder的候选实体召回算法架构的结构示意图;[0055]图9为本技术一实施例中的基于cross-encoder的候选实体消岐算法架构的结示意构图;[0056]图10为本技术一实施例中的孪生网络结构的示意图;[0057]图11为本技术一实施例中的sentence-bert孪生网络训练示例的示意图;[0058]图12为本技术一实施例中的句文本实体关系图的示意图;[0059]图13为本技术一实施例中的句文本实体关系图的合并示例的示意图;[0060]图14为本技术一实施例中的文本主题分割流程示例的示意图;[0061]图15为本技术一实施例中的基于知识图谱的文本主题分割装置的示意图;[0062]图16为本技术一实施例中的电子设备的示意框图。具体实施方式[0063]为使本技术的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本技术的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。[0064]需要说明的是,除非另外定义,本公开一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。[0065]本发明的技术方案的主要思想包括:[0066]通过文本实体链接技术,识别文本文档(本发明中的文本和文本文档表示相同的含义)中的文本实体,并将文本实体链接到知识图谱中的实体;[0067]以句子作为文本主题分割单位,基于句子中的实体计算句子之间的语义相似度,进而依据相似度进行文本主题分割。可实现的效果如表1所示,针对文档1,主题分类结果为第一句至第十九句讲的主题1,第二十句至第三十六句讲的主题2。[0068]表1主题分割输出结杲示例[0069][0070]下面结合相关附图,详细说明本技术的各种非限制性实施方式。[0071]首先,参照图1,对本发明的基于知识图谱的文本主题分割方法进行详细说明:图1为本技术一实施例中的基于知识图谱的文本主题分割方法的流程图;[0072]如图1所示,基于知识图谱的文本主题分割方法包括:[0073]s100,获取文本文档;[0074]示例性地,本发明中的文本文档可以是各种格式的文本文档,例如pdf,word文本等,此处仅为示例性,并不做具体的限定;[0075]s200,通过实体识别算法,识别所述文本文档中的文本实体,所述实体识别算法包括第一识别算法和第二识别算法,第一识别算法和第二识别算法是不同的识别算法;将所述文本实体链接到知识图谱实体,其中,所述知识图谱实体表示知识图谱中与所述文本实体相对应的实体;[0076]s300,基于所述文本实体与所述知识图谱实体的链接结果,对所述文本文档进行主题分割,其中,对所述文本文档进行文本主题分割包括:以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割。[0077]上述基于知识图谱的文本主题分割方法,通过不同的识别算法识别文本实体并映射到知识图谱中的实体,而后进行文本主题的分割,可在小规模数据集上训练得到较高精度的文本主题分割算法模型,获得算法泛化能力、可解释性强的技术效果。[0078]下面参照图2对基于知识图谱的文本主题分割方法的技术框架图进行详细介绍,图2为本技术一实施例中的基于知识图谱的文本主题分割方法的技术框架图;[0079]如图2所示,整体框架分为四个部分,包括:输入数据,实体链接模块,文本主题分割模块,输出数据;[0080]其中关键的两大模块分别是:实体链接模块、文本主题分割模块。实体链接模块使用命名实体识别技术识别出文本中的实体,后通过实体消岐技术将实体链接到知识图谱中的实体。文本主题分割模块根据实体链接模块的链接结果,设计出基于实体的句间相似度计算方法和文本段合并算法,以句子为分割单位,基于上述方法,实现对文本的主题分割。[0081]示例性地,输入数据包括输入知识图谱和文本文档;然后通过实体链接模块基于知识库的命名实体识别算法对文本文档的文本实体进行识别,并采用基于编辑距离的实体消岐算法对文本实体进行消岐;接着通过文本主题分割模块,基于知识图谱的文本主题算法对文本文档进行文本主题分割,获得文本主题,最后输出分割后的文本文档。[0082]示例性地,可以采用第一识别算法识别所述文本文档中的第一类文本实体,其中,所述第一识别算法为trie树识别算法,所述第一类文本实体表示已存在于所述知识图谱中的实体;[0083]例如可以采用第二识别算法识别所述文本文档中的第二类文本实体,其中,所述第二识别算法为bert-bilstm-crf识别算法,所述第二类文本实体表示不存在于所述知识图谱中的实体。[0084]上述的trie树识别算法和bert-bilstm-crf识别算法仅作为示例,本领域技术人员所熟知的其他能够实现上述功能的其他算法同样适用于此,对此并不做限定。[0085]针对不同的文本实体采用不同的算法来进行识别,可以有针对性的完成文本的识别,对于某些不存在于知识图谱中的实体,可以比较准确的识别出来准确的文本实体,可以提高准确性。[0086]在一些实施例中,实体链接模块实体包括包含命名实体识别和实体消岐两项关键技术,下面对实体链接模块实体的相关技术进行介绍:[0087]下面通过一些实施例来对命名实体识别进行详细说明:[0088]命名实体识别是一项从非结构化文本中识别出有特定意义的实体并将其归类至预先声明的实体类别的自然语言处理任务。[0089]其中图3为本技术一实施例中的命名实体识别示例图的示意图;如图3所示,一句话经命名实体识别算法识别出“张山”、“北京海淀区”、“民警”三个实体,并将其分别分类至“人名”、“地点”、“职业”三个实体类别。准确的命名实体识别结果为下游信息检索、机器问答等自然语言处理应用打下坚实基础。[0090]在一些实施例中,本发明可以采用基于知识库和bert-bilstm-crf的实体识别算法。知识库由知识图谱构建,基于知识库的实体识别算法可以以较高的效率和准确率识别出存在于知识图谱中的实体,但无法识别未收录在知识库中的实体,所以需要深度学习模型来识别此类实体。[0091]本发明可以用trie树识别并提取存在于知识库中的实体,trie树是哈希树的一种变种,可用于字符串匹配,trie树字符串匹配性能优越,其使用字符串的公共前缀降低字符串无用匹配的次数,优化查询时间。基于知识库的trie树如附图4(a)所示,若要匹配“数组下标”,trie将按照附图4(b)所示的路径进行字符串匹配。[0092]在一些实施例中,所述bert-bilstm-crf识别算法,包括:[0093]选择bert作为嵌入层模型,对bert-base-chinese预训练模型进行训练,得到bert嵌入层输出的嵌入向量;[0094]将所述嵌入向量输入至双向长短期记忆网络,得到所述双向长短期记忆网络输出的特征向量;[0095]将所述特征向量输入至条件随机场,利用所述条件随机场学习序列标签之间的转移概率,综合所述序列标签的全局信息,将所述特征向量解码成序列标注。[0096]在一些实施例中,本发明还可以利用基于bert-bilstm-crf的实体识别算法识别未登录词(登录词表示未存在于知识图谱中的实体),用于新词发现,基于bert-bilstm-crf的实体识别算法网络架构如图5所示。bert是一种预训练语言表示模型(pre-trained language representations model),如附图6所示,bert网络架构由堆叠多层transformer编码器组成。bert训练分为为masked lm(mlm)和next sentence prediction(nsp)两种,mlm为随机掩盖输入序列种15%的token,取对应位置的输出向量进行真实值的预测;nsp为将两个句子拼接在一起,设计了一个前后两个句子是否为同一句话的二分类问题。bert模型参数数量巨大,训练的需要海量训练数据和计算单元。当前常见的开源预训练bert模型及其主要参数如表所示。本发明选择bert作为嵌入层模型,对bert-base-chinese预训练模型进行微调训练。字序列通过bert嵌入层获得含前后双向信息、表达能力强的字向量。[0097]表2开源预训练bert模型[0098][0099]经过bert嵌入层输出的嵌入向量可以表示足够的语义信息,但是bert模型未考虑token的方向信息,而方向信息在命名实体识别场景发挥了一定作用。为充分学习序列的位置信息、方向信息,本发明在bert输入层后加入双向长短期记忆网络(bi-lstm)。lstm网络结构如附图7所示,lstm通过一些如表3所示的门控单元拥有学习长期依赖问题的能力。遗忘门可以选择忘记细胞状态ct-1不必保留的一些信息,遗忘门工作原理如公式(1)所示,t时刻的输入信号xt和t-1时刻的输出信号ht-1拼接后输入sigmoid网络层得到遗忘信号ft,ft向量中的元素均在0到1之间,表示该位置的信息是否需要保留。[0100]ft=σ(wf·[ht-1,xt]+bf)ꢀꢀꢀ(1)[0101]记忆门的作用为选择保留记忆细胞状态ct-1中需要记忆的信息。记忆门工作原理如公式(2)、(3)所示,t时刻的输入信号xt和t-1时刻的输出信号ht-1拼接后输入sigmoid网络层得到记忆信号it,与遗忘门类似,每个位置的数值代表该位置的信息是否需要保留;t时刻的输入信号xt和t-1时刻的输出信号ht-1拼接后输入tanh网络层得到的状态候选向量ct′。[0102]it=σ(wi·[ht-1,xt]+bi)ꢀꢀꢀ(2)[0103]ct′=tanh(wc·[ht-1,xt]+bc)ꢀꢀꢀ(3)[0104]结合遗忘门和记忆门,细胞状态ct可按公式(4)更新。[0105]ct=ft*ct-1+it*ct′ꢀꢀꢀ(4)[0106]输出门的作用为计算输出信号ht。输出门工作原理如公式(5)、(6)所示。t时刻的输入信号xt和t-1时刻的输出信号ht-1拼接后输入sigmoid网络层得到输出ot与ct经tanh网络层得到的结果相乘得到t时刻输出信号ht。[0107]ot=σ(wo[ht-1,xt]+bo)ꢀꢀꢀ(5)[0108]ht=ot*tanh(ct)ꢀꢀꢀ(6)[0109]表3 lstm门控单元[0110][0111]对bi-lstm输出的特征向量直接进行序列标签的选择没能考虑标签出现的转移概率,如对于一个序列进行词性标注,将连续的两个词标注为动词的可能性为0;[0112]本发明在双向长短期记忆网络层后加入条件随机场(crf)作为解码层模型,利用crf学习序列标签之间的转移概率,综合序列标签的全局信息,将bi-lstm输出的特征向量解码成序列标注。[0113]下面通过一些实施例来详细说明实体消岐技术:[0114]实体消歧的作用为解决一词多义问题,将给定上下文的命名实体映射到知识图谱的实体上。[0115]在一些实施例中,所述将所述文本实体链接到知识图谱实体包括:[0116]基于bi-encoder候选实体召回算法,从所述知识图谱中匹配出与所述文本实体相对应的n个所述知识图谱实体,其中,n是正整数;[0117]基于cross-encoder候选实体消岐算法,从所述n个知识图谱实体中确定出与所述文本实体相似度评分最高的候选实体。[0118]在一些实施例中,将实体识别算法识别出的实体指称与知识库中的实体逐一计算匹配度会造成较高的时间成本和计算成本。本发明设计了基于bi-encoder的候选实体召回算法,候选实体找回算法从知识库中快速匹配出n个与实体指称最为相似的实体,后对此n个候选实体进行准确排序即可将实体指称映射到知识库中的实体,降低了计算复杂度。基于bi-encoder的候选实体召回算法结构如附图8所示,bi-encoder由上下文编码器和知识库实体编码器组成,通过比较上下文嵌入向量和知识库实体嵌入向量的相似度评分进行候选实体召回。[0119]候选实体消岐算法对候选实体召回算法得到的候选实体进行实体消岐,将实体指称映射到最相似的候选实体。本发明设计了基于cross-encoder候选实体消岐算法,基于cross-encoder候选实体消岐算法结构如附图9所示,算法通过计算实体指称与候选实体的相似度评分,将实体指称映射到相似度评分最高的候选实体。[0120]本发明选取sentence-bert作为上下文编码器和实体编码器。sentence-bert可用于计算文本的嵌入向量,支持100余种语言,可以用于文本语义相似度匹配、语义搜索等领域。sentence-bert在bert模型后新加了一个池化层生成固定长度的文本嵌入向量,池化层获取[cls]字符输出向量、求输出向量均值、求输出向量最大值三种池化策略,默认池化策略是求输出向量的均值。sentence-bert使用如附图10所示的孪生(siamese)网络训练文本嵌入向量,孪生网络训练由两个结构相同、权重共享的网络组成,其结构简单,模型泛化能力强,多用于判断两段输入的文本语义是否相似,是文本处理任务性能较为优异的基线模型。[0121]sentence-bert使用如附图11所示训练策略,孪生网络训练分为分类任务和回归任务两类。分类任务的过程如公式(7)所示,n为文本嵌入向量的维度,k为分类标签的数量,池化层输出的文本嵌入向量u1,v1和向量差|u1-v1|拼接得到的向量乘参数矩阵wt,运算结果输入softmax分类器得到输出向量o,使用交叉熵作为损失函数训练模型;回归任务比较文本嵌入向量u1,v1的余弦相似度。sentence-bert还使用三元组(triplet)网络的训练方式,如公式(8)所示,给定锚点句a、正向句p和负向句n,训练的目标是最大化不同类别语句a和n之间的间隔,最小化相同类别语句a和p之间的间隔;||·||表示向量之间的间隔,∈为间隔系数。[0122]o=softmax(wt(u1,v1,|u1-v1|))ꢀꢀꢀ(7)[0123]max(||sa-sp||-||sa-sn||+∈,0)ꢀꢀꢀ(8)[0124]下面通过一些实施例来对文本主题分割模块进行详细说明:[0125]相关的文本主题分割算法通过词汇分布变化、提示词等方式进行文本主题分割,未能捕获文本的语义关系,性能较差;基于深度学习的文本主题分割算法性能较为优异,可利用深度学习模型学习文本段的语义,通过语义变化进行文本主题分割,但深度学习模型黑盒操作,解释性较差;基于本体的文本主题分割算法可通过构建的本体获得实体之间的语义关系,进而通过句子间实体的语义关系得到句子间的语义关系,进行文本主题分割;基于本体的文本主题分割算法利用句子间的语义关系进行文本主题分割,提高了文本主题分割的准确性,利用本体提供的实体之间的语义关系,文本主题分割结果变得可解释。本发明利用知识图谱,设计了基于知识图谱的文本主题分割算法。经实体链接模块,文本包含已映射到知识图谱的实体。[0126]下面通过一些实施例来对句文本实体关系图进行详细说明:[0127]在一些实施例中,以句子为文本主题分割单位,将文本主题分割为文本段集合s,对文本段集合s中的每一段文本s构造句文本实体关系图g。句文本实体关系图g如附图12所示,图g的节点为知识图谱中的实体,节点node有实体的提及次数和属性,提及次数为实体在文本中被提及的次数,其中属性包括字符常量,常量,字符串常量,整型常量,ascii表等;图g的边edge为知识图谱中两节点u和v之间的关系,关系的值为kno wre(u,v)。[0128][0129]e表示知识图谱所有关系的集合,e(u,v)表示u与v之间存在关系e。如果u与v在知识图谱相邻,存在关系e,则其相关度为kgremap(u,v),可查询知识图谱直接获得。若u与v在知识图谱中不相邻,不存在关系e,则其相关度为pathre(u,v),pathre表示知识图谱中存在的所有节点序列按照相关度的传递规则计算得到的kno wre(u,v)最大值。相关度的传递规则如公式(10)所示,实体u与p、p与v在知识图谱中存在关系e1、e2,u与p的相关度为knowre(u,p),p与v的相关度为kno wre(p,v),则u与v经p传递得到的相关度为knowre(u,p)×knowre(p,v)。[0130][0131]下面通过一些实施例来对主题内聚度进行详细说明:[0132]定义主题内聚度cohesion表示句文本实体关系图g的主题集中度,cohesion越高表示该段文本的主题越集中、统一。cohesion计算方式如公式(11)所示,n为文本文档的句文本实体关系图g中节点的个数,numi为实体i被提及的次数,edgeij实体i与j的相关度。[0133][0134]定义cohesionchange,cc(i,j)表示句文本实体关系图gi、gj合并后的主题内聚度损失。cc(i,j)越大表示句文本实体关系图gi、gj的内容越不一致。cc(i,j)计算方式如公式(12)所示,cohesioni、cohesionj代表句文本实体关系图gi、gj的内聚度,cohesionij代表句文本实体关系图gi、gj合并后的句文本实体关系图gij的主题内聚度。[0135]cc(i,j)=2×cohesionij-cohesioni-cohesionjꢀꢀꢀ(12)[0136]句文本实体关系图合并示例如附图13所示,句文本实体关系图gi、gj合并为gij,gi、gj节点的合并规则如公式(13)所示,合并后句文本实体关系图gij的节点为gi、gj节点的并集,nodex表示文本句文本实体关系图x的节点集合。[0137]nodeij=nodei∪nodejꢀꢀꢀ(13)[0138]gi、gj边的合并规则如公式(14)所示,合并后句文本实体关系图gij的边为gi、gj边的并集,edgex表示句文本实体关系图x的边集合。[0139]edgeij=edgei∪edgejꢀꢀꢀ(14)[0140]节点提及次数属性的合并规则如公式(15)所示,numx,u表示实体u在句文本实体关系图x中的提及次数,当u在gi、gj中同时出现时,合并后句文本实体关系图gij的numij,u为numi,u与numj,u之和,否则numij,u为在含有u的句文本实体关系图中的提及次数。[0141][0142]主题变化往往伴随词汇分布的变化,本发明定义mentionchange,mc(i,j)表示句文本实体关系图gi、gj词汇分布的差异度,mc(i,j)值越大表示图gi和gj的词汇分布越接近。mc(i,j)计算方式如公式(16)所示,其中nodex表示句文本实体关系图x的节点集合,|nodex|表示节点集合nodex的元素数量,n=|nodei∩nodej|,m=|nodei∪nodej|,mf(nodei|nodei∈nodei)表示句文本实体关系图gi中节点i被提及的次数。[0143][0144]本发明综合主题内聚度损失cc(i,j)和词汇分布差异度mc(i,j),定义consistency(i,j)表示句文本实体关系图gi和gj的主题连贯度。consistency(i,j)计算方式如公式(17)所示,α、β分别为mc(i,j)和cc(i,j)重要性参数,α绝对值越大表示mc(i,j)在句文本实体关系图的主题连贯度判断中区分度越高,β同理。consistency(i,j)越大表示句文本实体关系图gi和gj之间的主题越连贯。[0145]consistency(i,j)=α×mc(i,j)+β×cc(i,j)ꢀꢀꢀ(17)[0146]下面通过一些实施例对句文本实体关系图合并算法进行详细描述:[0147]利用主题连贯度,本发明设计了如下所示的句文本实体关系图合并算法。算法的输入为句文本实体关系图数组array;判断相邻句文本实体关系图是否能够合并的函数ismerge,设定句文本实体关系图合并的主题连贯度阈值σ,主题连贯度大于σ的相邻句文本实体关系图可以合并;合并相邻句文本实体关系图的函数merge。算法的返回值为合并后的文本段的句文本实体关系图数组arraymerged。句文本实体关系图合并算法计算相邻句文本实体关系图的主题连贯度,若主题连贯度大于设定句文本实体关系图合并的主题连贯度阈值σ,则将其合并,迭代至句文本实体关系图数组中不存在可合并的相邻句文本实体关系图,此时的arraymerged即为文本文档的文本主题分割结果。[0148][0149]如附图14所示,句文本实体关系图合并算法执行完毕后,返回值为合并后的句文本实体关系图数组arraymerged,数组内的每个句实体关系图主题集中,数组中相邻的句实体关系图的主题不同。[0150]本发明基于知识图谱的文本主题分割方法,可在小规模数据集上训练得到较高精度的文本主题分割算法模型,获得算法泛化能力、可解释性强的技术效果。[0151]下面根据图15来对本发明的另一实施例进行详细描述,图15为本技术一实施例中的基于知识图谱的文本主题分割装置的示意图;[0152]基于知识图谱的文本主题分割装置,包括:[0153]获取模块,用于获取文本文档;[0154]实体链接模块,用于通过实体识别算法,识别所述文本文档中的文本实体,所述实体识别算法包括第一识别算法和第二识别算法,第一识别算法和第二识别算法是不同的识别算法;将所述文本实体链接到知识图谱实体,其中,所述知识图谱实体表示知识图谱中与所述文本实体相对应的实体;[0155]文本主题分割模块,用于基于所述文本实体与所述知识图谱实体的链接结果,对所述文本文档进行主题分割,其中,对所述文本文档进行文本主题分割包括:以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割。[0156]本实施例中的基于知识图谱的文本主题分割装置可以实现上述实施例中的所有基于知识图谱的文本主题分割方法,也能所述基于知识图谱的文本主题分割方法的所有技术效果,此处不再赘述。[0157]需要说明的是,本发明一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。[0158]需要说明的是,上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。[0159]基于同一发明构思,与上述任意实施例方法相对应的,本发明还公开一种电子设备;[0160]具体地,图15示出了本实施例所提供的一种基于知识图谱的文本主题分割方法的电子设备的硬件结构示意图,该设备可以包括:处理器410、存储器420、输入/输出接口430、通信接口440和总线450。其中,处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。[0161]处理器410可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明实施例所提供的技术方案。[0162]存储器420可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序,在通过软件或者固件来实现本发明实施例所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。[0163]输入/输出接口430用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。[0164]通信接口440用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如,usb、网线等)实现通信,也可以通过无线方式(例如,移动网络、wifi、蓝牙等)实现通信。[0165]总线450包括一通路,在设备的各个组件(例如,处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。[0166]需要说明的是,尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明实施例方案所必需的组件,而不必包含图中所示的全部组件。[0167]上述实施例的电子设备用于实现前述任一实施例中相应的基于知识图谱的文本主题分割方法,并且具有相应的方法实施例的有益效果,在此不再赘述。[0168]基于同一发明构思,与上述任意实施例方法相对应的,本发明一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于知识图谱的文本主题分割方法。[0169]本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。[0170]上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于知识图谱的文本主题分割方法,并且具有相应的方法实施例的有益效果,在此不再赘述。[0171]所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。[0172]另外,为简化说明和讨论,并且为了不会使本发明一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。[0173]尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。[0174]本发明一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部