发布信息

文本去重方法及装置、电子设备及可读存储介质与流程

作者:admin      2022-07-30 20:21:29     474



计算;推算;计数设备的制造及其应用技术1.本发明涉及数据库技术领域,具体而言,涉及一种文本去重方法及装置、电子设备及可读存储介质。背景技术:2.随着互联网的发展,用户可轻易从中获取到大量的信息,但是过滤无效信息的成本也随之增加。搜索推荐技术则是基于用户输入搜索关键词或用户脱敏信息,智能化推送有效信息的技术。生活服务平台聚合了海量的生活服务信息并服务于用户,因此搜索推荐技术在该平台上具有重要作用。由于生活服务平台上的信息同质化较为严重,通过搜索推荐技术匹配到的文本信息需要做去重处理,以使得用户有较为良好的使用体验。在该场景下,现有的常见技术方案有以下几类:3.1.哈希签名判重:该类方法将匹配文本进行分词处理得到分词词组,之后计算每个分词的哈希值,并根据每个分词的哈希值计算加权数字串,分别作为匹配文本的哈希签名,最后,通过计算哈希签名的距离,确定两个文本是否重复,从而实现文本信息的去重处理。4.2.文本匹配模型去重:该类方法使用文本匹配模型对人工标注的重复文本数据进行学习,使模型具有一定的判重能力,之后对搜索推荐的文本结果做推理判断,确定两个文本是否重复,从而实现文本信息的去重处理。5.申请人在实现本发明的过程中,发现相关技术中至少存在以下技术问题。6.1.现有方案只基于文本信息推理,对于额外的上下文及其他信息却无法很好的应用,具有一定的局限性。7.2.现有方案由于是线上模型实时推理,性能较差,难以满足相关搜索、猜你想搜、sug搜索等不同的性能要求,普适性低。8.3.现有方案上线后,模型只有在开发迭代时才会更新,时效性较差。在生活服务平台场景下,各类商品店家日新月异,该缺陷尤为明显。9.可见,相关技术中针对上述的问题,目前尚未提出有效的解决方案。技术实现要素:10.本发明实施例提供了一种文本去重方法及装置、电子设备及可读存储介质,以至少解决由于相关技术中由于线上模型实时推理,准确度以及时效性较差的技术问题。11.根据本发明实施例的一个方面,提供了一种文本去重方法,包括:获取查询输入对应的多个结果文本;在预先构建的同义词知识库中对所述多个结果文本进行匹配,其中,所述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,所述文本去重模型用于根据所述结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本。12.进一步地,在所述获取查询输入对应的多个结果文本之前,还包括:通过所述文本去重模型,根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测,以得到所述第一文本数据以及第二文本数据的预测结果;若所述预测结果为文本语义相同,则将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。13.进一步地,所述文本去重模型包括文本处理子模块以及压缩交互层,其中,通过所述文本去重模型,根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测,包括:通过所述文本处理子模块,根据所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征确定第一向量表示;通过所述压缩交互层,根据所述上下文特征以及所述扩展特征确定第二向量表示;根据所述第一文本数据以及所述第二文本数据分别对应的文本特征、上下文特征以及扩展特征,确定第三向量表示;根据所述第一向量表示、所述第二向量表示以及所述第三向量表示确定所述预测结果。14.进一步地,所述文本去重模型包括分类层以及特征增强层,其中,根据所述第一向量表示、所述第二向量表示以及所述第三向量表示确定所述预测结果,包括:对所述第一向量表示、所述第二向量表示以及所述第三向量表示进行向量加和,以得到第四向量表示;通过所述特征增强层,对所述第四向量表示进行特征增强,以得到第五向量表示;通过所述分类层,对所述第五向量表示,以确定所述第一文本与所述第二文本的预测结果。15.进一步地,若所述预测结果为文本语义相同,则将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中,包括:根据所述第一文本数据以及所述第二文本数据对应的文本语义,确定所述文本语义对应的所述同义词知识库,其中,所述同义词知识库中的文本对之间的语义距离小于预设语义距离阈值;将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。16.根据本发明实施例的另一方面,还提供了一种文本去重装置,包括:获取模块,用于获取查询输入对应的多个结果文本;匹配模块,用于在预先构建的同义词知识库中对所述多个结果文本进行匹配,其中,所述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,所述文本去重模型用于根据所述结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;去重模块,用于根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本。17.进一步地,还包括:分类模块,用于在所述获取查询输入对应的多个结果文本之前,通过所述文本去重模型,根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测,以得到所述第一文本数据以及第二文本数据的预测结果;存储模块,用于若所述预测结果为文本语义相同,则将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。18.进一步地,所述文本去重模型包括文本处理子模块以及压缩交互层,其中,所述分类模块包括:第一确定子模块,用于通过所述文本处理子模块,根据所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征确定第一向量表示;第二确定子模块,用于通过所述压缩交互层,根据所述上下文特征以及所述扩展特征确定第二向量表示;第三确定子模块,用于根据所述第一文本数据以及所述第二文本数据分别对应的文本特征、上下文特征以及扩展特征,确定第三向量表示;第四确定子模块,用于根据所述第一向量表示、所述第二向量表示以及所述第三向量表示确定所述预测结果。19.进一步地,所述第四确定子模块包括:处理单元,用于对所述第一向量表示、所述第二向量表示以及所述第三向量表示进行向量加和,以得到第四向量表示;特征增强单元,用于通过所述特征增强层,对所述第四向量表示进行特征增强,以得到第五向量表示;确定单元,用于通过所述分类层,对所述第五向量表示,以确定所述第一文本与所述第二文本的预测结果。20.进一步地,所述存储模块包括:根据所述第一文本数据以及所述第二文本数据对应的文本语义,确定所述文本语义对应的所述同义词知识库,其中,所述同义词知识库中的文本对之间的语义距离小于预设语义距离阈值;将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。21.根据本发明实施例的另一方面,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的文本去重方法的步骤。22.根据本发明实施例的另一方面,还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的文本去重方法的步骤。23.在本发明实施例中,通过获取查询输入对应的多个结果文本;在预先构建的同义词知识库中对多个结果文本进行匹配,其中,同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,文本去重模型用于根据结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;根据同义词知识库的匹配结果筛除多个结果文本中的重复文本。基于预先训练完成的文本去重模型的预测结构构建的同义词知识库,达到了在线上对文本进行快速去重的目的,从而实现了提高推荐检索词时效性以及推荐结果准确性的技术效果,进而解决了由于相关技术中由于线上模型实时推理,准确度以及时效性较差的技术问题。附图说明24.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:25.图1是根据本发明实施例的一种可选的文本去重方法的示意图;26.图2是根据本发明实施例的一种可选的文本去重模型的示意图;27.图3是根据本发明实施例的又一种可选的文本去重模型的示意图;28.图4是根据本发明实施例的一种可选的文本去重装置的示意图。具体实施方式29.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。30.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。31.实施例132.根据本发明实施例,提供了一种文本去重方法,如图1所示,该方法包括:33.s102,获取查询输入对应的多个结果文本;34.本实施例中的结果文本可以为网络平台中用户查询输入对应的推荐文本、检索结果等。本实施例中的查询输入可以为用户通过搜索页面输入的查询词和/或选择的查询条件,也可以是平台根据用户的行为生成的查询词和/或查询条件。此外,查询输入还可以是用户在平台上对相关推荐词或通知信息的选取操作等。35.在本实施例中,接收用户针对线上平台的查询输入,进而获取查询输入对应的多个结果文本,例如,通过平台的查询入口可以获取到针对用户当前次查询或当前次浏览的查询输入。进一步地,平台根据获取到的查询输入进行搜索查询,并召回与查询输入匹配的多个结果文本。例如,在用户点击了“烤肉”,每一个召回的推荐词都可以认为是一个结果文本。36.s104,在预先构建的同义词知识库中对多个结果文本进行匹配,其中,同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,文本去重模型用于根据结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;37.在本实施例中,预先构建同义词知识库,每个同义词知识库对应一种文本语义,在一个同义词知识库中,各个文本之间的语义相近,语义之间相似度大于预设阈值。例如当文本a与文本b重复,文本b与文本c重复,可以合理判断文本a与文本c重复。由此,通过预先构建的同义词知识库可以实现对多个结果文本快速进行匹配。38.本实施例中的同义词知识库是预先由文本去重模型的预测结果构建的,文本去重模型对文本数据源中的文本两两分组依次进行分类预测,最后构建同义词知识库。此外,在同义词知识库构建完成后,后续在得到新文本后,将新文本作为文本增量添加至语义相近或相同的同义词知识库中。39.s106,根据同义词知识库的匹配结果筛除多个结果文本中的重复文本。40.在本实施例中,通过在同义词知识库中对多个结果文本进行匹配,则可以筛选出语义相同或相近的重复文本,将重复文本从多个结果文本中筛除,然后将筛除完成的结果文本展示给查询输入对应的用户。41.需要说明的是,在本实施例中,通过获取查询输入对应的多个结果文本;在预先构建的同义词知识库中对多个结果文本进行匹配,其中,同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,文本去重模型用于根据结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;根据同义词知识库的匹配结果筛除多个结果文本中的重复文本。基于预先训练完成的文本去重模型的预测结构构建的同义词知识库,达到了在线上对文本进行快速去重的目的,从而实现了提高推荐检索词时效性以及推荐结果准确性的技术效果,进而解决了由于相关技术中由于线上模型实时推理,准确度以及时效性较差的技术问题。42.可选地,在本实施例中,在获取查询输入对应的多个结果文本之前,还包括但不限于:通过文本去重模型,根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测,以得到第一文本数据以及第二文本数据的预测结果;若预测结果为文本语义相同,则将第一文本数据以及第二文本数据加入至同义词知识库中。43.在本实施例具体实施时,首先需要训练文本去重模型。44.在一些实施例中,根据查询输入召回的文本的文本数据,构建训练样本集,训练样本集中的每条训练样本至少包括以下信息:文本信息、上下文信息以及扩展信息,其中,文本信息包括但不限于查询输入、结果文本;上下文信息是根据线上平台根据查询输入召回的文本与查询输入之间对应关系构建得到的;扩展信息包括但不限于用户信息、用户交互信息以及用户偏好等。45.在本实施例中,基于两个训练文本数据为一组构建训练样本,然后每个训练样本包括第一文本、第二文本、第一上下文、第二上下文、第一扩展信息、第二扩展信息、第一文本与第二文本的语义相似度。在一些实施例中,将每个训练样本表示为一个七元组《第二文本、第一上下文、第二上下文、第一扩展信息、第二扩展信息、语义相似度》。46.此外,作为一种可选地实施方式,由于在文本判重任务中,正样本数量往往远小于负样本,所以通过编辑距离与字符串相似度比较(jaro winkler)算法做初步的阈值卡控,筛选相似样本,过滤大部分负样本。47.接下来,基于构建的训练样本集训练文本去重模型。以第一训练文本数据以及第二训练文本数据分别对应的文本信息、上下文信息以及扩展信息为模型输入,以第一训练文本数据以及第二训练文本数据的语义相似作为模型目标,训练文本去重模型,直至模型收敛或模型迭代至预设次数。48.然后,将第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征,输入至预先训练完成的文本去重模型中,以得到第一文本数据与第二文本数据的语义相似度得分或语义是否相似的结果。在第一文本数据与第二文本数据语义相似的情况下,将第一文本数据以及第二文本数据作为同义词或近义词,添加至相同语义的同义词知识库中。49.若第一文本数据与第二文本数据语义不相似,则保留第一文本数据以及第二文本数据对应的文本。50.通过上述实施例,通过文本去重模型预先对查询输入对应的结果文本进行语义相似预测,以实现对查询输入的结果文本进行快速语义判断,进而提高文本去重的时效性。51.可选地,在本实施例中,文本去重模型包括文本处理子模块以及压缩交互层,其中,通过文本去重模型,根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测,包括但不限于:通过文本处理子模块,根据第一文本数据的第一文本特征以及第二文本数据的第二文本特征确定第一向量表示;通过压缩交互层,根据上下文特征以及扩展特征确定第二向量表示;根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征,确定第三向量表示;根据第一向量表示、第二向量表示以及第三向量表示确定预测结果。52.具体地,在本实施例中,如图2所示的文本去重模型的结构示意图,文本去重模型20包括文本处理子模块210、压缩交互层220、特征增强层230以及分类层240。将第一本数据的第一文本特征以及第二文本数据的第二文本特征输入至文本处理子模块210,以得到第一向量表示;将第一文本数据以及第二文本数据分对应的上下文特征以及扩展特征输入至压缩交互层220,以得到第二向量表示。然后,对根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行向量拼接,以得到第三向量表示;最后,经过特征增强层230以及分类层240来确定第一文本数据以及第二文本数据对应的预测结果。53.可选地,在本实施例中,文本去重模型包括分类层以及特征增强层,其中,根据第一向量表示、第二向量表示以及第三向量表示确定预测结果,包括但不限于:对第一向量表示、第二向量表示以及第三向量表示进行向量加和,以得到第四向量表示;通过特征增强层,对第四向量表示进行特征增强,以得到第五向量表示;通过分类层,对第五向量表示,以确定第一文本与第二文本的预测结果。54.在具体地应用场景中,如图3所示的文本去重模型,文本去重模型的模型整体结构为xdeepfm,上下文特征以及其他扩展特征经过特征处理层处理后输入至压缩交互层cin中,进行显示的高阶特征组合处理。将xdeepfm中的深度神经网络dnn(deep neural networks)替换为bert(bidirectional encoder representation from transformers,语言表征模型)模型,将第一文本以及第二文本输入至bert模型,以得到第一向量表示。55.此外,文本去重模型中包括嵌入向量层embedding layer以及压缩交互层(compressed interaction network,cin),首先将对上下文特征以及扩展特征输入至压缩交互层中的嵌入向量层embedding layer,然后将embedding layer的输出输入至cin,以得到第二向量表示。56.一方面,由第一文本以及第二文本分别对应的文本特征得到第一向量表示,由上下文特征以及扩展特征得到第二向量表示,第一文本以及第二文本、上下文特征以及扩展特征输入至linear层,得到第三向量表示。57.另一方面,在文本去重模型的add层中对第一向量表示、第二向量表示、第三向量表示进行向量加和,然后经过增加特征增强(mix up)层进行数据增强,以得到第四向量表示。58.然后通过分类层(output unit)对第四向量表示进行分类,以得到第一文本以及第二文本的文本语义的相似度或相似度得分。可选地,分类层240可以是由多层感知机mlp(multilayer perceptron)构成,本实施例中对此不作限定。59.在上述实施例中,通过文本去重模型,根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征确定第一文本数据于第二文本数据的语义相似度,提高了预测结果的准确度。60.可选地,在本实施例中,若预测结果为文本语义相同,则将第一文本数据以及第二文本数据加入至同义词知识库中,包括但不限于:根据第一文本数据以及第二文本数据对应的文本语义,确定文本语义对应的同义词知识库,其中,同义词知识库中的文本对之间的语义距离小于预设语义距离阈值;将第一文本数据以及第二文本数据加入至同义词知识库中。61.具体地,在本实施例中,文本去重模型输出的结果是第一文本数据于第二文本数据的文本对之间是否重复。例如当文本a与文本b重复,文本b与文本c重复,可以合理判断文本a与文本c重复。由于文本对的构建是经过距离阈值筛选的,并不包括全部的文本对组合,所以根据重复的传递性可以扩展出更多的重复文本。但是每次去重都要遍历该链路,需要较大的时间成本。为了提高知识库判重性能与更新效率,在本实施例中采用并查集算法,维护键值对形式的同义词知识库,在离线更新时做路径压缩优化。62.需要说明的是,若文本去重模型进行参数更新或调整,则全量更新同义词知识库;若文本去重模型没有更新或调整,则定时以同义词/近义词增量更新的方式,更新同义词知识库,以确保知识库具有较好的覆盖度,及时覆盖新兴流行文本。63.通过本实施例,获取查询输入对应的多个结果文本;在预先构建的同义词知识库中对多个结果文本进行匹配,其中,同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,文本去重模型用于根据结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;根据同义词知识库的匹配结果筛除多个结果文本中的重复文本。基于预先训练完成的文本去重模型的预测结构构建的同义词知识库,达到了在线上对文本进行快速去重的目的,从而实现了提高推荐检索词时效性以及推荐结果准确性的技术效果,进而解决了由于相关技术中由于线上模型实时推理,准确度以及时效性较差的技术问题。64.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。65.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。66.实施例267.根据本发明实施例,还提供了一种用于实施上述文本去重方法的文本去重装置,如图4所示,该装置包括:68.1)获取模块40,用于获取查询输入对应的多个结果文本;69.2)匹配模块42,用于在预先构建的同义词知识库中对所述多个结果文本进行匹配,其中,所述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,所述文本去重模型用于根据所述结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;70.3)去重模块44,用于根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本。71.可选地,在本实施例中,还包括:72.1)分类模块,用于在所述获取查询输入对应的多个结果文本之前,通过所述文本去重模型,根据第一文本数据以及第二文本数据分别对应的文本特征、上下文特征以及扩展特征进行语义重复预测,以得到所述第一文本数据以及第二文本数据的预测结果;73.2)存储模块,用于若所述预测结果为文本语义相同,则将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。74.可选地,在本实施例中,所述文本去重模型包括文本处理子模块以及压缩交互层,其中,所述分类模块包括:75.1)第一确定子模块,用于通过所述文本处理子模块,根据所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征确定第一向量表示;76.2)第二确定子模块,用于通过所述压缩交互层,根据所述上下文特征以及所述扩展特征确定第二向量表示;77.3)第三确定子模块,用于根据所述第一文本数据以及所述第二文本数据分别对应的文本特征、上下文特征以及扩展特征,确定第三向量表示;78.4)第四确定子模块,用于根据所述第一向量表示、所述第二向量表示以及所述第三向量表示确定所述预测结果。79.可选地,在本实施例中,所述第四确定子模块包括:80.1)处理单元,用于对所述第一向量表示、所述第二向量表示以及所述第三向量表示进行向量加和,以得到第四向量表示;81.2)特征增强单元,用于通过所述特征增强层,对所述第四向量表示进行特征增强,以得到第五向量表示;82.3)确定单元,用于通过所述分类层,对所述第五向量表示,以确定所述第一文本与所述第二文本的预测结果。83.可选地,在本实施例中,所述存储模块44包括:84.1)根据所述第一文本数据以及所述第二文本数据对应的文本语义,确定所述文本语义对应的所述同义词知识库,其中,所述同义词知识库中的文本对之间的语义距离小于预设语义距离阈值;85.2)将所述第一文本数据以及所述第二文本数据加入至所述同义词知识库中。86.通过本实施例,获取查询输入对应的多个结果文本;在预先构建的同义词知识库中对多个结果文本进行匹配,其中,同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,文本去重模型用于根据结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;根据同义词知识库的匹配结果筛除多个结果文本中的重复文本。基于预先训练完成的文本去重模型的预测结构构建的同义词知识库,达到了在线上对文本进行快速去重的目的,从而实现了提高推荐检索词时效性以及推荐结果准确性的技术效果,进而解决了由于相关技术中由于线上模型实时推理,准确度以及时效性较差的技术问题。87.实施例388.根据本发明实施例,还提供了一种电子设备,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的文本去重方法的步骤。89.可选地,在本实施例中,存储器被设置为存储用于执行以下步骤的程序代码:90.s1,获取查询输入对应的多个结果文本;91.s2,在预先构建的同义词知识库中对所述多个结果文本进行匹配,其中,所述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,所述文本去重模型用于根据所述结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;92.s3,根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本。93.可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。94.实施例495.本发明的实施例还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的文本去重方法的步骤。96.可选地,在本实施例中,可读存储介质被设置为存储用于执行以下步骤的程序代码:97.s1,获取查询输入对应的多个结果文本;98.s2,在预先构建的同义词知识库中对所述多个结果文本进行匹配,其中,所述同义词知识库是根据预先训练完成的文本去重模型的预测结果生成的,所述文本去重模型用于根据所述结果文本的文本特征、上下文特征以及扩展特征进行语义重复预测;99.s3,根据所述同义词知识库的匹配结果筛除所述多个结果文本中的重复文本。100.可选地,可读存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码,本实施例中对此不再赘述。101.可选地,在本实施例中,上述可读存储介质可以包括但不限于:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。102.可选地,本实施例中的具体示例可以参考上述实施例1中所描述的示例,本实施例在此不再赘述。103.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。104.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。105.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。106.在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。107.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。108.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。109.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部