计算;推算;计数设备的制造及其应用技术1.本发明涉及人工智能技术领域,尤其涉及一种基于逆向最优运输模型的可解释司法案例匹配方法。背景技术:2.现有的司法案例匹配模型主要可以分为三类:基于专家知识的模型;基于引用网络的模型;基于文本语义的模型。3.基于专家知识的模型是传统的案例匹配方法,该方法高度依赖模型设计者在司法领域的先验知识。例如,[1]提出在事故赔偿领域,一个案例可被拆解成若干要素,诸如支持索赔人、支持应诉人和中立因素等,一个案例可表示成这些要素的集合。于是,案例的匹配可以视为要素之间的匹配。[0004]基于引用网络的模型多应用于英美法系国家,这类模型构建了一个先例引用网络(precedent citation network),其中网络中的节点是法律案例,有向边表示源案例被目标案例引用的情况,即目标案例所使用的源案例的引用。[2]提出使用先例引用集之间的jaccard相似度指数来推断两个法律案件的相似性。[0005]基于文本语义的模型聚焦案例文本的内容,使用案例之间语义相似性来度量其匹配程度。得益于深度神经网络的蓬勃发展,基于文本语义的模型取得了超越前两类模型的性能表现。例如,[3]提出讲司法案例切分成多个段落,使用大规模预训练语言模型编码每个文本段落,再使用最大池化和循环神经网络建模两个案例中每个段落对的语义相似性,最后使用注意力机制输出案例正例的匹配得分。[0006]现有的基于三元组深度哈希学习的相似司法案例匹配方法是通过获取待匹配的司法案例文书,将待匹配的司法案例文书输入到预训练的特征提取模型中,得到待匹配司法案例文书的特征表示向量,之后将待匹配司法案例文书的特征表示向量,同时输入到预训练的三元组深度哈希学习模型中,得到待匹配司法案例文书的哈希码,最后基于待匹配司法案例文书的哈希码与已知司法案例文书的哈希码,计算司法案例文书的相似度的。[0007]现有的案例匹配模型在匹配精度上取得了较为优异的表现,但是这些模型难以为其匹配预测提供解释。造成这一现象的原因有三:其一,司法案例文档内容复杂,其中仅有部分反映司法要素的句子与匹配结果和匹配解释相关,现有模型并没有在句子层面区分司法要素和噪声;其二,案例中的司法要素可以分成支持匹配、支持不匹配两类,模型最终预测的解释应当权衡这两类司法要素,而现有模型并没有做出区分;其三,司法案例文档篇幅冗长,关于司法要素的标注存在稀疏、有偏等问题,直接拟合法要素的标签学习的模型容易陷入局部最优,限制模型的泛化性。技术实现要素:[0008]为此,本发明首先提出一种基于逆向最优运输模型的可解释司法案例匹配方法,由三个模块构成:[0009]司法要素提取模块针对输入的案例对,以两个案例(x,y)、案例中每个句子司法要素标签rx,ry和人工标注的句子对齐标签作为模块输入,采用逆向最优运输过程,模型根据学习案例句子之间的“运输代价”,输出案例中所有句子的司法要素标签预测其中分别表示案例x和y中匹配的司法要素和不匹配的司法要素,[0010]候选解释生成模块以所述司法要素提取模块提取的两个案例的司法要素作为输入,以模型预测的候选解释作为输出,其中i表示候选解释的数量,候选解释生成模块输出分别作为标签0的解释和标签1的解释;[0011]匹配模块以所述司法要素提取模块预测的以及所述候选解释生成模块生成的候选解释作为输入,将视为查询,候选解释作为文档,分别计算与匹配得分,输出得分较高的解释以及该解释对应的匹配标签,即为输出案例匹配与否的预测已经与该预测对应的候选解释作为最终解释。[0012]所述最优运输过程首先对于司法案例匹配的场景中,对于任意两个案例μ、v分别视为一个均匀分布,即其中1d表示d维全1的向量,两个案例之间的最优运输方案为:[0013][0014]其中表示任意联合分布,其中的句子满足边缘分布为μ和v;为代价矩阵,c(xm,yn)表示两个句子之间的差异;[0015]之后,采用逆向最优运输试图从中学习鲁棒性更强的代价矩阵c:给定最优运输方案,即人工标注,求解代价矩阵,即案例中句子的差异情况:[0016][0017]s.t.a*(c)=argmina∈π(μ,ν)《a,c》+γ《a,loga》[0018]其中kl表示句子对齐标签和运输方案a*之间的kl散度,最终建模c为两个子矩阵的线性组合:[0019]c=cs+∈cr[0020]其中cs是两个案例句子级别的语义相似度矩阵,使用神经网络计算句子向量相似度;cr是两个案例句子级别的要素相似度矩阵,使用神经网络对案例中的句子进行分类,区分司法要素和非司法要素,再比较两个句子是否属于同类司法要素;∈是平衡系数;[0021]在训练过程中,司法要素提取模块学习代价矩阵c中的参数;在测试过程,司法要素提取模块根据c进行正向最优运输,根据最优运输方案确定案例中句子的对齐情况,并提取司法要素标签预测[0022]所述司法要素提取模块,作为最小化模型预测的和人工标注的句子级别对齐程度之间的损失以及在构建cr时模型对每个句子司法要素分类预测和人工标注之间的损失的损失函数可以写成:[0023][0024]其中,是模型在构建代价矩阵c时预测案例中每个句子司法要素标签与真实标签之间的交叉熵损失:[0025][0026]其中δ(r,k)=1如果r=k否则为0;是模型逆向最优运输损失,优化代价矩阵c和对应的最优运输方案矩阵:[0027][0028]所述候选解释生成模块最小化模型生成的和人工标注的自然语言解释之间的差异,损失函数是微调预训练语言模型的损失:[0029][0030]所述匹配模块最小化模型预测的和人工标注的案例匹配标签之间的差异损失函数可以写成:[0031][0032]其中是模型对于案例匹配关系的预测与真实标签之间的交叉熵损失:[0033][0034]所述训练过程具体为:基于训练数据集批量大小n1,n2,n3、平衡系数∈,γ、学习率η1,η2,η3数据,设计算法流程:[0035]对于所述司法要素提取模块的训练,重复如下过程:从训练数据集中采样小批量数据预测(xi,yi)的司法要素标签计算构造c,cs,cr,使用sinkhorn算法优化a*,计算计算计算梯度更新直至结果收敛并返回[0036]所述候选解释生成模块的训练,重复如下过程:从训练数据集中采样小批量数据微调三个标签特定的预训练语言模型,直至结果收敛并返回[0037]所述匹配预测模块的训练,重复如下过程:从训练数据集中采样小批量数据使用和预测匹配标签计算计算梯度更新直至结果收敛并返回[0038]本发明所要实现的技术效果在于:[0039]首先从案例中提取支持匹配和支持不匹配的司法要素(句子);其次根据提取的司法要素生成自然语言形式的、特定标签的解释,对应支持匹配标签和支持不匹配标签的解释;最后基于司法要素和自然语言解释输出案例对的匹配预测以及对应的解释。本发明以此为模型预测提供两个方面的解释并提升模型预测的准确率。附图说明[0040]图1基于逆向最优运输的可解释性案例匹配方法架构图;具体实施方式[0041]以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。[0042]本发明提出了一种基于逆向最优运输模型的可解释司法案例匹配方法。[0043]本方法主要由三个模块构成,分别是司法要素提取模块、候选解释生成模块和匹配模块。[0044]司法要素提取模块负责从输入的司法案例对中提取支持匹配和支持不匹配的司法要素(句子);候选解释生成模块根据已提取的司法要素生成候选解释,即为每个潜在的匹配标签生成自然语言形式的解释;匹配模块基于提取的司法要素和生成的候选解释计算案例最终的匹配标签并输出对应的候选解释作为匹配预测的最终解释。[0045]司法要素提取模块以两个案例(x,y)、案例中每个句子司法要素标签rx,ry和人工标注的句子对齐标签作为模块输入,输出案例中所有句子的司法要素标签预测(分别表示案例x和y中匹配的司法要素和不匹配的司法要素)。考虑到司法案例篇幅冗长、内容繁杂,在实际标注中常常是极其稀疏的,极有可能出现假阴性问题,如果模型直接拟合会导致鲁棒性差、泛化能力弱等问题。因此,在本方法中司法要素提取被建模成逆向最优运输过程,模型根据学习案例句子之间的“运输代价”,以期提升模型的鲁棒性。[0046]最优运输过程定义了两个概率分布距离的距离。在司法案例匹配的场景中,两个案例可分别视为一个均匀分布即其中1d表示d维全1的向量。那么两个案例之间的最优运输方案为:[0047][0048]其中表示任意联合分布,其中的句子满足边缘分布为μ和v;为代价矩阵,它的元素c(xm,yn)表示两个句子之间的差异。因此最优运输可以看作两个案例句子之间差异的最小期望值。[0049]在最优运输过程中,代价矩阵常常是事先定义好的,如两个句子向量的余弦相似度等衡量两个句子语义层面的相似程度。然而,在司法案例匹配场景中两个句子对齐与否的依据超越了语义相似度的范畴。模型不仅仅需要考虑语义,更要考虑句子是否体现为某种司法要素,诸如案情事实、要件事实或是争议焦点。同时考虑到可能存在假阴性问题,本方法采用逆向最优运输试图从中学习鲁棒性更强的代价矩阵c。[0050]不同于给定代价矩阵c求解运输方案a*的最优运输,逆向最优运输更符合案例匹配场景:给定最优运输方案(人工标注),求解代价矩阵(案例中句子的差异情况):[0051][0052]s.t.a*(c)=argmina∈π(μ,ν)<a,c>+γ<a,loga>[0053]其中kl表示句子对齐标签和运输方案a*之间的kl散度,这里运输方案a*根据可学习的代价矩阵c经过最优运输过程计算得到。本方法建模c为两个子矩阵的线性组合:[0054]c=cs+∈cr[0055]其中cs是两个案例句子级别的语义相似度矩阵,可使用神经网络计算句子向量相似度;cr是两个案例句子级别的要素相似度矩阵,可使用神经网络对案例中的句子进行分类,区分司法要素和非司法要素,再比较两个句子是否属于同类司法要素;∈是平衡系数。在训练过程中,司法要素提取模块试图学习代价矩阵c中的参数;在测试过程,司法要素提取模块根据c进行正向最优运输,根据最优运输方案确定案例中句子的对齐情况,并提取司法要素标签预测[0056]候选解释生成模块以司法要素提取模块提取的两个案例的司法要素作为输入,以模型预测的候选解释作为输出,其中i表示候选解释的数量,比如在二分类问题中,候选解释生成模块输出分别作为标签0的解释和标签1的解释。为表述方便,下文都记为因为是原始案例中若干句子的集合,因此在候选解释生成模块中,本方法微调预训练语言模型,生成更加紧凑、通顺的解释。[0057]匹配模块以司法要素提取模块预测的以及候选解释生成模块生成的候选解释作为输入,输出案例匹配与否的预测已经与该预测对应的候选解释作为最终解释。本方法把匹配模块建模成一个检索排序问题,即将视为查询,候选解释作为文档,分别计算与匹配得分,输出得分较高的解释以及该解释对应的匹配标签。[0058]本方法包含三个子模块,每个模块包含各自的训练目标:司法要素提取模块最小化模型预测的和人工标注的句子级别对齐程度之间的损失以及在构建cr时模型对每个句子司法要素分类预测和人工标注之间的损失候选解释生成模块最小化模型生成的和人工标注的自然语言解释之间的差异;匹配模块最小化模型预测的和人工标注的案例匹配标签之间的差异[0059]司法要素提取模块的损失函数可以写成:[0060][0061]其中,是模型在构建代价矩阵c时预测案例中每个句子司法要素标签与真实标签之间的交叉熵损失:[0062][0063]其中δ(r,k)=1如果r=k否则为0;是模型逆向最优运输损失,优化代价矩阵c和对应的最优运输方案矩阵:[0064][0065]候选解释生成模块的损失函数是微调预训练语言模型的损失:[0066][0067]匹配模块的损失函数可以写成:[0068][0069]其中是模型对于案例匹配关系的预测与真实标签之间的交叉熵损失:[0070][0071]本方法的训练流程:[0072]要求:训练数据集批量大小n1,n2,n3;平衡系数∈,γ;学习率η1,η2,η3。[0073]1司法要素提取[0074]2:repeat:[0075]3:从训练数据集中采样小批量数据[0076]4:预测(xi,yi)的司法要素标签[0077]5:计算[0078]6:构造c,cs,cr,使用sinkhorn算法优化a*[0079]7:计算[0080]8:计算[0081]9:梯度更新[0082]10:until收敛[0083]11:return[0084]13:候选解释生成[0085]14:repeat:[0086]15:从训练数据集中采样小批量数据[0087]16:微调三个标签特定的预训练语言模型[0088]17:until收敛[0089]18:return[0090]19:匹配预测[0091]20:repeat:[0092]21:从训练数据集中采样小批量数据[0093]22:使用和预测匹配标签[0094]23:计算[0095]24:计算[0096]25:梯度更新[0097]26:until收敛[0098]27:return[0099]综上,基于逆向最优运输的可解释性案例匹配方法以训练集和一些超参数为输入,三个模块依次计算损失,使用梯度下降法更新模型参数,训练多轮直到收敛,输出司法要素提取模块的参数候选解释生成模块的参数和匹配预测模块的参数[0100]本技术方案是一个模型框架,不同司法要素提取模块、候选解释生成模块和匹配预测模块的配置会有不同的具体实现。本节介绍一种应用于本模型的样例实现。[0101]1司法要素提取模块[0102]给定两个输入司法案例x,y,本样例首先使用在大规模司法案例语料库中预训练的bert模型[4]把输入案例中的所有句子映射成固定长度的句嵌入向量,具体来说使用bert模型在“[cls]”字符上的输出作为整个句子的嵌入,记为和其中xm,yn分别表示案例x第m个句子和案例y第n个句子的句子嵌入。其次,本样例通过一个前馈神经网络投影句子嵌入,并计算xm和yn之间的欧氏距离构建两个案例句子级别语义相似度矩阵通过一个门控空洞卷积神经网络[5]对x,y进行司法要素分类,并依据两个句子是否属于相同司法要素构建案例句子级别要素相似度矩阵cr∈{0,1}m×n,cs和cr的线性组合作为最优运输的运输代价。最后,本样例根据运输代价使用sinkhorn[6]算法解得x,y在句子级别的全局对齐方案记为其中本样例设置阈值取对齐方案中大于阈值的元素所对应的句子作为支持匹配决策的句子,反之,则为作为不支持匹配决策的句子。[0103]2候选解释生成模块[0104]给定两个输入司法案例x,y、句子级别司法要素标签的预测和人工标注的解释e,本样例首先根据匹配标签z将数据划分成若干份(假设任务是二分类,因此有两类标签,于是将数据划分成两份,下文以二分类为例),分别对每一份数据进行如下操作:在训练阶段,以和对应的句子作为输入,e作为标签,微调在大规模中文语料库预训练好的t5-pegasus[7]模型,以人工标注为导向使模型学习生成司法解释。测试阶段,两个训练完毕的生成模型分别用来生成对应的解释[0105]3.匹配模块[0106]本样例的匹配模块以表示司发要素的句子和候选解释作为输入,输出案例匹配关系的预测以及对应的标签。类似司法要素提取模块,匹配模块首先使用在大规模司法案例语料库中预训练的bert模型把输入案例中的所有句子映射成固定长度的句嵌入向量,具体来说使用bert模型在“[cls]”字符上的输出作为整个句子的嵌入。其次,本样例分别拼接两个案例的司法要素和候选解释(其中[·]表示向量拼接操作),并使用两层前馈神经网络计算两者的相似性得分,得分高的解释及其对应的匹配标签作为模型最终输出。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种基于逆向最优运输模型的可解释司法案例匹配方法及系统
作者:admin
2022-07-30 22:20:06
213
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 用于解释人工智能模型的方法、装置及系统与流程
- 上一篇: 一种利用发酵桑叶配制的蛋鸡饲料及其用途