发布信息

一种表格结构识别方法、装置、设备及存储介质与流程 专利技术说明

作者:admin      2023-06-29 09:36:01     702



计算;推算;计数设备的制造及其应用技术1.本发明涉及信息识别技术领域,尤其涉及一种表格结构识别方法、装置、设备及存储介质。背景技术:2.在知识和信息时代,文档是许多不同认知过程(例如知识数据库创建、ocr、图形理解、文档检索等)非常重要的信息来源,自动处理嵌入在这些文档中的信息至关重要。表格作为一种特殊的实体在文档中非常常见,表格以较为简洁的形式传达了一些重要的信息,并且在金融、行政等诸多领域非常普遍,因此,表格结构识别技术具备广泛的应用。3.目前的表格结构识别方法大多为基于分割和归并的识别方法,即,首先基于表格图像预测出表格行列线,然后基于预测出的表格行列线将表格图像分割成一系列基础网格,最后对各基础网格进行归并处理,从而获得表格图像对应的表格结构。4.可以理解的是,若要获得较为精准的表格结构,首先需要预测出较为精准的表格行列线。目前的表格识别方法大多采用基于语义分割的预测方式预测表格行列线,然而,基于语义分割的预测方式无法预测出较为精准的表格行列线,无法预测出较为精准的表格行列线会导致最终无法获得较为精准的表格结构。技术实现要素:5.有鉴于此,本发明提供了一种表格结构识别方法、装置、设备及存储介质,用以解决现有的表格识别方法无法获得较为精准的表格结构的问题,其技术方案如下:6.一种表格结构识别方法,包括:7.获取目标表格图像;8.获取所述目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征;9.基于所述目标表格图像在列维度的全局视觉特征预测表格列线,并基于所述目标表格图像在行维度的全局视觉特征预测表格行线;10.基于预测的表格列线和表格行线,将所述目标表格图像分割成基础网格;11.对通过分割得到各基础网格进行归并处理,得到所述目标表格图像对应的表格结构。12.可选的,所述获取所述目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征,包括:13.对所述目标表格图像提取视觉特征,得到目标视觉特征;14.将所述目标视觉特征中分别对应于所述目标表格图像各行像素的视觉特征整合,将整合得到的行向量确定为所述目标表格图像在列维度的全局视觉特征;15.将所述目标视觉特征中分别对应于所述目标表格图像各列像素的视觉特征整合,将整合得到的列向量确定为所述目标表格图像在行维度的全局视觉特征。16.可选的,所述将所述目标视觉特征中分别对应于所述目标表格图像各行像素的视觉特征整合,包括:17.将所述目标视觉特征中分别对应于所述目标表格图像各行像素的视觉特征求均值;18.所述将所述目标视觉特征中分别对应于所述目标表格图像各列像素的视觉特征整合,包括:19.将所述目标视觉特征中分别对应于所述表格图像各列像素的视觉特征求均值。20.可选的,所述基于所述目标表格图像在列维度的全局视觉特征预测表格列线,包括:21.基于所述目标表格图像在列维度的全局视觉特征,预测第一卷积参数和表格列线所在区域;22.基于所述第一卷积参数、所述表格列线所在区域以及所述目标视觉特征,确定表格列线;23.所述基于所述目标表格图像在行维度的全局视觉特征预测表格行线,包括:24.基于所述目标表格图像在行维度的全局视觉特征,预测第二卷积参数和表格行线所在区域;25.基于所述第二卷积参数、所述表格行线所在区域以及所述目标视觉特征,确定表格行线。26.可选的,所述基于所述第一卷积参数、所述表格列线所在区域以及所述目标视觉特征,确定表格列线,包括:27.基于预先确定的列维度的第三卷积参数对所述目标视觉特征进行卷积操作,得到第一视觉特征;28.从所述第一卷积参数中提取所述表格列线所在区域对应的卷积参数;29.基于所述表格列线所在区域对应的卷积参数对所述第一视觉特征进行卷积操作,得到第一卷积操作结果,并基于所述第一卷积操作结果确定表格列线;30.所述基于所述第二卷积参数、所述表格行线所在区域以及所述目标视觉特征,确定表格行线,包括:31.基于预先确定的行维度的第四卷积参数对所述目标视觉特征进行卷积操作,得到第二视觉特征;32.从所述第二卷积参数中提取所述表格行线所在区域对应的卷积参数;33.基于所述表格行线所在区域对应的卷积参数对所述第二视觉特征进行卷积操作,得到第二卷积操作结果,并基于所述第二卷积操作结果确定表格行线。34.可选的,所述对通过分割得到各基础网格进行归并处理,包括:35.基于所述目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征;36.基于各基础网格的第一特征,对各基础网格进行归并处理。37.可选的,所述基于所述目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征,包括:38.从所述目标视觉特征中提取每个基础网格的视觉特征,并基于每个基础网格的位置信息获取每个基础网格的位置特征;39.将同一基础网格的视觉特征与位置特征融合,得到各基础网格的第一特征。40.可选的,所述基于各基础网格的第一特征,对各基础网格进行归并处理,包括:41.基于预先确定的第五卷积参数对各基础网格的第一特征进行卷积操作,得到各基础网格的第二特征;42.针对每个基础网格:43.基于该基础网格的第一特征,预测该基础网格对应的卷积参数;44.基于该基础网格对应的卷积参数,对各基础网格的第二特征进行卷积操作,得到该基础网格对应的卷积操作结果;45.基于该基础网格对应的卷积操作结果,确定与该基础网格归并的基础网格,并将确定出的基础网格与该基础网格归并。46.一种表格结构识别装置,包括:表格图像获取模块、全局视觉特征获取模块、表格行列线预测模块、表格图像分割模块和表格结构确定模块;47.所述表格图像获取模块,用于获取目标表格图像;48.所述全局视觉特征获取模块,用于获取所述目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征;49.所述表格行列线预测模块,用于基于所述目标表格图像在列维度的全局视觉特征预测表格列线,并基于所述目标表格图像在行维度的全局视觉特征预测表格行线;50.所述表格图像分割模块,用于基于预测的表格列线和表格行线,将所述目标表格图像分割成基础网格;51.所述表格结构确定模块,用于对通过分割得到各基础网格进行归并处理,得到所述目标表格图像对应的表格结构。52.一种处理设备,包括:存储器和处理器;53.所述存储器,用于存储程序;54.所述处理器,用于执行所述程序,实现上述任一项所述的表格结构识别方法的各个步骤。55.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的表格结构识别方法的各个步骤。56.本发明提供的表格结构识别方法,在获得目标表格图像后,首先对目标表格图像提取视觉特征,在获得目标视觉特征后,为了能够预测出精准的表格行列线,进一步基于目标视觉特征获取表格图像在列维度的全局视觉特征以及表格图像在行维度的全局视觉特征,进而基于表格图像在列维度的全局视觉特征预测表格列线,基于表格图像在行维度的全局视觉特征预测表格行线,接着基于预测出的表格列线和表格行线将表格图像划分成基础网格,最后对各基础网格进行归并处理,从而得到目标表格图像对应的表格结构。由于本发明提供的表格结构识别方法在进行表格行列线预测时,以目标表格图像在行维度的全局视觉特征和目标表格图像在列维度的全局视觉特征为预测依据,因此,能够预测出较为较为精准的表格行列线,在此基础上进行表格图像的划分和基础网格的归并,可获得较为精准的表格结构。附图说明57.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。58.图1为本发明实施例涉及的一种硬件架构的示意图;59.图2为本发明实施例提供的表格结构识别方法的流程示意图;60.图3为本发明实施例提供的表格图像的一示例;61.图4为本发明实施例提供的基于预测的表格列线和表格行线,将表格图像分割成若干基础网格的示意图;62.图5为本发明实施例提供的将目标表格图像各行像素分别对应的视觉特征整合成行向量的示意图;63.图6为本发明实施例提供的将目标表格图像各列像素分别对应的视觉特征整合成列向量的示意图;64.图7为本发明实施例提供的表格列线预测过程示意图;65.图8为本发明实施例提供的表格行线预测过程示意图;66.图9为本发明实施例提供的基于目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征的示意图;67.图10为本发明实施例提供的基于各基础网格的第一特征,对各基础网格进行归并处理的示意图;68.图11为本发明实施例提供的表格结构识别模型的一示例;69.图12为本发明实施例提供的表格结构识别装置的结构示意图;70.图13为本发明实施例提供的处理设备的结构示意图。具体实施方式71.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。72.目前,基于分割和归并的表格结构识别方法在分割阶段大多采用基于语义分割的预测方式预测表格行列线,基于语义分割的预测方式预测表格行列线的过程为,基于全卷积神经网络抽取表格图像中的特征信息,进而基于抽取的特征信息预测表格行列线。73.本案发明人对基于语义分割的预测方式进行研究发现,基于语义分割的预测方式之所以预测准确度不高,是因为全卷积神经网络的感受野较小,其只能感受到较小范围的特征信息(即局部特征信息)。74.基于上述发现,本案发明人继续进行研究,通过不断研究,最终提出了一种效果较好的表格结构识别方法。75.在介绍本发明提供的表格结构识别方法之前,先对本发明涉及的硬件架构进行说明。76.在一种可能的实现方式中,如图1所示,本发明涉及的硬件架构可以包括:电子设备101和服务器102。77.示例性的,电子设备101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,个人计算机、笔记本电脑、平板电脑、手机、智能电视等。78.应注意的是,图1仅仅是一种示例,电子设备的类型可以有多种,不限于图1中的笔记本电脑。79.示例性的,服务器102可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务器中心。服务器102可以包括处理器、存储器以及网络接口等。80.示例性的,电子设备101可以通过无线通信网络与服务器102建立连接并通信;示例性的,电子设备101可以通过有线网络与服务器102建立连接并通信。81.电子设备101可获取目标表格图像(比如接收用户上传的目标表格图像),将目标表格图像发送至服务器102,服务器102按本发明提供的表格结构识别方法识别目标表格图像对应的表格结构,将目标表格图像对应的表格结构发送至电子设备101或其它设备。82.在另一种可能的实现方式中,本发明涉及的硬件架构可以包括:电子设备。电子设备为具有较强数据处理能力的设备。83.示例性的,电子设备可以为任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,个人计算机、笔记本电脑、平板电脑、手机、智能电视等。84.电子设备可获取目标表格图像(比如接收用户上传的目标表格图像),按本发明提供的表格结构识别方法识别目标表格图像对应的表格结构。85.本领域技术人员应能理解上述电子设备和服务器仅为举例,其它现有的或今后可能出现的电子设备或服务器如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。86.接下来通过下述实施例对本发明提供的表格结构识别方法进行介绍。87.请参阅图2,示出了本发明实施例提供的表格结构识别方法的流程示意图,该方法可以包括:88.步骤s201:获取目标表格图像。89.其中,目标表格图像为待识别的表格图像。图3示出了目标表格图像的一示例。90.步骤s202:获取目标表格图像在列维度的全局视觉特征以及目标表格图像在行维度的全局视觉特征。91.其中,目标表格图像在列维度的全局视觉特征为表格图像的各列像素的全局视觉特征,目标表格图像在行维度的全局视觉特征为表格图像的各行像素的全局视觉特征。92.可选的,在获取目标表格图像在列维度的全局视觉特征以及目标表格图像在行维度的全局视觉特征时,可先对目标表格图像提取视觉特征,以得到目标视觉特征,然后基于目标视觉特征获取表格图像在列维度的全局视觉特征以及表格图像在行维度的全局视觉特征。93.步骤s203:基于目标表格图像在列维度的全局视觉特征预测表格列线,并基于目标表格图像在行维度的全局视觉特征预测表格行线。94.本发明以目标表格图像在列维度的全局视觉特征为预测依据,预测表格列线,并以目标表格图像在行维度的全局视觉特征为预测依据,预测表格行线,这种预测方式能够预测出较为精准的表格列线和表格行线。95.步骤s204:基于预测的表格列线和表格行线,将目标表格图像分割成基础网格。96.基于预测的表格列线和表格行线,可将目标表格图像分割成若干基础网格。图4示出了基于预测的表格列线和表格行线,将目标表格图像分割成若干基础网格的示意图。97.步骤s205:对各基础网格进行归并处理,得到目标表格图像对应的表格结构。98.在对各基础网格进行归并处理时,可先确定各基础网格的归并情况,然后基于各基础网格的归并情况对各基础网格进行归并处理,从而得到目标表格图像对应的表格结构。99.本发明实施例提供的表格结构识别方法,在获得目标表格图像后,首先对目标表格图像提取视觉特征,在获得目标视觉特征后,为了能够预测出较为精准的表格行列线,基于目标视觉特征获取目标表格图像在列维度的全局视觉特征以及目标表格图像在行维度的全局视觉特征,进而基于目标表格图像在列维度的全局视觉特征预测表格列线,基于目标表格图像在行维度的全局视觉特征预测表格行线,接着基于预测出的表格列线和表格行线将表格图像划分成基础网格,最后对各基础网格进行归并处理,从而得到目标表格图像对应的表格结构。由于本发明实施例提供的表格结构识别方法在进行表格行列线预测时,以目标表格图像在行维度的全局视觉特征和目标表格图像在列维度的全局视觉特征为预测依据,因此能够预测出较为精准的表格行列线,在此基础上进行表格图像的划分和基础网格的归并后,可获得较为精准的表格结构。100.在本发明的另一实施例中,对上述实施例中“步骤s202:获取目标表格图像在列维度的全局视觉特征以及目标表格图像在行维度的全局视觉特征”的具体实现过程进行介绍。101.获取目标表格图像在列维度的全局视觉特征以及目标表格图像在行维度的全局视觉特征的过程可以包括:102.步骤a1、对目标表格图像提取视觉特征,得到目标视觉特征。103.其中,目标视觉特征能够表征目标表格图像的视觉信息。104.步骤a2-a、将目标视觉特征中分别对应于目标表格图像各行像素的视觉特征整合,将整合得到的行向量确定为目标表格图像在列维度的全局视觉特征。105.假设目标表格图像为h×w×3(h为目标表格图像的高度,w为目标表格图像的宽度)的图像,对其提取视觉特征得到目标视觉特征f,f为h×w×c(c为特征通道数)的特征,在获得目标视觉特征f后,将f中分别对应于目标表格图像各行像素的视觉特征整合(即,将h行像素分别对应的视觉特征整合),如图5所示,可得到1×w×c的特征,即表格图像在列维度的全局视觉特征gcol。106.可选的,将目标视觉特征中分别对应于目标表格图像各行像素的视觉特征整合的方式可以为:将目标视觉特征中分别对应于目标表格图像各行像素的视觉特征求均值。当然,本发明并不限定于此,其它能够将目标表格图像各行像素分别对应的视觉特征整合在一起,从而获得表格图像在列维度的全局视觉特征的方式同样适用于本发明。107.步骤a2-b、将目标视觉特征中分别对应于表格图像各列像素的视觉特征整合,将整合得到的列向量确定为目标表格图像在行维度的全局视觉特征。108.假设目标表格图像为h×w×3(h为图像的高度,w为图像的宽度)的图像,对其提取视觉特征得到目标视觉特征f,f为h×w×c(c为特征通道数)的特征,在获得目标视觉特征f后,将f中分别对应于目标表格图像各列像素的视觉特征整合(即,将w列像素分别对应的视觉特征整合),如图6所示,可得到h×1×c的特征,即表格图像在行维度的全局视觉特征grow。109.可选的,将目标视觉特征中分别对应于表格图像各列像素的视觉特征整合的方式可以为:将目标视觉特征中分别对应于目标表格图像各列像素的视觉特征求均值。当然,本发明并不限定于此,其它能够将目标表格图像各列像素分别对应的视觉特征整合在一起,从而获得表格图像在行维度的全局视觉特征的方式同样适用于本发明。110.经由上述过程可获得目标表格图像在列维度的全局视觉特征以及在行维度的全局视觉特征。111.在本发明的另一实施例中,对上述实施例中“步骤s203:基于目标表格图像在列维度的全局视觉特征预测表格列线,并基于目标表格图像在行维度的全局视觉特征预测表格行线”的具体实现过程进行介绍。112.基于表格图像在列维度的全局视觉特征预测表格列线的过程可以包括:113.步骤b1、基于目标表格图像在列维度的全局视觉特征,预测第一卷积参数和表格列线所在区域。114.如图7所示,在获得目标表格图像在列维度的全局视觉特征gcol后,可基于gcol预测第一卷积参数θcol和表格列线所在区域pcol。其中,基于目标表格图像在列维度的全局视觉特征gcol预测的第一卷积参数θcol包括目标表格图像各列像素分别对应的卷积参数。115.步骤b2、基于第一卷积参数、表格列线所在区域以及目标视觉特征,确定表格列线。116.具体的,基于第一卷积参数、表格列线所在区域以及目标视觉特征,确定表格列线的过程可以包括:117.步骤b21、基于预先确定的列维度的第三卷积参数对目标视觉特征进行卷积操作,得到第一视觉特征。118.如图7所示,基于预先确定的列维度的第三卷积参数对目标视觉特征f进行卷积操作,可获得第一视觉特征fcol,第一视觉特征fcol与目标视觉特征f的尺寸相同。119.步骤b22、从第一卷积参数中提取表格列线所在区域对应的卷积参数。120.从第一卷积参数θcol中提取每个表格列线所在区域对应的卷积参数。上述内容提到,第一卷积参数包括目标表格图像各列像素分别对应的卷积参数,若一列像素所在区域为一表格列线所在区域,则将该列像素对应的卷积参数作为该表格列线所在区域对应的卷积参数。121.步骤b23、基于表格列线所在区域对应的卷积参数对第一视觉特征进行卷积操作,得到第一卷积操作结果,并基于第一卷积操作结果确定表格列线。122.针对每个表格列线所在区域,在获得该表格列线所在区域对应的卷积参数后,基于该表格列线所在区域对应的卷积参数对第一视觉特征fcol进行卷积操作,以得到该表格列线所在区域对应的第一卷积操作结果,进而根据该表格列线所在区域对应的第一卷积操作结果确定表格列线。最终针对每个表格列线所在区域确定出一条表格列线。123.本发明实施例基于动态卷积确定表格列线,即,动态预测第一卷积参数,基于预测的第一卷积参数对第一视觉特征进行卷积操作,进而根据卷积操作结果确定表格列线。124.基于目标表格图像在行维度的全局视觉特征预测表格行线的过程可以包括:125.步骤c1、基于表格图像在行维度的全局视觉特征,预测第二卷积参数和表格行线所在区域。126.如图8所示,在获得目标表格图像在行维度的全局视觉特征grow后,可基于grow预测出第二卷积参数θrow和表格行线所在区域prow。其中,基于目标表格图像在行维度的全局视觉特征grow预测的第二卷积参数θcol包括目标表格图像各行像素分别对应的卷积参数。127.步骤c2、基于第二卷积参数、表格行线所在区域以及目标视觉特征,确定表格行线。128.具体的,基于第二卷积参数、表格行线所在区域以及目标视觉特征,确定表格行线的过程可以包括:129.步骤c21、基于预先确定的行维度的第四卷积参数对目标视觉特征进行卷积操作,得到第二视觉特征。130.如图8所示,基于预先确定的行维度的第四卷积参数对目标视觉特征f进行卷积操作,可获得第二视觉特征frow,第二视觉特征frow与目标视觉特征f的尺寸相同。131.步骤c22、从第二卷积参数中提取表格行线所在区域对应的卷积参数。132.从第二卷积参数θrow中提取每个表格行线所在区域对应的卷积参数。上述内容提到,第二卷积参数包括目标表格图像各行像素分别对应的卷积参数,若一行像素所在区域为一表格行线所在区域,则将该行像素对应的卷积参数作为该表格行线所在区域对应的卷积参数。133.步骤c23、基于表格行线所在区域对应的卷积参数对第二视觉特征进行卷积操作,得到第二卷积操作结果,并基于第二卷积操作结果确定表格行线。134.针对每个表格行线所在区域,在获得该表格行线所在区域对应的卷积参数后,基于该表格行线所在区域对应的卷积参数对第二视觉特征frow进行卷积操作,以得到该表格行线所在区域对应的第二卷积操作结果,进而根据该表格行线所在区域对应的第二卷积操作结果确定表格行线。最终针对每个表格行线所在区域可确定出一条表格行线。135.本发明实施例基于动态卷积确定表格行线,即,动态预测第二卷积参数,基于预测的第二卷积参数对第二视觉特征进行卷积操作,进而根据卷积操作结果确定表格行线。136.本发明实施例基于目标表格图像在行维度的全局视觉特征预测表格行线所在区域,并基于目标表格图像在列维度的全局视觉特征预测表格列线所在区域,在此基础上,基于动态卷积预测表格行线和表格列线。由于本发明实施例提供的表格行列线预测方法以全局视觉特征为预测依据,因此,能够预测出较为精确的区域,在此基础上基于动态卷积能够预测出较为精准的表格行列线,即,本发明实施例提供的表格行列线预测方法能够预测出较为精准的表格行列线,并且不易受复杂背景噪声的干扰。137.在本发明的另一实施例中,对上述实施例中“步骤s205:对各基础网格进行归并处理,得到目标表格图像对应的表格结构”的具体实现过程进行介绍。138.对各基础网格进行归并处理,得到目标表格图像对应的表格结构的过程可以包括:139.步骤d1、基于目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征。140.其中,一基础网格的位置信息为能够指示该基础网格在目标表格图像中所处位置的信息。141.具体的,基于目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征的过程包括:首先从目标视觉特征中提取每个基础网格的视觉特征,并基于每个基础网格的位置信息获取每个基础网格的位置特征,然后将同一基础网格的视觉特征与位置特征融合,得到各基础网格的第一特征。其中,在从目标视觉特征中提取每个基础网格的视觉特征时,针对每个基础网格,根据该基础网格的位置信息从目标视觉特征中提取该基础网格的视觉特征。142.示例性的,基于表格行线和表格列线将目标表格图像分割成16个基础网格,请参阅图9,示出了基于目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征的示意图,首先根据16个基础网格的位置信息,从目标视觉特征f中提取16个基础网格的视觉特征,同时,对16个基础网格的位置信息进行编码,得到16个基础网格的位置特征,然后,将同一基础网格的视觉特征与位置信息融合,从而得到16个基础网格的第一特征。143.步骤d2、基于各基础网格的第一特征,对各基础网格进行归并处理。144.具体的,基于各基础网格的第一特征,对各基础网格进行归并处理的过程可以包括:145.步骤d21、基于预先确定的第五卷积参数对各基础网格的第一特征进行卷积操作,得到各基础网格的第二特征。146.示例性的,基于表格行线和表格列线将目标表格图像分割为16个基础网格,如图10所示,基于预先确定的第五卷积参数对16个基础网格的第一特征进行卷积操作,得到16个基础网格的第二特征。147.需要说明的是,对各基础网格的第一特征进行卷积操作的目的在于,使特征与后续的动态卷积操作更适配,一基础网格的第二特征与该基础网格的第一特征的尺寸相同。148.步骤d22、针对每个基础网格,基于该基础网格的第一特征,预测该基础网格对应的卷积参数,基于该基础网格对应的卷积参数,对各基础网格的第二特征进行卷积操作,得到该基础网格对应的卷积操作结果,基于该基础网格对应的卷积操作结果,确定与该基础网格归并的基础网格,并将确定出的基础网格与该基础网格归并。149.示例性的,基于表格行线和表格列线将目标表格图像分割为16个基础网格,如图10所示,对于第1行的第1个基础网格grid11,首先基于grid11的第一特征预测grid11对应的卷积参数,然后基于grid11对应的卷积参数对grid11的第二特征进行卷积操作,得到grid11对应的分数图,分数图中包含grid11与各基础网格的归并关系得分(即16个得分),从16个得分中筛选大于设定得分阈值的得分,将其它基础网格中与grid11的归并关系得分大于设定得分阈值的基础网格确定为与grid11归并的基础网格,如图10所示,第2行的第1个基础网格grid21为与grid11归并的基础网格,将grid21与grid11归并,对于第1行的第2个基础网格grid12,首先基于grid12的第一特征预测grid12对应的卷积参数,然后基于grid12对应的卷积参数对grid12的第二特征进行卷积操作,得到grid12对应的分数图,grid12对应的分数图中包含grid2与各基础网格的归并关系得分(即16个得分),从16个得分中筛选大于设定得分阈值的得分,将其它基础网格中与grid12的归并关系得分大于设定得分阈值的基础网格确定为与grid12归并的基础网格,如图10所示,第1行的第3个基础网格grid13和第4个基础网格grid14为与grid12归并的基础网格,将grid13和grid14与grid12归并,采用同样的方式对其它基础网格进行处理,最终可获得目标表格图像对应的表格结构。150.需要说明的是,各个基础网格的归并处理过程可并行执行,即,可并行地确定与每个基础网格归并的基础网格并归并,即本发明可基于动态卷积并行对基础网格进行归并,如此可大大提升基础网格归并效率,从而快速恢复出网格结构。151.在一种可能的实现方式中,上述的步骤s201~步骤s205可基于模型实现,当然,本发明并不限定于此,即,本发明对步骤s201~步骤s205的具体实现形式不做限定。152.请参阅图11,示出了可实现表格结构识别的表格识别模型的一示例,接下来对基于图11示出的表格识别模型进行表格结构识别的过程进行介绍。153.如图11所示,表格识别模型可以包括视觉特征提取模块1101、表格图像分割模块1102、基础网格特征获取模块1103和基础网格归并模块1104,基于图11所示的表格识别模型识别表格结构的过程包括:154.步骤e1、获取目标表格图像。155.步骤e2、将目标表格图像输入表格识别模型的视觉特征提取模块1101,视觉特征提取模块1101对目标表格图像提取视觉特征,得到目标视觉特征。156.步骤e3、将目标视觉特征输入表格图像分割模块1102,表格图像分割模块1102基于目标视觉特征分别预测表格行线和表格列线,并基于预测的表格列线和表格行线,将目标表格图像分割成基础网格。157.具体的,表格图像分割模块1102可以包括表格列线预测模块和表格行线预测模块,将目标视觉特征输入表格列线预测模块进行表格列线预测,并将目标视觉特征输入表格行线预测模块进行表格行线预测。158.其中,表格列线预测模块进行表格列线预测的过程包括:一方面,基于目标视觉特征获取目标表格图像在列维度的全局视觉特征,并基于目标表格图像在列维度的全局视觉特征预测第一卷积参数和表格列线所在区域,另一方面,基于预先确定的列维度的第三卷积参数对目标视觉特征进行卷积操作,得到第一视觉特征,在获得第一视觉特征、第一卷积参数和表格列线所在区域后,先从第一卷积参数中提取表格列线所在区域对应的卷积参数,然后基于表格列线所在区域对应的卷积参数对第一视觉特征进行卷积操作,得到第一卷积操作结果,基于第一卷积操作结果确定表格列线。159.其中,表格行线预测模块进行表格行线预测的过程包括:一方面,基于目标视觉特征获取目标表格图像在行维度的全局视觉特征,并基于目标表格图像在行维度的全局视觉特征预测第二卷积参数和表格行线所在区域,另一方面,基于预先确定的行维度的第四卷积参数对目标视觉特征进行卷积操作,得到第二视觉特征,在获得第二视觉特征、第二卷积参数和表格行线所在区域后,先从第二卷积参数中提取表格行线所在区域对应的卷积参数,然后基于表格行线所在区域对应的卷积参数对第二视觉特征进行卷积操作,得到第二卷积操作结果,基于第二卷积操作结果确定表格行线。160.步骤e4、将目标视觉特征和各基础网格的位置信息输入表格识别模型的基础网格特征获取模块1103,基础网格特征获取模块1103根据目标视觉特征和各基础网格的位置信息获取各基础网格的第一特征。161.具体的,基础网格特征获取模块1103基于目标视觉特征和各基础网格的位置信息获取各基础网格的第一特征的过程包括:基于目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征。更为具体的,基础网格特征获取模块1103先从目标视觉特征中提取每个基础网格的视觉特征,并基于每个基础网格的位置信息获取每个基础网格的位置特征,然后将同一基础网格的视觉特征与位置特征融合,得到各基础网格的第一特征。162.步骤e5、将各基础网格的第一特征输入表格识别模型的基础网格归并模块1104,基础网格归并模块1104基于各基础网格的第一特征对各基础网格进行归并处理。163.具体的,基础网格归并模块1104基于各基础网格的第一特征,对各基础网格进行归并处理的过程包括:基于预先确定的第五卷积参数对各基础网格的第一特征进行卷积操作,得到各基础网格的第二特征;针对每个基础网格:基于该基础网格的第一特征,预测该基础网格对应的卷积参数,基于该基础网格对应的卷积参数,对各基础网格的第二特征进行卷积操作,得到该基础网格对应的卷积操作结果,基于该基础网格对应的卷积操作结果,确定与该基础网格归并的基础网格,并将确定出的基础网格与该基础网格归并。164.本实施例中各个步骤更为具体的实现过程和相关说明可参见上述实施例中的相关部分,本实施例在此不做赘述。165.本实施例中的表格结构识别模型采用多条标注有表格结构信息的训练表格图像训练得到。在训练表格结构识别模型时,首先将训练表格图像输入表格结构识别模型,以得到训练表格图像对应的表格结构识别结果,然后基于训练表格图像对应的表格结构识别结果和训练表格图像标注的表格结构信息确定表格结构识别模型的预测损失,最后根据表格结构识别模型的预测损失对表格结构识别模型进行参数更新。按上述方式对表格结构识别模型进行多次训练,直至满足训练结束条件(比如模型收敛,或者达到预设的训练次数)。166.本发明实施例还提供了一种表格结构识别装置,下面对本发明实施例提供的表格结构识别装置进行描述,下文描述的表格结构识别装置与上文描述的表格结构识别方法可相互对应参照。167.请参阅图12,示出了本发明实施例提供的表格结构识别装置的结构示意图,该表格结构识别装置可以包括:表格图像获取模块1201、全局视觉特征获取模块1202、表格行列线预测模块1203、表格图像处理模块1204和表格结构确定模块1205。168.表格图像获取模块1201,用于获取目标表格图像。169.全局视觉特征获取模块1202,用于获取所述目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征。170.表格行列线预测模块1203,用于基于所述目标表格图像在列维度的全局视觉特征预测表格列线,并基于所述目标表格图像在行维度的全局视觉特征预测表格行线。171.表格图像处理模块1204,用于基于预测的表格列线和表格行线,将所述目标表格图像分割成基础网格。172.表格结构确定模块1205,用于对通过分割得到各基础网格进行归并处理,得到所述目标表格图像对应的表格结构。173.可选的,全局视觉特征获取模块1202在获取所述目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征时,具体用于:174.对所述目标表格图像提取视觉特征,得到目标视觉特征;175.将所述目标视觉特征中分别对应于所述目标表格图像各行像素的视觉特征整合,将整合得到的行向量确定为所述目标表格图像在列维度的全局视觉特征;176.将所述目标视觉特征中分别对应于所述目标表格图像各列像素的视觉特征整合,将整合得到的列向量确定为所述目标表格图像在行维度的全局视觉特征。177.可选的,全局视觉特征获取模块1202在将所述目标视觉特征中分别对应于所述目标表格图像各行像素的视觉特征整合时,具体用于:178.将所述目标视觉特征中分别对应于所述目标表格图像各行像素的视觉特征求均值;179.可选的,全局视觉特征获取模块1202在将所述目标视觉特征中分别对应于所述目标表格图像各列像素的视觉特征整合时,具体用于:180.将所述目标视觉特征中分别对应于所述表格图像各列像素的视觉特征求均值。181.可选的,表格行列线预测模块1203在基于所述目标表格图像在列维度的全局视觉特征预测表格列线时,具体用于:182.基于所述目标表格图像在列维度的全局视觉特征,预测第一卷积参数和表格列线所在区域;183.基于所述第一卷积参数、所述表格列线所在区域以及所述目标视觉特征,确定表格列线;184.可选的,表格行列线预测模块1203在基于所述目标表格图像在行维度的全局视觉特征预测表格行线时,具体用于:185.基于所述目标表格图像在行维度的全局视觉特征,预测第二卷积参数和表格行线所在区域;186.基于所述第二卷积参数、所述表格行线所在区域以及所述目标视觉特征,确定表格行线。187.可选的,表格行列线预测模块1203在基于所述第一卷积参数、所述表格列线所在区域以及所述目标视觉特征,确定表格列线时,具体用于:188.基于预先确定的列维度的第三卷积参数对所述目标视觉特征进行卷积操作,得到第一视觉特征;189.从所述第一卷积参数中提取所述表格列线所在区域对应的卷积参数;190.基于所述表格列线所在区域对应的卷积参数对所述第一视觉特征进行卷积操作,得到第一卷积操作结果,并基于所述第一卷积操作结果确定表格列线;191.可选的,表格行列线预测模块1203在基于所述第二卷积参数、所述表格行线所在区域以及所述目标视觉特征,确定表格行线时,具体用于:192.基于预先确定的行维度的第四卷积参数对所述目标视觉特征进行卷积操作,得到第二视觉特征;193.从所述第二卷积参数中提取所述表格行线所在区域对应的卷积参数;194.基于所述表格行线所在区域对应的卷积参数对所述第二视觉特征进行卷积操作,得到第二卷积操作结果,并基于所述第二卷积操作结果确定表格行线。195.可选的,表格结构确定模块1205在对通过分割得到各基础网格进行归并处理时,具体用于:196.基于所述目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征;197.基于各基础网格的第一特征,对各基础网格进行归并处理。198.可选的,表格结构确定模块1205在基于所述目标视觉特征和各基础网格的位置信息,获取各基础网格的第一特征时,具体用于:199.从所述目标视觉特征中提取每个基础网格的视觉特征,并基于每个基础网格的位置信息获取每个基础网格的位置特征;200.将同一基础网格的视觉特征与位置特征融合,得到各基础网格的第一特征。201.可选的,表格结构确定模块1205在基于各基础网格的第一特征,对各基础网格进行归并处理时,具体用于:202.基于预先确定的第五卷积参数对各基础网格的第一特征进行卷积操作,得到各基础网格的第二特征;203.针对每个基础网格:204.基于该基础网格的第一特征,预测该基础网格对应的卷积参数;205.基于该基础网格对应的卷积参数,对各基础网格的第二特征进行卷积操作,得到该基础网格对应的卷积操作结果;206.基于该基础网格对应的卷积操作结果,确定与该基础网格归并的基础网格,并将确定出的基础网格与该基础网格归并。207.本发明实施例提供的表格结构识别装置,在获得目标表格图像后,首先对目标表格图像提取视觉特征,在获得目标视觉特征后,为了能够预测出精准的表格行列线,基于目标视觉特征获取表格图像在列维度的全局视觉特征以及表格图像在行维度的全局视觉特征,进而基于表格图像在列维度的全局视觉特征预测表格列线,基于表格图像在行维度的全局视觉特征预测表格行线,接着基于预测出的表格列线和表格行线将表格图像划分成基础网格,最后对各基础网格进行归并处理,从而得到目标表格图像对应的表格结构。由于本发明提供的表格结构识别装置在进行表格行列线预测时,以表格图像在行维度的全局视觉特征和表格图像在行维度的全局视觉特征为预测依据,因此,能够预测出较为精准的表格行列线,在此基础上进行表格图像的划分和基础网格的归并,可获得较为精准的表格结构。208.本发明实施例还提供了一种处理设备,请参阅图13,示出了该处理设备的结构示意图,该处理设备可以包括:处理器1301、通信接口1302、存储器1303和通信总线1304;209.在本发明实施例中,处理器1301、通信接口1302、存储器1303、通信总线1304的数量为至少一个,且处理器1301、通信接口1302、存储器1303通过通信总线1304完成相互间的通信;210.处理器1301可能是一个中央处理器cpu,或者是特定集成电路asic(application speciiic integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;211.存储器1303可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;212.其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:213.获取目标表格图像;214.获取所述目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征;215.基于所述目标表格图像在列维度的全局视觉特征预测表格列线,并基于所述目标表格图像在行维度的全局视觉特征预测表格行线;216.基于预测的表格列线和表格行线,将所述目标表格图像分割成基础网格;217.对通过分割得到各基础网格进行归并处理,得到所述目标表格图像对应的表格结构。218.可选的,所述程序的细化功能和扩展功能可参照上文描述。219.本发明实施例还提供了一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:220.获取目标表格图像;221.获取所述目标表格图像在列维度的全局视觉特征和在行维度的全局视觉特征;222.基于所述目标表格图像在列维度的全局视觉特征预测表格列线,并基于所述目标表格图像在行维度的全局视觉特征预测表格行线;223.基于预测的表格列线和表格行线,将所述目标表格图像分割成基础网格;224.对通过分割得到各基础网格进行归并处理,得到所述目标表格图像对应的表格结构。225.可选的,所述程序的细化功能和扩展功能可参照上文描述。226.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。227.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。228.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部