计算;推算;计数设备的制造及其应用技术1.本技术涉及化学品说明书解析技术领域,更具体地说,涉及一种化学品说明书解析方法、装置、设备及可读存储介质。背景技术:2.现有的对化学品说明书的解析方法,一般是按照通用的pdf解析的方法识别化学品说明书中的文字或图片区块,然后按关键字及关键字的对应文本的方式解析文档,抽取需要的文本。3.但现有的对化学品说明书的解析方法,并未充分地利用化学品说明书的编写规范、文本结构特点以及化工行业的行业特点,导致解析化学品说明书时存在多种问题,例如:抽取速度慢、或不能准确抽取所需文本,又或者同一抽取条件抽取到多个文本等。4.因此,一种针对化学品说明书,且可以提高化学品说明书的抽取准确率的解析方案,十分值得研究。技术实现要素:5.有鉴于此,本技术提供了一种化学品说明书解析方法、装置、设备及可读存储介质,用于针对化学品说明书,且可以提高化学品说明书的抽取准确率的解析方案。6.为了实现上述目的,现提出的方案如下:7.一种化学品说明书解析方法,包括:8.解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块,每个所述行文本块包含所述化学品说明书中对应行的文本,所述化学品说明书存在多页文本;9.根据各个所述行文本块的坐标值,将每一页文本对应的各个行文本块由上到下进行排序;10.根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块;11.在所述正文行文本块中获取目标文本,处于其所在行文本块的最左侧且包含冒号的文本,以及处于其所在行文本块的中间的文本,作为所述目标文本,所述目标文本的字数不超过设定的字数阈值;12.根据预设的字体、字号及位置坐标,对各个所述目标文本进行聚类,得到所述化学品说明书的头部和各个章节标题;13.确定每个所述章节标题对应的章节正文,并将每个所述章节标题及其对应的章节正文组合成章节文本,向用户终端输出所述头部及各个所述章节文本。14.优选地,所述解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块,包括:15.将化学品说明书的文本划分为各个文本区块,所述文本区块包含所述化学品说明书中对应区域的文本;16.将各个所述文本区块按文本行进行拆分,得到多个小行文本块;17.根据各个所述小行文本块的坐标值,将同一文本行对应的各个小行文本块组合成行文本块,得到所述化学品说明书每一页文本对应的各个行文本块,每个所述行文本块中的文本的先后顺序与所述化学品说明书中对应行的文本的先后顺序一致。18.优选地,所述根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块,包括:19.针对每一页文本对应的各个行文本块:20.从上至下获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第一设定阈值的行文本块,作为页眉行文本块;21.从下至上获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第二设定阈值的行文本块,作为页脚行文本块;22.去除所述页眉行文本块与所述页脚行文本块,并将剩余的其它行文本块作为正文行文本块。23.优选地,所述在所述正文行文本块中获取目标文本,包括:24.在组成每个所述正文行文本块的各个小行文本块中,确定处于每个所述正文行文本块最左侧的小行文本块及其包含的文本,得到多个候选文本;25.从所述多个候选文本中获取包含冒号,且字数不超过设定的字数阈值的文本,作为第一目标文本;26.在各个所述正文行文本块中确定文本的字数不超过设定的字数阈值,且文本处于其所在正文行文本块的中间的目标正文行文本块,并将所述目标正文行文本块包含的文本作为第二目标文本。27.优选地,所述确定每个所述章节标题对应的章节正文,包括:28.确定每个所述章节标题所在的正文行文本块;29.将除最后一个章节标题外的每个章节标题作为当前章节标题,并将所述当前章节标题所在的正文行文本块,与所述章节标题的下一个章节标题所在正文行文本块之间的各个正文行文本块,所包含的文本确定为所述当前章节标题的章节正文;30.将最后一个章节标题所在文本块之后的各个正文行文本块,所包含的文本确定为所述最后一个章节标题的章节正文。31.优选地,所述将每个所述章节标题及其对应的章节正文组合成章节文本,包括:32.确定每个所述章节正文中包含冒号且处于最左侧的文本,作为标题;33.针对每个所述章节正文,将在每个所述标题的冒号后的文本,确定为每个所述标题的正文;34.针对每个所述章节正文,将每个所述标题及其对应的正文作为一个文本段落,并按每个所述标题在所述章节正文中的出现顺序,对各个所述文本段落进行排序,得到文本段落排序后的章节正文;35.将每个所述章节标题及其对应的文本段落排序后的章节正文组合成章节文本。36.一种化学品说明书解析装置,包括:37.说明书解析单元,用于解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块,每个所述行文本块包含所述化学品说明书中对应行的文本,所述化学品说明书存在多页文本;38.行文本块排序单元,用于根据各个所述行文本块的坐标值,将每一页文本对应的各个行文本块由上到下进行排序;39.正文行文本块确定单元,用于根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块;40.目标文本获取单元,用于在所述正文行文本块中获取目标文本,处于其所在行文本块的最左侧且包含冒号的文本,以及处于其所在行文本块的中间的文本,作为所述目标文本,所述目标文本的字数不超过设定的字数阈值;41.章节标题获取单元,用于根据预设的字体、字号及位置坐标,对各个所述目标文本进行聚类,得到所述化学品说明书的头部和各个章节标题;42.章节文本确定单元,用于确定每个所述章节标题对应的章节正文,并将每个所述章节标题及其对应的章节正文组合成章节文本,向用户终端输出所述头部及各个所述章节文本。43.优选地,所述正文行文本块确定单元,包括:44.针对每一页文本对应的各个行文本块:45.页眉行文本块确定单元,用于从上至下获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第一设定阈值的行文本块,作为页眉行文本块;46.页脚行文本块确定单元,用于从下至上获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第二设定阈值的行文本块,作为页脚行文本块;47.正文行文本块选定单元,用于去除所述页眉行文本块与所述页脚行文本块,并将剩余的其它行文本块作为正文行文本块。48.一种化学品说明书解析设备,包括存储器和处理器;49.所述存储器,用于存储程序;50.所述处理器,用于执行所述程序,实现上述化学品说明书解析方法的各个步骤。51.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述化学品说明书解析方法的各个步骤。52.从上述方案可以看出,本技术提供的化学品说明书解析方法,可以解析得到化学品说明书每一页文本对应的各个行文本块并排序;进而可以根据设定的字符编辑距离,去除每一页文本对应的页眉、页脚行文本块,得到正文行文本块,即可以排除页眉页脚对解析过程的干扰;然后,在各个正文行文本块中获取符合设定条件的目标文本,该设定条件依据章节标题可能出现的位置进行设定,再根据预设的字体、字号及位置坐标对目标文本进行聚类,获得化学品说明书的头部和特定数量、特定名称的章节标题;最后,将章节标题及其对应的章节正文组合为章节文本,向用户终端输出化学品说明书的头部和章节文本。53.由于,化学品说明书的编写规范规定说明书的章节标题是固定数量的,且各个章节标题都有对应的固定名称,基于此,可以明确对目标文本进行聚类的聚类目标,进而清晰、准确地获取各个章节标题。附图说明54.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。55.图1为本技术实施例提供的一种化学品说明书解析方法的流程示意图;56.图2为本技术实施例公开的一种化学品说明书解析装置的结构示意图;57.图3为本技术实施例公开的一种化学品说明书解析设备的硬件结构框图。具体实施方式58.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。59.接下来对本技术的化学品说明书解析方法进行详细的介绍,请参照图1,图1为本技术实施例中提供的一种化学品说明书解析方法的流程示意图,该方法包括:60.步骤s100:解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块。61.具体的,化学品说明书可以有多页文本,每一页文本可以由多行文本组成,而将每一页文本拆分成各个行文本块,每个行文本块可以包含其对应行的文本。62.另外,行文本块除了可以包含其对应行的文本外,还可以包含其对应行文本的字体、字号、字体颜色、行文本块编号、行文本块上设定点的坐标值等信息。其中,每个行文本块的编号可以是不相同且唯一的,而行文本块上设定点的坐标可以包括,行文本快左上角和右下角的坐标值,以及其它设定点的坐标值。63.步骤s110:根据各个所述行文本块的坐标值,将每一页文本对应的各个行文本块由上到下进行排序。64.具体的,可以将每一页文本对应的各个行文本块,按照各行文本块上相同位置的设定点的坐标值由上到下进行排序,示例如:按照各行文本块上的左上角的坐标值进由上到下行排序,使得排序后的各行文本块包含的文本的先后顺序与化学品说明解析前的文本的先后顺序相同。65.步骤s120:根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块。66.具体的,可以根据设定的字符编辑距离,在每一页排序后的各个行文本块中,确定每一页文本的页眉行文本块和页脚行文本块,并将其去除,剩余的其它行文本本块则可以视为每一页文本的正文对应的行文本块,正文对应的行文本块可以作为正文行文本块。67.步骤s130:在所述正文行文本块中获取目标文本。68.具体的,可以将疑似章节标题的文本作为目标文本,而章节标题的字数一般不会太多,且章节标题所处的位置也一般是文本页中的特定位置。69.因此,可以处于其所在行文本块的最左侧且包含冒号的文本,作为目标文本,而且,目标文本的字数一般不超过设定的字数阈值。另外,处于其所在文本行的中间的文本也可以作为目标文本,该文本对应的行文本块中包含的文本的字数可以不超过设定的字数阈值,且文本处于行文本块的中间。70.步骤s140:根据预设的字体、字号及位置坐标,对各个所述目标文本进行聚类,得到所述化学品说明书的头部和各个章节标题。71.具体的,章节标题的字体、字号、以及位置一般是区别于正文的文本,可以预先确定化学品说明书中章节标题的字体、字号以及位置坐标等属性对应的属性值,并基于此对目标文本进行聚类,从多个目标文本中获取化学品说明书的头部和章节标题。72.化学品说明书一般包含16个章节,各个章节标题按先后顺序分别为企业标识、危险标识、组成成分、急救措施、消防措施、意外泄漏措施、操作与存储、暴露控制和个人防护、物理和化学特性、稳定性、毒理学信息、生态信息、处置注意事项、运输信息、法规信息和其他信息,另外化学品说明书一般在开头有一个头部信息。73.章节标题的数量和名称都是可以是固定的,那么对目标文本进行聚类时,聚类目标十分明确,即从多个目标文本中获取上述的16章节标题和头部即可。74.步骤s150:确定每个所述章节标题对应的章节正文,并将每个所述章节标题及其对应的章节正文组合成章节文本,向用户终端输出所述头部及各个所述章节文本。75.具体的,每个章节标题都可以有对应的章节正文,可以在各个正文行文本块中确定每个章节标题对应的章节正文,并可以将每个章节标题及其对应的章节正文组合成章节文本,然后可以向用户终端输出章节正文划分明确的各章节内容及头部。76.使用现有的文档解析方法解析化学品说明存在一定的缺陷,因为现有技术结构扁平,未考虑到化学品说明书的多章节多级的结构特点,只按照特征文本与其对应的值的模式进行配对,再抽取字段,容易产生多章节同一字段的干扰,本技术的化学品说明书解析方法,结合化学品说明书的编写规范和行业特点,分章节划分抽取,可以减少抽取错误的发生,并规避页眉页脚对章节化的影响。77.在本技术的一些实施例中,介绍了上述步骤s100,解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块的过程,接下来将对得到各个行文本块的过程作详细说明。78.具体的,可以包括以下步骤:79.s1、将化学品说明书的文本划分为各个文本区块,所述文本区块包含所述化学品说明书中对应区域的文本。80.具体的,文本区块对应的可以是化学品说明书中较大范围的区域,文本区块可以包含对应区域的文本,还可以包含其它相关信息,具体可以参照上述实施例中关于行文本块的介绍。81.需要说明的是,某些化学品说明书可能存在图片,又由于化学品说明书一般是pdf格式,因此可以先获取该图片的坐标值,然后将化学说明书由pdf转换为图片格式,再根据该图片的坐标值从图片格式的化学品说明书中截取该图片,该图片可以其上的设定点坐标值、图片编号等信息。82.截取到的图片可以按照其上设定点的坐标值排序到对应的文本页的对应位置处,并可以与章节文本以及头部一同输出至用户终端83.s2、将各个所述文本区块按文本行进行拆分,得到多个小行文本块。84.具体的,每个文本区块可以包含多行文本,进而可以将每个文本区块按照文本行进行拆分,将各个文本区块拆分成多个小行文本块。其中,每个小行文本块不一定包含完整一行的文本。85.s3、根据各个所述小行文本块的坐标值,将同一文本行对应的各个小行文本块组合成行文本块。86.具体的,每个小行文本块的都可以有对应的坐标值,进而可以确定每个小行文本块上相同设定点的坐标值,并将相同坐标值的小行文本块进行组合,得到同一文本行的行文本块,组合得到的每个行文本块中的文本的先后顺序可以与化学品说明书中对应行的文本的先后顺序一致。87.所有小行文本块进行组合后,可以得到化学品说明书每一页文本对应的各个行文本块。88.基于组合得到的行文本块,对上述实施例的步骤s130,在所述正文行文本块中获取目标文本的过程作进一步说明。89.具体的,目标文本可以包括第一目标文本和第二目标文本,第一目标文本的获取过程可以参照下述的s1、s2,第二目标文本的获取过程可以参照下述s3。90.s1、在组成每个所述正文行文本块的各个小行文本块中,确定处于每个所述正文行文本块最左侧的小行文本块及其包含的文本,得到多个候选文本。91.具体的,每个行文本块可以由多个小行文本块组成,进而可以确定每个行文本块中处于最左侧的小行文本块,及其包含的文本,此过程得到的文本可以作为候选文本。因为有多个行文本块,所以可以得到多个候选文本。92.s2、从所述多个候选文本中获取包含冒号,且字数不超过设定的字数阈值的文本,作为第一目标文本。93.具体的,每个候选文本的字数可以不相同,且长短不一,对于字数不超过设定的字数阈值且包含冒号的文本,将将其从多个候选文本中选出,并确定为第一目标文本。94.s3、在各个所述正文行文本块中确定文本的字数不超过设定的字数阈值,且文本处于其所在正文行文本块的中间的目标正文行文本块,并将所述目标正文行文本块包含的文本作为第二目标文本。95.具体的,有些行文本块中包含的文本的字数较少,先选出包含的文本的字数不超过设定的字数阈值的行文本块,进而在选出的行文本块中确定包含的文本处于其所在正文行文本块的中间的目标正文行文本块,然后可以护球目标行文本块中包含的文本,作为第二目标文本。96.在本技术的一些实施例中,介绍了上述步骤s120,根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块的过程,接下来,将对得到正文行文本块的过程作详细说明。97.针对每一页文本对应的各个行文本块可以包括以下步骤:98.s1、从上至下获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第一设定阈值的行文本块,作为页眉行文本块。99.由于不同文本页中的页眉一般是相同的,其区别在于表示的页码的数字不同,因此可以先将各个行文本块中连续的数字转换成一个相同的token(计算机术语),即将字符序列转换为标记(token)序列,示例如:“第3页”和“第34页”,都可以转换成“第#num#页。如此可以使得页眉之间的字符编辑距离(指两个字串之间,由一个转成另一个所需的最少编辑操作次数)很小,而不是页眉的行之间字符编辑距离就不能确保一定很小,其一般会很大。100.具体的,每一页排序后的各个行文本块,所包含的文本的排序可以与化学品说明书中的文本页的文本排序相同,那么页眉所在的位置一般处于文本页的上端,进而可以从上至下获取每个行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第一设定阈值的行文本块,作为页眉行文本块。101.s2、从下至上获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第二设定阈值的行文本块,作为页脚行文本块。102.具体的,可以参照上述确定页眉行文本块的过程。103.s3、去除所述页眉行文本块与所述页脚行文本块,并将剩余的其它行文本块作为正文行文本块。104.具体的,去除每一页的上端部分文本块和下端部分文本块后,即页眉和页脚对应的行文本块,剩余的其它行文本块则可以作为正文行文本块。105.在本技术的一些实施例中,介绍了上述步骤s150,确定每个所述章节标题对应的章节正文,并将每个所述章节标题及其对应的章节正文组合成章节文本的过程,接下来将详细说明确定章节正文和组合章节文本的过程。106.具体的,确定章节正文的过程可以包括:107.s1、确定每个所述章节标题所在的正文行文本块。108.s2、将除最后一个章节标题外的每个章节标题作为当前章节标题,并将所述当前章节标题所在的正文行文本块,与所述章节标题的下一个章节标题所在正文行文本块之间的各个正文行文本块,所包含的文本确定为所述当前章节标题的章节正文。109.s3、将最后一个章节标题所在文本块之后的各个正文行文本块,所包含的文本确定为所述最后一个章节标题的章节正文。110.具体的,由于每一页文本对应的各个正文行文本块已经进行过排序,又根据化学品说明书的编写顺序,除了最后一个章节标题外,每两个在顺序上相邻的章节标题之间的文本,可以作为前一个章节标题对应的章节正文,而最后一个章节标题对应的章节正文,可以是其所在正文行文本块之后的各个正文行文本块所包含的文本。111.具体的,组合章节文本的过程可以包括:112.s1、确定每个所述章节正文中包含冒号且处于最左侧的文本,作为标题。113.s2、针对每个所述章节正文,将在每个所述标题的冒号后的文本,确定为每个所述标题的正文。114.s3、针对每个所述章节正文,将每个所述标题及其对应的正文作为一个文本段落,并按每个所述标题在所述章节正文中的出现顺序,对各个所述文本段落进行排序,得到文本段落排序后的章节正文。115.具体的,标题对应的正文里可能还存在包含冒号的文本,正文里包含冒号的文本同样也可以作为标题。116.因此,可以按每个标题在章节正文中的出现顺序,对每个标题及其正文进行排序,而且排序时可以根据标题的出现顺序对文本段落作层次化的划分,即每个章节正文可以进行层次分明的结构化划分,标题对应的正文里可以包含次一级的标题,次一级标题对应的正文里同样可以包含再次一级的标题,以此类推,直至划分完章节正文里的所有层级的标题。117.s4、将每个所述章节标题及其对应的文本段落排序后的章节正文组合成章节文本。118.从上述方案可以看出,对章节正文进行结构化划分,可以明确每个章节的内容,进而可以提高化学品说明书解析的准确率。119.下面对本技术实施例提供的化学品说明书解析装置进行描述,下文描述的化学品说明书解析装置与上文描述的化学品说明书解析方法可相互对应参照。120.首先,结合图2对化学品说明书解析装置进行介绍,如图2所示,该化学品说明书解析装置可以包括:121.说明书解析单元100,用于解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块,每个所述行文本块包含所述化学品说明书中对应行的文本,所述化学品说明书存在多页文本;122.行文本块排序单元110,用于根据各个所述行文本块的坐标值,将每一页文本对应的各个行文本块由上到下进行排序;123.正文行文本块确定单元120,用于根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块;124.目标文本获取单元130,用于在所述正文行文本块中获取目标文本,处于其所在行文本块的最左侧且包含冒号的文本,以及处于其所在行文本块的中间的文本,作为所述目标文本,所述目标文本的字数不超过设定的字数阈值;125.章节标题获取单元140,用于根据预设的字体、字号及位置坐标,对各个所述目标文本进行聚类,得到所述化学品说明书的头部和各个章节标题;126.章节文本确定单元150,用于确定每个所述章节标题对应的章节正文,并将每个所述章节标题及其对应的章节正文组合成章节文本,向用户终端输出所述头部及各个所述章节文本。127.可选的,所述正文行文本块确定单元,可以包括:128.针对每一页文本对应的各个行文本块:129.页眉行文本块确定单元,用于从上至下获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第一设定阈值的行文本块,作为页眉行文本块;130.页脚行文本块确定单元,用于从下至上获取每个所述行文本块中的文本的字符编辑距离,并确定文本的字符编辑距离大于第二设定阈值的行文本块,作为页脚行文本块;131.正文行文本块选定单元,用于去除所述页眉行文本块与所述页脚行文本块,并将剩余的其它行文本块作为正文行文本块。132.可选的,所述说明书解析单元,可以包括:133.文本区块获取单元,用于将化学品说明书的文本划分为各个文本区块,所述文本区块包含所述化学品说明书中对应区域的文本;134.文本区块拆分单元,用于将各个所述文本区块按文本行进行拆分,得到多个小行文本块;135.小行文本块组合单元,用于根据各个所述小行文本块的坐标值,将同一文本行对应的各个小行文本块组合成行文本块,得到所述化学品说明书每一页文本对应的各个行文本块,每个所述行文本块中的文本的先后顺序与所述化学品说明书中对应行的文本的先后顺序一致。136.可选的,所述目标文本获取单元,可以包括:137.候选文本确定单元,用于在组成每个所述正文行文本块的各个小行文本块中,确定处于每个所述正文行文本块最左侧的小行文本块及其包含的文本,得到多个候选文本;138.第一目标文本获取单元,用于从所述多个候选文本中获取包含冒号,且字数不超过设定的字数阈值的文本,作为第一目标文本;139.第二目标文本获取单元,用于在各个所述正文行文本块中确定文本的字数不超过设定的字数阈值,且文本处于其所在正文行文本块的中间的目标正文行文本块,并将所述目标正文行文本块包含的文本作为第二目标文本。140.可选的,所述章节文本确定单元,可以包括:141.第一章节文本确定子单元,用于确定每个所述章节标题所在的正文行文本块;142.第二章节文本确定子单元,用于将除最后一个章节标题外的每个章节标题作为当前章节标题,并将所述当前章节标题所在的正文行文本块,与所述章节标题的下一个章节标题所在正文行文本块之间的各个正文行文本块,所包含的文本确定为所述当前章节标题的章节正文;143.第三章节文本确定子单元,用于将最后一个章节标题所在文本块之后的各个正文行文本块,所包含的文本确定为所述最后一个章节标题的章节正文。144.可选的,所述章节文本确定单元,还可以包括:145.第四章节文本确定子单元,用于确定每个所述章节正文中包含冒号且处于最左侧的文本,作为标题;146.第五章节文本确定子单元,用于针对每个所述章节正文,将在每个所述标题的冒号后的文本,确定为每个所述标题的正文;147.第六章节文本确定子单元,用于针对每个所述章节正文,将每个所述标题及其对应的正文作为一个文本段落,并按每个所述标题在所述章节正文中的出现顺序,对各个所述文本段落进行排序,得到文本段落排序后的章节正文;148.第七章节文本确定子单元,用于将每个所述章节标题及其对应的文本段落排序后的章节正文组合成章节文本。149.本技术实施例提供的化学品说明书解析装置可应用于化学品说明书解析设备。图3示出了化学品说明书解析设备的硬件结构框图,参照图3,化学品说明书解析设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;150.在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;151.处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;152.存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;153.其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:154.解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块,每个所述行文本块包含所述化学品说明书中对应行的文本,所述化学品说明书存在多页文本;155.根据各个所述行文本块的坐标值,将每一页文本对应的各个行文本块由上到下进行排序;156.根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块;157.在所述正文行文本块中获取目标文本,处于其所在行文本块的最左侧且包含冒号的文本,以及处于其所在行文本块的中间的文本,作为所述目标文本,所述目标文本的字数不超过设定的字数阈值;158.根据预设的字体、字号及位置坐标,对各个所述目标文本进行聚类,得到所述化学品说明书的头部和各个章节标题;159.确定每个所述章节标题对应的章节正文,并将每个所述章节标题及其对应的章节正文组合成章节文本,向用户终端输出所述头部及各个所述章节文本。160.可选的,所述程序的细化功能和扩展功能可参照上文描述。161.本技术实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:162.解析化学品说明书的文本,得到所述化学品说明书每一页文本对应的各个行文本块,每个所述行文本块包含所述化学品说明书中对应行的文本,所述化学品说明书存在多页文本;163.根据各个所述行文本块的坐标值,将每一页文本对应的各个行文本块由上到下进行排序;164.根据设定的字符编辑距离,在排序后的每一页文本对应的各个行文本块中确定页眉行文本块和页脚行文本块并去除,得到每一页文本对应的正文行文本块;165.在所述正文行文本块中获取目标文本,处于其所在行文本块的最左侧且包含冒号的文本,以及处于其所在行文本块的中间的文本,作为所述目标文本,所述目标文本的字数不超过设定的字数阈值;166.根据预设的字体、字号及位置坐标,对各个所述目标文本进行聚类,得到所述化学品说明书的头部和各个章节标题;167.确定每个所述章节标题对应的章节正文,并将每个所述章节标题及其对应的章节正文组合成章节文本,向用户终端输出所述头部及各个所述章节文本。168.可选的,所述程序的细化功能和扩展功能可参照上文描述。169.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。170.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。171.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种化学品说明书解析方法、装置、设备及可读存储介质与流程
作者:admin
2022-09-03 19:04:17
968
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术