发布信息

一种基于知识图谱的企业关系知识库构建的方法与流程

作者:admin      2022-09-30 21:45:16     286



计算;推算;计数设备的制造及其应用技术1.本发明涉及知识图谱技术领域,具体为一种基于知识图谱的企业关系知识库构建的方法。背景技术:[0002] 在海量的企业信息数据中,能够获取到诸多有价值的信息,如企业关键角色即企业的自然人股东、法人、股东、监事、董事等数据,以及企业之间的投资关系、合作关系、招投标信息、担保关系、供应商关系等维度的数据。知识图谱是新一代基于语义的结构化信息组织方式,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。应用知识图谱技术,将企业关键角色或单个企业称为“实体”,他们之间的联系称为“关系”,在图数据库中将这些实体设置为图形节点,并用有向线段表示他们之间的关系,从而可以形成企业关键角色和企业关键角色、企业关键角色和企业、企业和企业之间的关系网(也称为关联图谱) ,使得他们之间的关系清晰明确,可视化程度更高。[0003]目前在银行、证券、保险等金融机构的实际业务需求中,需要深入了解自己的客户,尽可能的获取客户的关联信息,完成尽职调查,以满足金融机构风控管理和反洗钱合规性管理的要求,其中涉及到企业的实际控制人、集团客户、控股股东、关联方、受益所有人以及一致行动人等复杂网络关系。而传统方式下一般是由工作人员通过实地调研手工完成尽调,其过程繁琐、成本高、效率低下且无法及时有效的获取客户关系网络的变化,不能满足业务场景化需求。技术实现要素:[0004]本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。[0005]鉴于上述和/或现有客户网络关系调研中存在的问题,提出了本发明。[0006]因此,本发明的目的是提供一种基于知识图谱的企业关系知识库构建的方法,能够有效降低关联企业信息的查询成本,赋能银行及其金融他机构从而帮助其实现智慧营销、智能风控以及反洗钱等场景化应用。[0007]为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:一种基于知识图谱的企业关系知识库构建的方法,该基于知识图谱的企业关系知识库构建的步骤如下:步骤201,通过企业信息数据获取模块从设定的数据源通过数据收集获取企业信息的内外部数据;步骤202,通过企业信息数据融合模块,对带有企业标识以及业务定义的企业及企业关键角色进行标注,对残缺、错误、重复数据进行清洗,对工商数据及上市数据等多源异构数据进行融合;步骤203,通过基础关系模型构建模块,根据企业信息数据融合结果,利用全量企业的股权投资关系,从入度为零的实体进行向下穿透直至达到一定层级或间接股权比例达到一定阈值,最终形成直接及间接投资关系库,构建基础关系模型,其中基础关系模型包括穿透关系模型、关系传递模型、实质控制关系模型、共同控制模型等;步骤204,通过场景化关系模型构建模块,根据所述业务定义,在基础关系模型基础上构建多个场景化关系模型,所有模型相互独立,在数据中台系统上独立进行调用和维护;其中场景化模型包括集团关系模型、控股股东模型、受益所有人模型等;步骤205,通过企业场景化图谱构建模块,根据所述业务定义识别与所述企业标识对应的关键角色及多个企业,将所述关键角色以及所述企业分别标记为实体;将所述关键角色与关键角色、关键角色和企业以及所述企业之间的关系属性标记为关系,将非结构化或者半结构化数据转化为结构化的数据并且储存至图形数据库内;根据所述业务定义在所述原始数据中抽取多个实体及实体之间的场景化关系数据,将不同场景化关系数据集分类存储,进行知识图谱构建及绘制;步骤206,通过企业关系知识库构建模块,根据所述场景化关系模型训练结果进行质量评估,当评估得到的准确度值大于预设的准确度阈值时,则确定质量达标,将所述模型输出结果返回至数据中台系统,形成应用于不同业务场景的企业关系知识库;根据所述企业关系知识库内容,当执行外部查询指令时,可高效地从企业关系知识库调出查询结果。[0008]作为本发明所述的一种基于知识图谱的企业关系知识库构建的方法的一种优选方案,其中:所述的获取到的所需企业以及其关联企业的信息数据进行数据融合包含以下步骤步骤301:从设定的数据源通过数据收集获取企业信息的内外部数据;步骤302:将获取到的企业信息数据存储到数据库中;步骤303:将企业信息数据进行清洗操作,包括对重复数据删除、逻辑错误数据删除、数据补齐等;步骤304:对上市企业数据与非上市企业数据做融合处理,主要包含股东、股权投资比例信息等信息的融合;步骤305:将融合后的数据结果存储在图数据库中。[0009]作为本发明所述的一种基于知识图谱的企业关系知识库构建的方法的一种优选方案,其中:所述的基于知识图谱的企业关系知识库构建包含以下步骤:步骤401,以工商照面信息及上市数据为基础数据,通过深度优先遍历算法,逐级计算股权关系,对持股比例做递归计算,从而形成企业股权投资关系库;其次,通过融合任职关系及亲属关系数据,扩展企业股权投资关系库;步骤402,基础关系模型构建,基于上述形成的股权投资关系库,基于股权投资比例以及穿透关系,形成基础关系模型,包括穿透关系模型、关系传递模型、实质控制关系模型、共同控制模型等;步骤403,上述不同业务场景关系模型的构建,包括集团关系模型、控股股东模型、受益所有人模型等;步骤404,不同业务场景下的关联图谱构建,包括集团关系图谱、控股股东图谱、受益所有人图谱等;步骤405,上述不同业务场景下企业关系知识库的构建,包括集团关系知识库、控股股东关系知识库、受益所有人关系知识库等。[0010]作为本发明所述的一种基于知识图谱的企业关系知识库构建的方法的一种优选方案,其中:所述指令接受和结果发送的服务器设备的具体流程步骤如下:一是查询指令接收,用于接收目标企业信息查询指令,其中,所述企业信息查询指令中包含有至少一个指定企业或企业关键角色的标识;二是关联关系查询,用于应用所述指定企业或自然人的标识在预先构建的企业关系知识库中,获取该指定企业或企业关键角色的关联关系查询结果,其中,该关联关系查询结果中包含有:与所述指定企业之间存在关联关系的所有企业或企业关键角色信息的查询结果;三是查询结果发送,用于将所述关联关系查询结果发送至所述企业或企业关键角色信息查询指令的发送方。[0011]与现有技术相比,本发明的有益效果:本发明相对现有技术应用具有实质性特点和进步,具体地说,能够有效满足关联企业信息的查询需要,通过实现企业关系信息的知识库查询,且查询的针对性更强、效率更高、业务范围更广,进而能够有效降低关联企业信息的查询成本,赋能银行及其金融他机构从而帮助其实现智慧营销、智能风控以及反洗钱等场景化应用。附图说明[0012]为了更清楚地说明本发明实施方式的技术方案,下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:图1为本发明一种基于知识图谱的企业关系知识库构建的方法的系统结构示意图;图2为本发明一种基于知识图谱的企业关系知识库构建的方法的框架结构示意图;图3为本发明一种基于知识图谱的企业关系知识库构建的方法的企业数据融合流程示意图;图4为本发明一种基于知识图谱的企业关系知识库构建的方法的知识库构建流程示意图;图5a为本发明一种基于知识图谱的企业关系知识库构建的方法的集团关系知识库构建流程示意图;图5b为本发明一种基于知识图谱的企业关系知识库构建的方法的集团关系知识库构建流程实例示意图;图6a为本发明一种基于知识图谱的企业关系知识库构建的方法的控股股东关系知识库示意图;图6b为本发明一种基于知识图谱的企业关系知识库构建的方法的控股股东关系知识库实例示意图;图7a为本发明一种基于知识图谱的企业关系知识库构建的方法的受益所有人关系知识库构建流程示意图;图7b为本发明一种基于知识图谱的企业关系知识库构建的方法的受益所有人关系知识库构建流程实例示意图;图8为本发明一种基于知识图谱的企业关系知识库构建的方法的一种电子设备的框架示意图。具体实施方式[0013]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。[0014]在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施方式的限制。[0015]其次,本发明结合示意图进行详细描述,在详述本发明实施方式时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。[0016]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。[0017]本发明提供了一种基于知识图谱的企业关系知识库构建的方法,请参阅图1,所述知识库构建的装置可以为一种服务器101,可以与用于存储预先构建的企业关系知识库的知识库 102之间通信连接,还可以通过专线网络106与不同需求的客户端设备103之间通信连接。其中,原始数据存储在数据库104中,经由模型库105处理后形成知识推理的结果进入知识库102;基于上述内容,所述服务器101可以在线从客户端103接收至少一个企业信息查询的指令,企业信息查询的指令中至少包含一个指定的企业标识,例如企业名称、简称、社会统一信用代码、注册号、企业关键角色名称等。而后所述服务器101可以根据该企业标识的查询指令在线查询知识库102的企业关系信息中,获取该指定企业的关系信息查询结果。其中,该查询结果中包含:与所述企业存在关联关系的至少一个企业或企业关键角色的信息查询结果;所述知识库用于存储与指定企业存在关联关系的各个企业或企业关键角色和对应的各个企业之间的关联关系;而后将所述关联关系的查询结果发送至该查询指令的发送方,完成企业关系查询任务。其中,企业关系信息结果包含指定企业的实际控制人、集团关系、控股股东与受益所有人等信息;上述客户端一般可包括计算机、智能手机、平板电脑等电子设备,完成查询指令的输入和结果展示的过程。[0018]为了实现企业复杂网络关系的便捷化查询,且查询的针对性更强、效率更高、业务范围更广,本技术提供了一种基于关联图谱的企业关系知识库构建方法的实施例,如图2所示,所述企业关系知识库构建的方法具体包含以下内容:步骤201,企业信息数据获取模块,从设定的数据源通过数据收集获取企业信息的内外部数据,在本技术的一些实施例中,构建的相关企业知识库内容及企业基础数据如下表所示:序号企业关系知识库内容数据基础基础关系范围1集团关系工商数据、金融市场数据任职关系、亲属关系、投资关系2受益所有人工商数据、金融市场数据任职关系、亲属关系、投资关系3控股股东工商数据、金融市场数据任职关系、亲属关系、投资关系步骤202,企业信息数据融合模块,需要对携带了企业标识以及业务定义的企业及企业关键角色进行标注,对残缺、错误、重复数据进行清洗,对工商数据及上市数据等多源异构数据进行融合,将融合后的数据存储到数据库中,具体的数据融合流程如图3所示;步骤203,企业基础关系模型构建模块,根据企业信息数据融合结果,利用全量企业的股权投资关系,从入度为零的实体进行向下穿透直至达到一定层级或间接股权比例达到一定阈值,最终形成直接及间接投资关系库,构建基础关系模型,其中基础关系模型包括穿透关系模型、关系传递模型、实质控制关系模型、共同控制模型等;上述基础关系模型构建过程中,重点以股权投资关系为基础,对股权关系进行穿透计算。穿透规则为:首先,以入度为零的顶点实体作为起始节点,以股权投资关系进行递归计算;其次,某投资链条中出现其他链条出现的节点时停止穿透,从而避免重复计算影响效率;上述基础关系模型构建过程中,同时需要对投资链条中的投资比例进行关系融合,形成穿透模型具体规则为:首先,每条投资链条中从顶点到末节点的投资比例累乘,累乘结果小于1%时可忽略该投资链;其次,对于具有相同起始节点和末节点的投资路径,同一投资路径下投资比例累乘,不同路径下累乘结果再相加;传递模型具体规则为:投资关系存在控制传递,即穿透时每层投资比例均大于或等于50%,虽然最后的累乘结果小于50%,但依据控制传导关系,控制关系从顶点传导至末节点;上述基础关系模型构建过程中,实质控制关系模型描述为:对于穿透模型,对于直接或间接控制比例在50%以上的视同为控制关系,其穿透链条上的企业则视为控制群组成员,链条为控制路径;对于传递模型,对于传递链条上的所有企业无需计算其直接或间接投资比例,均视为控制群组成员,链条视为控制路径;上述基础关系模型构建过程中,共同控制关系模型描述为:仅适用于穿透模型,对于直接或间接控制比例在一定区间内,通常认为上限小于等于50%,若最大的n家股东比例相同(或在一定容差内),则视为共同控制关系;步骤204,场景化关系模型构建模块,根据所述业务定义构建多个场景化关系模型,所有模型相互独立,在数据中台系统上独立进行调用和维护;其中场景化关系模型包括集团关系模型、控股股东模型、受益所有人模型等;这三种模型的构建过程将在后续详细叙述;步骤205,企业场景化图谱构建模块,根据所述业务定义识别与所述企业标识对应的关键角色及多个企业,将所述关键角色以及所述企业分别标记为实体;将所述关键角色与关键角色、关键角色和企业以及所述企业之间的关系属性标记为关系,将非结构化或者半结构化数据转化为结构化的数据并且储存至图形数据库内;根据所述业务定义在所述原始数据中抽取多个实体及实体之间的场景化关系数据,将不同场景化关系数据集分类存储,进行知识图谱构建及绘制;步骤206,企业关系知识库构建模块,根据所述模型训练结果进行评估,当评估得到的准确度值大于预设的准确度阈值时,则确定训练完成,将所述模型输出结果返回至数据中台系统,形成应用于不同业务场景的企业关系知识库;根据所述企业知识库内容,当执行外部查询指令时,可高效地从企业知识库调出查询结果。[0019]上述企业信息数据融合流程示意图如图3所示,具体内容包括步骤301,从设定的数据源通过数据收集获取企业信息的内外部数据;步骤302,将获取到的企业信息数据存储到数据库中;步骤303,将企业信息数据进行清洗操作,包括对重复数据删除、逻辑错误数据删除、数据补齐等,所述数据补齐是对工商信息中缺少企业id的数据进行数据补全,可应用企业名称+股东名称的方法赋值新id,保证主键的完整性;对工商信息中缺少股东投资比例的数据进行补全,可应用同级股东投资比例加总之和为1的方式计算差值,如仍然无法计算得出,则保留为null值;步骤304,对上市企业数据与非上市企业数据做融合处理,主要包含股东、股权投资比例信息等字段的融合;步骤305,将融合后的数据结果存储在图数据库中。[0020]本技术实施例基于关联图谱的企业关系知识库构建流程示意图如图4所示,所述企业关系知识库构建流程具体包含以下内容:步骤401,以工商照面信息及上市数据为基础数据,通过深度优先遍历算法,从图数据库中逐级计算股权关系,对持股比例做递归计算,从而形成企业股权投资关系库;其次,通过融合任职关系及亲属关系数据,扩展企业股权投资关系库;步骤402,基础关系模型的构建,包括控制穿透模型和控制传导模型等;步骤403,场景化关系模型的构建,包括集团关系模型、控股股东模型、受益所有人模型等;步骤404,场景化图谱的构建,包括集团关系图谱、控股股东图谱、受益所有人图谱等;步骤405,上述不同业务场景下企业知识库的构建,包括集团关系知识库、控股股东关系知识库、受益所有人关系知识库等;在一个实施例中,集团关系知识库示意图如图5a所示,步骤内容具体包括:步骤501,以上述实际控制人的结果为输入基础,遍历全量工商企业,以实际控制人以下的企业定义为集团顶点;步骤502,判断集团顶点对以下企业是否存在共同控制关系,如果存在共同控制关系,则将该企业以下的企业设置为新的集团顶点;步骤503,通过集团龙头遍历股权投资关系,确定集团所述成员;需保证集团成员不重复,且一个企业存在且唯一存在一个集团内;步骤504,计算集团成员之间的关联度,确定集团核心企业和一般企业。所述龙头企业是指在某一集团内无法再追溯企业的控制法人股东的企业为龙头成员企业,某一集团内存在一个或以上龙头企业;所述核心企业是指在集团关联结构上,企业重要程度(关联企业数量)相对较高(前30%)的成员企业为核心成员企业,某一集团内存在一个或多个核心企业;所述一般企业是指集团内除龙头成员企业和核心成员企业之外的其他企业;步骤505,在实际的操作过程中,实际控制人类型中包含了国资委、财政部、集体组织等特殊性质的实体机构,不能当做集团顶点来定义集团成员,因此引入白名单截断机制,当程序筛选出的实体名称落入白名单中,则将白名单实体以下直接控制的企业定义为集团顶点,每个顶点重新生成新的集团;实例如图5b所示,假定b1为国资委,根据上述规则将b1定义为集团顶点,通过b1对外投资股权确定集团成员;该集团成员共12个,其中龙头企业为b1,集团核心企业为b3、b5、b7,一般集团企业为b2、b4、b6、b8、b9、b10、b11、b12、b13.在一个实施例中,控股股东关系知识库示意图如图6a所示,步骤内容具体包括:步骤601,以企业股权投资关系为基础,遍历目标企业的直接股东;步骤602,找出股东中持股比例大于或等于30%的单一最大股东,定义为目标企业的控股股东;步骤603,如果最大股东存多个且共同控制目标企业,则实施共同控制的投资方均为控股股东;其实例如图6b所示,c1的直接股东中,存在c2与c6均对c1持股30,则c1的控股股东存在2个为c2与c6。[0021]在一个实施例中,受益所有人关系知识库示意图如图7a所示,步骤内容具体包括:步骤701,以企业股权投资关系为基础,遍历目标企业的股东;步骤702,判断对目标企业直接或间接持股25%以上最大股东的企业关键角色;步骤703,经过902步骤未能找到受益所有人,则需要判断公司高级管理人员;步骤704,如还不能确定,则应将对公司形成有效控制的实际控制人或法定代表人定义为受益所有人。[0022]其实例如图7b所示,假定e1为目标企业,e2、e5、e6为企业关键角色股东,遍历e1的直接和间接股东,从股权投资比例看出,e1的受益所有人为e2。[0023]本技术文件中还提供了一种电子设备,其框架示意图如图8所示,该电子设备包括通过系统总线连接的处理器801、存储器802、网络接口803和企业关系知识库804。其中,该计算机设计的处理器801用于提供计算和控制能力。该计算机设备的存储器802包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的企业关系知识库804用于存储企业信息等数据。该计算机设备的网络接口805用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于关联图谱的企业知识库查询的方法。[0024]虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部