医药医疗技术的改进;医疗器械制造及应用技术1.本发明涉及医学信息采集技术领域,具体地说是一种真实世界数据的专病图谱的构建方法及系统。背景技术:2.在医疗领域中,传统的医疗知识图谱一般是基于医学文献、书籍、临床指南、药品说明书等这类已经经过长时间累积,沉淀好的知识库进行构建。而由于各种因素影响,真实世界状况多样性,人们的身体状态也在不断变化,历史的医疗知识有些已经不能在现阶段的医疗领域中发挥很好的作用。3.真实世界研究是起源于实用性的临床试验,特点是在较大的样本量基础上,根据患者的实际病情和意愿选择治疗措施,开展长期评价,并注重有意义的结局治疗。因此真实世界数据成为挖掘新医疗知识、最具价值、最大潜能的研究证据,不仅可以减少传统研究的限制,而且可以反映真实世界中治疗药物的临床疗效,为临床选择使用新治疗方案及新型设备提供客观的对比依据,是作为评价药物和医疗器械(药械)安全性和有效性以及更精准有效的治疗方案研究的重要组成部分,也是循证医学的重要组成部分。通过真实世界数据,可充分了解指南与实践的差距,为指南的制定与规范提供参考,还可平衡临床疗效和成本效益,为更多的临床问题提供答案及证据。4.完整、准确、可利用、适用性的真实世界数据rwd,是获得高质量真实世界证据rwe的必要前提。目前,在各类医疗政策的支持下,rwd已成为我国开展临床研究的沃土。截至目前,国内大多医院的信息系统是由不同厂家的多个系统共同建设的,而由于历史原因,医疗信息化各个厂家的特点不同,患者信息存储在不同院内系统。5.如何探索rwd体系可能存在的模式,并为开展高质量的rwd研究奠定基础,快速构建一套以患者为核心的rwd体系全景数据,是目前亟待解决的技术问题。技术实现要素:6.本发明的技术任务是针对以上不足之处,提供一种真实世界数据的专病图谱的构建方法及系统,解决如何快速准确的完成一套以患者为核心的rwd体系全景数据构建的技术问题。7.本发明解决其技术问题所采用的技术方案是:8.一种真实世界数据的专病图谱的构建方法,该方法的实现包括:9.真实世界数据资源构成,数据来源包括电子病历系统(emr)、医院信息系统(his)、实验室信息管理系统(lis)、医学影像存档与通讯系统(pacs)、放射信息管理系统(ris);将不同来源的数据根据制定好数据库模型,进行统一的数据结构整合,构成以患者为中心包含全诊疗过程中所有信息的医疗全景数据;10.真实世界数据预处理,针对不同医院原始信息系统,预先制定统一的数据库通用模型,其数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录,对每个患者的数据进行标准化;先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的处理流程,包括数据质控、结构化归一及数据挖掘;11.真实世界专病数据内容选取,基于各指标对不同疾病影响的重要性不同,为使rwd体系更具权威更科学,根据不同的专科疾病,选取权重大的关系指标,构建相应的专科图谱;使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高;12.真实世界专病数据图谱构建,采用单向三元组数据模式构建方法,首先构建专病rwd图谱数据本体模型;以单个患者为中心节点,各个指标逐级索引,构建患者rwd全景数据图谱。13.优选的,所述真实世界数据资源构成,数据包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据。14.优选的,数据采集包含患者既往病史数据、当前诊疗数据、随访数据,包括从患者居住地到接受诊疗的中心城市医疗机构,再到患者出院回居住地进行随访的全景数据;15.将同一个患者、同一次就诊的全部数据从不同的系统中抽取出来,组合成以该患者为中心的包含患者信息维度、就诊维度、诊后随访维度的全景数据。16.根据我国地域及人群就医特点分析,诸如大病重病多数人群选择辗转求医的特殊性,全国各地患者通过当地医生推荐或自己询问申请,多前往中心城市(上级医疗单位或者知名医院)接受诊疗,出院后或带药返回居住地,且在当地医疗机构完成后期随访。rwd不仅指患者一次就诊的院内医疗数据,而且包括从患者居住地到接受诊疗的中心城市医疗机构,再到患者出院回居住地进行随访的全景数据。17.数据采集方式多为常规收集,数据来源于医疗机构(如emr系统、实验室信息系统、影像和放射信息系统内的数据),这些平台基于管理或日常监测目的收集初始数据,在构建数据体系过程中,不需要额外再收集。但由于历史原因,各个厂家打造的医疗信息化特点各不相同,一个患者的信息可能会存储在不同的院内系统中,现如今,国内大多医院的信息系统是由不同厂家的多个系统共同建设的。要想使用分散在各处系统中的全部数据时,需要先经过严密的顶层设计建设一套统一的数据存储结构,对各个来源的数据进行聚合归一。将同一个患者、同一次就诊的全部数据从不同的系统中抽取出来,组合成以该患者为中心的包含患者信息维度、就诊维度、诊后随访维度的全景数据。18.优选的,所述真实世界数据预处理包括:19.在患者信息维度,对数据进行脱敏处理,利用安全隐私加密类模型,对患者身份证号码、姓名进行加密处理,并标记一条人员唯一标识,便于在数据图谱中确定人员唯一性;20.在数据内容上,对实体包括疾病、药物、手术、检验、检查进行统一归一化处理;21.针对电子病历大段文本类数据,首先利用医疗文本解析类模型,针对电子病历中治疗方案、家族史、现病史、主诉细项解析场景,设计电子病历解析模型,该模型集成bert+lstm+crf算法和分段卷积神经网络算法,识别电子病历中的实体,包括时间、数值、药品名称、临床所见、用药频次、亲属、健康状态、疾病名称、症状,并返回实体名称、实体位置及各实体之间存在的关系,完成电子病历解析任务;其次利用电子病历质控类模型,针对入院记录大段解析内容质量控制问题,研发主诉、现病史、既往史、个人史、婚育史、体格检查、初步诊断分类模型,该模型使用fasttext算法,实现基于语义的7类文本分类;将模型分类结果与实际解析结果进行比对,从而判断解析的正确性,完成电子病历解析结果的质控任务。22.优选的,所述对患者身份证号码、姓名进行加密处理,并标记一条人员唯一标识,具体方法为:身份证号加特定字符串,利用md5函数进行加密,返回加密字符串,使其达到可逆性。23.优选的,所述对实体包括疾病、药物、手术、检验、检查进行统一归一化处理;24.利用医学术语归一化模型,针对医院诊疗数据中的医学实体名称归一化问题,以医疗术语管理后的医疗术语库为基础,利用短文本相似度计算算法、知识推理算法或节点相似度算法研发医学实体归一化模型;该模型将原始数据中的医学实体名称映射为相应的标准名称,进而实现不同地域、不同厂商、不同医院之间医学术语的标准化。25.优选的,基于真实世界专病数据内容选取,构建专病rwd图谱,针对专项疾病特征,从不同维度选取相应指标数据构建以单个患者为中心的专病rwd图谱本体模型,即图谱schema;26.获取患某疾病的就诊人群,在该疾病患者基本信息维度,指标包括患者的性别、年龄、民族、家庭地址、职业类型、学历、婚姻状态;在就诊信息维度,指标包括诊断类型(门诊或住院)、就诊时间(住院考虑入院时间、出院时间)、就诊科室(住院考虑入院科室、出院科室)、诊断疾病名称;在选择用药信息维度,指标包括用药名称、用药方式、用药时间;在手术信息维度,指标包括手术名称、手术时间;在影像学检查信息维度,指标包括影像学检查类别、检查项目名称、检查时间、检查部位、检查结论、检查所见、检查结果是否异常;在实验室检验信息维度,指标包括实验室检验样本、检验类别名称、检验项目名称、检验时间、检验结果、检验结果是否异常;27.除以上常规结构化数据类之外,在电子病历大段文本中,还包括完善相关检验检查项、本次就诊全流程治疗方案、出院诊断疾病名称、出院带药名称、病理内容、主诉内容、手术史、体温、血压指标。28.优选的,所述真实世界专病数据图谱构建,29.构建专病rwd图谱,首先需要构建图谱schema,限定待加入知识图谱数据的格式,相当于某个领域内的数据模型,schema是构建一个完整准确图谱的基础,包含了该领域内有意义的概念类型以及这些类型的属性,规范结构化数据的表达,一条数据必须满足schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中;30.构建数据图谱,数据图谱采用单向三元组数据模式构建方法,首先构建专病rwd图谱数据本体模型,即图谱schema;再根据图谱schema以单个患者为中心节点,将不同系统、不同次就诊的信息,按照同一个患者、同一次就诊、同一次发病的维度进行融合;如一个肿瘤患者患病后会多次去医院就诊,其整体治疗方案需要将患者连续多次就诊的信息融合在一起才能计算出来,称之为一次发病;各个指标逐级索引,构建患者rwd全景数据图谱。31.优选的,所述构建数据图谱,患者信息维度包含患者每一次的就诊事件索引,通过该索引关联到该次就诊维度信息、选择用药维度信息、手术维度信息、影像学检查维度信息、实验室检验维度信息、电子病历维度信息;32.其中,在就诊事件中,包含每一项用药事件索引,通过该索引可将每一项药物与其用药时间、用药方式关联;包含每一次手术事件索引,通过该索引可将每一项手术名称与手术时间关联;包含每一项影像学检查事件索引,通过该索引可将每一项检查名称与检查类别、检查时间、检查部位、检查结论、检查所见、检查结果是否异常关联;包含每一类实验室检验事件索引,通过该索引可关联到实验室检验样本、检验项目名称、检验时间,在实验室检验事件中又包括检验报告索引,通过该索引可关联到每一项检验项目所对应的检验结果、检验结果是否异常信息。33.本发明还要求保护一种真实世界数据的专病图谱的构建系统,包括真实世界数据资源构成模块、真实世界数据预处理模块、真实世界专病数据内容选取模块和真实世界专病数据图谱构建模块,34.该系统通过上述的真实世界数据的专病图谱的构建方法实现真实世界数据的专病图谱构建。35.本发明的一种真实世界数据的专病图谱的构建方法及系统与现有技术相比,具有以下有益效果:36.提高医疗水平,促进医疗发展。基于患者为中心的真实世界全景数据和现有的医学知识构建疾病知识图谱后,可以将其应用在cdss临床决策支持、医院病例搜索排序、智能问诊和深度学习结合的知识融合等场景。结合该图谱,对每个患者的全景数据进行进一步加工,抽取出临床诊疗事件,可形成患者维度、面向专科疾病的事件图谱。事件图谱可以用于专科诊疗视图、自动生成病历、事件搜索以及因果关系分析等。37.基于该图谱,可挖掘患者经验和临床观察,将为疾病诊断和数据管理提供有力信息。原始的真实世界数据是无序的,构建该图谱可将真实世界数据转化为有益于医疗保健的深刻见解,将真实世界数据(rwd)进行分析,转化为真实世界证据(rwe)。附图说明38.图1是本发明实施例提供的真实世界数据专病图谱的构建流程示图;39.图2是本发明实施例提供的真实世界数据专病图谱的schema图。具体实施方式40.本发明实施例提供一种真实世界数据的专病图谱的构建方法,该方法的实现包括:41.真实世界数据资源构成,数据多选取直辖市或省会城市中的医疗数据,包含患者既往病史数据、当前诊疗数据、随访数据,具体数据来源包括电子病历系统(emr)、医院信息系统(his)、实验室信息管理系统(lis)、医学影像存档与通讯系统(pacs)、放射信息管理系统(ris),包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据等;基于以上这些平台系统收集初始数据,是形成一套以专病患者为中心的多维度全疾病诊疗周期的rwd体系全景数据的基础;42.真实世界数据预处理,针对不同医院原始信息系统,预先制定统一的数据库通用模型,其数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录,对每个患者的数据进行标准化;先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的数据质控、结构化归一及数据挖掘等处理流程;43.真实世界专病数据内容选取,基于各指标对不同疾病影响的重要性不同,为使rwd体系更具权威更科学,根据不同的专科疾病,选取权重更大的关系指标,构建相应的专科图谱;使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高;44.真实世界专病数据图谱构建,采用单向三元组数据模式构建方法,首先构建专病rwd图谱数据本体模型,即图谱schema;以单个患者为中心节点,各个指标逐级索引,构建患者rwd全景数据图谱。45.具体的rwd构建流程包括:46.1、真实世界数据资源构成:47.根据我国地域及人群就医特点分析,诸如大病重病多数人群选择辗转求医的特殊性,全国各地患者通过当地医生推荐或自己询问申请,多前往中心城市(上级医疗单位或者知名医院)接受诊疗,出院后或带药返回居住地,且在当地医疗机构完成后期随访。rwd不仅指患者一次就诊的院内医疗数据,而且包括从患者居住地到接受诊疗的中心城市医疗机构,再到患者出院回居住地进行随访的全景数据。48.因此,采集的数据在地点分布上,从全国各地多汇集于直辖市或省会城市,呈现“放射状分布”,故选取直辖市或省会中心城市中的医疗数据;在时间分布上,选取一个患者从既往病史数据到当前就诊数据以及随访中的全景诊疗数据;在数据资源载体上,选取电子病历系统(emr)、医院信息系统(his)、实验室信息管理系统(lis)、医学影像存档与通讯系统(pacs)、放射信息管理系统(ris)五大体系数据,包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据等。49.数据采集方式多为常规收集,数据来源于医疗机构(如emr系统、实验室信息系统、影像和放射信息系统内的数据),这些平台基于管理或日常监测目的收集初始数据,在构建数据体系过程中,不需要额外再收集。但由于历史原因,各个厂家打造的医疗信息化特点各不相同,一个患者的信息可能会存储在不同的院内系统中,现如今,国内大多医院的信息系统是由不同厂家的多个系统共同建设的。要想使用分散在各处系统中的全部数据时,需要先经过严密的顶层设计建设一套统一的数据存储结构,对各个来源的数据进行聚合归一。将同一个患者、同一次就诊的全部数据从不同的系统中抽取出来,组合成以该患者为中心的包含患者信息维度、就诊维度、诊后随访维度的全景数据。50.2、真实世界数据预处理:51.由于rwd来源不同,产生环境复杂多样,数据结构及字段标准各不相同,将数据经过结构统一化集成后,形成数据库模型,该数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录。此外,还需对数据内容进行预处理,在将临床数据用于数据挖掘、管理等场景时,需要对数据进行脱敏和标准化。医院数据由于出自不同厂家的不同系统,存在数据质量差、表之间的关联不合理等问题,因此需要对数据质量进行控制,如疾病、药物、手术等实体归一化。此外,之前提到会有大量非结构化的文本描述,例如电子病历,多为大篇章的文本,其中包含现病史、家族史、入院记录、出院小结等,每家医院的电子病历内容还存在大同小异,因此需要根据不同医院的不同特点对文本类数据进行结构化和标准化(归一),并抽取出其中有价值的数据信息。以上这些处理都属于数据治理的范畴。52.因此,对数据内容进行数据预处理具体包括:53.(1)、在患者信息维度,需对数据进行脱敏处理,利用安全隐私加密类模型,对患者身份证号码、姓名进行加密处理,但需标记一条人员唯一标识,可在数据图谱中确定人员唯一性,具体方法可使用,身份证号加特定字符串,利用md5函数进行加密,返回加密字符串,使其达到可逆性。54.(2)、在数据内容上,需对疾病、药物、手术、检验、检查等实体进行统一归一化处理,利用医学术语归一化模型,针对医院诊疗数据中的医学实体名称归一化问题,以医疗术语管理后的医疗术语库为基础,利用短文本相似度计算算法、知识推理算法或节点相似度算法研发的医学实体归一化模型。该模型将原始数据中的医学实体名称映射为相应的标准名称,进而实现不同地域、不同厂商、不同医院之间医学术语的标准化。55.(3)、针对电子病历大段文本类数据,首先利用医疗文本解析类模型,针对电子病历中治疗方案、家族史、现病史、主诉细项解析场景,设计电子病历解析模型,该模型集成bert+lstm+crf算法和分段卷积神经网络算法,识别电子病历中的时间、数值、药品名称、临床所见、用药频次、亲属、健康状态、疾病名称、症状等实体,并返回实体名称、实体位置及各实体之间存在的关系,完成电子病历解析任务。其次利用电子病历质控类模型,针对入院记录大段解析内容质量控制问题,研发了主诉、现病史、既往史、个人史、婚育史、体格检查、初步诊断分类模型。该模型使用fasttext算法,实现基于语义的7类文本分类。将模型分类结果与实际解析结果进行比对,从而判断解析的正确性,完成电子病历解析结果的质控任务。56.3、真实世界专病数据内容选取:57.rwd数据来源广阔,数据内容复杂多样,信息量庞大,但若只针对某单独的一项疾病研究,过多的信息因素反而会造成负面影响,只有经过科学的数据资源评估、多学科交叉的缜密研究,才能构建出更精准的专病rwd体系。因此,基于各指标对不同疾病影响的重要性不同,为使rwd体系更具权威更科学,根据不同的专科疾病,选取权重更大的关系指标,构建相应的专科图谱,使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高。58.对于构建专病rwd图谱,需要针对专项疾病特征,从不同维度研究考虑,排除干扰因素,选取重要性权重更高的相应指标数据构建以单个患者为中心的专病rwd图谱本体模型,即图谱schema。59.例如,以黑素瘤专病为主,首先获取患有黑素瘤疾病的就诊人群,在黑素瘤患者基本信息维度,考虑患者的性别、年龄、民族、家庭地址、职业类型、学历、婚姻状态等指标;在就诊信息维度,考虑诊断类型(门诊或住院)、就诊时间(住院考虑入院时间、出院时间)、就诊科室(住院考虑入院科室、出院科室)、诊断疾病名称;在选择用药信息维度,考虑用药名称、用药方式、用药时间;在手术信息维度,考虑手术名称、手术时间;在影像学检查信息维度,考虑影像学检查类别、检查项目名称、检查时间、检查部位、检查结论、检查所见、检查结果是否异常;在实验室检验信息维度,考虑实验室检验样本、检验类别名称、检验项目名称、检验时间、检验结果、检验结果是否异常。除以上常规结构化数据类之外,在电子病历大段文本中,还需考虑完善相关检验检查项、本次就诊全流程治疗方案、出院诊断疾病名称、出院带药名称、病理内容、主诉内容、手术史、体温、血压等情况。60.4、真实世界专病数据图谱构建:61.构建专病rwd图谱,首先需要构建图谱schema,限定待加入知识图谱数据的格式,相当于某个领域内的数据模型,schema是构建一个完整准确图谱的基础,包含了该领域内有意义的概念类型以及这些类型的属性,规范结构化数据的表达,一条数据必须满足schema预先定义好的实体对象及其类型,才被允许更新到知识图谱中。62.数据图谱采用单向三元组数据模式构建方法,首先构建专病rwd图谱数据本体模型,即图谱schema。再根据图谱schema以单个患者为中心节点,将不同系统、不同次就诊的信息,按照同一个患者、同一次就诊、同一次发病等维度进行融合。如一个肿瘤患者患病后会多次去医院就诊,其整体治疗方案需要将患者连续多次就诊的信息融合在一起才能计算出来,称之为一次发病。各个指标逐级索引,构建患者rwd全景数据图谱。63.以黑素瘤疾病为例:64.第一步,构建rwd图谱schema,黑素瘤专病rwd图谱schema如下表1所示:65.[0066][0067]第二步,基于上步schema,构建数据图谱。其中,患者信息维度包含患者每一次的就诊事件索引,通过该索引关联到该次就诊维度信息、选择用药维度信息、手术维度信息、影像学检查维度信息、实验室检验维度信息、电子病历维度信息。其中,在就诊事件中,包含每一项用药事件索引,通过该索引可将每一项药物与其用药时间、用药方式关联;包含每一次手术事件索引,通过该索引可将每一项手术名称与手术时间关联;包含每一项影像学检查事件索引,通过该索引可将每一项检查名称与检查类别、检查时间、检查部位、检查结论、检查所见、检查结果是否异常关联;包含每一类实验室检验事件索引,通过该索引可关联到实验室检验样本、检验项目名称、检验时间,在实验室检验事件中又包括检验报告索引,通过该索引可关联到每一项检验项目所对应的检验结果、检验结果是否异常信息。[0068]本发明实施例还提供一种真实世界数据的专病图谱的构建系统,包括真实世界数据资源构成模块、真实世界数据预处理模块、真实世界专病数据内容选取模块和真实世界专病数据图谱构建模块,[0069]真实世界数据资源构成模块,数据多选取直辖市或省会城市中的医疗数据,包含患者既往病史数据、当前诊疗数据、随访数据,具体数据来源包括电子病历系统(emr)、医院信息系统(his)、实验室信息管理系统(lis)、医学影像存档与通讯系统(pacs)、放射信息管理系统(ris),包含了疾病登记研究数据、医保支付数据、死亡登记数据、公共卫生监测数据、基因组学数据等;基于以上这些平台系统收集初始数据,是形成一套以专病患者为中心的多维度全疾病诊疗周期的rwd体系全景数据的基础;[0070]真实世界数据预处理模块,针对不同医院原始信息系统,预先制定统一的数据库通用模型,其数据库表包含通用疾病诊疗过程记录以及诊疗过程中所有相关项的记录,对每个患者的数据进行标准化;先将各个医院的原始库表结构映射为该通用模型,再对数据内容进行统一的数据质控、结构化归一及数据挖掘等处理流程;[0071]真实世界专病数据内容选取模块,基于各指标对不同疾病影响的重要性不同,为使rwd体系更具权威更科学,根据不同的专科疾病,选取权重更大的关系指标,构建相应的专科图谱;使其在研究上可塑性、可挖掘性更大,在应用过程中准确率更高;[0072]真实世界专病数据图谱构建模块,采用单向三元组数据模式构建方法,首先构建专病rwd图谱数据本体模型,即图谱schema;以单个患者为中心节点,各个指标逐级索引,构建患者rwd全景数据图谱。[0073]该系统通过上述实施例所述的真实世界数据的专病图谱的构建方法实现真实世界数据的专病图谱构建。[0074]通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。[0075]除说明书所述的技术特征外,均为本专业技术人员的已知技术。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种真实世界数据的专病图谱的构建方法及系统与流程 专利技术说明
作者:admin
2023-07-26 11:49:40
423