医药医疗技术的改进;医疗器械制造及应用技术1.本发明涉及医疗技术领域,具体涉及一种阿尔茨海默症发病机制的多模态数据融合分析方法。背景技术:2.阿尔茨海默症(alzheimer’s disease,ad)是老年期常见的神经退行性疾病,患者通常具有智力低下和记忆障碍等临床表现,研究ad的风险基因和异常脑区以了解其发病机制,并开展精准的早期诊断治疗有助于延缓ad的发病进程。3.多模态数据融合分析是ad研究的一个重要领域。研究人员经常面临的一个限制是如何从小样本中的高维融合特征中提取重要信息。在之前的研究中,一些研究人员使用经典方法,如主成分分析和独立成分分析,以解决多模态融合分析的高维问题。这些方法实现了属性约简,但目前的大多数研究主要集中于多模态融合中的过程,如融合特征构建、特征选择或样本分类,无法提出一个新的研究框架,解决多模态融合分析的高维问题并获得优异的预测结果的研究方法。技术实现要素:4.为解决上述技术问题,本发明采用如下技术方案:5.一种阿尔茨海默症发病机制的多模态数据融合分析方法,包括如下步骤:6.获取患者功能性磁共振成像影像数据以及基因的单核苷酸多态性进行预处理;7.将处理后的影像与基因进行矩阵融合后构建脑区基因对;8.通过改进多核支持向量机对脑区基因对进行特征提取以及模型建立从而判断阿尔茨海默症发病机制。9.进一步地,所述对功能性磁共振成像影像数据进行预处理的具体方法为:10.删除功能性磁共振成像影像数据的前10个时间;11.对功能性磁共振成像进行去颅骨、头动矫正和标准化处理。12.进一步地,所述对基因的单核苷酸多态性进行预处理的具体方法为:13.对基因进行哈迪-温伯格平衡、次要等位基因频率、每个单核苷酸多态性调用率、单核苷酸多态性在染色体上的数量以及患者唤起率检测并判断后筛选出合格的基因;14.对合格的基因内单核苷酸多态性的个数进行判断并提取该基因前130个基因序列点后筛选出所需基因及基因的单核苷酸多态性。15.进一步地,所述将处理后的影像与基因进行矩阵融合后构建脑区基因对的具体方法为:16.将筛选后基因内的四种碱基转换为不同的标签得到基因的标签序列,提取影像中脑区的前130个时间序列利用皮尔逊相关分析与影像构建脑区基因对。17.进一步地,所述通过改进多核支持向量机对脑区基因对进行特征提取以及模型建立的具体方法为:18.定义脑区基因对,并从脑区基因对按照设定比例随机划分为训练集和验证集;19.对定义后的脑区基因对进行验证后获得原始的验证特征并进行筛选后获得最优特征集合,并对最优特征集合进行验证得到最优分类性能的特征集合,针对最优分类性能的特征集合建立模型并确定最优的特征组合。20.进一步地,所述定义脑区基因对的具体方法为:21.选取脑区基因对为原始样本,并定义该原始样本集s,其定义公式如下:22.s={xi,yi},i∈[1,n][0023]式中,xi代表了脑区基因对中的特征,而yi的值为1或-1,代表了xi的对应标签,n是特征的总数。[0024]进一步地,所述训练集和验证集的比例公式如下所示:[0025]strain:sv=7:3[0026]式中,strain为训练集,sv为验证集。[0027]进一步地,所述对定义后的脑区基因对进行验证后获得原始的验证特征并进行筛选后获得最优特征集合,并对最优特征集合进行验证得到最优分类性能的特征集合,针对最优分类性能的特征集合建立模型并确定最优的特征组合的具体方法为:[0028]步骤一、将原始样本集映射到高维空间中,原始样本在新的空间中线性可分,并形成三个核函数,三个核函数分别为线性核、多项式核和高斯核,权重为1:1:1,多核svm的核函数公式如下:[0029][0030]式中,g为多核svm的核函数,xt和xj是输入的数据集,r是常数来进行加减上的调整d是控制次数,γ是高斯核的带宽;[0031]步骤二、通过多核支持向量机依次验证25200个特征及对应的标签从而获得原始的验证特征,并根据固定的阈值0.80对原始的验证特征进行筛选得到原始特征集,多核svm的分类性能的定义公式如下所示:[0032][0033]式中,acck为k频繁项集的分类性能,nvk为在验证集sv中由k频繁项集正确分类的样本数目,nv为验证集,nv为k频繁项集中的样本数目;[0034]步骤三、获取分类准确率高于设定值的原始特征集,将原始特征集通过频繁项集进行重新组合并进行比较和筛选,最后得到最重要的特征集合,通过最重要的特征集合建立模型。[0035]进一步地,所述将原始特征集通过频繁项集进行重新组合并并进行比较和筛选,最后得到最重要的特征集合,通过最重要的特征集合建立模型的具体方法为:[0036]将原始特征集通过频繁项集重新进行两两组合形成频繁项集特征集合一,并获取频繁项集特征集合一的分类准确率,将其与原始特征集的分类准确率进行比较和筛选得到频繁项集特征集合二,获取频繁项集特征集合二的分类准确率,并与原始特征集的分类准确率进行比较和筛选得到频繁项集特征集合三,重复以上操作,直至不能产生新的频繁项集特征集合,对得到频繁项集特征集合进行验证,得到最重要的特征集合,通过最重要的特征集合的分类准确率曲线图建立模型。[0037]与现有技术相比,本发明的有益效果:[0038]一种阿尔茨海默症发病机制的多模态数据融合分析方法在多核映射的背景下,高维空间成为由多个特征空间组合而成的组合空间。由于组合空间充分发挥了各个基本核的不同特征映射能力,能够将异构数据的不同特征分量分别通过相应的核函数得到解决;[0039]采用先验算法(apriori算法),其主要包括两个主要步骤:第一步,得到频繁项集。最开始迭代所有数据库,获取的所有数据项都是候选集c,计算每个数据项出现的频次,并设定一个支持度阈值,即最小支持度,根据最小支持度对给定的候选集进行筛选,筛选得到的频次大于支持度阈值的项集,被称为频繁项集l,此时得到的是1-项集(一阶频繁项集);再次扫描数据库,基于此刻的候选集是上一步得到的1-项集全体,基于1-项集再次经过最小支持度过滤,得到满足条件的2-项集(二阶频繁项集);循环以上,直到无法构造出满足min_sup的更高阶频繁项集。这是根据向下封闭性原理来实现的,即一个项集是频繁项集,其所有非空子集一定是频繁项集;一个项集不是频繁项集,其超集一定不是频繁项集;[0040]将先验算法的思想应用于多核svm,利用了两种算法的优点,动态构建特征组合,持续验证分类结果,并且依次验证所有数据避免随机偶发性,保证实验每一步都持因索果。附图说明[0041]图1为五个实验组在不同频繁项集特征下的分类准确率图;[0042]图2为10次独立实验的分类准确度图。具体实施方式[0043]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0044]一种阿尔茨海默症发病机制的多模态数据融合分析方法,包括如下步骤:[0045]步骤一、从adni(alzheimer’s disease neuroimaging initiative)数据库中下载了121个患者的fmri(功能性磁共振成像)影像数据和基因的单核苷酸多态性(snp)信息;[0046]使用dprasf对获得的fmri影像数据进行处理,具体为使用dprasf工具设置timepoints、tr和参考切片图像等图像参数为140、3和47,删除所有参与者的前10个时间点;由于参与者进行磁共振扫描时,梯度磁场的稳定需要一段时间,参与者适应也需要一段时间,因此前几个时间点的图像噪声较多,所以删除所有参与者的前10个时间点,以确保扫描仪的磁场梯度稳定。然后对患者的t1影像和fmri影像经去颅骨、头动矫正和标准化后,本发明使用大小为4mm的半峰全宽(fwhm)和0.01hz至0.08hz的频率范围对影像进行平滑处理和噪声去除,最终,利用aal atlas116模板定义脑区并提取脑区的时间序列。[0047]然后对基因进行哈迪-温伯格平衡、次要等位基因频率、每个单核苷酸多态性调用率、单核苷酸多态性在染色体上的数量以及患者唤起率检测并判断后筛选出合格的基因;当哈迪-温伯格平衡测试p超过1.0e-6;次要等位基因(minor allele)频率超过0.05;每个单核苷酸多态性(snp)调用率都在超过0.95;snp在染色体1至22上;每位患者的唤起率都超过0.95,即为合格的基因,对合格的基因内单核苷酸多态性的个数进行判断,当筛选基因内snp个数大于130的基因时提取该基因前130个基因序列点,最终筛选出280个基因,共提取36400个snp。[0048]步骤二、将筛选后基因内的四种碱基(如a、t、c和g)转换为不同的标签(如at=0、cg=0、ac=1、ag=2、tc=3、tg=4),然后得到基因的标签序列,提取影像中脑区的前130个时间序列利用皮尔逊相关分析与处理后的影像构建脑区基因对。[0049]步骤三、以ad-hc组为例,ad为22个样本hc为42个样本,ad-hc组共计66个样本,原始样本集大小为66×280×90。[0050]定义原始样本集s的公式如下:[0051]s={xi,yi},i∈[1,n][0052]式中,xi代表了样本集(脑区基因对)中的特征,而yi的值为1或-1,代表了xi的对应标签,n是特征的总数;其中hc为“‑1”,ad为“1”。[0053]从原始样本集中随机生成训练集、验证集,训练集和验证集的比例公式如下所示:[0054]strain:sv=7:3[0055]式中,strain为训练集,sv为验证集。[0056]由于样本集是“脑区基因对”,在二维上线性不可分,所以引入多核的概念,将原始样本集映射到高维空间中,原始样本在新的空间中线性可分,并形成三个核函数,三个核函数分别为线性核、多项式核和高斯核,权重为1:1:1,多核svm的核函数公式如下:[0057][0058]式中,g为多核svm的核函数,xt和xj是输入的数据集,r是常数来进行加减上的调整d是控制次数,γ是高斯核的带宽;[0059]高维空间成为由多个特征空间组合而成的组合空间,由于组合空间充分发挥了各个基本核的不同特征映射能力,能够将异构数据的不同特征分量分别通过相应的核函数得到解决。[0060]通过多核支持向量机依次验证25200个(25200=280×90,280为基因个数,90为脑区个数)特征及对应的标签从而获得原始的验证特征,并根据固定的阈值0.80对原始的验证特征进行筛选得到原始特征集,多核svm的分类性能的定义公式如下所示:[0061][0062]式中,acck为k频繁项集的分类性能,nvk为在验证集sv中由k频繁项集正确分类的样本数目,nv为验证集,nv为k频繁项集中的样本数目;[0063]获取分类准确率高于设定值的原始特征集,将原始特征集通过频繁项集重新进行两两组合形成频繁项集特征集合一,并获取频繁项集特征集合一的分类准确率,将其与原始特征集的分类准确率进行比较和筛选得到频繁项集特征集合二,获取频繁项集特征集合二的分类准确率,并与原始特征集的分类准确率进行比较和筛选得到频繁项集特征集合三,重复以上操作,直至不能产生新的频繁项集特征集合,对得到频繁项集特征集合进行验证,得到最重要的特征集合,通过最重要的特征集合的分类准确率曲线图建立模型,具体为:[0064]表2.1所示为所有脑区基因对的分类准确率,如下:[0065]表2.1所有特征集的分类准确率[0066][0067]将表2.1的数据按阈值0.80筛选,获得原始的特征集l1并标号,如表2.2所示;[0068]表2.2原始的特征集l1及对应的分类准确率[0069][0070]之后引入频繁项集的概念,将原始的特征集l1两两组合产生个特征组合,即生成4753个脑区基因对组合,定义为频繁项集特征集合一c2,如表2.3所示;[0071]表2.3频繁项集特征集合一c2及对应的分类准确率[0072][0073][0074]经过大量实验发现,由于原始的特征集l1筛选出来的特征分类性能与频繁项集特征集合一相比较优,之后进行组合的分类性能一定优于0.8,所以本发明按照原始的特征集l1的平均acc进一步筛选,以保证能够进一步筛选掉相较于原始的特征集l1中分类性能稍差的特征。阈值的定义如公式下所示;[0075]accthre=sum(accl1)/length(l1)[0076]经过阈值筛选共得到1001个特征组合,是更重要的脑区基因对,这些特征的集合即为频繁项集特征集合二l2,如表2.4所示;[0077]表2.4频繁项集特征集合l2二及对应的分类准确率[0078][0079]频繁项集特征集合二根据先验算法拼接成候选项集c3,如表2.5所示:[0080][0081]重复执行上述步骤,直至不能产生新的频繁项集,最后,本发明对得到的l1、l2、…、ln频繁项集特征集合通过留一验证方法验证其分类性能,具有最优分类性能的特征集合就是本发明认为的最重要的特征集合。[0082]五个实验组在不同频繁项集特征下的分类准确率如图1所示,在该模型框架下,五个实验组都可以找到较高的分类准确率的频繁项集,且可以清晰的看到特征组合数变化对分类准确率的影响,从而找到最优的特征组合。其中ad-lmci组分类准确率最高,达到了92.65%,ad-emci组分类准确率为91.45%,ad-hc组分类准确率为87.75%,lmci-hc组分类准确率为87.2%,emci-hc组分类准确率最低,为75.75%。[0083]在样本量较小的情况下,需要验证所提出模型的鲁棒性和泛化性。因此,基于两个数据集构建融合特征后,为了避免应用多核svm-apriori偶尔出现的高准确率,对5个实验组分别进行了12次独立实验,删除了最优和最差的结果,10次独立实验的分类准确度如图2所示,f1值、召回率和精确度如表2.6所示。[0084]表2.6 10次独立验证实验的f1值、召回率和精确度[0085][0086][0087]以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种阿尔茨海默症发病机制的多模态数据融合分析方法 专利技术说明
作者:admin
2023-07-07 11:38:06
968