发布信息

一种基于改进回声状态网络和XRD图谱预测晶体结构的方法 专利技术说明

作者:admin      2023-06-29 22:37:50     755



医药医疗技术的改进;医疗器械制造及应用技术一种基于改进回声状态网络和xrd图谱预测晶体结构的方法技术领域1.本发明属于材料结构技术领域,具体涉及一种基于改进回声状态网络和xrd图谱预测晶体结构的方法。背景技术:2.空间群是晶体材料结构的关键基本参数,它直接影响材料的电子结构,从而影响材料的性能,成功预测出晶体结构将有利于加快新材料的发现。现有技术中,晶体结构主要通过x射线衍射实验的方式测定,或者通过密度泛函理论计算出来。但这两种方法均需要投入大量的成本和资源,且预测效率低下。技术实现要素:3.本发明在现有技术的基础上,克服了效率低的不足,提升了晶体结构预测的精确性,提出了一种利用xrd图谱快速预测晶体结构的方法,在不需要任何人工干预的情况下,可以大规模自动化快速地获得相当精确的晶体材料所属空间群,大致获取多空间群成分的相对含量关系。4.本发明通过以下技术方案来实现上述目的:5.一种基于改进回声状态网络和xrd图谱预测晶体结构的方法,包括如下步骤:6.s1、通过不同来源采集各种晶体结构的xrd图谱数据作为样本数据集,对所述样本数据集进行预处理后划分训练集和测试集;7.s2、基于改进回声状态网络模型构建xrd空间群识别模型,根据s1的训练集和测试集对所构建的xrd空间群识别模型进行训练,得到训练好的xrd空间群识别模型,其中,所述改进回声状态网络模型由基础回声状态网络和rnn神经网络组成;8.s3、针对待预测的晶体材料,将所述待预测的晶体材料的xrd光谱数据输入至训练好的xrd空间群识别模型中,输出待预测材料的晶体结构。9.作为本发明的进一步优化方案,所述s1中不同来源具体为实验数据、数据库数据、已发表的论文数据。10.作为本发明的进一步优化方案,所述xrd图谱数据具体为衍射角度和衍射峰峰强数据。11.作为本发明的进一步优化方案,所述s1中的预处理具体为:12.步骤1.1、对所述样本数据集进行第一步数据增强处理:设置一个水平位移的比例因子a和衍射峰缩放比例因子b,在保证光谱数据不失真的情况下设置步长c和d对衍射峰进行水平位移和垂直缩放以此来扩大所述样本数据集;13.步骤1.2、将扩大后的样本数据集表示成一组时间序列的矢量,作为原始数据集d,通过预先构建的smote算法对原始数据集进行第二步增强处理;14.步骤1.2.1、筛选出原始数据集d中的全部少数类样本,构成少数类样本集dmin,其余样本构成多数类样本集dmaj;15.步骤1.2.2、对于dmin中少数类样本xi,计算它到dmin中所有样本的距离,得到k近邻,从k近邻中任取一个样本xj,xi与xj之间的距离d(xi,xj)计算公式如下所示:[0016][0017]式中:xi=(xit,xi2,…,xin),xj=(xj,xjp,…,xjn)表示2个n维属性的数据样本;[0018]步骤1.2.3、计算样本xi与xj各个对应属性上的属性值之差,将差值乘以区间(0,1)内的一个随机数,再加上样本xi各个对应的属性值,即可生成一个新的少数类样本xnex,具体计算公式如下所示:[0019]xnex=xi+rand(0,1)*(xj-xi)[0020]式中:rand(0,1)表示区间(0,1)上的一个随机数。[0021]作为本发明的进一步优化方案,所述s2中基于改进回声状态网络模型构建xrd空间群识别模型具体为:[0022]步骤2.1、基础的回声状态网络esn由输入层、储备池和输出层组成;[0023]记t时刻样本输入序列为x(t),此时储备池状态序列为s(t),输出序列t(t),则esn训练过程为:[0024]s(t)=f(win·x(t)+w·s(t+1))(1)[0025]y(t)=fout(wout·s(t)+α)[0026]其中,f(·)是非线性的储备池激活函数,fout(·)是输出层的激活函数,α是输出时的偏置向量;[0027]步骤2.2、构建rnn层,将所述输出序列y(t)作为rnn的输入,对应隐藏状态h1,h2…,ht,输出y1,y2…,yt,运算过程可以表示为:[0028]ht=f(uxt+wht-1+b)[0029]yt=softmax(vht+c)[0030]其中,u、w、v、b、c均为参数,而f表示激活函数;[0031]步骤2.3、在所述rnn层后平行接入第一卷积层和第二卷积层,再分别在两个卷积层后接入第一池化层和第二池化层,再对两个池化层的输出合并,然后展平,后面再接入一个卷积层,输出结果。[0032]本发明的有益效果在于:[0033]1、本发明克服了现有预测晶体结构技术的不足,在不需要任何人工干预的情况下,可以大规模自动化快速地获得相当精确的晶体材料空间群。[0034]2、本发明的预测方法在整个过程中不涉及实验和不使用化学用品,不产生化学污染,符合绿色环保理念,易于实现,适合推广应用。[0035]3、本发明克服了材料科学实验数据稀缺问题,开发了小样本下预测晶体结构的新技术。附图说明[0036]图1为本发明的流程框图。[0037]图2为esn基础结构示意图[0038]图3为实施例1利用xrd图谱预测晶体结构的结果。具体实施方式[0039]下面结合附图对本技术作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本技术进行进一步的说明,不能理解为对本技术保护范围的限制,该领域的技术人员可以根据上述申请内容对本技术作出一些非本质的改进和调整。[0040]实施例1[0041]在本实施例中,参见图1,一种基于改进回声状态网络和xrd图谱预测晶体结构的方法,包括如下步骤:[0042]1)数据采集:[0043]从已经发表的文章中采集真实晶体xrd数据88个。[0044]2)数据第一步特征增强[0045]在所述步骤1)中对采集的数据作第一步数据增强,首先对xrd的光谱数据设置一个水平位移的比例因子a和衍射峰缩放比例因子b,然后在保证光谱数据不失真的情况下设置合理步长c和d对衍射峰进行水平位移和垂直缩放以此来扩大样本数据集。[0046]3)数据处理[0047]在所述步骤2)中将扩大后的xrd光谱数据表示成一组时间序列的矢量,然后为每个数据打上唯一标识的标签,作为原始数据集并且划分出80%训练集和20%测试集。[0048]4)数据第二步特征增强[0049]在所述步骤3)中利用smote算法对原始数据集进行过采样,以此来进一步数据特征增强,并且控制数据平衡问题形成新的数据集。[0050]smote算法是合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别而不够泛化,smote算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,算法流程如下:[0051]输入:不平衡数据集d,近邻数k,采样率n。[0052]输出:平衡数据集dnew。[0053]a)筛选出原始数据集d中的全部少数类样本,构成少数类样本集dmin,其余样本构成多数类样本集dmaj。[0054]b)对于dmin中少数类样本xi,计算它到dmin中所有样本的距离,得到其k近邻,从其k近邻中任取一个样本xj,xi与xj之间的距离d(xi,xj)计算公式如式所示:[0055][0056]式中:xi=(xit,xi2,…,xin),xj=(xj,xjp,…,xjn)表示2个n维属性的数据样本。[0057]c)计算样本xi与xj各个对应属性上的属性值之差,将差值乘以区间(0,1)内的一个随机数,再加上样本xi各个对应的属性值,即可生成一个新的少数类样本xnex,具体计算公式如式(2)所示:[0058]xneex=xi+rand(0,1)*(xj-xi),[0059]式中:rand(0,1)表示区间(0,1)上的一个随机数。[0060]5)训练[0061]在所述步骤4)中,基于改进的回声状态网络(esn)模型构建晶体xrd数据空间群识别模型,根据训练集和测试集对所构建的xrd空间群识别模型进行训练,得到训练好的空间群识别模型,所述回声状态网络(esn)模型如下:[0062]s1、基础的回声状态网络(esn)由三个部分组成:输入层、储备池和输出层。输入层和储备池的连接矩阵win、储备池内神经元的连接矩阵w在网络初始化阶段随机生成,且在训练过程中不再更新。wout为正向连接储备池和输出层的读出连接权重矩阵,也是唯一需要训练更新的部分。其基础结构如图1所示。记t时刻输人序列为x(t),此时储备池状态序列(即储备池神经元输出)为s(t),和输出序列y(t),则esn训练过程中的更新为:[0063]s(t)=f(win·x(t)+w·s(t+1))(1)[0064]y(t)=fout(wout·s(t)+α)[0065]其中,f(·)是非线性的储备池激活函数,常被设置为tanh函数,[0066]fout(·)是输出层的激活函数,通常设置为identity函数。α是输出时的偏置向量。简单来说,esn训练过程就是在初始化win和w后,更新储备池状态s。[0067]s2、构建rnn层,将在s1的输出层y1,y2…,yl作为rnn的输入,对应隐藏状态h1,h2…,ht,输出y1,y2…,yt,运算过程可以表示为:[0068]ht=f(uxt+wht-1+b)[0069]yt=softmax(vht+c)[0070]其中,u、w、v、b、c均为参数,而f表示激活函数,具体为tanh函数;[0071]s3、在s2的rnn层后接入平行接入卷积层1和卷积层2,再分别在两个卷积层后接入池化层1和池化层2,再对池化层1和池化层2的输出合并,然后展平,后面再接入一个卷积层,最后输出分类结果。[0072]本实施例采用基于改进回声状态网络和xrd图谱预测晶体结构的方法,对已经发表的文章中实验晶体xrd数据进行了建模,建立了一种可以大规模自动化快速地获得相当精确晶体结构空间群的模型。最终晶体空间群预测的准确率为98.7%。[0073]本实施例方法克服了现有获得晶体结构技术的不足,在不需要任何人工干预的情况下,可以大规模自动化快速地获得相当精确的晶体空间群。可以自动化分析晶体的xrd数据。[0074]本发明在现有技术的基础上,克服了效率低的不足,提升了获得晶体空间群精确性,提出了一种利用xrd图谱并基于改进回声状态网络预测晶体结构,在不需要任何人工干预的情况下,可以大规模自动化快速地获得相当精确的晶体空间群。[0075]本发明克服了材料科学实验数据稀缺问题,开发了小样本下预测晶体结构的新技术。[0076]以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部