计算;推算;计数设备的制造及其应用技术1.本发明涉及特征工程技术领域,具体地说是一种用于风险预测任务的特征组合方法。背景技术:2.风险预测任务由于其能识别评估对象面临的各种风险、评估风险概率和可能带来的负面影响、确定组织或个人承受风险的能力,确定风险消减和控制的优先等级以及推荐风险消减对策等原因,一直在包括金融、医疗等领域备受关注。此类任务通常依据数据中的特征和标签的生存状态与天数使用包括cox模型等来进行风险分析和预测。考虑到数据限制这一原因,风险预测任务往往不能做到有效的风险分层。因此,对于特征工程中的探索即如何充分地开发和利用数据,从数据中提取重要有效的信息至关重要。3.目前,特征工程中普遍适用的特征组合方法主要包括特征之间的加减乘除、组合独热矢量等,组合的方式包括依据专家先验知识组合、随机组合以及机器学习模型自动组合等。但是,对于风险预测任务,特征组合既要考虑方法上的可解释性,又要考虑方式上的简单有效,因此,在风险预测任务的特征工程中如何选择特征并组合出稳定有效的特征值十分重要。4.现有技术的特征组合的特征值稳定有效性差,识别评估对象和风险预测精度低,缺少针对风险预测任务的特征组合适用方法,需要高成本的人工规则定义与先验知识参与,未将风险预测任务组合特征的可解释性纳入考虑,风险分层评估效果差。技术实现要素:5.本发明的目的是针对现有技术的不足而设计的一种用于风险预测任务的特征组合方法,采用模型特征权重模块和加权求和组合特征模块的方法,通过特征组合方法发现新的风险预测指标,有效优化了风险预测任务中的风险分层评估效果。模型特征权重模块使用输入的特征和标签训练用于分类或回归的机器学习模型,得到模型中对应特征的权重系数或特征重要性以反映每类特征的重要性,为后续特征值的组合做准备,加权求和组合特征模块将特征权重系数或特征重要性经过softmax转化为对应的特征权重分布,并与数据中对应的特征值进行加权求和得到最终新的组合特征值,考虑了数据中各个特征的重要性并基于特征重要性完成了对新特征的组合,组合出的风险预测指标有效优化了风险预测任务中的风险分层评估效果,为风险分析和风险预测提供支持,方法简单有效,能选择特征并组合出稳定有效的特征值,能够在医学生存分析、金融风险预测等真实场景中应用,具有广泛的实用意义和应用前景。6.实现本发明目的的具体技术方案是:一种用于风险预测任务的特征组合方法,其特点是该方法包括如下步骤:7.1)建立模型特征权重模块,该模块完成模型的训练并得到模型中对应特征的权重系数;在给定数据输入特征xi∈x和标签y的条件下,训练一个分类或回归的机器学习模型并得到模型中对应特征的权重系数wi或特征重要性fi。以分类模型逻辑回归为例,逻辑回归模型的目标函数hw(x)由下述(d)式表示为:[0008][0009]其中,σ(wtx)为经过线性变换wtx与sigmoid激活函数转换得到输入数据样本属于某个类别的概率的表达式;为线性回归的表达式,wi即为对应特征的权重系数,是模型特征权重模块的目标。为sigmoid激活函数,将线性回归的返回值转换为区间[0,1]内的值,用于表示自变量属于某个类别的概率。[0010]为得到模型特征权重模块的目标特征权重系数wi,逻辑回归模型需优化的损失函数目标由下述(c)式表示为:[0011][0012]其中,损失函数为损失函数;yi∈y表示数据中的第i条样本的标签;xi∈x表示数据中第i条样本的所有特征;hw(xi)为第i条样本的的目标函数。经过损失函数的优化来训练逻辑回归模型可得到模型中对应特征的权重系数wi。[0013]除上例所述外,对于支持向量机、决策树和基于决策树的集成模型等,优化其相应的损失函数来训练模型也能得到模型中对应特征的权重系数wi或特征重要性fi。[0014]2)建立加权求和组合特征模块,加权求和组合特征模块包括将从模型特征权重模块得到的特征权重系数或特征重要性经过softmax转化为对应的特征权重分布和将特征权重分布与数据中对应的特征值进行加权求和得到最终新的组合特征值两部分。其中:[0015]2.1将从模型特征权重模块得到的特征权重系数wi或特征重要性fi经过softmax转化为对应的特征权重分布pi,其处理过程如下:[0016]所述特征权重分布pi由下述(a)式表示为:[0017][0018]其中,为每一类特征值xi对应的特征权重系数wi的元素值;为每一类特征值xi对应的特征重要性fi的元素值。[0019]经过上述计算,每一类特征值xi对应的特征权重系数wi或特征重要性fi都能转化为其在n个特征中的特征权重分布pi。[0020]2.2将特征权重分布pi与数据中对应的特征值xi进行加权求和得到最终新的组合特征值new_xi,加权求和得到最终新的组合特征值new_xi由下述(b)式表示为:[0021][0022]其中,xi为数据中不同类对应的特征值。[0023]按照上述公式,数据中的每一条样本的多类特征值最终都能组合出一个新的特征值new_xi,最终得到一列新的组合特征值new_x。[0024]所述步骤1)中,除举例详解的逻辑回归模型与提及的模型外,其余能计算出特征权重系数wi或特征重要性fi的分类或回归模型也都适用于上述描述的特征组合方法。[0025]本发明与现有技术相比具有以下显著的技术进步和有益效果优点:[0026]1、适用性:相较于过去的方法能普遍适用于风险预测任务,只要能对分类或回归模型进行训练并得到特征权重系数或特征重要性,即可进行特征组合。[0027]2、有效性:设计使用softmax将特征权重系数或特征重要性转化为特征权重分布,能够优化风险预测任务中的风险分层评估效果,为风险分析和风险预测提供支持。[0028]3、实用性:该方法具有广泛的实用意义,能够在真实场景中应用,比如医学生存分析、金融风险预测等任务。附图说明[0029]图1为本发明方法流程图。具体实施方式[0030]以下结合具体实施例和附图,对本发明做进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制的内容。[0031]参阅图1,本发明主要包括以下步骤:[0032]步骤一:训练分类或回归模型并得到模型中对应特征的权重系数或特征重要性。[0033]在风险预测任务,特征工程需要选择特征并组合出稳定有效的特征值。为了更有效和稳定地利用数据内蕴含的信息进行特征组合,提出了一个模型特征权重模块将各类特征的重要性纳入考虑。该模块完成模型的训练并得到模型中对应特征的权重系数或特征重要性。利用分类或回归的机器学习模型,在给定数据输入特征xi∈x和标签y的条件下,训练模型并得到模型中对应特征的权重系数wi或特征重要性fi。以分类模型逻辑回归为例,逻辑回归模型的目标函数hw(x)由下述(d)式表示为:[0034][0035]其中,σ(wtx)为经过线性变换wtx与sigmoid激活函数转换得到输入数据样本属于某个类别的概率的表达式;为线性回归的表达式;wi即为对应特征的权重系数,是模型特征权重模块的目标。为sigmoid激活函数,将线性回归的返回值转换为区间[0,1]内的值,用于表示自变量属于某个类别的概率。[0036]为得到模型特征权重模块的目标特征权重系数wi,逻辑回归模型需优化的损失函数目标由下述(c)式表示为:[0037][0038]其中,损失函数为损失函数;yi∈y表示数据中的第i条样本的标签;xi∈x表示数据中第i条样本的所有特征。经过损失函数的优化来训练逻辑回归模型可得到模型中对应特征的权重系数wi。[0039]除上例所述外,对于支持向量机、决策树和基于决策树的集成模型等,优化其相应的损失函数来训练模型也能得到模型中对应特征的权重系数wi或特征重要性fi。[0040]步骤二:建立加权求和组合特征模块,加权求和组合特征模块包括将从模型特征权重模块得到的特征权重系数或特征重要性经过softmax转化为对应的特征权重分布和将特征权重分布与数据中对应的特征值进行加权求和得到最终新的组合特征值两部分。其中:[0041]首先将从模型特征权重模块得到的特征权重系数wi或特征重要性fi经过softmax转化为对应的特征权重分布pi,其处理过程由下述(a)式表示为:[0042][0043]其中,为每一类特征值xi对应的特征权重系数wi的元素值;为每一类特征值xi对应的特征重要性fi的元素值;[0044]经过上述公式,每一类特征值xi对应的特征权重系数wi或特征重要性fi都能转化为其在n个特征中的特征权重分布pi。其次,将特征权重分布pi与数据中对应的特征值xi进行加权求和得到最终新的组合特征值new_xi,加权求和得到最终新的组合特征值new_xi由下述(b)式表示为:[0045][0046]其中,xi为数据中不同类对应的特征值。[0047]按照上述公式,数据中的每一条样本的多类特征值最终都能组合出一个新的特征值new_xi,最终得到一列新的组合特征值new_x用于后续风险预测任务。[0048]以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种用于风险预测任务的特征组合方法 专利技术说明
作者:admin
2022-11-30 06:45:13
304
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术