发布信息

一站式特征计算和模型训练的推荐系统智能管理平台的制作方法 专利技术说明

作者:admin      2022-11-30 07:53:57     938



计算;推算;计数设备的制造及其应用技术1.本发明涉及智能管理技术领域,具体涉及一种一站式特征计算和模型训练的推荐系统智能管理平台。背景技术:2.现有技术在实际工作中存在数据来源复杂、数据不完整、不一致、有异常的数据等问题,然后分别建立不同的工程对其进行处理,数据可能发生冗余和错误,并且特征工程的处理容易出现数据穿越现象,导致在线下模型训练的时候,模型表现好,线上应用时模型效果很差的情况,需要对特征进行统一管理。技术实现要素:3.本发明旨在提供一种一站式特征计算和模型训练的推荐系统智能管理平台,所要解决的技术问题是如何对推荐系统涉及到的样本工程、特征计算、模型训练、线上预测等模块进行统一管理和智能调配,保证推荐系统的工作质量,提高系统的稳定性和鲁棒性。4.本发明的目的是解决现有技术的不足,提供一种一站式特征计算和模型训练的推荐系统智能管理平台,包括数据源平台、数据管理模块、特征工程模块、模型训练平台、模型管理平台、特征管理平台和线上预测模块;所述的数据源平台包含用户属性数据、商品属性数据和用户行为数据;所述的数据管理模块负责对所述的用户属性数据、商品属性数据、用户行为数据进行保存和抽取;所述的特征工程模块用于针对抽取的数据,把用户属性数据转化成用户特征,把商品属性数据转换成商品特征,把用户行为数据分成训练样本和测试样本两部分,并且根据用户id和商品id把用户特征和商品特征统一映射到训练样本和测试样本的向量空间中,并根据行为数据的分值,以0.5分进行划分,大于等于0.5的样本标签为1,小于0.5的样本标签为0;所述的模型训练平台负责存储不同的模型训练脚本,以及调用模型对训练样本进行训练,然后使用测试样本进行效果测试;所述的模型管理平台负责存储生成的各种模型,并对模型进行管理;所述的特征管理平台负责对生成的用户特征和商品特征进行存储,并等待调用;所述的线上预测模块属于与用户和后台对接的模块,用于接收前端传过来的用户id和召回的商品id序列,然后从特征管理平台读取用户id对应的用户特征和商品id对应的商品特征,进行拼接映射到向量空间,通过模型管理平台调用对应的模型,对用户和商品进行打分,来预测用户对商品的兴趣值,根据兴趣值的分值大小进行排序,输出用户的商品排序结果。5.优选的,所述的用户属性数据包括用户的基本数据和用户画像数据,所述的基本数据为用户id、性别、年龄、等级、活跃度、居住地、手机型号、网络信号、教育程度、婚姻情况、生育情况、工作所在的行业和职业中的一种或多种,所述的用户画像数据指用户的消费画像数据、行为画像和用户兴趣画像数据中的一种或多种。6.优选的,所述的行为画像包括浏览、点赞、加购和评价中的一种或多种。7.优选的,所述的商品属性数据包括商品id、商品名称、商品上架状态、知识图谱分类、b2c分类、b2b分类、是否进口、品牌id、otc表示、药物类型、商品类型、适用人群和销量中的一种或多种。8.优选的,所述的用户行为数据包括用户id、商品id、行为类型、行为时间、行为时长和场景中的一种或多种。9.优选的,所述的行为类型分为正向行为和负向行为,并对所述的正向行为和负向行为设置相应的权重;所述的正向行为中,点击的权重为0.3,收藏的权重为0.5,点击搜索的权重为0.4,评论的权重为0.2,分享的权重为0.5,点赞的权重为0.8,加入购物车的权重为0.8,消费的权重为1;所述的负向行为中,曝光的权重为0.1,取消加入购物车的权重为0.2,差评的权重为0.1,不喜欢的权重为0.1。10.优选的,所述的数据管理模块针对所述的数据源平台,通过hdfs导入到数据管理模块中,数据格式是csv、json、txt和/或excel;数据源的修改方式包括追加、覆盖、更新和/或删除;所述的数据管理模块针对数据的预处理功能包括采样、多表合并、过滤、列选择、行选择、空值处理、值替换、数据清洗、合并、数据编辑、去重、排序、聚合分析、拆分行列和/或异常值处理。11.优选的,所述的特征工程模块包括的功能有:特征选择,特征转换、特征重要性计算、特征离散、onehot编码、特征正则化、标准化、归一化、随机森林特征选择、自动特征组合和/或数据集拆分。12.优选的,所述的模型训练平台针对推荐系统的排序功能配置的是分类算法,所述的分类算法具体为:逻辑分类算法、决策树算法、随机森林算法、支持向量机算法,梯度提升树算法、xgboost算法和/或lightgbm算法;所述的模型训练平台提供算法的计算资源,并接收训练样本对模型进行训练,使用测试样本对模型进行效果验证,最后把训练好的模型输出到模型管理平台。13.优选的,所述的模型管理平台对模型进行管理具体包括增加、替换和/或删除。14.有益效果15.与现有技术相比,本发明的有益效果是:16.本发明所述的一站式特征计算和模型训练的推荐系统智能管理平台推出了一整套的自研平台管理流程,对推荐排序系统进行统一管理和质量把控;通过特征管理平台统一对线上和线下特征进行管理,保证线上和线下特征的一致性。附图说明17.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本技术的具体实施方式一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。18.图1是本发明所述的一站式特征计算和模型训练的推荐系统智能管理平台的结构示意图。具体实施方式19.在下文中更详细地描述了本发明以有助于对本发明的理解。20.针对现有技术中对推荐系统的各个环节管理存在界限不清、流程不畅等问题,本发明建立了一个一站式的推荐系统智能平台,对涉及到的样本工程、特征计算、模型训练、线上预测等模块进行统一管理和智能调配,保证推荐系统的工作质量,提高系统的稳定性和鲁棒性。线上线下是一套特征,对模型的统一管理,可以保证特征和模型的统一性,并且实时更新,保证能够提供迭代后的最新模型,提供更好的服务效果。21.如图1所示,本发明所述的一站式特征计算和模型训练的推荐系统智能管理平台包括:22.1、数据源平台:包含用户属性数据、商品属性数据和用户行为数据。23.(1)用户属性数据:包括用户的基本数据和用户画像数据,基本数据为用户id(user id),性别,年龄,等级,活跃度,居住地,手机型号,网络信号、教育程度、婚姻情况、生育情况、工作所在的行业和职业等等,用户画像数据指用户的消费画像数据、行为(浏览、点赞、加购、评价)画像,用户兴趣画像数据。24.(2)商品属性数据:商品id,商品名称,商品上架状态,知识图谱分类,b2c分类,b2b分类,是否进口,品牌id,otc表示,药物类型,商品类型,适用人群,销量等。25.(3)用户行为数据:用户id,商品id,行为类型,行为时间,行为时长,场景。26.行为类型分为正向行为和负向行为,并对其设置权重。正向行为:点击(0.3),收藏(0.5),点击搜索(0.4),评论(0.2),分享(0.5),点赞(0.8),加车(0.8),消费(1)。27.负向行为:曝光(0.1),取消加车(0.2),差评(0.1),不喜欢(0.1)。28.2、数据管理模块:负责对用户属性数据、商品属性数据、用户行为数据进行保存和抽取。29.针对数据源平台,通过hdfs(hadoop distribute file system,即hadoop分布式文件系统)导入到数据管理模块中。数据格式可以是csv、json、txt,excel等。30.数据源的修改方式包括:追加、覆盖、更新、删除。31.在数据挖掘中,海量的原始数据存在着大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据预处理就显得尤为重要。32.针对数据的预处理功能:采样(随机采样、加权采样、分层采样、下采样、smote)、多表合并、过滤、列选择、行选择、空值处理、值替换、数据清洗、合并、数据编辑、去重、排序、聚合分析、拆分行列、异常值处理。33.3、特征工程模块:针对抽取的数据,把用户属性数据转化成用户特征,商品属性数据转换成商品特征,用户行为数据分成训练和测试两部分,并且根据用户id和商品id把用户特征和商品特征统一映射到训练样本和测试样本的向量空间中,并根据行为数据的分值,以0.5分进行划分,大于等于0.5的样本标签为1,小于0.5的样本标签为0。34.特征工程模块包括的功能:特征选择,特征转换、特征重要性计算模块、特征离散、onehot编码、特征正则化、标准化、归一化、随机森林特征选择、自动特征组合、数据集拆分。35.4、模型训练平台:负责存储不同的模型训练脚本,以及调用模型对训练样本进行训练,然后使用测试样本进行效果测试。36.针对推荐系统的排序功能,此处配置的是分类算法,具体为:逻辑分类算法,决策树算法、随机森林算法、支持向量机算法,梯度提升树算法(gbdt),xgboost算法,lightgbm算法。37.平台提供算法的计算资源,并接收训练样本对模型进行训练,使用测试样本对模型进行效果验证,最后把训练好的模型输出到模型管理平台。38.5、模型管理平台:负责存储生成的各种模型,并对模型进行管理,比如增加、替换、删除等。39.6、特征管理平台:负责对生成的用户特征和商品特征进行存储,等待其他模块的调用。40.7、线上预测模块:属于与用户和后台对接的模块,接收前端传过来的用户id和召回的商品id序列,然后从特征管理平台读取用户id对应的用户特征和商品id对应商品特征,进行拼接映射到向量空间,通过模型管理平台调用对应的模型,对用户-商品进行打分,来预测用户对商品的兴趣值,根据分值大小进行排序,输出用户的商品排序结果。41.本发明推出了一整套的自研平台管理流程;对来源数据进行统一管理和加工,保证任务不会冗余,并且数据处理结果稳定;通过特征管理平台统一对线上和线下特征进行管理,保证了线上和线下特征的一致性。42.本发明针对现有技术中对推荐系统的各个环节管理界限不清、流程不畅等问题,建立了一个一站式的推荐系统智能平台,对涉及到的样本工程、特征计算、模型训练、线上预测等模块进行统一管理和智能调配,保证推荐系统的工作质量,提高系统的稳定性和鲁棒性。线上线下是一套特征,对模型的统一管理,可以保证特征和模型的统一性,并且实时更新,保证能够提供迭代后的最新模型,提供更好的服务效果。43.以上描述了本发明优选实施方式,然其并非用以限定本发明。本领域技术人员对在此公开的实施方案可进行并不偏离本发明范畴和精神的改进和变化。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部