计算;推算;计数设备的制造及其应用技术1.本技术涉及计算机技术领域,尤其涉及一种面向知识感知推荐的知识图谱构建方法。背景技术:2.近几十年,随着互联网的快速发展,互联网上的数据成倍增长,过大的信息量引起信息超载问题,用户很难从海量数据中轻松挑选出他们感兴趣的内容。为了解决信息超载问题,改善用户体验,推荐系统已被应用于各种在线应用的场景,如:音乐推荐、电影推荐、新闻推荐、在线购物等。可以说,几乎所有提供内容的互联网服务都涉及到推荐系统的应用。3.推荐算法是推荐系统的核心部分,根据推荐算法原理的不同,推荐系统主要分为三种:基于协同过滤的推荐系统、基于内容的推荐系统和混合型推荐系统。4.1)基于协同过滤的推荐系统:主要利用交互数据中的用户或项目的相似性对用户偏好进行建模。5.2)基于内容的推荐系统:通过内容分析抽取项目的特征用于计算相似度。6.其中,基于协同过滤的推荐系统由于不需要人工提取特征,因而获得广泛应用。7.尽管协同过滤算法在实际应用与学术研究领域都取得了诸多成果,但仍然面临一些挑战,如:数据稀疏性、冷启动问题。为了解决这些问题,混合型推荐系统被提出,它在协同过滤的基础上引入“边信息”,从而同时利用交互层与内容层的相似性,结合以上两种推荐系统的优势。近年来,混合型推荐系统已经探索了多种类型的边信息,如:项目属性、项目评论以及用户的社交网络等。8.随着知识图谱在信息检索、知识问答、人工智能等多个领域的广泛应用,将知识图谱作为边信息引入推荐系统的方法逐渐成为研究热点。这种方法不仅可以缓解上述诸多问题,提升推荐系统的准确性,还可以为推荐的项目提供推荐解释,实现可解释推荐服务,增强用户对推荐结果的认可度。这类利用知识图谱中的信息进行用户偏好建模的混合型推荐系统,被称为知识感知推荐系统。9.知识感知推荐系统需要深入挖掘、利用知识图谱中的项目相关信息来建模用户偏好,知识图谱本身的质量很大程度上决定了推荐系统的推荐性能。因此,在知识感知推荐系统的实现过程中,一个关键的问题就是数据问题,即如何获取丰富的、结构化的项目相关知识信息构建一个高质量的知识图谱。根据数据来源的不同,现有的知识感知推荐系统使用的知识图谱主要通过三种途径构建:一是使用原始推荐数据集中的边信息(通常仅包含少量有用信息);二是使用非开源的私人知识库,如微软的satori;三是利用推荐服务平台的非公开项目数据。经过广泛调研,目前尚未发现一种面向知识感知推荐的通用的知识图谱构建方法。10.现有技术一的技术方案11.与本发明相关的现有技术一即知识图谱。知识图谱是一种异构信息网络,其中的节点可以表示实体,边可以表示实体之间的关系。在用于推荐系统的知识图谱中,通常将项目及其相关属性作为实体,通过属性关系的连通性可以揭示不同项目之间的相互关系及高级语义关系。此外,一些研究者还将用户与用户的相关信息整合到知识图谱中,这种知识图谱可以直接探索用户与物品之间的关系,以捕获用户的偏好,被称为协同知识图谱(collaborative knowledge graph)。12.推荐系统中常用的知识图谱定义如下:13.g={(h,r,t)|h,t∈e,r∈r}14.其中,e和r分别表示知识图谱中的实体集和关系集,三元组(h,r,t)则表示头实体h与尾实体t之间存在着一种关系r。例如,在电影推荐领域,三元组(leonardo dicaprio,actorof,the great gatsby)表示一个事实:leonardo是电影《the great gatsby》的一名演员。显然,这条信息对于向leonardo的粉丝推荐这部电影可以起到决定性作用。15.协同知识图谱的定义与上述定义相似,只是在原有知识图谱中加入了用户实体和用户-项目之间的交互关系,从而将用户行为与项目知识整合在同一知识图谱中,其定义如下:16.g={(h,r,t)|h,t∈e’,r∈r’},e’=e∪u,r’=r∪{interact}17.其中u表示用户实体集,e表示其他类型实体集(项目及项目属性);r表示项目关系,interact表示用户-项目实体之间的交互关系。图1展示了一个电影推荐领域的协同知识图谱实例,最左侧的watched关系即用户-项目交互关系。通过该知识图谱中的用户社交信息与项目属性信息,推荐系统可以为目标用户bob推荐图中右侧的两部电影。18.现有技术一的缺点19.目前一些推荐系统所使用的知识图谱包含的知识还不够丰富,实体的平均三元组密度较低、关系类型较少,且关系质量差,如:存在双向同义关系、不相关甚至无语义的关系。显然,这类关系及其相关三元组对于推荐系统的推荐决策过程是无效的,大量的无效信息在知识图谱中引入噪声,将严重干扰推荐系统对用户偏好的建模,降低推荐系统的准确性。20.与本发明相关的现有技术二21.现有技术二的技术方案22.现有的用于推荐系统的知识图谱构建方法主要可以分为两类:23.1)利用原始推荐服务平台或者推荐数据集的项目相关数据来收集边信息,构建针对该推荐场景的小型结构化知识库,最后再根据实验数据集构建知识图谱。24.2)将推荐数据集与私人知识库建立链接,迭代抽取三元组构建知识图谱。25.第一类方法属于构建知识图谱的通用方法,并不仅针对推荐系统。该方法的主要工作流程包括:信息抽取、知识抽取、知识融合、知识加工等。其中,信息抽取是一种从半结构化或无非结构化数据中抽取实体、关系以及实体属性等结构化信息的技术,也是知识图谱构建的第一步。知识抽取是将抽取到的信息转化为结构化知识的形式,如rdf数据。知识融合包括实体链接、知识合并,它将以上步骤获得实体、关系及实体属性整合在同一个知识库中,消除歧义,获得一系列基本事实,从而实现对实体的完善描述。知识加工是指在知识融合的基础上,对事实做进一步加工,使之成为结构化、网络化的知识,这部分工作包括:本体构建、知识推理以及质量评估等。26.第二类方法基于已有的知识库构建知识图谱,本质上是一个知识抽取的过程,因此,相较于第一类方法更为简单快捷,工作量小。以经典的知识感知推荐模型ripplenet为例,它利用微软的satori知识库构建了三个不同推荐领域的知识图谱,具体流程如下:27.1)针对不同的推荐领域,从整个知识库中抽取关系名称包含特定领域关键词的三元组,例如,对于电影数据集movielens-1m则抽取包含“电影”的关系名称。筛选置信度大于0.9的三元组,构成三元组子集。28.2)在当前三元组子集中,通过将项目名称与特定三元组的尾实体相匹配的方式来收集所有有效的项目id。例如,电影数据集的三元组形如(head,film.film.name,tail),图书数据集则使用三元组(head,book.book.title,tail)。为了简单起见,该过程中未匹配或存在多个匹配实体的项目被直接舍弃。29.3)使用上述步骤获得的有效项目id与知识库中所有三元组的头实体、尾实体进行匹配,抽取出匹配良好的三元组,构成新的子图,反复扩展实体集,直至四跳。30.现有技术二的缺点31.第一类方法需要从大量非结构化数据中进行信息抽取,通过知识融合、加工等步骤构建知识图谱,工作量大,且仅适用于当前推荐数据集,不具备通用性。第二类方法由已有的知识库中获取结构化知识,方便快捷,但严重依赖于原有知识库,且这类方法使用的私人知识库通常仅在公司内部使用,普通用户无法接触到。技术实现要素:32.基于以上研究缺点,本发明旨在利用一个开源知识库链接数据集kb4rec,将三个不同推荐领域的广泛使用的推荐数据集与开放领域知识图谱进行链接,实现项目-实体之间的映射,并根据映射关系从开放领域知识图谱中迭代抽取三元组,经过实体筛选、关系筛选等处理,构建一个面向知识感知推荐的联系增强的知识图谱。33.本发明的数据来源主要包括:推荐数据集与开放领域知识图谱。其中,推荐数据集是一种从真实的互联网推荐服务平台获取的、用于推荐系统离线测试实验的数据集,通常主要包含:用户交互数据、项目基本属性信息以及少量用户个人信息。其中,用户交互数据是推荐数据集的主体,一般使用(用户id,项目id,交互数据值)的三元组形式存储。根据数据来源的不同,用户交互数据值也有所不同。如电影推荐数据集中,交互数据通常是用户给出的显式评分;电商推荐数据集中,除了用户显式评分,交互数据还可能包括用户点击、浏览某商品的操作(也称为隐式评分);而音乐推荐数据集中,用户交互数据可以是用户收听歌曲的总次数。开放领域知识图谱是一种规模庞大、同时涵盖多个领域知识的知识图谱,也被称为知识库。常见的开放领域知识图谱一般由百科网站的数据构建,包括:freebase、dbpedia、yago等。由于开放领域知识图谱整合了多领域的结构化知识,它的实际应用领域非常广泛,包括信息检索、智能问答、智能推荐等。34.为实现本发明的发明目的,本发明提供的技术方案是:一种面向知识感知推荐的知识图谱构建方法,通过链接开放领域知识图谱与推荐数据集的方式快速构建面向知识感知推荐的知识图谱,包括以下步骤:35.步骤1),通过推荐数据集获取用户交互数据;针对多领域通用推荐,所述的推荐数据集为包含电影、音乐、电商三个不同推荐领域的常用数据集。通过三个热门推荐领域的开源推荐数据集获取用户的真实交互数据,所述的电影领域的数据集为movielens-20m数据集,所述的音乐领域的数据集为last.fm-1b数据集,所述的电商领域的数据集为amazon-book数据集。36.步骤2),从步骤1)中的原始推荐数据集采样获得子数据集,再经过以下三个步骤获得用于构建知识图谱的二元评分数据集:37.步骤2.1),k-core提取:仅保留交互记录大于k的用户及项目;38.步骤2.2),交互密度控制:使交互密度在人为控制的范围内;39.步骤2.3),评分二元化:通过人为设置评分阈值的方式将原始数据二元化,若原始评分大于等于阈值,则二元评分为1,否则为0;40.步骤3),由二元评分数据集中提取出项目集;41.步骤4),利用开源知识库链接数据集kb4rec,将推荐数据集中的项目与开放领域知识图谱中的实体进行链接,实现项目-实体之间的映射;42.步骤5),根据步骤4)得出的映射关系从开放领域知识图谱freebase中,以项目实体作为初始种子集迭代的抽取三元组,此为迭代的三元组抽取算法;43.步骤6),经过人工筛选有效关系、低频实体过滤处理,构建了一个面向知识感知推荐的联系增强的知识图谱。44.本发明提出的进一步的优选技术方案为:45.所述的步骤5)中,迭代的三元组抽取算法的抽取三元组的步骤为:46.步骤5.1),从二元评分数据集中提取项目集;47.步骤5.2),将项目集中的项目与通用知识图谱中的实体进行链接;48.步骤5.3),根据项目-实体链接关系,使用项目集作为种子集从开放领域知识图谱中抽取三元组,构成子图;49.步骤5.4),提取子图中的实体集作为新的种子集,从开放领域知识图谱中继续抽取三元组以扩充子图;50.步骤5.5),根据k-core原则过滤低频实体相关的三元组,构成联系增强的知识图谱。51.本发明的有益效果是:52.本发明利用开源知识库链接数据集kb4rec,将推荐数据集中的项目与开放领域知识图谱中的实体进行链接,实现项目-实体之间的映射,并根据映射关系从开放领域知识图谱中迭代抽取三元组,经过实体筛选、关系筛选等处理,构建一个面向知识感知推荐的联系增强的知识图谱。本部分工作面对推荐数据集中缺少丰富的项目相关信息,而推荐服务平台或其他互联网应用上的非结构化数据又不易进行知识抽取的背景,解决了通用的知识图谱构建方法工作量大、私人知识库无法获取的问题,使推荐系统能够利用大型开源知识图谱中的知识来提升推荐效果。53.同时,本发明通过人工筛选关系类型、过滤低频实体以及交互密度控制等手段,解决了知识图谱关系质量差、三元组不够丰富、数据的交互密度低等问题,保证了知识图谱中的项目属性关系与用户交互信息的质量。54.此外,本发明还实现了实体-名称之间的映射,为可解释推荐服务中的文本解释生成提供了数据基础。55.本文中缩略语和关键术语定义:56.知识图谱(knowledge graph):本质上,知识图谱是用于描述真实世界中存在的各种实体或概念及其关系的语义网络图,图中的节点表示实体或概念,边则表示属性或关系。“两点一边”构成的三元组可以作为实体之间关系的一种表示形式,例如(头实体,关系,尾实体),或者(实体,属性,属性值)。57.实体:指的是具有可区分性且独立存在的某种事物,是知识图谱中最基本的元素。58.推荐系统:是一种信息过滤系统,利用推荐算法建模用户偏好,向用户提供其可能感兴趣的产品及信息,以帮助用户做出决策。59.项目:在推荐服务过程中提供给用户作为推荐建议的产品。60.特征:数据的一种表示方式。项目特征是指将推荐系统中的项目表示为一个或多个特征向量,特征向量即特征。特征可以表示项目的一些独立、可区分的信息,如:电影项目的导演、演员等。61.交互数据:推荐服务平台的用户与项目之间进行交互所产生的数据,如:电商用户的评分、点击操作,音乐播放平台上用户收听某歌曲的次数。62.可解释推荐:是指推荐系统为用户或研究人员提供推荐结果的同时,还能够提供相应的推荐解释以阐明为什么推荐该项目。附图说明63.图1为背景技术中现有技术1的示意图;64.图2为本发明的一种面向知识感知推荐的知识图谱构建方法的流程图。具体实施方式65.下面将结合附图对本技术实施例中的技术方案进行清楚、完整地描述。66.图2为本发明的一种面向知识感知推荐的知识图谱构建方法的流程图,如图2所示出的,本发明一种面向知识感知推荐的知识图谱构建方法,针对三个不同领域的推荐数据集构建知识图谱,将其作为边信息引入知识感知推荐系统,以提升推荐系统的准确性与可解释性,具体步骤如下:67.步骤1),通过推荐数据集获取用户交互数据。本发明选取了包含电影、音乐、电商(本实施例选取图书领域)三个不同推荐领域的常用数据集:movielens-20m、last.fm-1b和amazon-book数据集。这三个数据集的原始交互数据统计结果如下表所示:[0068][0069]步骤2),由于原始数据集的数据量过于庞大,本发明从从步骤1)中的原始数据集采样获得子数据集,再经过以下三个步骤获得用于构建知识图谱的二元评分数据集:[0070]步骤2.1),k-core提取:仅保留交互记录大于k的用户及项目。[0071]步骤2.2),交互密度控制:交互密度是指数据集中每个用户的平均交互项目数量。本发明通过在一定时间跨度内采样交互数据、舍弃低频用户等操作,使交互密度在人为控制的合适范围内。[0072]步骤2.3),评分二元化:由于原始交互数据是显式评分,但多数基于深度学习技术的推荐模型需要使用二元数据样本进行训练,因此需要将原始评分数据转化为二元数据,即0或1(0表示用户未观察到此项目;1表示用户与该项目存在正交互)。具体来讲,本发明通过人为设置评分阈值的方式将原始数据二元化,若原始评分大于等于阈值,则二元评分为1,否则为0。[0073]步骤3),由二元评分数据集中提取出项目集;[0074]步骤4),利用开源知识库链接数据集kb4rec,将推荐数据集中的项目与开放领域知识图谱中的实体进行链接,实现项目-实体之间的映射;[0075]步骤5),根据步骤4)得出的映射关系从开放领域知识图谱freebase中,以项目实体作为初始种子集迭代的抽取三元组;[0076]抽取三元组的步骤为:[0077]步骤5.1),从二元评分数据集中提取项目集;[0078]步骤5.2),将项目集中的项目与通用知识图谱中的实体进行链接;[0079]步骤5.3),根据项目-实体链接关系,使用项目集作为种子集从开放领域知识图谱中抽取三元组,构成子图;[0080]步骤5.4),提取子图中的实体集作为新的种子集,从开放领域知识图谱中继续抽取三元组以扩充子图;[0081]步骤5.5),根据k-core原则过滤低频实体相关的三元组,构成联系增强的知识图谱。[0082]步骤6),经过人工筛选有效关系、低频实体过滤步骤,最终构建完成的知识图谱具备明确的关系类型和较高的三元组密度,蕴含了丰富准确的项目相关知识,为知识感知推荐系统提供了有力的数据支撑。[0083]下表展示了本发明为三个推荐数据集构建的知识图谱的统计信息:[0084][0085][0086]经过以上说明,本发明总体来说,具有以下特性:[0087]1)项目-实体链接:本发明基于kb4rec数据集获取推荐数据集与开放领域知识图谱freebase之间的项目-实体链接关系,从而构建联系增强的知识图谱,提供了一种将用户交互信息与项目属性信息整合起来的思路。[0088]2)三元组抽取算法:本发明根据项目-实体链接关系,将项目映射为开放领域知识图谱中的实体,从而在开放领域知识图谱中迭代地抽取相关三元组,提出了一种从已有的结构化知识中快速构建用于推荐系统的知识图谱的三元组抽取算法。[0089]3)联系增强的知识图谱:不同于其他自动化构建知识图谱的方法,本发明提出的面向知识感知推荐的知识图谱构建方法为了保证知识图谱的有效性,通过实体、项目过滤以及人工筛选等手段,最大程度地保证知识图谱中知识地丰富性和准确性,便于推荐系统利用知识图谱中地有效信息建模用户与项目之间的联系,从而提升推荐系统的性能。[0090]所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
一种面向知识感知推荐的知识图谱构建方法
作者:admin
2022-08-19 22:07:47
998
关键词:
计算;推算;计数设备的制造及其应用技术
专利技术
- 下一篇: 一种复杂节点和带复杂节点钢柱的制作方法
- 上一篇: 孔板封膜机及封膜方法与流程