发布信息

一种用户群体的识别方法及装置、电子设备、存储介质与流程

作者:admin      2022-08-31 14:04:00     665



计算;推算;计数设备的制造及其应用技术1.本技术涉及用户识别技术领域,特别涉及一种用户群体的识别方法及装置、电子设备、存储介质。背景技术:2.随着自媒体的不断发展,网络上的言论等行为对于人们的影响也越来越大。而部分人为了自己的利益,会有意雇佣大量的用户或者申请大量的账户,在网络上对某一内容进行评论、点赞等行为,而这些用户通常称为水军。而水军在网络上的这些有意行为,会严重影响网络环境,因此对水军的识别是一项尤为重要的工作。3.当前对于水军用户的识别,主要通过用户的特征属性,例如,账号、注册时间、粉丝关注比等,构建综合因子,然后基于综合因子分别对每个用户进行分析,从而筛选出属于水军的用户。或者是直接通过聚类算法,获取到水军用户群体。4.但是,当前水军用户的伪装性与正常化越来越高,所以水军用户在特征上与正常用户的区别越来越小,因此现有的方式识别的准确率也越来越低。技术实现要素:5.基于上述现有技术的不足,本技术提供了一种用户群体的识别方法及装置、电子设备、存储介质,以解决现有技术对水军用户识别准确率较低的问题。6.为了实现上述目的,本技术提供了以下技术方案:7.本技术第一方面提供了一种用户群体的识别方法,包括:8.获取数据集;其中,所述数据集包括多个事务的项集;每个所述事务的项集中的每个节点对应参与所述事务的一个用户;9.将当前所述数据集中邻居节点数量最多的未处理的所述节点确定为当前核心节点;10.按照所述当前核心节点的目标集合中的各个节点的邻居节点数量从大到小的顺序,从所述当前核心节点出发,向所述当前核心节点的所述目标集合中的各个节点进行项集延伸,直至得到所有所述当前核心节点的频繁项集;其中,一个所述节点的目标集合包括所述节点的邻居节点中未处理的各个所述节点;所述当前核心节点的频繁项集为由所述当前核心点及其所述目标集合中的节点组成的,支持度不小于支持度阈值的项集;11.判断当前所述数据集中是否存在未处理的所述节点;其中,若判断出当前所述数据集中存在未处理的所述节点,则返回执行所述将当前所述数据集中邻居节点数量最多的未处理的所述节点确定为当前核心节点;12.若判断出当前所述数据集中不存在未处理的所述节点,则基于确定出的每个所述节点的频繁项集中节点数量最大的频繁项集,确定水军用户群体。13.可选地,在上述的用户群体的识别方法中,所述按照所述当前核心节点的目标集合中的各个节点的邻居节点数量从大到小的顺序,从所述当前核心节点出发,向所述当前核心节点的所述目标集合中的各个节点进行项集延伸,直至得到所有所述当前核心节点的频繁项集,包括:14.初始化所述当前核心节点的n项集;其中,所述n项集表示节点数量为n的项集;所述当前核心节点的n项集初始仅包括所述当前核心节点;15.判断是否存在当前的所述当前核心节点的n项集对应的当前目标节点;其中,当前的所述当前核心节点的n项集对应的当前目标节点指代在当前的所述当前核心节点的n项集中的各个节点的目标集合的交集中未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点中,邻居节点数量最多的节点;16.若判断出存在当前的所述当前核心节点的n项集对应的目标节点,则将当前的所述当前核心节点的n项集与其对应的所述当前目标节点组合,得到当前的所述当前核心节点的n+1项集;17.将n加一;18.判断最新得到当前的所述当前核心节点的n项集的支持度是否满足支持度阈值;19.若判断出最新得到当前的所述当前核心节点的n项集的支持度满足支持度阈值,则将当前的所述当前核心节点的n项集,确定为所述当前核心节点的频繁项集,并返回执行所述判断是否存在当前的所述当前核心节点的n项集对应的当前目标节点;20.若判断出不存在当前的所述当前核心节点的n项集对应的当前目标节点,或判断出最新得到当前的所述当前核心节点的n项集的支持度不满足支持度阈值,则将n减一;21.判断当前的n是否为零;其中,若判断出当前的n不为零,则返回执行所述判断是否存在当前的所述当前核心节点的n项集对应的当前目标节点;22.若判断当前的n是否为零,确定已得到所有所述当前核心节点的频繁项集。23.可选地,在上述的用户群体的识别方法中,所述判断是否存在当前的所述当前核心节点的n项集对应的当前目标节点,包括:24.将所述当前核心节点的n项集中邻居节点数量最少的节点确定为当前第一节点;25.依次遍历所述当前第一节点的所述目标集合中的每个节点,确定出同时为所述当前核心节点的n项集的各个节点的邻居节点的公共节点;26.判断各个所述公共节点中是否存在未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点的目标公共节点;27.若判断出各个所述公共节点中不存在未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点的目标公共节点,则确定不存在当前的所述当前核心节点的n项集对应的当前目标节点;28.若判断出各个所述公共节点中存在未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点的目标公共节点,则确定存在当前的所述当前核心节点的n项集对应的当前目标节点;其中,邻居节点数量最多的所述公共节点为当前的所述当前核心节点的n项集对应的当前目标节点。29.可选地,在上述的用户群体的识别方法中,所述获取数据集之后,还包括:30.分别针对所述数据集中的每个节点,筛选出所述节点对应的目标事务项集;其中,所述节点对应的目标事务项集指代包括所述节点的各个所述事务的项集中,节点数最多的项集;31.将所述节点对应的目标事务项集中除所述节点外的各个节点确定为所述节点的邻居节点,并确定所述节点的邻居节点的数量;32.将邻居节点的数量小于所述支持度阈值的各个所述节点从所述数据集中剔除;33.生成每个节点的列表数据;其中,所述节点的列表数据包括所述节点、以及所述节点的各个邻居节点以及邻居节点数量;34.将各个所述节点的列表数据按照其中的邻居节点的数量,从大到小的顺序进行排序。35.可选地,在上述的用户群体的识别方法中,所述基于确定出的每个所述节点的频繁项集中节点数量最大的频繁项集,确定水军用户群体,包括:36.利用预先构建的模型计算每两个所述节点的最大频繁项集之间的相似度;其中,所述节点的最大频繁项集指代所述节点的频繁项集中节点数量最大的频繁项集;37.将相似度大于预设相似度阈值的所述节点的最大频繁项集进行合并处理;38.分别将属于同一所述最大频繁项集中的各个节点对应的用户划分一个所述水军用户群体。39.本技术第二方面提供了一种用户群体的识别装置,包括:40.数据获取单元,用于获取数据集;其中,所述数据集包括多个事务的项集;每个所述事务的项集中的每个节点对应参与所述事务的一个用户;41.核心节点确定单元,用于将当前所述数据集中邻居节点数量最多的未处理的所述节点确定为当前核心节点;42.延伸单元,用于按照所述当前核心节点的目标集合中的各个节点的邻居节点数量从大到小的顺序,从所述当前核心节点出发,向所述当前核心节点的所述目标集合中的各个节点进行项集延伸,直至得到所有所述当前核心节点的频繁项集;其中,一个所述节点的目标集合包括所述节点的邻居节点中未处理的各个所述节点;所述当前核心节点的频繁项集为由所述当前核心点及其所述目标集合中的节点组成的,支持度不小于支持度阈值的项集;43.第一判断单元,用于判断当前所述数据集中是否存在未处理的所述节点;其中,若判断出当前所述数据集中存在未处理的所述节点,则返回所述核心节点确定单元执行所述将当前所述数据集中邻居节点数量最多的未处理的所述节点确定为当前核心节点;44.用户群体确定单元,用于在判断出当前所述数据集中不存在未处理的所述节点时,基于确定出的每个所述节点的频繁项集中节点数量最大的频繁项集,确定水军用户群体。45.可选地,在上述的用户群体的识别装置中,所述延伸单元,包括:46.初始化单元,用于初始化所述当前核心节点的n项集;其中,所述n项集表示节点数量为n的项集;所述当前核心节点的n项集初始仅包括所述当前核心节点;47.第二判断单元,用于判断是否存在当前的所述当前核心节点的n项集对应的当前目标节点;其中,当前的所述当前核心节点的n项集对应的当前目标节点指代在当前的所述当前核心节点的n项集中的各个节点的目标集合的交集中未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点中,邻居节点数量最多的节点;48.组合单元,用于在判断出存在当前的所述当前核心节点的n项集对应的目标节点时,将当前的所述当前核心节点的n项集与其对应的所述当前目标节点组合,得到当前的所述当前核心节点的n+1项集;49.递增单元,用于将n加一;50.第三判断单元,用于判断最新得到当前的所述当前核心节点的n项集的支持度是否满足支持度阈值;51.频繁项集确定单元,用于在判断出最新得到当前的所述当前核心节点的n项集的支持度满足支持度阈值时,将当前的所述当前核心节点的n项集,确定为所述当前核心节点的频繁项集,并返回执行所述判断是否存在当前的所述当前核心节点的n项集对应的当前目标节点;52.递减单元,用于在判断出不存在当前的所述当前核心节点的n项集对应的当前目标节点,或判断出最新得到当前的所述当前核心节点的n项集的支持度不满足支持度阈值时,将n减一;53.第四判断单元,用于判断当前的n是否为零;其中,若判断出当前的n不为零,则返回所述第二判断单元执行所述判断是否存在当前的所述当前核心节点的n项集对应的当前目标节点;54.结束单元,用于在判断当前的n是否为零,确定已得到所有所述当前核心节点的频繁项集。55.可选地,在上述的用户群体的识别装置中,所述第二判断单元,包括:56.第一节点确定单元,用于将所述当前核心节点的n项集中邻居节点数量最少的节点确定为当前第一节点;57.公共节点确定单元,用于依次遍历所述当前第一节点的所述目标集合中的每个节点,确定出同时为所述当前核心节点的n项集的各个节点的邻居节点的公共节点;58.第五判断单元,用于判断各个所述公共节点中是否存在未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点的目标公共节点;59.第一结果确定单元,用于在判断出各个所述公共节点中不存在未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点的目标公共节点时,确定不存在当前的所述当前核心节点的n项集对应的当前目标节点;60.第二结果确定单元,用于在判断出各个所述公共节点中存在未组合过包括自身以及当前的所述当前核心节点的n项集中的各个节点的项集的节点的目标公共节点时,确定存在当前的所述当前核心节点的n项集对应的当前目标节点;其中,邻居节点数量最多的所述公共节点为当前的所述当前核心节点的n项集对应的当前目标节点。61.可选地,在上述的用户群体的识别装置中,还包括:62.筛选单元,用于分别针对所述数据集中的每个节点,筛选出所述节点对应的目标事务项集;其中,所述节点对应的目标事务项集指代包括所述节点的各个所述事务的项集中,节点数最多的项集;63.邻居节点确定单元,用于将所述节点对应的目标事务项集中除所述节点外的各个节点确定为所述节点的邻居节点,并确定所述节点的邻居节点的数量;64.剔除单元,用于将邻居节点的数量小于所述支持度阈值的各个所述节点从所述数据集中剔除;65.生成单元,用于生成每个节点的列表数据;其中,所述节点的列表数据包括所述节点、以及所述节点的各个邻居节点以及邻居节点数量;66.排序单元,用于将各个所述节点的列表数据按照其中的邻居节点的数量,从大到小的顺序进行排序。67.可选地,在上述的用户群体的识别装置中,所述用户群体确定单元,包括:68.相似度计算单元,用于利用预先构建的模型计算每两个所述节点的最大频繁项集之间的相似度;其中,所述节点的最大频繁项集指代所述节点的频繁项集中节点数量最大的频繁项集;69.合并单元,用于将相似度大于预设相似度阈值的所述节点的最大频繁项集进行合并处理;70.群体划分单元,用于分别将属于同一所述最大频繁项集中的各个节点对应的用户划分一个所述水军用户群体。71.本技术第三方提供了一种电子设备,包括:72.存储器和处理器;73.其中,所述存储器用于存储程序;74.所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的用户群体的识别方法。75.本技术第四方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的用户群体的识别方法。76.本技术提供了一种用户群体的识别方法,通过获取数据集。其中,数据集包括多个事务的项集,每个事务的项集中的每个节点对应参与事务的一个用户。将当前所述数据集中邻居节点数量最多的未处理的节点确定为当前核心节点,并按照当前核心节点的目标集合中的各个节点的邻居节点数量从大到小的顺序,从当前核心节点出发,向当前核心节点的目标集合中的各个节点进行项集延伸,直至得到所有当前核心节点的频繁项集。其中,一个节点的目标集合包括节点的邻居节点中未处理的各个所述节点,从而可以不需要对遍历过的项集进行重复处理,有效提高了处理的效率。然后,判断当前数据集中是否存在未处理的节点。若判断出当前数据集中存在未处理的所述节点,则返回将新的节点确定为当前核心节点。若判断出当前数据集中不存在未处理的节点,说明已处理完。由于当前核心节点的频繁项集为由当前核心点及其目标集合中的节点组成的,支持度不小于支持度阈值的项集,而水军用户群体会频繁参与同一事务,所以最后可以基于确定出的每个所述节点的频繁项集中节点数量最大的频繁项集,确定出水军用户群体。从而利用水军用户群体会频繁参与同一事务的特性,通过确定出频繁项集来识别出水军用户群体,不需要再采用用户特征属性,有效提高了识别的准确性。附图说明77.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。78.图1为本技术实施例提供的一种用户群体的识别方法的流程图;79.图2为本技术实施例提供的一种数据集预处理的方法的流程图;80.图3为本技术实施例提供的一种当前核心节点延伸的方法的流程图;81.图4为本技术实施例提供的一种判断是否存在当前的当前核心节点的n项集对应的当前目标节点的方法的流程图;82.图5为本技术实施例提供的一种确定水军用户群体的方法的流程图;83.图6为本技术实施例提供的一种用户群体的识别装置的结构示意图;84.图7为本技术实施例提供的一种电子设备的结构示意图。具体实施方式85.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。86.在本技术中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。87.本技术实施例提供了一种用户群体的识别方法,如图1所示,具体包括以下步骤:88.s101、获取数据集。89.其中,项集指的节点项或者元素项的集合,该集合中包含有多少个节点,则为相应数量的项集,即若项集s中存在n个单元素,则s就叫做n项集。数据集包括多个事务的项集,即每个事务存一个对应的项集,并且每个事务对应的项集由多个节点组成中,并且项集中的每个节点对应参与事务的一个用户。例如,获取的数据集中包括四个事务,事务1的项集包括:a、c、d;事务2的项集包括:b、c、e;事务3的项集包括:a、b、c、e;事务4的项集包括:b、e。90.可选地,对于事务的类型以及事务的范围等,可以根据需求进行设定,例如,可以是选择对一篇文章评论、点赞等,也可以选择更小范围的事务,如一篇文章下的某一评论下的各条回复评论等。91.可选地,为了便于后续更好的进行处理,有效提供处理的效率,因此在本技术另一实施例中,在执行步骤s101之后,还进一步对数据集进行预处理。如图2所示,本技术实施例提供的一种数据集预处理的方法,包括:92.s201、分别针对数据集中的每个节点,筛选出该节点对应的目标事务项集。93.其中,节点对应的目标事务项集指代包括节点的各个事务的项集中,节点数最多的项集。例如,对于上述的例子的数据集,事务1和事务3的项集都包含用户a,但事务3的项集中的节点数量更多,所以事务3为节点a。94.s202、将该节点对应的目标事务项集中除节点外的各个节点确定为该节点的邻居节点,并确定该节点的邻居节点的数量。95.s203、将邻居节点的数量小于支持度阈值的各个节点从数据集中剔除。96.其中,支持度指的是一个项集在所有项集中的占比。而对于一个节点的支持度,则是出现该节点的项集与所有项集的比值。所以通过支持度可以填写出某一个项集的出现概率,是不是小概率的事件。97.对于一个节点,若是其邻居节点的数量小于支持度阈值,则说明对该节点无论怎么进行扩展,所得到的项集都不会满足支持度阈值,而后续需要的是满足支持度阈值的项集,因此可以将其进行剔除,从而减少后续的工作量。98.s204、生成每个节点的列表数据。99.其中,节点的列表数据包括节点、以及节点的各个邻居节点以及邻居节点数量。100.由于后续需要对各个节点进行扩展,并且扩展过程中是扩展到节点的邻居节点,并且按照邻居节点数量进行扩展,因此预先生成每个节点的列表数据便于后续直接使用,提高处理效率。101.s205、将各个节点的列表数据按照其中的邻居节点的数量,从大到小的顺序进行排序。102.由于对于各个节点后续是按照节点的邻居节点的数量,从大到小进行处理的,所以在本技术实施例中预先进行了排序,便于后续使用。103.s102、将当前数据集中邻居节点数量最多的未处理的节点确定为当前核心节点。104.需要说明的是,在本技术实施例中,对一个节点的延伸,简单地不断理解就是从其邻居节点中,不断选取新节点共同组成项集,以判断构成的项集是否满足支持度阈值。105.而由于在本技术实施例中,是依次对每个节点进行延伸处理,而对于已经延伸过的项集,后续对另一个节点进行延伸时,就不需要再重复进行处理了,而邻居节点数量越多的节点,所延伸的范围越广,越容易得到满足要求的项集,并且后续节点需要延伸的范围越小。因此在本技术实施例中,是按照邻居节点数量从大到小的顺序,因此将各个节点确定为当前核心节点,并对其进行步骤s103。106.s103、按照当前核心节点的目标集合中的各个节点的邻居节点数量从大到小的顺序,从当前核心节点出发,向当前核心节点的所述目标集合中的各个节点进行项集延伸,直至得到所有该当前核心节点的频繁项集。107.其中,一个节点的目标集合包括节点的邻居节点中未处理的各个所述节点,由于处理过的节点已经进行过了全面延伸,为了避免在对当前核心节点就进行延伸时,又重复延伸到包括处理过的节点的项集,因此目标集合中不包括有已处理过的节点,即仅包括已经被作为当前核心节点处理过的节点,从而可以有效提高处理效率。108.当前核心节点的频繁项集为由当前核心点及其目标集合中的节点组成的,支持度不小于支持度阈值的项集,即当一个项集的支持度大于或等于支持度阈值时,则其为频繁项集。109.由于在本技术实施例中,是沿一条路径进行延伸,在无法延伸后,再返回对另一条路径进行延伸,所以与步骤s102同理,优先向邻居数量越多的节点进行延伸,越容易得到满足要求的项集,并且后续需要延伸的范围越小。因此,再针对一个当前核心节点进行延伸时,也同样按照目标集合中的各个节点的邻居节点数量从大到小的顺序进行延伸,直至延伸完所有邻居节点,得到直至得到所有的该当前核心节点的频繁项集。110.可选地,在本技术另一实施例中,步骤s103的一种具体实施方式,即当前核心节点延伸的方法,如图3所示,包括:111.s301、初始化当前核心节点的n项集。112.其中,n项集表示节点数量为n的项集。当前核心节点的n项集初始仅包括当前核心节点,也就是说初始化得到当前核心节点的n项集,为1项集。113.s302、判断是否存在当前的当前核心节点的n项集对应的当前目标节点。114.其中,当前的当前核心节点的n项集对应的当前目标节点指代在当前的当前核心节点的n项集中的各个节点的目标集合的交集中未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的节点中,邻居节点数量最多的节点。115.需要说明的是,对于一个n项集,在其往后延伸时,是向将该n项集中的各个节点的目标集合的交集中的节点延伸,即将该n项集中的各个节点的目标集合的交集中节点,增加到该n项集中,得到新的项集。116.并且,在本技术实施例中,是按照一条路径不断的进行延伸,当延伸完后,再逐级返回进行延伸,例如,向从a延伸到b,得到项集:a、b再延伸到两者的共有的邻居节点,并且往后不在存在可延伸的节点。则当延伸完a和b的公共节点后,会返回b所在层级延伸,例如,延伸到c,得到项集:a、c。117.并且对于已经组合得到过的项集,已经进行过判断,所以不需要再次进行处理,从而可以提供处理的效率,例如,在ab进行延伸时,已延伸到abc,则在对ac进行延伸时,由于b已经与ac组合过abc,所以不需要再延伸到b,即不需要延伸得到acb,因为abc与acb是相同的。118.因此需要判断是否存在未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的节点。若是存在这样的节点,需要向邻居节点数量最多的那个进行延伸,而若是不存在这样的节点了,也就不会存在对应的当前目标节点,即不需要再这一层级继续进行延伸。所以需要先执行步骤s302。119.判断出存在当前的当前核心节点的n项集对应的当前目标节点时,说明可以继续延伸到当前目标节点,所以此时执行步骤s303。若判断出存在当前的当前核心节点的n项集对应的当前目标节点时,说明不需要再向下层级进行延伸了,此时需要尝试在当前层级进行同层级延伸,因此此时执行步骤s307。120.可选地,在本技术另一实施例中,步骤s302的一种具体实施方式,如图4所示,包括以下步骤:121.s401、将当前核心节点的n项集中邻居节点数量最少的节点确定为当前第一节点。122.需要说明的是,对应的当前目标节点是当前核心节点的n项集中各个节点的邻居节点的交集,所以从邻居节点数量最少的节点的邻居节点中,可以更加快速地查找到当前目标节点,有效提供处理效率。因此在本技术实施例中,先确定出邻居节点数量最少的第一节点,然后执行步骤s402。123.s402、依次遍历当前第一节点的目标集合中的每个节点,确定出同时为当前核心节点的n项集的各个节点的邻居节点的公共节点。124.s403、判断各个公共节点中是否存在未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的目标公共节点。125.其中,若判断出不存在未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的目标公共节点,则执行步骤s404。若判断出存在未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的目标公共节点,则执行步骤s405。126.s404、确定不存在当前的当前核心节点的n项集对应的当前目标节点。127.s405、确定存在当前的当前核心节点的n项集对应的当前目标节点。128.其中,此时邻居节点数量最多的公共节点为当前的当前核心节点的n项集对应的当前目标节点。129.s303、将当前的当前核心节点的n项集与其对应的当前目标节点组合,得到当前的当前核心节点的n+1项集。130.由于存在对应的当前目标节点,所以想该当前目标节点进行延伸,将其归入项集中,从而得到是的项集的节点数增加了1,因此得到了当前核心节点的n+1项集。131.s304、将n加一。132.需要说明的是,由于后续需要对当前的当前核心节点的n+1项集进行判断和处理,所以将n进行加一,使得新的当前核心节点的n项集,即为之前的当前核心节点的n+1项集,以便于后续进行处理。如,n本来为2,经过步骤s303之后,当前核心节点的2项集延伸为当前的当前核心节点的2+1项集,所以n加1,就可以使得n变为3,从而使得n项集,变为3项集,即为2+1项集。133.s305、判断最新得到当前的当前核心节点的n项集的支持度是否满足支持度阈值。134.需要说明的是,对于当前核心节点的某一数量的项集,即可以得到多个,例如,对于3项集,当前核心节点的3项集可以存在多个,例如abc、abd等。所以步骤s305判断的是在刚刚执行步骤s303得到的项集,即最新得到当前的当前核心节点的n项集。135.其中,若判断出最新得到当前的当前核心节点的n项集的支持度满足支持度阈值,则执行步骤s306。136.由于一个项集不满足支持度阈值,则其在延伸后的项集,因为增加了节点,所以就更不可能满足支持度阈值,因此判断出最新得到当前的当前核心节点的n项集的支持度不满足支持度阈值时,则说明不需要再向后延伸了,而需要对同层级进行延伸。也就是说,不需要进一步尝试是否能生成n+1项集,而尝试是否能生成新的n项集,即从n-1项集延伸至新的n项集,因此此时执行步骤s307。137.s306、将当前的当前核心节点的n项集,确定为当前核心节点的频繁项集。138.需要说明的是,由于此时的n项集是满足支持度阈值的,所以需要进一步向后进行延伸,因此在执行步骤s306之后,需要返回执行s302。139.s307、将n减一。140.s308、判断当前的n是否为零。141.由于在判断出不存在当前的当前核心节点的n项集对应的当前目标节点,或判断出不满足支持度阈值都执行步骤s307,而n减一,意味着返回上一级,以尝试延伸到n,而最多只能返回到当前核心节点,即返回到1项集,以向2项集进行延伸,若是2项集都遍历完了,此时说明已经遍历完所有的邻居节点,而若此时进行n减一,n进行变为0。因此在本技术实施例中,在执行步骤s307之后,还需要执行步骤s308。142.也因此,若判断出当前的n不为零,则说明还没有遍历完当前核心节点的所有项集,所以此时返回执行步骤s302。若判断出当前的n为零,则执行步骤s309,以能接着执行步骤s104,对后续的节点进行处理。143.s309、确定已得到所有当前核心节点的频繁项集。144.s104、判断当前数据集中是否存在未处理的节点。145.其中,未处理的节点指的都是未将该节点作为当前核心节点执行过步骤s103的节点。146.其中,若判断出当前数据集中存在未处理的节点,则返回执行步骤s102。若判断出当前数据集中不存在未处理的节点,则说明已经处理完所有的节点,因此此时执行步骤s105。147.s105、基于确定出的每个节点的频繁项集中节点数量最大的频繁项集,确定水军用户群体。148.由于水军用户通常会参与同一事务,以扩大事件的影响范围,所以同一水军用户团体,会频繁地出现在同一事务的项集中,而这正与频繁项集相对应,因此可以通过频繁项集确定各个水军用户群体。149.而由于节点的节点数量最大的频繁项集会包含了节点数量小的频繁项集,所以在本技术实施例中,通过节点数量最大的频繁项集,确定水军用户群体。150.可选地,可以先确定出每个节点的频繁项集中节点数量最大的频繁项集,然后可以是将确定出的每个频繁项集分别确定为一个水军用户群体,又或者是根据需求采用预设策略对确定出的频繁项集进行合并或者筛选等,从而最终确定出各个水军用户群体。151.可选地,在本技术另一实施例中,步骤s105的一种具体实施方式,如图5所示,包括以下步骤:152.s501、利用预先构建的模型计算每两个节点的最大频繁项集之间的相似度。153.可选地,预先构建的模型可以是拟合算法模型,也可以是神经网络模型等。154.s502、将相似度大于预设相似度阈值的节点的最大频繁项集进行合并。155.需要说明的是,在合并过程中,并不仅限于两个最大频繁项集进行合并,也可以是多个最大频繁项集进行合并。并且可以是直接将多个最大频繁项集间合并,也可以是合并仅能时两两进行合并,并且在合并后,再对所有的项集返回执行步骤s501,直至不再存在相似度大于预设相似度阈值的节点的最大频繁项集。156.可选地,合并进行可以是将合并的最大频繁项集取并集,然后对所得到的项集进行去重。157.s503、分别将属于同一最大频繁项集中的各个节点对应用户划分一个水军用户群体。158.需要说明的是,在本技术实施例中,在进行合并后,无论对于进行过合并而保留下的最大频繁项集,还是未合并过的最大频繁项集,均将属于同一最大频繁项集中的各个节点对应用户划分一个水军用户群体。159.本技术实施提供了一种用户群体的识别方法,通过获取数据集。其中,数据集包括多个事务的项集,每个事务的项集中的每个节点对应参与事务的一个用户。将当前数据集中邻居节点数量最多的未处理的节点确定为当前核心节点,并按照当前核心节点的目标集合中的各个节点的邻居节点数量从大到小的顺序,从当前核心节点出发,向当前核心节点的目标集合中的各个节点进行项集延伸,直至得到所有当前核心节点的频繁项集。其中,一个节点的目标集合包括节点的邻居节点中未处理的各个节点,从而可以不需要对遍历过的项集进行重复处理,有效提高了处理的效率。然后,判断当前数据集中是否存在未处理的节点。若判断出当前数据集中存在未处理的节点,则返回将新的节点确定为当前核心节点。若判断出当前数据集中不存在未处理的节点,说明已处理完。由于当前核心节点的频繁项集为由当前核心点及其目标集合中的节点组成的,支持度不小于支持度阈值的项集,而水军用户群体会频繁参与同一事务,所以最后可以基于确定出的每个节点的频繁项集中节点数量最大的频繁项集,确定出水军用户群体。从而利用水军用户群体会频繁参与同一事务的特性,通过确定出频繁项集来识别出水军用户群体,不需要再采用用户特征属性,有效提高了识别的准确性。160.本技术另一实施例提供了一种用户群体的识别装置,如图6所示,包括:161.数据获取单元601,用于获取数据集。162.其中,数据集包括多个事务的项集。每个事务的项集中的每个节点对应参与事务的一个用户。163.核心节点确定单元602,用于将当前数据集中邻居节点数量最多的未处理的节点确定为当前核心节点。164.延伸单元603,用于按照当前核心节点的目标集合中的各个节点的邻居节点数量从大到小的顺序,从当前核心节点出发,向当前核心节点的目标集合中的各个节点进行项集延伸,直至得到所有当前核心节点的频繁项集。165.其中,一个节点的目标集合包括节点的邻居节点中未处理的各个节点。当前核心节点的频繁项集为由当前核心点及其目标集合中的节点组成的,支持度不小于支持度阈值的项集。166.第一判断单元604,用于判断当前数据集中是否存在未处理的节点。其中,若判断出当前数据集中存在未处理的节点,则返回核心节点确定单元602执行将当前数据集中邻居节点数量最多的未处理的节点确定为当前核心节点。167.用户群体确定单元605,用于在判断出当前数据集中不存在未处理的节点时,基于确定出的每个节点的频繁项集中节点数量最大的频繁项集,确定水军用户群体。168.可选地,本技术另一实施例提供的用户群体的识别装置中,延伸单元,包括:169.初始化单元,用于初始化当前核心节点的n项集。170.其中,n项集表示节点数量为n的项集。当前核心节点的n项集初始仅包括当前核心节点。171.第二判断单元,用于判断是否存在当前的当前核心节点的n项集对应的当前目标节点。172.其中,当前的当前核心节点的n项集对应的当前目标节点指代在当前的当前核心节点的n项集中的各个节点的目标集合的交集中未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的节点中,邻居节点数量最多的节点。173.组合单元,用于在判断出存在当前的当前核心节点的n项集对应的目标节点时,将当前的当前核心节点的n项集与其对应的当前目标节点组合,得到当前的当前核心节点的n+1项集。174.递增单元,用于将n加一。175.第三判断单元,用于判断最新得到当前的当前核心节点的n项集的支持度是否满足支持度阈值。176.频繁项集确定单元,用于在判断出最新得到当前的当前核心节点的n项集的支持度满足支持度阈值时,将当前的当前核心节点的n项集,确定为当前核心节点的频繁项集,并返回执行判断是否存在当前的当前核心节点的n项集对应的当前目标节点。177.递减单元,用于在判断出不存在当前的当前核心节点的n项集对应的当前目标节点,或判断出最新得到当前的当前核心节点的n项集的支持度不满足支持度阈值时,将n减一。178.第四判断单元,用于判断当前的n是否为零。其中,若判断出当前的n不为零,则返回第二判断单元执行判断是否存在当前的当前核心节点的n项集对应的当前目标节点。179.结束单元,用于在判断当前的n是否为零,确定已得到所有当前核心节点的频繁项集。180.可选地,本技术另一实施例提供的用户群体的识别装置中,第二判断单元,包括:181.第一节点确定单元,用于将当前核心节点的n项集中邻居节点数量最少的节点确定为当前第一节点。182.公共节点确定单元,用于依次遍历当前第一节点的目标集合中的每个节点,确定出同时为当前核心节点的n项集的各个节点的邻居节点的公共节点。183.第五判断单元,用于判断各个公共节点中是否存在未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的节点的目标公共节点。184.第一结果确定单元,用于在判断出各个公共节点中不存在未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的节点的目标公共节点时,确定不存在当前的当前核心节点的n项集对应的当前目标节点。185.第二结果确定单元,用于在判断出各个公共节点中存在未组合过包括自身以及当前的当前核心节点的n项集中的各个节点的项集的节点的目标公共节点时,确定存在当前的当前核心节点的n项集对应的当前目标节点。其中,邻居节点数量最多的公共节点为当前的当前核心节点的n项集对应的当前目标节点。186.可选地,本技术另一实施例提供的用户群体的识别装置中,还包括:187.筛选单元,用于分别针对数据集中的每个节点,筛选出节点对应的目标事务项集。其中,节点对应的目标事务项集指代包括节点的各个事务的项集中,节点数最多的项集。188.邻居节点确定单元,用于将节点对应的目标事务项集中除节点外的各个节点确定为节点的邻居节点,并确定节点的邻居节点的数量。189.剔除单元,用于将邻居节点的数量小于支持度阈值的各个节点从数据集中剔除。190.生成单元,用于生成每个节点的列表数据。其中,节点的列表数据包括节点、以及节点的各个邻居节点以及邻居节点数量。191.排序单元,用于将各个节点的列表数据按照其中的邻居节点的数量,从大到小的顺序进行排序。192.可选地,本技术另一实施例提供的用户群体的识别装置中,用户群体确定单元,包括:193.相似度计算单元,用于利用预先构建的模型计算每两个节点的最大频繁项集之间的相似度。其中,节点的最大频繁项集指代节点的频繁项集中节点数量最大的频繁项集。194.合并单元,用于将相似度大于预设相似度阈值的节点的最大频繁项集进行合并处理。195.群体划分单元,用于分别将属于同一最大频繁项集中的各个节点对应的用户划分一个水军用户群体。196.需要说明的是,本技术上述实施例提供的各个单元的具体工作过程,可相应地参考上述方法实施例中的相应的步骤,此处不再赘述。197.本技术另一实施例提供了一种电子设备,如图7所示,包括:198.存储器701和处理器702。199.其中,存储器701用于存储程序。200.处理器702用于执行存储器701存储的程序,并且该程序被执行时,具体用于实现如上述任意一个实施例提供的用户群体的识别方法。201.本技术另一实施例提供了一种计算机存储介质,用于存储计算机程序,该计算机程序被执行时,用于实现如上述任意一个实施例提供的用户群体的识别方法。202.计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。203.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。204.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部