发布信息

一种数据收集与处理的方法及装置与流程 专利技术说明

作者:admin      2023-06-29 11:03:53     446



电子通信装置的制造及其应用技术1.本发明属于数据处理技术领域,具体涉及一种数据收集与处理的方法及装置。背景技术:2.随着信息化时代的到来,信息技术正以其迅猛态势渗透于社会的方方面面。例如在数字电视机顶盒领域,用户在使用产品时根据用户行为产生的一系列数据,并且随着内容的越来越精细化与多元化,还有用户量的增多,每天所产生的埋点数据内容越来越多样化,数据量越来越庞大,因此就需要对多元化海量的数据进行处理。3.但是目前在面对多元化海量的数据的处理,没有一套统一与兼容性强的方法,每多一种比较特殊的埋点数据需求,就需要手动去编写一种处理方式,这样极大加大了人工成本。而在收集与处理数据的方式普遍采用的都是高成本堆服务器配置的方法,这对于大部分处于起步阶段的企业来说是无法承受的。技术实现要素:4.为了克服上述现有技术的缺陷,本发明提出了一种数据收集与处理的方法及装置,具有通用性强,成本低的优点,在减少人工成本与服务器资源的同时,也能够满足丰富的数据埋点需求。5.具体通过以下技术方案实现:6.一种数据收集与处理的方法,包括:7.将数据包发送至数据存储服务器,以通过数据存储服务器对数据包进行校验;8.将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台;9.基于开源流处理平台内的存储路径读取存储路径所对应的数据包,并对数据包进行数据解析和数据处理。10.在一个具体实施例中,数据包具有多个,每个数据包存储有对应的数据信息,不同的数据包对应存储有不同的数据信息;11.将数据包发送至数据存储服务器包括:基于不同的时间段将多个数据包分别发送至数据存储服务器。12.在一个具体实施例中,通过数据存储服务器对数据包进行校验包括:13.获取发送数据包的客户端的令牌信息,并判断令牌信息是否合法,14.若判断为令牌信息合法,则检验通过。15.在一个具体实施例中,将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台包括:16.将通过检验的数据包存储至共享文件存储盘;并且记录共享文件存储盘与数据存储服务器之间的存储路径;17.将数据包的存储路径写入开源流处理平台。18.在一个具体实施例中,基于开源流处理平台的存储路径读取所对应的数据包,以对数据包进行数据解析和数据处理包括:19.通过订阅开源流处理平台,以获取开源流处理平台内的数据包的存储路径,20.根据存储路径读取共享文件存储盘中对应的数据包,21.通过数据处理服务器对数据包进行数据解析和数据处理。22.在一个具体实施例中,将数据包发送至数据存储服务器之前包括:23.收集用户的各种数据;24.对各种数据进行分类并统一以gizp压缩包格式进行压缩打包,以获取多个数据包。25.一种数据收集与处理的装置,包括:26.检验模块,用于将数据包发送至数据存储服务器,以通过数据存储服务器对数据包进行校验;27.存储模块,用于将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台;28.数据处理模块,用于基于开源流处理平台内的存储路径读取存储路径所对应的数据包,并对数据包进行数据解析和数据处理。29.在一个具体实施例中,所述存储模块包括:30.数据包存储模块,用于将通过检验的数据包存储至共享文件存储盘;并且记录共享文件存储盘与数据存储服务器之间的存储路径;31.路径写入模块,用于将数据包的存储路径写入开源流处理平台。32.在一个具体实施例中,所述数据处理模块包括:33.订阅模块,用于通过订阅开源流处理平台,以获取开源流处理平台内的数据包的存储路径,34.读取模块,用于根据存储路径读取共享文件存储盘中对应的数据包,35.解析模块,用于通过数据处理服务器对数据包进行数据解析和数据处理。36.在一个具体实施例中,还包括:37.收集模块,用于收集用户的各种数据;38.打包模块,用于对各种数据进行分类并统一以gizp压缩包格式进行压缩打包,以获取多个数据包。39.本发明至少具有以下有益效果:40.本发明提供了一种数据收集与处理的方法及装置,该方法包括:将数据包发送至数据存储服务器,以通过数据存储服务器对数据包进行校验;将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台;基于开源流处理平台内的存储路径读取存储路径所对应的数据包,并对数据包进行数据解析和数据处理。本发明提供的数据收集与处理的方法及装置具有通用性强,成本低的优点,在减少人工成本与服务器资源的同时,也能够满足丰富的数据埋点需求。41.进一步的,数据包具有多个,每个数据包存储有对应的数据信息,不同的数据包对应存储有不同的数据信息;将数据包发送至数据存储服务器包括:基于不同的时间段将多个数据包分别发送至数据存储服务器。通过分时段发送多个数据包,分散传输以达到流量削峰的作用,从而提高数据存储服务器的稳定性。42.进一步的,将通过检验的数据包存储至共享文件存储盘;并且记录共享文件存储盘与数据存储服务器之间的存储路径;将数据包的存储路径写入开源流处理平台,实现存储性能高、延迟低、稳定性强,并且以上方法适用于海量数据处理。43.进一步的,将数据包发送至数据存储服务器之前包括:收集用户的各种数据;对各种数据进行分类并统一以gizp压缩包格式进行压缩打包,以获取多个数据包。通过将数据进行打包可以极大减少数据文件的体积,降低同等数据量所需要的服务器带宽,达到提高处理效率与降低成本的作用。附图说明44.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。45.图1为一种数据收集与处理的方法的流程图;46.图2为一种数据收集与处理的方法的第一示意图;47.图3为一种数据收集与处理的方法的第二示意图;48.图4为一种数据收集与处理的装置示意图。具体实施方式49.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。50.本发明提供了一种数据收集与处理的方法及装置,该方法包括:将数据包发送至数据存储服务器,以通过数据存储服务器对数据包进行校验;将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台;基于开源流处理平台内的存储路径读取存储路径所对应的数据包,并对数据包进行数据解析和数据处理。该装置包括:检验模块,用于将数据包发送至数据存储服务器,以通过数据存储服务器对数据包进行校验。存储模块,用于将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台。数据处理模块,用于基于开源流处理平台内的存储路径读取存储路径所对应的数据包,并对数据包进行数据解析和数据处理。51.与现有技术相比,本发明提供的数据收集与处理的方法及装置具有通用性强,成本低的优点,在减少人工成本与服务器资源的同时,也能够满足丰富的数据埋点需求。52.实施例153.如图1所示,本发明提供了一种数据收集与处理的方法,包括,54.s1:将数据包发送至数据存储服务器,以通过数据存储服务器对数据包进行校验;55.s2:将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台;56.s3:基于开源流处理平台内的存储路径读取存储路径所对应的数据包,并对数据包进行数据解析和数据处理。57.与现有技术相比,本发明提供的数据收集与处理的方法通过将数据包存储至共享文件存储盘,将存储路径写入开源流处理平台,并通过读取存储路径获取数据包进行处理,以满足大容量数据处理的需求。同时,通过上述方法收集处理数据,无需编写每一份数据包的处理方式,具有通用性强,成本低的优点。58.如图1-3所示,数据包具有多个,每个数据包存储有对应的数据信息,不同的数据包对应存储有不同的数据信息。将数据包发送至数据存储服务器包括:基于不同的时间段将多个数据包分别发送至数据存储服务器。通过分时段发送多个数据包,分散传输以达到流量削峰的作用,从而提高数据存储服务器的稳定性。59.s1通过数据存储服务器对数据包进行校验包括:获取发送数据包的客户端的令牌信息,并判断令牌信息是否合法;若判断为令牌信息合法,则检验通过,若判断为令牌信息不合法,则检验不通过。60.具体地,将数据包a、数据包b、数据包c按照不同的时间段发送到存储服务器。存储服务器依次接收数据包a、数据包b、数据包c,并且对数据包a、数据包b、数据包c依次校验。如果发送数据包a的客户端的令牌信息合法,则检验通过。如果发送数据包a的客户端的令牌信息不合法,则检验不通过。同理,还依次对发送数据包b的客户端的令牌信息以及发送数据包c的客户端的令牌信息进行校验。61.如图1-3所示,s2将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台包括:62.将通过检验的数据包存储至共享文件存储盘;并且记录共享文件存储盘与数据存储服务器之间的存储路径。将数据包的存储路径写入开源流处理平台。63.具体地,通过检验的数据包可以是一个或者多个,当数据包为多个时,多个数据包对应存储至共享文件存储盘的对应位置,并且记录每一个数据包在共享文件存储盘的对应位置与数据存储服务器之间的存储路径。其中,每一个数据包的存储路径都不相同,将每一个数据包的存储路径均写入开源流处理平台。通过上述方法可以处理大量的数据,并且延迟低、稳定性强。64.如图1-3所示,s3基于开源流处理平台的存储路径读取所对应的数据包,以对数据包进行数据解析和数据处理包括:65.通过订阅开源流处理平台,以获取开源流处理平台内的数据包的存储路径;根据存储路径读取共享文件存储盘中对应的数据包;通过数据处理服务器对数据包进行数据解析和数据处理。66.具体地,通过数据处理服务器订阅开源流处理平台,以获得开源流处理平台内的数据包的存储路径。存储在共享文件存储盘的数据包可以是一个或者多个,因此数据包对应的存储路径也可以是一个或者多个。例如,共享文件存储盘内存储有有三个数据包,分别为数据包a、数据包b、数据包c,对应的存储路径为存储路径a、存储路径b、存储路径c;若想要获取数据包a则需要通过存储路径a访问共享文件存储盘,并且读取共享文件存储盘中对应的数据包a;最后通过数据处理服务器对数据包a进行数据解析和数据处理。通过上述方法存储数据包、获取数据包,具有存储性能高、延迟低、稳定性强的优点,并且以上方法适用于海量数据处理。67.如图1-3所示,s1将数据包发送至数据存储服务器之前包括:68.收集用户的各种数据;对各种数据进行分类并统一以gizp压缩包格式进行压缩打包,以获取多个数据包。通过将数据进行打包可以极大减少数据文件的体积,降低同等数据量所需要的服务器带宽,达到提高处理效率与降低成本的作用。69.在本实施例中,该数据收集与处理的方法应用在数字电视机顶盒领域,为了了解分析用户的喜好,根据用户喜好推送相应的内容,则需要收集用户在使用产品时根据用户行为产生的一系列数据,将这一系列数据进行收集与处理。当获取到用户行为产生的一系列数据时,先将数据按照类别进行分类,例如按照频道播放时长、播放时间段、常看节目等进行分类。对不同类别的数据统一以gizp压缩包格式进行压缩打包,以获取多个数据包。通过将数据进行打包可以极大减少数据文件的体积,降低同等数据量所需要的服务器带宽,达到提高处理效率与降低成本的作用。70.通过上述数据收集与处理的方法可以适应多客户端、多场景的数据埋点需求。并且在单台4核8g 1000兆带宽服务器配置下,每秒能接收处理10g大小的埋点数据,在减少人工成本与服务器资源的同时,也能够满足丰富的数据埋点需求。71.实施例272.本实施例在实施例1提出的数据收集与处理的方法的基础上,提出数据收集与处理的装置,具体包括:73.检验模块3,用于将数据包发送至数据存储服务器,以通过数据存储服务器对数据包进行校验;74.存储模块4,用于将通过检验的数据包存储至共享文件存储盘,并且将数据包的存储路径写入开源流处理平台;75.数据处理模块5,用于基于开源流处理平台内的存储路径读取存储路径所对应的数据包,并对数据包进行数据解析和数据处理。76.与现有技术相比,本发明提供的数据收集与处理的装置通过检验模块、存储模块以及数据处理模块各个模块之间的配合,实现对大量数据进行处理,并且该装置的通用性强,可以处理多类型数据。77.具体地,校验模块3包括:78.令牌信息获取模块,用于获取发送数据包的客户端的令牌信息;79.合法判断模块,用于判断令牌信息是否合法,若判断为令牌信息合法,则检验通过;若判断为令牌信息不合法,则检验不通过。80.具体地,存储模块4包括:81.数据包存储模块,用于将通过检验的数据包存储至共享文件存储盘;并且记录共享文件存储盘与数据存储服务器之间的存储路径;82.路径写入模块,用于将数据包的存储路径写入开源流处理平台。83.具体地,数据处理模块5包括:84.订阅模块,用于通过订阅开源流处理平台,以获取开源流处理平台内的数据包的存储路径,85.读取模块,用于根据存储路径读取共享文件存储盘中对应的数据包,86.解析模块,用于通过数据处理服务器对数据包进行数据解析和数据处理。87.具体地,数据收集与处理的装置还包括:88.收集模块1,用于收集用户的各种数据;89.打包模块2,用于对各种数据进行分类并统一以gizp压缩包格式进行压缩打包,以获取多个数据包。90.本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。91.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。92.以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部