发布信息

一种基于业务类型的网络流量数据处理方法及系统与流程 专利技术说明

作者:admin      2023-07-26 11:37:08     650



电子通信装置的制造及其应用技术1.本发明涉及网络数据传输领域,特别涉及一种基于业务类型的网络流量数据处理方法及系统。背景技术:2.近年来,网络安全事件频发,网络安全正在面临严峻挑战,根源在于部分核心技术和设备受制于人,进而导致在面对网络风险时无法做到及时发现、及时分析、及时处置。随着数据安全法颁布以来,网络会话流量数据越来越受到重视,以往用户大多采购第三方厂商的硬件设备通过交换机镜像形式引入网络流量,而后通过预定的模型、规则库或黑名单等形式对其进行分析。此种方法固然有所作用,但在实际应用过程中模型、规则更新不及时,采集数据不全、采集效率低,导致无法及时、有效分析、预警。网络流量分析水平亟待提升,一旦发生网络安全事件,可能会影响网络及信息系统的安全稳定运行。3.在现有的技术方案中,已经有一些公开的采集、驻留数据包的方式,如基于libpcap的sniffer抓包,和wireshark等方式抓取流量数据,该种捕获数据包的方式在用户态和内核态会频繁切换,从而造成网络延迟与内存消耗。同时数据采集中,对于不属于该业务的脏数据的采集、传输、存储也会对资源产生过多的占用;以及数据传输时对于传输资源的利用以及传输中断后断点续传的保障,数据存储时,无效数据对于存储空间的浪费以及存储的数据被利用时摆脱磁盘、内存等硬件资源对于检索效率的影响。4.为解决采集时用户态和内核态频繁交互带来的资源浪费,专利cn115604207a通过交换机端口镜像或光纤分光等方式镜像网络流量,然后通过如pf_ring等开源协议进行流量采集,然后以会话id的方式减少磁盘io对采集效率的影响。上述通过端口镜像或光纤分光引入网络流量的方式;首先,会占用交换机端口,同时对于网络未覆盖或不具备布线条件的地方便会丢失该部分网络流量;其次,端口镜像方式需要修改交换机配置,此时不可避免的可能会对交换机性能或业务系统有影响;再次,如果通过镜像方式采集全流量当网络流量多大,会导致交换机过载,导致性能降低,进而影响业务连续性和稳定性;最后,大多数的镜像会对数据包进行不规则的过滤,如若无法全流量留存分析,对于网络安全事件在事后的分析、取证环节就可能会出现查无对证的情况。专利cn111490976a为传统的主要针对于工控环境网络流量采集方式,但采集时仍是对全流量进行采集,在数据预处理后再次对数据进行分析工作,对网络流量数据以业务系统为单位梳理出偏离于基线掩码的数据,进而形成告警。上述工控环境采集网络流量的方式;首先,工控环境相较于复杂的互联网、办公网、生产网等多网融合的网络环境而言,数据形式更加偏于规则,不具备大数据数据量大、类型多的特点,并且在相较安全、封闭的工控环境中双向的架设网络链路假设陷阱容易“引狼入室”;其次,大多企业的业务系统都不是单一独立的,频繁节点变动或接口间的频繁相互调用会导致基线产生的告警无法准确、有效,大大的增加了误报;再次,梳理基线数据时无论是通过机器学习固定时间段或一定时间段的基线通讯流量数据都难免混杂进异常数据,若在大量的数据面前,通过人工梳理,人工成本将会大大增加;最后,在基线难梳理、常变动的情况下,通过该种偏离基线掩码的数据形成告警数据,会带来更多的漏报、误报,在处理漏报、误报告警上,更会加大管理人员的分析、处理成本,从而遗漏真实有效的告警,。技术实现要素:5.本发明实施例的目的是提供一种基于业务类型的网络流量数据处理方法及系统,通过对数据包进行解析并以业务会话控制序号和时间戳相结合的方式进行标记,避免了一般旁路流量方法在用户态与内核态切换造成的网络延迟与内存消耗,以及大量的脏数据对采集、传输、存储、数据分析时效率的影响;对全流量预处理标记业务序号,使网络流量数据能够高效的存储、传输、建立索引。6.为解决上述技术问题,本发明实施例的第一方面提供了一种基于业务类型的网络流量数据处理方法,包括如下步骤:7.采集网络流量数据,并对其进行全协议解析;8.基于业务行为学习模型对解析后的所述网络流量数据按照业务区和非业务区进行分区预处理并标记业务序号,对分区后的数据按照所述业务序号和时间戳建立分段索引;9.对所述网络流量数据依据所述业务序号和所述时间戳进行分布式存储;10.按照预设格式导出数据或发送至指定数据接收系统。11.进一步地,所述基于业务行为学习模型对解析后的所述网络流量数据按照业务区和非业务区进行分区预处理之前,包括:12.构建业务行为学习模型,形成所述业务区的正常通讯会话控制库,并通过业务会话控制序号进行序号标记;13.对非业务区的通讯行为标记为默认索引库,并通过业务会话控制序号进行序号标记。14.进一步地,所述对分区后的数据按照业务会话控制序号和时间戳建立分段索引之后,包括:15.将解析后的所述网络流量数据依据风险等级划分为若干个预设级别。16.进一步地,所述采集网络流量数据,包括:17.通过fp_ring协议对所述网络流量数据镜像进行采集。18.进一步地,所述按照预设格式导出数据或发送至指定数据接收系统之前,包括:19.以发送心跳包的形式判断网络传输是否正常;20.若所述网络传输正常,则将所述网络流量数据按照分段形式依据时间戳队列顺序依次发送;21.若所述网络传输不正常,则待所述网络传输正常后在中断时间点继续发送未传输的数据。22.相应地,本发明实施例的第二方面提供了一种基于业务类型的网络流量数据处理系统,包括:23.数据采集模块,其用于采集网络流量数据,并对其进行全协议解析;24.数据处理模块,其用于基于业务行为学习模型对解析后的所述网络流量数据按照业务区和非业务区进行分区预处理并标记业务序号,对分区后的数据按照所述业务序号和时间戳建立分段索引;25.数据存储模块,其用于对所述网络流量数据依据所述业务序号和所述时间戳进行分布式存储;26.数据发送模块,其用于按照预设格式导出数据或发送至指定数据接收系统。27.进一步地,所述基于业务类型的网络流量数据处理系统还包括:28.模型构建模块,其用于构建业务行为学习模型,形成所述业务区的正常通讯会话控制库,并通过业务会话控制序号进行序号标记;29.所述模型构建模块还对非业务区的通讯行为标记为默认索引库,并通过业务会话控制序号进行序号标记。30.进一步地,所述数据处理模块还用于将解析后的所述网络流量数据依据风险等级划分为若干个预设级别。31.进一步地,所述数据采集模块通过fp_ring协议对所述网络流量数据镜像进行采集。32.进一步地,所述基于业务类型的网络流量数据处理系统还包括:网络判断模块,所述网络判断模块包括:33.网络判断单元,其用于以发送心跳包的形式判断网络传输是否正常;34.网络控制单元,其用于在所述网络传输正常时,将所述网络流量数据按照分段形式依据时间戳队列顺序依次发送;35.所述网络控制单元还用于在所述网络传输不正常时,待所述网络传输正常后在中断时间点继续发送未传输的数据。36.相应地,本发明实施例的第三方面提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述一个处理器执行,以使所述至少一个处理器执行上述基于业务类型的网络流量数据处理方法。37.相应地,本发明实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述基于业务类型的网络流量数据处理方法。38.本发明实施例的上述技术方案具有如下有益的技术效果:39.通过在使用pf_ring协议采集数据包的基础上,对数据包进行解析并以业务会话控制序号和时间戳相结合的方式进行标记,避免了一般旁路流量方法在用户态与内核态切换造成的网络延迟与内存消耗,以及大量的脏数据对采集、传输、存储、数据分析时效率的影响;对全流量预处理标记业务会话控制序号,使网络流量数据能够高效的存储、传输、建立索引。附图说明40.图1是本发明实施例提供的基于业务类型的网络流量数据处理方法流程图;41.图2是本发明实施例提供的基于业务类型的网络流量数据处理系统模块框图;42.图3是本发明实施例提供的网络判断模块框图。43.附图标记:44.1、数据采集模块,2、数据处理模块,3、数据存储模块,4、数据发送模块,5、模型构建模块,6、网络判断模块,61、网络判断单元,62、网络控制单元。具体实施方式45.为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。46.请参照图1,本发明实施例的第一方面提供了一种基于业务类型的网络流量数据处理方法,包括如下步骤:47.步骤s100,采集网络流量数据,并对其进行全协议解析。48.步骤s300,基于业务行为学习模型对解析后的网络流量数据按照业务区和非业务区进行分区预处理并标记业务序号,对分区后的数据按照业务序号和时间戳建立分段索引。49.步骤s500,对网络流量数据依据业务序号和时间戳进行分布式存储。50.步骤s700,按照预设格式导出数据或发送至指定数据接收系统。51.现有技术在采集完网络数据后便对其进行拆包解析、重组等操作,而本技术方案则是在网络流量数据采集阶段后增加了数据预处理,建立以业务序号、时间戳为索引序号的全数据索引,不仅增加了会话还原的细粒度,而且极大的增加了数据再次被分析利用的效率,同时无效数据的区分对于传输的效率也有增加;此外,对于系统的第三方维护人员,只审计本系统的日志效率也极大的增加。52.进一步地,步骤s300中的基于业务行为学习模型对解析后的网络流量数据按照业务区和非业务区进行分区预处理之前,包括:53.步骤s200,构建业务行为学习模型,形成业务区的正常通讯会话控制库,并通过业务会话控制序号(业务session序号)进行序号标记;对非业务区的通讯行为标记为默认索引库,并通过业务会话控制序号进行序号标记。54.进一步地,步骤s300中的对分区后的数据按照业务会话控制序号和时间戳建立分段索引之后,包括:55.步骤s310,将解析后的网络流量数据依据风险等级划分为若干个预设级别。首先,在采集网络数据时,通过业务分析模型对数据的来源、内容、使用用途等针对不同业务系统的数据进行分类。对于需要保护的不同级别的业务系统,重要业务系统的数据也相对级别更高一些。通过对数据的价值分析、内容的敏感程度分析、数据影响的范围分析以及数据分发的范围分析,在对不同的业务系统数据进行解析时会对其数据进行业务标记,如等级保护2.0三级系统标记为c类,等级保护2.0二级系统标记为b类,对于业务系统中的敏感数据,如个人身份信息、家庭住所、联系方式、银行卡账号等敏感信息,也会对其进行标记如标记为m1,对用户的账号、密码等身份鉴别信息标记为m2。此外,对于网络流量中的其它数据信息同样也会对其进行标记。同时对于同一业务区,同一数据段的不同类别、不同级别的数据,会对其自动学习权重,将该段数据进行分类分级评分计算,具体如下所示:56.分类评分=c1×业务区1+c2×业务区2+b1×业务区3;57.分级评分:m1×该段该级别的敏感数据/该段的敏感数据+m2×该段该级别的敏感数据/该段的敏感数据+m3......依次类推;58.每段数据的风险等级评分=分类评分×评分有效性因子+分级评分×评分有效性因子;59.最终,依据每段数据的风险等级评分,对每段数据进行风险等级划分。60.进一步地,步骤s100中的采集网络流量数据,包括:通过fp_ring协议对网络流量数据镜像进行采集。61.现有技术多数通过sniffer或tcpdump或wireshark对网络流量进行采集,该传统方法对资源的消耗相对较高,没有本专利中采用fp_ring协议采集流量高效。采用fp_ring协议进行网络流量数据镜像的采集,此时transparent_mode设置为2,不通过内核处理,驱动将包只拷贝给fp_ri ng。62.进一步地,步骤s700中的按照预设格式导出数据或发送至指定数据接收系统之前,包括:63.步骤s610,以发送心跳包的形式判断网络传输是否正常;64.步骤s620,若网络传输正常,则将网络流量数据按照分段形式依据时间戳队列顺序依次发送;65.步骤s630,若网络传输不正常,则待网络传输正常后在中断时间点继续发送未传输的数据。66.在数据传输过程中,首先以发送心跳包的形式,判断网络传输是否正常;若网络正常,首先将缓存的数据以分段形式以时间戳为队列依次发送,若网络不通,则等待网络连通后,在记忆中断的时间点开始继续发送未传输的数据。通过数据分段的形式避免了发送大的数据包对网络造成瞬时拥堵,同时也避免了大并发发送而造成的带宽占用高。67.为指定数据接收系统(即第三方平台)提供三种对接方式:1、建立全索引查询接口,由第三方平台被动查询;2、主动将数据以syslog形式发送到指定平台;3、导出文件形式导入到第三方平台。68.本发明主要用于解决传统的网络流量分析系统所存在的如下问题:69.首先,多数厂商对外宣称网络数据全保存,多数采用传统的协议依据高性能设备对流量数据高频率计算,通过采集频率来对网络流量进行存储效率的控制,该种方法往往无法完全保存网络流量数据;其次,传统方法在数据采集、拆包、重组等操作时,未有效对数据进行清洗,筛出无效数据,避免浪费资源;再次,传统方法在网络数据传输过程中,若遇到网络连接中断,会导致数据丢失,更加无法保障全数据留存;最后,传统方法存储时,有的只通过缓存增加分析效率,有的通过建立索引增加分析效率,该方法通过分段数据的全索引形式保证数据的分析效率。70.而本发明的技术方案中,首先,数据预处理时建立业务分析基线,按照业务序号及时间戳建立全盘索引,同时对数据进行分类、分级;其次,数据传输过程中采用发送心跳包的形式确认网络连通性。网络连通性异常时,先以业务索引序号和时间戳缓存数据,并建立预传输队列,网络连通之后继续发送数据;最后,数据分段200m一段存储,其中每段数据分为多个业务索引,每个业务索引包含多种协议,每条会话解析出的源ip、目的ip、源端口、目的端口、协议等进行威胁评分识别,若源ip为公网地址,且目的端口为80等高危端口,其威胁评分相对正常内网业务通讯评分要高。71.通过在使用pf_ring协议采集数据包的基础上,对数据包进行解析并以业务会话控制序号和时间戳相结合的方式进行标记,避免了一般旁路流量方法在用户态与内核态切换造成的网络延迟与内存消耗,以及大量的脏数据对采集、传输、存储、数据分析时效率的影响;对全流量预处理标记业务session序号,使网络流量数据能够高效的存储、传输、建立索引。72.相应地,请参照图2,本发明实施例的第二方面提供了一种基于业务类型的网络流量数据处理系统,包括:73.数据采集模块1,其用于采集网络流量数据,并对其进行全协议解析;74.数据处理模块2,其用于基于业务行为学习模型对解析后的网络流量数据按照业务区和非业务区进行分区预处理并标记业务序号,对分区后的数据按照业务序号和时间戳建立分段索引;75.数据存储模块3,其用于对网络流量数据依据业务序号和时间戳进行分布式存储;76.数据发送模块4,其用于按照预设格式导出数据或发送至指定数据接收系统。77.进一步地,基于业务类型的网络流量数据处理系统还包括:78.模型构建模块5,其用于构建业务行为学习模型,形成业务区的正常通讯会话控制库,并通过业务会话控制序号进行序号标记;79.模型构建模块5还对非业务区的通讯行为标记为默认索引库,并通过业务会话控制序号进行序号标记。80.进一步地,数据处理模块2还用于将解析后的网络流量数据依据风险等级划分为若干个预设级别。81.进一步地,数据采集模块1通过fp_ring协议对网络流量数据镜像进行采集。82.进一步地,请参照图3,基于业务类型的网络流量数据处理系统还包括:网络判断模块6,网络判断模块6包括:83.网络判断单元61,其用于以发送心跳包的形式判断网络传输是否正常;84.网络控制单元62,其用于在网络传输正常时,将网络流量数据按照分段形式依据时间戳队列顺序依次发送;85.网络控制单元62还用于在网络传输不正常时,待网络传输正常后在中断时间点继续发送未传输的数据。86.相应地,本发明实施例的第三方面提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器连接的存储器;其中,存储器存储有可被一个处理器执行的指令,指令被一个处理器执行,以使至少一个处理器执行上述基于业务类型的网络流量数据处理方法。87.相应地,本发明实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述基于业务类型的网络流量数据处理方法。88.本发明实施例旨在保护一种基于业务类型的网络流量数据处理方法及系统,包括如下步骤:采集网络流量数据,并对其进行全协议解析;基于业务行为学习模型对解析后的网络流量数据按照业务区和非业务区进行分区预处理并标记业务序号,对分区后的数据按照业务序号和时间戳建立分段索引;对网络流量数据依据业务序号和时间戳进行分布式存储;按照预设格式导出数据或发送至指定数据接收系统。上述技术方案具备如下效果:89.通过在使用pf_ring协议采集数据包的基础上,对数据包进行解析并以业务会话控制序号和时间戳相结合的方式进行标记,避免了一般旁路流量方法在用户态与内核态切换造成的网络延迟与内存消耗,以及大量的脏数据对采集、传输、存储、数据分析时效率的影响;对全流量预处理标记业务session序号,使网络流量数据能够高效的存储、传输、建立索引。90.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。91.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。92.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。93.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。94.最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部