发布信息

一种基于大数据多样结构化数据快速转化为行结构的方法与流程 专利技术说明

作者:admin      2023-07-05 10:04:17     393



计算;推算;计数设备的制造及其应用技术1.本发明涉及积分应用技术领域,特别是涉及一种基于大数据多样结构化数据快速转化为行结构的方法。背景技术:2.大数据背景下,海量的结构和非结构化数据中存在着丰富的有价值数据,对这些数据分析具有重要意义,而数据解析则是实现数据价值提取的关键步骤,如何从非结构化数据中抽取出行结构化单元,为数据分析奠定基础。传统方式,对非结构化数据先进行数据抽取,然后进行数据分析。可能造成无关个体数据多次分析,占用内存开销,影响个体数据的获取效率。3.本专利提供了一种基于大数据多样结构化数据快速转化为行结构的方法,适用于各种结构化和非结构化数据分析系统,可有效实现数据中有效信息的抽取,提升数据分析的效率和效果。技术实现要素:4.本发明提供了一种基于大数据多样结构化数据快速转化为行结构的方法,首先构建stream预处理模块,该模块由行结构化单元抽取、位置索引查询两个子模块组成,主要负责对非结构化数据进行预处理得到结构化数据集。行结构化单元抽取子模块实现由非结构化数据抽取形成行结构化单元,为个体数据获取提供位置索引。位置索引查询子模块通过位置索引获取个体数据,相关结果导入内存备用。通过预处理从非结构化数据得到结构化数据集,汇聚到结构化数据集子模块,再进行数据分析。行结构化单元抽取子模块、位置索引查询子模块功能设计如下:1、行结构化单元抽取子模块:事先定义行结构化单元基本特征与抽取规则,将输入的非结构化数据划分出索引域和数据域,实现由非结构化数据抽取形成行结构化单元,为个体数据获取提供位置索引。5.2、位置索引查询子模块:在划分出索引域和数据域的预处理数据中,通过位置索引获取个体数据,相关结果导入内存备用。6.stream预处理流程如下:1)输入非结构化数据;2)依照行结构化单元基本特征和抽取规则,将输入数据进行索引域和数据域划分;3)形成行结构化单位,为输入数据设置位置索引;4)针对特定查询,通过位置索引获取个体数据,导入内存备用。附图说明7.图1为基于大数据多样结构化数据快速转化为行结构的方法系统结构图。具体实施方式8.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。9.请参阅图1,本发明实施实例中,首先构建stream预处理模块,该模块由行结构化单元抽取(1)、位置索引查询(2)两个子模块组成,主要负责对非结构化数据进行预处理得到结构化数据集。行结构化单元抽取子模块实现由非结构化数据抽取形成行结构化单元,为个体数据获取提供位置索引。位置索引查询子模块通过位置索引获取个体数据,相关结果导入内存备用。通过预处理从非结构化数据得到结构化数据集,汇聚到结构化数据集子模块(3),再进行数据分析。行结构化单元抽取子模块、位置索引查询子模块功能设计如下:1、行结构化单元抽取子模块(1):事先定义行结构化单元基本特征与抽取规则,将输入的非结构化数据划分出索引域和数据域,实现由非结构化数据抽取形成行结构化单元,为个体数据获取提供位置索引。10.2、位置索引查询子模块(2):在划分出索引域和数据域的预处理数据中,通过位置索引获取个体数据,相关结果导入内存备用。11.stream预处理流程如下:1)输入非结构化数据;2)依照行结构化单元基本特征和抽取规则,将输入数据进行索引域和数据域划分;3)形成行结构化单位,为输入数据设置位置索引;4)针对特定查询,通过位置索引获取个体数据,导入内存备用。技术特征:1.一种基于大数据多样结构化数据快速转化为行结构的方法,其特征在于:首先构建stream预处理模块,该模块由行结构化单元抽取、位置索引查询两个子模块组成,主要负责对非结构化数据进行预处理得到结构化数据集。2.行结构化单元抽取子模块实现由非结构化数据抽取形成行结构化单元,为个体数据获取提供位置索引;位置索引查询子模块通过位置索引获取个体数据,相关结果导入内存备用。3.通过预处理从非结构化数据得到结构化数据集,汇聚到结构化数据集子模块,再进行数据分析。4.一种基于大数据多样结构化数据快速转化为行结构的方法,其特征在于:行结构化单元抽取子模块:事先定义行结构化单元基本特征与抽取规则,将输入的非结构化数据划分出索引域和数据域,实现由非结构化数据抽取形成行结构化单元,为个体数据获取提供位置索引。5.一种基于大数据多样结构化数据快速转化为行结构的方法,其特征在于:位置索引查询子模块:在划分出索引域和数据域的预处理数据中,通过位置索引获取个体数据,相关结果导入内存备用。6.一种基于大数据多样结构化数据快速转化为行结构的方法,其特征在于:stream预处理流程如下:1)输入非结构化数据;2)依照行结构化单元基本特征和抽取规则,将输入数据进行索引域和数据域划分;3)形成行结构化单位,为输入数据设置位置索引;4)针对特定查询,通过位置索引获取个体数据,导入内存备用。技术总结本发明提供了一种基于大数据多样结构化数据快速转化为行结构的方法,首先构建Stream预处理模块,该模块由行结构化单元抽取、位置索引查询两个子模块组成,主要负责对非结构化数据进行预处理得到结构化数据集。行结构化单元抽取子模块实现由非结构化数据抽取形成行结构化单元,为个体数据获取提供位置索引。位置索引查询子模块通过位置索引获取个体数据,相关结果导入内存备用。通过预处理从非结构化数据得到结构化数据集,汇聚到结构化数据集子模块,再进行数据分析。再进行数据分析。技术研发人员:李云亮 田彬 董李平受保护的技术使用者:翼集分(上海)数字科技有限公司技术研发日:2021.12.21技术公布日:2023/7/4









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部