出海数字化那些事(一):你真的不需要数据吗?
近年来数字化转型变成一个非常大的趋势,在这个大趋势之下,其实很多出海的企业(无论是卖家还是服务商),常常把一句话挂在嘴边:“我们有那么多的数据,出海要把这些数据用起来呀!”
图片来源:纷析咨询
确实卖家们,服务商们都有很多的数据,但这些数据在出海的路径上没有成为一个行业标准。
到底是为什么呢?
会不会是——其实我们根本没有用好,或者知道数据的用法?
你到底拥有的是数据垃圾还是数据资产,这是一个问题。
数据绝对不都是资产,更多数据是垃圾。
没有处理过的,其实只是信息,而不是数据。
图片来源:纷析咨询
大数据时代的一个最大的公众误解,就是让人们以为有这么一个万能的数据解构者,能够在容纳了海量的数据之后,产生出人类所不能企及的智慧与洞察。
但可惜,数据越大,可能包含的垃圾越多,大数据并不可能化腐朽为神奇,它只能在海量高质量数据的基础下产生作用。
但是现实世界中,并没有那么多唾手可得的高质量数据。
大部分的数据保质期都非常短暂,绝大部分的数据还不如Device ID的生命周期长。比如,DMP中的人的兴趣标签、在自有触点上抓取的用户行为数据、消费者提交的leads……
并不长久的保质期,意味着手上握有海量数据的广告主,或许并没有多少真正可用的数据。
或者说,你的数据若要成为资产,不可能是死水一潭,而必须不断更新,有进(更新的数据)有出(过期的数据)。
最常见的一个误解,就是我们以为数据资产是一个静态的东西,但实际上,它根本就如同永不停歇的轨道列车——存一潭死水容易,玩转一个轨道交通系统则太难!
随着大数据与云计算的发展,我们企业能够获取的数据量越来越大、数据维度也越来越丰富。与此同时,帮助我们挖掘数据、分析数据的工具也越来越强大,比如大家所熟知的各种云平台和大数据平台。
在模型算法方面,业界和学界也投入了很多资源来进行开发和迭代,因此各种新的模型和算法源源不断地被开发完善,发展速度非常快。
在这个背景下, 当企业拥有了足够的数据、或者有能力去收集相当数量的数据,智能化运营手段即成为企业增长的一大探索点。
图片来源:GrowingIO
建立数据资产的难度,也不在于获取数据本身,更在于数据体系的规划——没有好的规划,获取来的数据就可能不是资产,而是垃圾。
最典型的现象,是数据源头构建的随意性。
举一个例子,很多企业有两大类数据,第一类,是企业的客户信息,CRM中的客户数据,以及Leads数据,这些数据已经很成熟,它们等同于收入数据。第二类,则是各种外部第三方工具“帮助”企业抓取的,各种营销运营触点上的数据,这些数据最常见的命运,就是成为各种各样的报表。
最为典型的是数据源构造的随意性。
例如,许多企业拥有两大类数据,第一类数据是企业的客户信息, CRM中的客户数据,以及与收入数据等效的成熟的 Leads数据。其次,是各种外部第三方工具“帮助”企业抓取、各种营销运营触点上的数据,这些数据最常见的命运,就是变成各种报表。
图片来源:纷析咨询
那些报告,很少一部分在短时间内被利用后,会随着更多的报告一起出现,即使人们只看一眼,就进入了数据库,数据库永远不会打开,直到死亡。
事实上,这些报告背后的原始数据更有价值,更接近数据资产的一部分,也随之进入企业精心构建的各种“数据仓库”、“数据湖”、“大数据系统”,然后又同样陷入沉睡。
图片来源:纷析咨询
更有甚者,这些数据天生就是由不同部门拥有的不同的第三方工具获取的,它们之间没有联系,互相独立,但都会信誓旦旦地说:“我的工具可以输出数据,而且可以与其他工具的数据进行无缝连接。”但是问题是,没有哪个工具能容纳其他工具的数据,每个人都能输出数据,这是对的,但是为了最终实现数据打通,这些工具都不会愿意去做。
不过,商家的老板们还是放心了,毕竟,所有的数据都保存在“大数据系统”中,就像纸币存在银行中一样安全。当需要打通这些数据时,技术同事是否应该将其打通呢?
所以,有一天,当老板要求使用某些数据时, IT部门的同事又要在这些系统里写各种程序翻找数据,却发现,并非某些数据没有,而是数据打不开,或者是无法进行下钻细分。这样,萎靡不振的报告,只能给出一个大概凑合用的数据了。
我们为你买了这么多的工具,抓到这么多的数据,建了这么大的数据库,居然,跟我说,这是为了你,还是为了你?!
技术员心里想:“mmp能给一个大概可以使用的数据已经拼过老命了!”
但是,我们不知道这其中最讽刺的是,工具越多,坏的数据就越多,这是最糟糕的事情。虽然工具虽然强大,但是它们彼此之间并不相关,工具越多反而越糟;数据越多,却无法打通,越积攒越多,处理越困难,存储空间就越大。
大多数企业内部,要么没有数据,要么数据孤岛重重。在数据孤岛形成的背后,数据系统缺乏规划。
图片来源:GrowingIO
有一个很重要的问题是,既然各种数据工具收集的数据可以导入到企业数据中台,并且都被引导出来了,为什么这些数据不能打通呢?
两个理由。
第一,缺少打通数据所需的主键(这正是我们说过的One-ID)。
图片来源:纷析咨询
第二,即使有主键,对这么多工具的数据表进行清理、去重、打通,这是多么庞大和容易出错的工程。Vlookup公式使用 Excel并不那么简单。也就是说,理论上没有问题,落地的可行性很差。多数情况下,只能是需要什么数据,找这些数据再暂时与其他相关数据对接打通, case by case,暂时解决就好了。
图片来源:纷析咨询
所以,没有数据能力,什么数据资产都无从谈起。
具体地说,近年来,许多企业都通过 BI (Business Intelligence,商业智能)工具获得了许多有意义的洞察和成长。
但是因为 BI工具是由一个分析员设计的,再由一个操作员来操作的分析工具,所以从人力投入和使用的角度来说, BI工具所做的分析通常并不特别复杂,可能只是一些低维的,如一维,二维的分析。
相对来说,我们今天所分享的机器学习和人工智能模型所能处理的数据量之大,维度之高,所能挖掘的数据与数据之间关系的复杂性,都远远超出了我们普通人能够理解的范围。
例如,普通的集成学习(ensemble model)、深度学习、前几年被人们所熟知的在下棋应用中非常成功的强化学习模型、 GAN模型等,这些都是去年人们非常关注的换脸技术背后的技术。因此,我们将面临这样一个问题:如何在我们的业务系统中应用这些理解不良但功能强大的工具。
本文将围绕这一主题,按下图分析模型驱动项目的关键步骤,探讨一下大家在实际出海模型操作或出海项目管理过程中少走弯路。
图片出处:Google
到底什么是数据能力?我们对此和目前大家在出海上的理解有些不一样。资料的获取、处理、运用等能力,通常被视为技术能力。
但是我认为,数据能力还有另外一个很重要的方面,就是容易被忽视,从而导致即使把技术处理好了,企业仍然没有数据能力。
首先,是一个数据规划系统。这个问题,前面已经谈过了。为什麽很少有企业能规划出自己的数据系统,而更多的企业却在不停地堆积数据?
由于业务需求总是迫在眉睫,成系统地构建数据系统既需要时间,也需要大量资源,更需要说服老板,所以不是业务部门能够控制的。于是就有了这几年开始被炒的数据中台,而且数据中台基本上只有阿里腾讯这样的大厂去忽悠,因为这些大厂都是卖给大老板的东西。
于是,也就有了在市场和运营系统中同样被追捧的 CDP。本质上, CDP是一个多渠道多接触的数据获取、组织、应用系统,以及自带的数据打通整合功能,因此,它本身也是一个自带数据系统的工具,天然就是反数据孤岛。
尽管这两种方法都有助于数据规划,但我对数据中台和 CDP的看法不同。这篇文章没有提到具体的原因,有时间的话我们会再讲一篇我们的看法。下面简单的解释一下,数据中台,很多企业基础不行,做不来,用不上。相对来说, CDP比较容易使用,业务领域也更加集中,使用的可能性也更大,虽然还不简单,但至少比Database中的台面要现实。
其次,是数据运营系统。
对这一点,企业比以往更缺乏认识。何谓数据操作系统?简言之,就是没有操作,没有数据,没有数据资产。
最为典型的是:我们通常认为数据获取是技术性的。但是,事实上,这更是一项业务。就拿它来说在我们建站的独立站上,我花了一百万购买了大量的流量,然后进入我的触点。您花费相同的钱购买相同的流量,然后进入独立站。我们独立站有很多设计都是为用户提供交互的,而你的独立站,基本上就是让用户浏览图片和文本。两者在数据收集方面都有明显的不同:我的设计能够收集到更多的用户交互行为数据,而在此基础上,是靠操作能力。
图片来源:纷析咨询
另外,要打通数据,还需要操作。
和许多企业的认识不同,打通数据并不主要是一项技术工作,而是需要让用户留下联系方式,通过联系方式打通不同平台和接触点的不同 ID。我们之前提到过,联系方式是连接数据所必须使用的主键。除了这些以外,其他打通数据的方法,都是不实际或不可靠的。
但要想得到消费者的联系方式,不能偷也不能抢,一定要让消费者愿意提供,这还需要靠操作。也就是,过去我们策划的营销系统,或者是特定于一项活动的营销,很少考虑如何获得数据,如何应用数据。但如今,营销系统,或营销活动,如果无法获取足够的消费者数据,那么其价值就折损了一半。
即便这些数据有条不紊,也没有任何意义。没有对数据的应用进行仔细考虑,数据就会最终过期,并被扔进垃圾堆。
信息流动应用的话题太多,但具体到数字营销和运营领域,应用场景也是多种多样。
例如,现在企业自己获取的其中一方消费者数据有很多应用场景:利用第一方数据进行广告投放、整合消费者多触点(反向营销)、私域生态私域运营、动态营销自动化、目标明确的推荐、消费者/客户生命周期运营,等等。
这个状况和你的生意有关吗?
更有甚者,数据最终会以报告的形式出现在老板的屏幕上,即使是大数据,也会被理解为“dashboard大屏”,就像没有显示,没有数据,也不存在。
远离数据报告、 dashboard、 BI或数据挖掘,数据资产远不是数据报告、 BI或数据挖掘,而是真正能应用到特定场景、驱动特定业务(尤其是客户运营)的物质。既然不能释放更多的能量,为什么还要说它的资产?
所以,数据资产的逻辑描述如下:
图片来源:宋星的数据观上图:传统的消费市场运营系统只是蓝框中的一部分,但是为了积累数据资产,必然要包含更多的数据运营部分。
运用数据需要花费大量的时间和精力来规划数据系统,需要花费大量的时间和精力来开发具有抵抗数据孤岛能力的工具,但是更重要的是,还需要花费大量的时间和能力来建立自己的操作系统,以及拥有将数据与业务结合起来的战略人才。这一切,都很寒冷。
因此,将数据转化为资产并不是一夜之间的事情,也没有几个数据系统工具可以解决。实际上,这是当今企业数字化转型的核心问题。
说到这儿,今天的主题,也就是如何应用数据资产来做一个开场白。而下一个问题,则是许多出海朋友共同关心的一个话题——如何出海路上,应用数据资产。
数据采集及标准化当我们拥有大体方案后,下一步就是进行数据采集。我们提前部署了客户数据平台(CDP) ,当独立站用户数据已经封装在我们的客户数据平台中。这些标准化后的数据是可以直接使用的。
而对于新的客户,除了数据拉通外,我们还需要进行数据清洗与流程标准化,这个阶段的速度会相对缓慢。
数据预处理数据预处理是整个建模过程中最耗费时间,也是实现项目成功、确保模型精确度的关键一步。
以零售行业为例,假设某零售客户希望能够预测哪些用户会到店购买,或者预测他们未来会购买哪个品牌、哪个品类等等。
通常情况下,我们所采集的零售数据都是一些交易数据,这些数据记录了一笔又一笔的用户消费信息。
我们要做的是预测未来哪些用户会产生购买转化行为,而过往的用户消费数据可能蕴含着这些信息。因此我们需要把这些交易数据转化为用户特征和商品特征,以便输入到我们的预测模型中。
算法-模型验证-输出管理在预测哪些用户可能会转化的场景中,我们通常采用 1 或 0 的二分类模型。
当场景比较复杂、牵涉到种类较多的商品或物品时,我们可以做一些多分类模型深入展开。比如做电商平台的购买推荐时,面对过多的商品种类,可以通过个性化推荐实现“千人千面”的推荐效果。
基于以上四个步骤初步搭建好模型后,我们需要做很多的离线检验以进行模型验证。
整个过程结束以后,我们会对验证后的模型做一些画像,以更好地理解模型背后的逻辑。同时,模型画像也能够帮助我们确定整体的营销策略。
激活及在线检验至此,大家对这个模型也有一定程度的了解、精度也能得到保障,模型就可以上线了。上线后,我们也会在线上做一些相应的检测,并把整个流程固化下来,使它变成一个自动化模型产品。同时,我们也会依照业务的需求以一定的节奏让模型保持自动更新。
一个成功的数据模型,往往是商业洞察、数据、算法三者相互作用的结果。业务目标决定了我们需要采集什么数据、使用什么算法、做什么验证以及制定什么策略。总而言之,业务目标是一个根本性的驱动因素。
图片来源:GrowingIO业务场景通常来说是多种多样的,因此我们需要根据客户的需求对建模过程进行一些微调。
对于用户运营的同学,他们可能需要拉新、留存、预测流失用户并作出预警;对于业务前端的同学,他们需要制定合理的定价策略并进行促销;对于负责广告业务的同学,他们需要评估广告渠道的效率,以此产生一些关于营销组合的洞察,便于制定下一阶段的广告预算和分配策略。
还有一些与供应链相关的场景,比如订单评估不准确导致库存积压或商品脱销。这时我们就需要更精确的需求预测来构建一个更加理想的供应链,把合理数量的商品在合适的时间运送至正确的地点。
收录于以下专栏 出海数字化 15 个内容 · 7 人关注 查看专栏图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!