• 搜索
官方微信群 扫码添加,拉你进群
订阅号
服务号
跨境资讯

为你推送和解读最前沿、最有料的跨境电商资讯

90% 亚马逊卖家都在关注的微信公众号

精选今日跨境电商头条资讯

企业数据模型在业务应用上的实践

网商动力
网商动力(https://www.eckey.cn)跨境电商,致力于提供一手资讯、干货知识。
2022-12-11 09:01:00
21

数智化建模

WBG的数据分析底层逻辑

现在大家频繁提及的“数智化”一词最早是2015年北京大学“知本财团”课题组提出的对“数字智商”(Digital Intelligence Quotient)的阐释,最初的定义是:数字智慧化与智慧数字化的合成。它有三层含义:一是“数字智慧化”,相当于云计算的“算法”,即在大数据中加入人的智慧,使数据增值增进,提高大数据的效用;二是“智慧数字化”,即运用数字技术,把人的智慧管理起来,相当于从“人工”到“智能”的提升,把人从繁杂的劳动中解脱出来;三是把这两个过程结合起来,构成人机的深度对话,使机器继承人的某些逻辑,实现深度学习,甚至能启智于人,即以智慧为纽带,人在机器中,机器在人中,形成人机一体的新生态。

图片

因此, 数智化是大数据应用的核心价值,需要经过商业理解、数据收集、数据处理、模型计算,模型评估和模型部署六个阶段,最终目的是将大数据应用延伸到具体的业务场景的每一个环节中,让数据说话,让管理可见。本文将从整体流程的角度剖析WBG的数据应用场景,详细介绍数据模型底层逻辑。首先,数据来源主要包含第一方数据、第二方数据和第三方数据,其中,第一方数据是指企业内部数据,第二方数据指公网数据,第三方数据是合作方或友商提供的外部数据。第一方数据,包含对个性化推荐起决定性作用的用户数据、商品或服务数据,物流配送、仓储库存和起辅助的作用的客服数据。举个例子,比如,用户数据包含但不限于用户属性、注册行为、活动参与、订单行为、支付行为、评价行为和售后行为等;商品或服务数据包含商品或服务的分类、品牌、参数、功能说明和生命周期等。

图片

第二方数据,通常是根据实际业务需求,通过网络爬虫的方式,获取互联网的相关数据信息,例如,竞争对手商品/服务分类数据、参数数据、功能说明和价格数据等,这一类的数据主要是用于完善用户行为偏好、自有商品或服务属性、与竞争对手对比优势、制定差异化营销策略及个性化推荐的辅助参考等。社交媒体类的数据主要是用于了解用户对企业、品牌和商品等各方面的舆情分析,及时抑制负面信息,同时挖掘用户的社交关系以及对商品或服务的真实需求,以此改善商品功能,完善服务流程,提升用户体验。第三方数据,包括以合法方式通过合作伙伴获取处理后的用户标签数据,通过用户的标签数据可以了解用户的基本信息匹配度、用户的网络行为、兴趣偏好、上网习惯偏好和模糊地理信息等,通过这些信息,再结合第一方数据和第二方数据,有策略地进行个性化商品或服务的推荐。除此之外,还可以根据用户的综合消费系数、稳定系数、风险系数、多方面监控系数,以及对用户的综合信用分数评定等内容,针对用户的信用分数评级,为用户提供相应的优惠或特殊权益,增加用户的黏性。

图片

数据采集完成后, 才是大数据工作的重头戏——数智化数据分析的开始。数智化的数据分析工作需要用到模型的方法来做预测或者分类,建模分析的基本流程是:

1、了解数据在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是要先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。那“了解数据”这一环节,具体要了解哪些内容呢?

  • 了解各个特征的业务含义和计算逻辑;
  • 各个特征的分布是否符合预期?
  • 特征之间的相关性如何,是否符合基本逻辑?
  • 特征和目标值的相关性如何,是否符合基本逻辑?

在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。2 、补充信息在初步了解数据后,需要做一些数据预处理的行为。第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是讲“宁缺毋滥”的删除,还是缺失值填充。具体处理的思路可以是这样的:统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。缺失值填充的方法有:

  • 根据特征的众数、中位数或者平均值来填充;

  • 也可以对样本做分类,根据所在类的平均值众数等填充;

  • 通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;

  • 还可通过比较复杂的方法,如多重插补法。

图片3、数据清洗处理完缺失值后,需要做异常数据处理。异常数据识别是数据分析和数据挖掘在正式分析前的数据处理,识别异常数据后,删除或者修正异常数据,避免异常数据影响分析结论;可以用于异常数据识别的方法有:时间序列数据异常识别、单变量数据异常识别、多变量数据异常识别。其中,时间序列数据异常识别包括:设置恒定阈值、设定动态阈值-移动平均法、STL数据拆解法。

单变量数据异常识别方法包括:简单统计量分析、三倍标准差、箱线图;多变量数据异常识别是指,不只从一个特征去判读数据异常,而是在多个特征下来判断其是否异常。多变量异常数据识别的方法很多,比如聚类模型、孤立森林模型、one-class svm模型等。

4、数据标准化

对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。

这种情况下,如果不同特征的数值量级差别很大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。

当前最常用的数据标准化处理方法有:

1)最小—最大规范化

(x-min)/(max-min),将其规范到[0,1]之间

2)z值规范化

(x-均值)/标准差,将其规范为均值为0,标准差为1;如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布偏差严重,可以先做box-cox变换,将其往正态分布变换后再标准化。

完成以上这四点工作后, 才能正式结合业务场景开始数据建模。

图片

业务场景-人群细分:

在产品极其丰富的今天,很难找出一种产品适用于所有人。即便是品牌能够吸引大多数人,如可口可乐,也不得不推出“零糖”可乐以满足一部分消费者的需求。因此,营销人员要清楚目标客户有哪些。通常情况下,品牌会应用客户细分来为特定的目标客户提供服务,有效利用渠道、推广等资源来吸引潜在客户。

传统的细分策略,通常以年龄、性别、住址、职业等为依据。然而,互联网时代让社群成为消费者沟通的主要渠道,消费者惊奇地发现,潜藏在他们内心的偏好、特质居然在各个社群中得到了呼应,因而这些偏好、特质被激发了出来。他们主动给自己贴上标签,如一个上班时间不苟言笑的CEO可能是“萌宠”的爱好者,穿Prada的“女王”却是个“猫奴”。消费者身上的标签数量剧增,这进一步促成了对消费者的细分。

毫无疑问,市场细分和消费者角色建设都依赖于各种各样的数据,包括第一方调查数据、定性焦点小组数据、购买数据、行为数据、在线跟踪数据等。随着Martech和大数据的出现,通过整合、分析各种来源不同的数据,企业能够获得的不是对消费者的简单解读,而是详尽的市场细分和消费者角色建设。

我们的CIS系统, 通过几百个数据增强源, 获得用户1700+的属性信息, 做完基本的数据清洗后, 需要做特征变换和特征选择。需要考虑特征的多重共线性和特征复杂度。先建立一组基础模型, 然后再选择基础模型进行组合, 得到更高维度的数据模型, 经过几次这样的迭代, 最终形成可用于展示呈现模型, 比如下图的『细分人群』:图片业务场景-自动人货匹配DM推送:通常匹配由三个要素组成:匹配算法、人群、候选推荐项目。简单来说,一次匹配过程就是匹配算法从候选推荐项目中挑出某些项目给特定用户人群。

匹配模型就是要实现让系统作为导购(像向导一样引导购买),而不是推销员。不是无脑地推送信息和商品, 而是能够『察言观色』洞察用户的需求, 并且给他推荐最适合的商品。当然,不同商品,提升匹配成功率的手段也不同。比如, 场景式匹配,体验式匹配,陈列式匹配和价格式匹配等,综合这些要素,可以推导出导购型匹配的分析模型(如下):

图片

今天分享的内容是博鼎国际数据模型在业务场景上的流程和体现,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,也就是数智化的底层逻辑。欢迎关注我们的公众号,了解更多行业和技术的信息。


二维码
我们建了一个亚马逊卖家交流群,里面不乏很多大卖家。
现在扫码回复“ 加群 ”,拉你进群。
目前30万+人已关注加入我们
声明:此文章来源于网络,不代表网商动力立场。如有侵权,请联系我们。
快给朋友分享吧!
0 赞
最新
Lazada跨境电商入驻费用解析:全面了解收费详情与入驻步骤
Lazada跨境电商入驻费用解析:全面了解收费详情与入驻步骤
Lazada品类构成详析:电商巨头多元化商品分类一览 正文:Lazada作为东南亚最大的电子商务平台之一,以其丰富的商品品类和卓越的用户体验吸引了无数消费者。本文将为您...
跨境电商入门指南:新手如何轻松起步及详细步骤解析
跨境电商入门指南:新手如何轻松起步及详细步骤解析
跨境电商入门指南:新手如何轻松起步及详细步骤解析 在全球化浪潮的推动下,跨境电商已成为许多创业者和传统企业拓展市场的重要途径。然而,对于刚刚踏入这个领域的新...
Lazada跨境电商平台解析:探索其电商模式及市场定位
Lazada跨境电商平台解析:探索其电商模式及市场定位
Lazada跨境电商平台解析:探索其电商模式及市场定位 Lazada作为东南亚地区最大的综合性在线购物平台之一,其电商模式和市场定位具有独特性和前瞻性。以下是对Lazada...
Ozon平台揭秘:强制跟卖策略原理与卖家应对之道
Ozon平台揭秘:强制跟卖策略原理与卖家应对之道
Ozon平台揭秘:强制跟卖策略原理与卖家应对之道 正文:在跨境电商日益繁荣的背景下,Ozon平台作为俄罗斯最大的电子商务市场之一,吸引了众多卖家的目光。其中,Ozon强制跟...
跨境电商独立站运营指南:揭秘实战要点与技巧
跨境电商独立站运营指南:揭秘实战要点与技巧
跨境电商独立站运营指南:揭秘实战要点与技巧跨境电商独立站的运营是一个复杂但充满机遇的领域。以下是一些关键的实战要点和技巧,帮助你成功运营自己的跨境电子商务...
Lazada跨境电商入驻费用详解:新手必读,了解平台收费规则
Lazada跨境电商入驻费用详解:新手必读,了解平台收费规则
Lazada跨境电商入驻费用详解:新手必读,了解平台收费规则 一、引言 随着全球电子商务市场的蓬勃发展,越来越多的商家开始涉足跨境电商领域。作为东南亚地区最大的综...
Copyright ? 2016-2022 ? ? 亚马逊卖家导航? ? 晋ICP备20005961号-2 声明:网站上的服务均为第三方提供,与网商动力无关。请用户注意甄别服务质量,避免上当受骗。