Google Analytics的背后:GA数据是怎样被输送到数据库的?

发布于 2021-05-13 21:31 ,所属分类:数据库和大数据技术学习资料



多人听说过或者用过Google Analytics(下文称GA),他们认为用GA追踪用户在网站上的行为很简单,只要在网站上加入一串GA的代码,唰唰唰,就搞定了!


然而,处理过GA数据的人一定有很多“头疼”的时刻:事件命名不一致、事件被意外地停止触发因而没有收集到理应收集的数据等等。而且,如果你只知道怎么使用GA的操作界面,但却不知道GA的数据是怎样被传送到公司的数据库的,那么你就太“只知其一不知其二“啦!

因此,今天的这篇文章,我们以Zillow这家公司为例,为大家介绍GA背后“不为人知的数据故事”

Zillow是美国最大的买房App和网站。人们可以在Zillow上获得费的房地产信息查询服务和房地产评估服务。用户可以直接在App上缩放地图查找房源或者直接利用邮政编码或者街道名称进行搜索,然后输入基本购房需求,即可找到符合要求的房源。


Zillow的数据全面,买家可以看到各种房源信息,并且还可以利用Zillow比较房屋价格,以较合理的价格买到理想房子。作为美国房地产科技股中的佼佼者,Zillow在2020年的地产浏览量近百亿,股价大涨近三成


那么Zillow的数据工程师们是如何通过搭建复杂的数据管道与测试平台来了解如此大流量的用户在网站上的行为的呢?

Google Analytics数据的生成与传送流程


首先,Zillow集团下面的不同品牌使用不同的网站分析工具,Zillow网站和App用的是Google Analytics。在分析网站的时候,他们有两类分析:一类是围绕着页面浏览(Page Views),另一类是围绕着事件(Events,比如在网站上下滑、点击等不同的事件)。

通常,Zillow的产品经理们,或者产品负责人们,会负责定义他们需要追踪并分析哪些事件,然后开发就会把用于追踪数据的标签置入相对应的产品或功能中。
这些通过Google Analytics追踪到的事件数据,会进入Google BigTable(BigTable是谷歌云开发的NoSQL数据库),然后由Zillow的数据工程师们从Google Big Table中读取这些数据,并把数据传送并整理到Zillow的数据湖*。Zillow的数据工程师们用Hive来存储和整理数据,以便前端的产品经理和产品分析师们查询。

*数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据转换为用于报告、可视化、分析和机器学习等各种任务的目标数据。


鉴于这些“事件”数据是由开发人员收集的,它们往往在命名中缺乏统一的规则,因此产品中现有的事件(名称)可能会被修改。例如,开发人员可能会把一个命名为“联系中介”的事件改名为“用电话联系中介”,或者因为个人喜好改变事件名称的大小写。当类似这样的情况发生的时候,下游的数据使用者(比如产品经理和数据分析师们)就会受到影响,因为当他们在数据库里搜索“联系中介“时,可能就会搜索不到,因为这个事件已经被重命名了。

除此之外,随着产品开发的进行以及对一些功能的添加或删除,事件有可能因为意外被停止触发。这也会对下游的数据使用者们带来麻烦,正在被触发的事件可能会因此缺少有效载荷中的关键字段,从而让分析变得困难。


对事件进行测试


为了解决这些问题,Zillow的数据工程师们创建了两种测试来确保“事件”数据的读取和传输是万无一失的。这两种测试分别是功能测试(functional tests)与模式测试(schema test)
在功能测试中,测试用例会完成一些网页活动并验证是否触发了正确的事件。这些测试一般在嵌入式浏览器中进行。Zillow中大多数测试都是用Python编写的,他们也使用Selenium和ChromDriver一起进行浏览器自动化操作。
这些测试让Zillow可以对生成事件的功能进行检测,但是缺点之一是,根据时间的不同,事件可能会丢失或者完全不被触发。在这种情况下,测试无法为分析提供良好的信号。

Zillow所使用的另一种测试是被动测试,在这些测试中,他们会验证那些被触发的事件是否满足了事件模式的最低要求。比如,如果Zillow想要保证每个事件都有一个非零的匿名ID, 并且网页的网址在其中一个自定义维度里。这些测试不是虽然功能性测试,但是可以在有人破坏事件模式前提供警告。

测试与数据流平台(DSP)


在测试环境中,Zillow将所有的微服务配置为使用流数据平台测试实例。除了给实际提供者发送分析事件外,Zillow还会将事件发送给流数据平台。流数据平台将事件写入一个Kafka主题(Kafka是由 Linkedin 公司开发的,一个分布式的,支持多分区、多副本,基于 Zookeeper 的分布式消息流平台),然后将事件用Kafka Connect作业备份到AWS S3存储服务点击流事件将被发送到Google Analytics,并可以通过Google Analytics的控制台使用。




结论


用以上提到的这个系统,Zillow就能够监测分析事件的质量,让产品与功能负责人在功能发布之前就能发现问题、解决问题。

如果你希望在未来求职于像Zillow一样的大公司,就需要熟练掌握各种数据分析需要的核心技能(SQL、数据库、R和Python统计建模、Tableau数据可视化等)那就千万不要错过MarTechApe的宝藏项目《营销组合建模企业级实战训练营》,一个专门培养优秀数据分析师/数据科学家的企业级别实战项目,拥有企业真实数据(改编)与行业标准流程。项目经历可成为简历上的履历!


从我们的项目中,毕业了将近200名学生,斩获各大公司数据岗位offer:



1

营销组合模型训练营是什么?

营销组合模型训练营(Marketing Mix Modeling Bootcamp是MarTechApe的宝藏项目,由全球最大广告集团 WPP美国办公室的数据总监以及营销分析经理共同授课。在训练营中,你将学习在真实商业情境中如何用营销组合模型解决广告营销最核心的问题——科学合理地评估不同广告对品牌和销售的影响,以统计模型的结果来科学优化广告预算。

训练营的学员收获了:

  • 真正意义上的“用数据和模型解决营销中最重要的问题”的经历。

  • 熟练掌握SQL、R、Tableau等时下最流行的数据处理语言,并用这些技能解决实际问题。

  • 大大提高Media/Advertising Industry的商业意识,熟悉不同媒介渠道的广告活动对不同商业指标的不同回报率(ROI)与有效性(Effectiveness),学会用“营销效果”的视角看待营销活动,理解各大公司市场营销部门、消费者洞洞察部门的痛点。

  • 跳出学校作业的框架,上手真正商业情境中、实际工作中的实战案例。让校园与实际工作无缝衔接。将学到的Analytics思维方式泛化到其他应用场景,面对Case Study建立系统性解决思路。

  • 提升项目演示Presentation技能,学会如何从原始数据中挖掘具有意义的故事。为客户解决实际问题,提高Business KPI。

  • 完成项目后,辅导老师将帮助你利用这一个惊艳的项目背景打造最引人注目的简历;所有学员获得内推机会,优秀学员获得一对一面试辅导。


2

学员对训练营评价如何?

Marketing Mix Modeling Bootcamp开办至今,收获了大量好评,学员们都觉得Bootcamp的质量非常高,在节课后给我们发来了很多让我们非常感动的评论:



3

训练营老师是谁?

1. 全球最大广告传媒集团WPP | 数据总监

  • 商业分析高级专家

  • 拥有7年数据分析经历

  • 各类SQL、Tableau疑难杂症的go-to person

2. 全球最大广告代理公司GroupM | 营销分析经理

  • 营销效果分析专家。为十多个每年广告预算上亿美元的大客户提供营销效果评估、销售预测等解决方案

  • 拥有6年Marketing Mix Modeling等高阶分析经验,具有丰富的训练新人和带领团队的经验

  • 毕业于Columbia University统计学系


Marketing Mix Modeling Bootcamp第14期

即将在本周末开课!


我们的老规矩:小班教学,每一期Bootcamp只招收20名学生,先到先得!


接下来我们就看看训练营的具体课程内容吧!


4

在Bootcamp中可以学到哪些内容?

  • 整个bootcamp分为广告数据源概况、数据处理与可视化、统计建模、深度诊断,共计24小时课时,在两个月内完成。
  • 周末Online Live授课,课后完成老师布置的作业,助教团队在班级群随时答疑,直播录像永久回放。
  • 课程内容涵盖了数据分析岗位的完整工作流程(analytics cycle):
    • 数据收集Data Acquisition
    • 数据处理和清洗Data Processing
    • 数据可视化与商业洞察Data Visualization & Data Story-telling
    • 统计建模Modeling
    • 模型优化Optimization
    • 销售预测Simulation
    • 深度诊断Side Diagnostics
    • 结果展示Presentation
  • 每位学员将有一套亲自做的Data成果作品和一套Model成果作品,以及一段完整的为客户解决实际问题的经历。
  • 结课后,每位学员获得提升简历的Project Experience完美描述,所有学员获得内推机会!优秀学员获得额外一对一面试辅导
  • 报名的学员可在开课前一周获得详细的Syllabus。
1. Advertising Platform Overview
广告平台概述
  • 了解美国主要的广告平台/第三方Vendor
  • 了解主要的广告数据源、变量及其意义
  • 了解现代广告机制以及各方角色
  • 感受真实的数据收集过程

2. Data Process & Visualization
数据处理与可视化
  • 搭建一个真实的数据库
  • 用SQL对数据进行ETL (Extract - Transform - Load)
  • 用Tableau来完成完整的Data Visualization
  • 通过挖掘数据中的信息,总结商业洞察
  • Data Presentation:对数据产品进行展示,展示作品可作为项目经历成果

学员在前四周会聚焦在数据处理和商业洞察上。学员会面对大量的营销活动数据(如Display、Search、Social、Video、TV等广告数据),根据Media Data的数据源与结构来处理纷繁复杂的数据。并用可视化来呈现出数据洞察。你将学会如何搭建一个数据库、如何利用SQL去处理未经处理的、大型原始数据集,并利用Tableau对数据进行可视化分析。你还将完成对一份数据的商业分析。简而言之,我们将以Data Processing>>Data Visualization>>Insights Generation这样一套体系,系统加强你的数据分析能力以及商业意识。

3. Statistical Modeling
统计建模
  • 建立Marketing Mix Modeling、调参、模型甄选
  • 构造与模型结果相关的visualization,分析各营销渠道ROI,提取洞察和战略建议
  • 建立Optimization,优化不同的营销渠道的预算安排,得出最优的营销组合

在真实的世界里,模型用来回答各类不同的商业问题,帮助决策者作出最优的决策。在本次bootcamp的第四~第八周中,你将建立一个真正的Marketing Mix Model!掌握模型最核心的秘诀,调整各类模型参数、学会解读模型结果、优化营销预算、精准预测销售走势。在这个过程中,学会将商业问题翻译成模型问题,用不同的分析手段来回答不同的营销问题,真正做到数据驱动战略决策。

4. Side Diagnostics

深度诊断

  • 详细解析模型结果,为每一个渠道对销售的影响做深度诊断
  • 在广告战役、广告创意(Creative)、投放策略(Tactics)等多个纬度上对媒介渠道的有效性进行拆解分析
  • 掌握如何通过深度诊断来回答各类数据与模型向商业传达的信息与洞察
  • Final Presentation:对数据和模型变量、结果做一个完整的presentation,展示作品可作为项目经历成果,助力求职面试

在向你的观众解释Marketing Mix Modeling的模型结果时,Side Diagnostics(深度诊断)往往是一个让你的受众通过商业意义来理解模型结果的重要手段。模型的解释力以及与商业可行性的融合性是决定你的受众是否“买账”的关键因素。深度诊断部分将教你如何用统计的方法说服你的受众!

5

上完Bootcamp,有哪些成果可以展示?

从变量可视化分析、模型解读、营销渠道分析,到战略洞察、PPT演示,学员的精致作业就是他们最好的训练营成果,这一份拿的出手的高品质项目,无论是LinkedIn还是面试展示,都会是脱颖而出的最佳帮手!


学员作品


正是这些实打实的项目经验和能够直接拿到面试官面前展示的作品,让我们的学员在面试的时候信心倍增,让面试官刮目相看!

说了这么多,到底怎么报名这门干货十足物超所值的项目课程呢?

6

报名方式

长按ErWeiMa,添加小助手为好友,回复“MMM”,即可报名bootcamp:


小助手(ID:yvonne91_wsn)

价格规则


熟悉我们的老用户,应该知道我们一直都是实行阶梯价格的,这次也不例外:
先到先得、越早报名越优惠(原价$1999美元)。以下价格单位为美元:
第1名~第5名:1299美元
第6名~第10名:1499美元
第11名~第15名:1599美元
第16名~第18名:1799美元
第19名~第20名:1999美元(原价)



来个“分享、点赞、在看”

相关资源