【数据分析岗】大厂面试真题(一)

发布于 2021-09-11 18:36 ,所属分类:试题库考试资料大全

点击上方蓝色【数据有道DataHayWay】+星标~

第一时间获取最新内容


之前,针对面试框架进行了梳理

【数据分析岗】面试框架梳理(含高频题型)


很多同学给我反馈:
希望对大厂面试真题做一个系列,
方便学习+自测。

于是本篇,
就整理了数分岗常见面试真题
内含 解题思路 +参考答案

------正文手动分割线------
本文结构速览:
一、SQL题
二、机器学习&概率论
三、开放性问题


01

SQL题


面试真题

现有一张用户签到表(user_sign_d),标记用户每日是否签到,表结构如下
  • sign_date: 日期

  • user_id: 用户ID

  • if_sign:当日是否签到,1表示签到,0表示未签到


问题 ①

请计算截止到当前每个用户已经连续签到的天数(输出表仅包含当天签到的所有用户,计算其连续签到的天数)

输出表结构如下:

  • user_id: 用户ID

  • continuous_days: 连续签到的天数



▼ 解题思路:

计算最近一次未签到的日期,然后和当前日期做时间差,即为连续签到的天数

踩坑点:如果用户每日签到,不存在未签到日期,需要特殊处理

SQL答案参考:



问题 ②
请计算每个用户历史依赖最大的连续签到天数

输出表结构如下:

  • user_id: 用户ID

  • max_continuous_days: 最大连续签到天数


▼ 解题思路1:

解答该题目思路较为巧妙,下面一步步进行拆解:
step1:将每个用户签到的情况根据日期拼接成一个长的字符串,如(0-1-1-0),
step2: 然后根据0进行切割(split)
step3:切割后进行列转行
step4: 再对转好的列进行计算,长度最长的一段字符串


▼ 解题思路2:

借助问题1的思路,找到每两个为签到日期的时间差,然后找最大的时间差作为连续签到的最大天数。


注意:这个答案给答题者留了两个坑:
  • 最近一次连续签到时间没有包含在内
  • 如果用户没有未签到日期,也就是用户每日签到,这种无法计算在内
对于这两个坑,留给大家自行补坑。


02

机器学习&概率论


面试真题1:A/B test如何进行,如何用统计知识看A/B test的结果?

参考答案:

A/B test一般涉及到现状分析、目标设定/方案输出、设计与开发、流量分配、数据采集及分析。AB结果主要使用假设检验进行评估,根据样本量,指标设定假设检验的统计量等。

注意:这里面试官会根据应聘者的回答,发散性的问其他相关问题。



面试真题2AB效果不好怎么办?

参考答案:
  • 增加样本量:根据显著性检验的原理,只要实验组和对照组差值及样本方差不变的情况下,样本量足够大,我们总是可以得到显著性的结果。
  • 减少样本均值的方差:减少样本均值方差的方法有减少离群值的影响,缩减方差(CUPED)的方法。
  • 更换指标:更换一个方差更小的指标,比如某购物平台,实验指标一开始是用户购买的平均金额,我们可以更换为用户是否购买。对同一批样本,是否购买属于0-1分布,样本的均值方差自然比用户购买的平均金额小很多。



面试真题3在建模的时候,如何进行特征筛选?

参考答案:通过计算每个特征的信息增益比、随机森林算法等进行特征筛选。
注意:这里面试官可能会根据应聘者的回答结合简历经历问一些问题。



面试真题4:线性回归的前提假设有哪些?

参考答案:
  • 自变量和因变量呈线性关系。

  • 误差之间相互独立

  • 自变量相互独立

  • 误差项的方差应为常数

  • 误差呈正态分布



03

开放性问题


面试真题1对于腾讯视频,如何构建一套指标体系去监控业务的增长情况?

参考思路:
好的指标体系的构建需要既符合业务目标,又可真实反映业务现状。
可以利用OSM理论入手:
  • O :公司的核心目标是什么?
  • S :为达到此目标各业务向下拆解所采取的策略/抓手是什么?

  • M:针对S设计度量标准来衡量/评估效果。

例如:作为视频业务,核心目标是提升营收。围绕营收的抓手可能有用户侧、产品(视频)侧、商业侧。

对于用户侧,可以从拉新类、活跃类,留存类,转化类(VIP体)等指标结合业务策略考虑进行监控。

视频作为用户使用产品的承载体,需要考虑视频的播放情况(内容指标相关)、丰富度、上架(供给侧指标相关)情况来设计。

商业侧注重广告收益、ROI等指标。



面试真题2如何定义流失用户?

参考思路:

常见流失用户的定义有7/30/90天的划分方式,会依据各家公司产品的特点、考核各用户的实际情况而做调整。

有一种思路是:流失用户可以从用户活跃情况进行分析,通过计算用户第N日的留存分布,划分一个留存收敛的切割点。

比如下面是某平台的留存数据,22天内的留存为44.8%,22天之后的留存率趋于稳定,所以我们可以以22天作为切割点,也就是说,22天不访问APP的用户作为流失用户。




面试真题3为什么要选择数据分析行业?

参考思路:
可以从自身背景以及兴趣角度+规划进行阐述。
  • 比如自身背景,从相关专业(如统计,商业分析)、相关项目经历(如数学建模)阐述。

  • 比如兴趣角度,从行业背景进行描述,以及自己对数据分析工作的理解和看法,继而展现自身对该行业的兴趣,以及为此所付出的准备与努力(主修课程、实习、项目等)。

总之,体现出自己热爱的同时,要侧面说出自己的条件 “匹配 ”



以上为某厂数据分析岗的面试真题及答案解析。

如若感兴趣此系列,可以向我反馈~
后续会收集更多大厂面试真题(附解题思路)。



注:本篇阅读如破500
立马安排下一篇大厂面试真题
欢迎转发分享,点亮在看~~

如需各厂内推码
想进干货交流群
可后台联系我~
希望可以帮到正在找工作的你,加油。

若本篇对你有帮助,欢迎转发,点亮在看
你的鼓励,是对创造者最大的支持~
也可以在gongzhong号后台找到我,说说你的困惑 ~



相关资源