从小白到大神,数据科学家的进阶之路

在本篇文章中,妙盈数据科学专家Gu Jiang将为我们带来数据分析与商业智能那些事。如何与数据跳舞?怎么实现商业智能?一名数据科学家的日常工作包括哪些?如何实现从数据分析师到数据科学家的进阶?

Gu Jiang, 妙盈科技数据架构高级工程师2019-05-02

什么是商业智能?如何实现商业智能?

简单来说,商业智能的作用就是用"数据"解答问题,让企业的决策有数据依据,减少盲目性,提供智能参考。

通常互联网公司内部的商业智能包括以下几个部分:

  • 数据分析挖掘:配合数据挖掘工具,关联业务数据,分析业务。通过可视化工具,提供分析结果和交互式查询;

  • 数据预警:数据指标实时呈现,关键指标预警。产品层面例如日活、留存率、金融风控等等。企业内部包括人员流动率、财务指标等;

  • 数据服务:数据输出,提供各部门的自助式查询。元数据和权限管理,形成数据中台,支撑其他产品的数据需求。

作为一名数据科学家,你的日常工作包括哪些?

首先要解决数据从哪里来的问题。

据不完全统计, 一个数据领域的工作者70%的时间花在取得数据上。根据不同的业务需求和产品形态,我们需要从不同的数据源获取原始数据。

  • 内部业务数据。例如头部电商统计商品品类的订单量分布,外卖行业统计外送订单量每日时间分布,在线打车软件统计平均每单路程等等。这些数据都直接保存在产品数据库中,分析的时候,需要同步工具定时或者实时地同步到可供分析的数据平台或者工具上。

  • 用户产生数据。用户在产品中的行为轨迹往往对产品决策有直观的反馈。比如某新闻客户端统计推送热点文章阅读量,或者用户在网页上点击热力图。我们需要记录用户在产品中的特定行为,并且保存下来,用户在使用的过程中仿佛留下了一串串“脚印”。

    我们一般可以通过前端打点,后端日志等方式获取用户行为,因此需要精确地定位关键的步骤,也就是插好”相机“,准确地记录用户行为。例如,用户在付费过程中,从提交订单到付款成功的每一步,在哪一步最容易跳出,从而流失付费机会。根据用户的行为习惯,形成用户画像,做到”千人千面”。

  • 接入其他企业的数据。一些数据可能由其他数据提供商提供,如广告点击数据等。另外当我们内部的数据分析具备了输出能力,就可以接入其他不具备自主分析能力的企业,替他们完成分析工作。此时,也需要通过定时或实时地同步汇总起来,完成分析工作。

接下来,要解决分析数据的事情。当我们获得了分析必备的数据之后,经过数据预处理、模型构建、入库进入到统一的数据仓库之后,如何面向我们的业务完成分析工作?

  • 分析现状,确定关键指标。企业内部的不同部门通常都有各自关心的指标,市场部门更关心渠道转化率, 销售更关心回款率,人事更关心入职成功率、人员流失率等等。我们的第一步就是着力于提供关键指标,清晰地反应企业内部或者产品的当前现状, 并及时呈现给决策者。

  • 追踪链路。知道当前的指标状况,仍并不足以为改进和提高指标提供有意义的参考,我们还需要知道为什么会形成目前的状况分析人员需要和决策者一起回顾整个流程,构建数据的生命周期,知道为什么会形成目前的状况。

    比如,人事入职成功率比较低, 那我们就需要回顾招聘的整个流程,分别对简历筛选、电话、面试、入职等各个环节进行数据漏斗统计。如果简历筛选的通过率比较高,但是电话面试成功率较低,那么很有可能简历的筛选过于宽松,我们就能向人事提供这样的Insights。

    再比如对于用户产品留存率,如果观察30天留存率比较低,用户流失严重,那么可以观察用户7天,周度,月度活跃和留存,如果用户7天流失已经比较大,有必要在相对应的时间节点进行“唤醒”,提高产品的活跃用户。

  • 预测未来。数据分析可以回首过去,还应预测未来。根据历史记录,我们还需要预测出可能的趋势,这样我们才能估计可能发生的结果早做准备。这就需要分析人员利用统计学方法、机器学习等复杂算法,学习历史数据,得出预估数据。

    比如预估每年天猫双11的成交量,预测客户欺诈行为,预测可能流失客户提前回访。预测未来,帮助决策者提前了解风险,抓住机会,得到最好的结果。

最后一步,如何能更高效地查看数据?

数据分析的交付物通常是汇总于数据表单里的统计结果。在MioTech AMI中,我们的目标是直观地从多个维度展现数据特点,既要能够呈现宏观数据统计(overview),又要能够在某个维度上向上或者向下钻取(drill down)。

MioTech AMI提供了多种展示数据的方式,比如下面柱状图直观地描述了BAT三家自2009-2019年十年期间的投资分布,可以一定程度上反应趋势,同时还能向下更细节地查看具体公司的所属行业,在更精准的维度上查看问题。

MioTech AMI中的数据可视化展现——BAT自2009-2019年的投资分布

如何从小白进阶成为大神,成为一名数据科学家?

大企业的确在招聘时区分数据分析师与数据科学家,但是在创业公司,我们往往身兼数职,其实这两者的边界也比较模糊。这两者反映了数据分析从传统企业内部服务转向大数据时代精耕细作的转变。

先看下成为一名数据科学家需要掌握的技能。

对于传统的数据分析师来说,通常我们会比较关注他的行业知识、商业知识以及分析能力。他需要有比较丰富的行业经验,能够快速根据部门的需求快速定位所需要的指标,熟练的使用工具产出相应的图表或者Insight。

在大数据时代,在宏观上数据的量级发生了指数级的提升,数据类型也变得纷繁复杂。这就要求数据工作者能够使用大数据工具,完整地实现从多数据源抓取数据,消费海量数据,并且保证稳定的输出。

对于每条数据,我们都希望尽可能地榨取其中的信息。因此我们不满足于只统计商品评论的数量,而需要做情感分析、关键词提取等,从而了解用户反馈。我们不满足于基于当前的统计,所以不仅仅要知道用户以前最喜欢什么,更要推测用户以后可能会喜欢什么。而且我们不满足于只分析结构化数据,新闻、图片、图像、音频、地理卫星数据都将成为分析的对象。

这也对数据工作者提出了更多的技能要求,学习技术技能是一个相对容易的过程,尤其是在大数据时代各种自动化工具的出现,更方便了我们数据处理。但是对于数据的敏感度、行业的了解、产品的理解,是需要时间去消化和沉淀的,这是相对于技能更加弥足珍贵的能力。