從小白到大神,數據科學家的進階之路

在本篇文章中,妙盈數據科學專家Gu Jiang將為我們帶來數據分析與商業智能那些事。如何與數據跳舞?怎麼實現商業智能?一名數據科學家的日常工作包括哪些?如何實現從數據分析師到數據科學家的進階?

Gu Jiang, 妙盈科技數據架構高級工程師2019-05-02

什麼是商業智能?如何實現商業智能?

簡單來說,商業智能的作用就是用"數據"解答問題,讓企業的決策有數據依據,減少盲目性,提供智能參考。

通常互聯網公司內部的商業智能包括以下幾個部分:

  • 數據分析挖掘:配合數據挖掘工具,關聯業務數據,分析業務。通過可視化工具,提供分析結果和交互式查詢;

  • 數據預警:數據指標實時呈現,關鍵指標預警。產品層面例如日活、留存率、金融風控等等。企業內部包括人員流動率、財務指標等;

  • 數據服務:數據輸出,提供各部門的自助式查詢。元數據和權限管理,形成數據中台,支撐其他產品的數據需求。

作為一名數據科學家,你的日常工作包括哪些?

首先要解決數據從哪裡來的問題。

據不完全統計, 一個數據領域的工作者70%的時間花在取得數據上。根據不同的業務需求和產品形態,我們需要從不同的數據源獲取原始數據。

  • 內部業務數據。例如頭部電商統計商品品類的訂單量分布,外賣行業統計外送訂單量每日時間分布,在線打車軟件統計平均每單路程等等。這些數據都直接保存在產品數據庫中,分析的時候,需要同步工具定時或者實時地同步到可供分析的數據平台或者工具上。

  • 用戶產生數據。用戶在產品中的行為軌跡往往對產品決策有直觀的反饋。比如某新聞客戶端統計推送熱點文章閱讀量,或者用戶在網頁上點擊熱力圖。我們需要記錄用戶在產品中的特定行為,並且保存下來,用戶在使用的過程中仿佛留下了一串串「腳印」。

    我們一般可以通過前端打點,後端日志等方式獲取用戶行為,因此需要精確地定位關鍵的步驟,也就是插好」相機「,准確地記錄用戶行為。例如,用戶在付費過程中,從提交訂單到付款成功的每一步,在哪一步最容易跳出,從而流失付費機會。根據用戶的行為習慣,形成用戶畫像,做到」千人千面」。

  • 接入其他企業的數據。一些數據可能由其他數據提供商提供,如廣告點擊數據等。另外當我們內部的數據分析具備了輸出能力,就可以接入其他不具備自主分析能力的企業,替他們完成分析工作。此時,也需要通過定時或實時地同步匯總起來,完成分析工作。

接下來,要解決分析數據的事情。當我們獲得了分析必備的數據之後,經過數據預處理、模型構建、入庫進入到統一的數據倉庫之後,如何面向我們的業務完成分析工作?

  • 分析現狀,確定關鍵指標。企業內部的不同部門通常都有各自關心的指標,市場部門更關心渠道轉化率, 銷售更關心回款率,人事更關心入職成功率、人員流失率等等。我們的第一步就是著力於提供關鍵指標,清晰地反應企業內部或者產品的當前現狀, 並及時呈現給決策者。

  • 追蹤鏈路。知道當前的指標狀況,仍並不足以為改進和提高指標提供有意義的參考,我們還需要知道為什麼會形成目前的狀況分析人員需要和決策者一起回顧整個流程,構建數據的生命周期,知道為什麼會形成目前的狀況。

    比如,人事入職成功率比較低, 那我們就需要回顧招聘的整個流程,分別對簡歷篩選、電話、面試、入職等各個環節進行數據漏斗統計。如果簡歷篩選的通過率比較高,但是電話面試成功率較低,那麼很有可能簡歷的篩選過於寬松,我們就能向人事提供這樣的Insights。

    再比如對於用戶產品留存率,如果觀察30天留存率比較低,用戶流失嚴重,那麼可以觀察用戶7天,周度,月度活躍和留存,如果用戶7天流失已經比較大,有必要在相對應的時間節點進行「喚醒」,提高產品的活躍用戶。

  • 預測未來。數據分析可以回首過去,還應預測未來。根據歷史記錄,我們還需要預測出可能的趨勢,這樣我們才能估計可能發生的結果早做准備。這就需要分析人員利用統計學方法、機器學習等復雜算法,學習歷史數據,得出預估數據。

    比如預估每年天貓雙11的成交量,預測客戶欺詐行為,預測可能流失客戶提前回訪。預測未來,幫助決策者提前了解風險,抓住機會,得到最好的結果。

最後一步,如何能更高效地查看數據?

數據分析的交付物通常是匯總於數據表單里的統計結果。在MioTech AMI中,我們的目標是直觀地從多個維度展現數據特點,既要能夠呈現宏觀數據統計(overview),又要能夠在某個維度上向上或者向下鑽取(drill down)。

MioTech AMI提供了多種展示數據的方式,比如下面柱狀圖直觀地描述了BAT三家自2009-2019年十年期間的投資分布,可以一定程度上反應趨勢,同時還能向下更細節地查看具體公司的所屬行業,在更精准的維度上查看問題。

MioTech AMI中的數據可視化展現——BAT自2009-2019年的投資分布

如何從小白進階成為大神,成為一名數據科學家?

大企業的確在招聘時區分數據分析師與數據科學家,但是在創業公司,我們往往身兼數職,其實這兩者的邊界也比較模糊。這兩者反映了數據分析從傳統企業內部服務轉向大數據時代精耕細作的轉變。

先看下成為一名數據科學家需要掌握的技能。

對於傳統的數據分析師來說,通常我們會比較關注他的行業知識、商業知識以及分析能力。他需要有比較豐富的行業經驗,能夠快速根據部門的需求快速定位所需要的指標,熟練的使用工具產出相應的圖表或者Insight。

在大數據時代,在宏觀上數據的量級發生了指數級的提升,數據類型也變得紛繁復雜。這就要求數據工作者能夠使用大數據工具,完整地實現從多數據源抓取數據,消費海量數據,並且保證穩定的輸出。

對於每條數據,我們都希望盡可能地榨取其中的信息。因此我們不滿足於只統計商品評論的數量,而需要做情感分析、關鍵詞提取等,從而了解用戶反饋。我們不滿足於基於當前的統計,所以不僅僅要知道用戶以前最喜歡什麼,更要推測用戶以後可能會喜歡什麼。而且我們不滿足於只分析結構化數據,新聞、圖片、圖像、音頻、地理衛星數據都將成為分析的對象。

這也對數據工作者提出了更多的技能要求,學習技術技能是一個相對容易的過程,尤其是在大數據時代各種自動化工具的出現,更方便了我們數據處理。但是對於數據的敏感度、行業的了解、產品的理解,是需要時間去消化和沉淀的,這是相對於技能更加彌足珍貴的能力。