面向業務的數據科學

已發表: 2018-12-13

他們說數據科學家是 21 世紀最性感的工作(我在各種會議上遇到的所有數據科學家都知道這一點)。 但是當他們只談論機器學習的理論部分時,我有時想知道他們是否知道他們的工作為何如此火爆。 原因是數據科學家知道如何結合數據、技術技能和統計知識來實現業務目標。 所以要做好數據科學,首先要考慮業務。

我知道一些公司添加分析工具來跟踪每個用戶的觸摸而不考慮他們實際想要完成的事情的情況。 他們收集了許多他們不了解且無法用於推進業務的數據。

不要犯這樣的錯誤! 在數據科學過程的每個步驟中考慮您的目標和行業特異性。 你越有創造力,你成功的機會就越大。 為了證明這一點,我將向您展示一些數據科學在巨頭應用中的鼓舞人心的例子……

如何開始您的數據科學冒險

您聽說很多公司使用 ML 來增加收入,但您不知道如何開始? 為了不以昂貴的基礎設施和無用的(滿足您的業務需求)數據而告終,您應該從提供以下問題的答案開始:

客戶的業務目標是什麼? 我們如何使用數據來實現它們?

然後,您可以開始計劃可以跟踪和使用哪些數據。

數據收集

我們應該收集哪些數據? 這個問題的答案可能會讓你大吃一驚。 根據 Todd Yellin(Netflix 的產品創新副總裁)的說法,可以使用兩種類型的數據:顯式和隱式 [1]。 在 Netflix 的案例中,顯式是指用戶對電影評分。 另一方面,隱含的是行為數據——基於用戶點擊和應用程序的使用。 哪種類型更有價值?

這個問題沒有普遍的答案,但在大多數情況下,隱式數據會更有用。 那是因為……人們撒謊。

考慮一個說他喜歡紀錄片並給它們評分 5/5 的人的例子。 但是,正如數據顯示的那樣,他每年都會觀看一次這種類型的電影。 同時,他每週五晚上都會看熱門劇集。 那是因為他下班後很累,只想在沙發上放鬆一下。 那麼應該使用哪些數據來準備這樣的推薦系統:評分還是用戶的行為?

要回答這個問題,我們需要思考其發展的商業目標。 Netflix 的目標是鼓勵用戶觀看更多電影。 他們從流行的五星級評級系統開始。 當他們意識到提到的用戶更有可能看到朋友而不是關於二戰的電影時,他們開發了基於用戶行為的推薦系統。 他們還放棄了五星級評級,取而代之的是更簡單的二元點贊系統。

如本例所示,應根據行業特性選擇收集的數據,並應提供足夠的信息來了解用戶的決策和需求。 但在這裡我們遇到了另一個問題:行為數據、文本和其他非結構化數據在機器學習模型中比結構化數據更難分析和使用。 所以現在是時候談談特徵工程了。

特徵工程

為了說明特徵工程在數據科學中的重要性,我想引用谷歌大腦聯合創始人兼 deeplearning.ai 創始人 Andrew Ng 的話:

提出功能既困難又耗時,需要專業知識。 應用機器學習基本上是特徵工程。 [2]。

https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf

以目的為導向的數據處理方法的一個有趣示例是 Booking.com,用戶可以在其中對酒店進行 0 到 10 的評分。但是,如果派對動物對酒店的評價很高,那麼對於有孩子的家庭來說,這是一個不錯的選擇嗎? 不必要。

幸運的是,還有用戶的評論包含了我們需要的更多信息。 Booking.com 使用情感分析和主題建模來提取評論酒店的優勢和劣勢,以及用戶對住宿的偏好。

讓我們考慮這個例子:

預訂評論

A topic 房間設施有負面情緒(用戶抱怨淋浴、床、wifi 和空調)。 同時,該用戶對酒店、員工和食物的價格給予了好評。 該系統還會分析評論中未提及的內容,因此對用戶來說可能並不重要——在我們的示例中,這可能是夜生活。

有了這些見解,該平台可以為具有相似個人資料的用戶提供更適合的酒店,在這種情況下,一個有孩子的家庭正在以合理的價格尋找一個安靜的酒店度過假期的地方。 更重要的是,Booking.com 對評論進行排序,以便在頂部向查看者顯示最有趣的信息。

這帶來了雙贏的局面:用戶可以更快、更輕鬆地找到針對其特定需求量身定制的優惠,並且平台可以獲利,因為這些優惠是用戶更有可能購買的優惠。

對數據科學感到好奇?

學到更多

數據產品

您部署的數據產品效果令人滿意嗎? 現在不是自滿的時候。 正如 Netflix 示例所示 [3],持續改進系統可以帶來顯著收益。 一個合適的電影推薦就足夠了嗎? 我們還能做什麼?

Netflix 開箱即用的方法之一不僅是推薦電影,而且還用對給定用戶最有吸引力的圖像來說明它們。 假設他們向您推薦Good Will Hunting 。 如果你過去看過很多浪漫喜劇,你可能會看到一對接吻情侶的畫面,而如果你是喜劇迷,你很可能會看到一位受歡迎的美國喜劇演員的鏡頭:

Netflix推薦系統

使用這種方法,用戶滾動瀏覽無數選項更有可能發現吸引他們注意力的電影。

這種推薦策略和其他推薦策略取得了驚人的效果——平台超過 80% 的內容是基於算法推薦的。 這意味著用戶很難看不到東西。 當一個節目結束時,Netflix 會推薦下一個節目。

在他們的業務中具有競爭優勢,因為用戶取消訂閱的可能性要小得多。 數據科學的這種極其成功的應用主要是通過對其業務和應用程序用戶的良好理解來完成的。

摘要

在今年的一次數據科學會議上,一位從事信用風險預測的演講者說:

當人們問我我的工作基本上是什麼時,我會回答:我基於數據帶來商業價值。

對我來說,這是對數據科學的最佳定義之一。 它不應該僅僅以它的理論基礎為導向,尤其是在商業上。 如果您想創建一個好的機器學習應用程序,您需要考慮用戶在您的系統中的行為方式以及他們的需求。 考慮到這一點,您將成功實現業務目標。