如何在大數據分析中使用機器學習
已發表: 2022-11-25機器學習使組織能夠將大數據轉化為提高利潤的洞察力。 了解大數據和機器學習如何相關以及如何使用它們。
多年前,企業主不得不依靠他們的記憶來定制他們為客戶服務的方式。 當瓊斯女士走進來時,一位店主不得不回憶她上次買的東西,她最後有沒有把它帶回來,以及她在上次來訪時是否抱怨過。
現在,得益於大數據,大量客戶和業務數據觸手可及。 您知道瓊斯女士住在哪裡、她在過去 10 年裡買了什麼、她花了多少錢、她退貨的頻率以及許多其他指標。 使用機器學習,您可以將此數據和其他數據轉化為促進業務發展的見解。 以下是大數據和機器學習的細分,以及如何利用它們為您的業務提供動力。
什麼是大數據和機器學習?
大數據和機器學習既不同又密切相關。
什麼是大數據?
大數據是指巨大的或極其複雜的數據集,如果沒有專門的工具可能無法利用這些數據集。 有些企業永遠不必處理大數據。 例如,如果您的一家餐廳在三個地點生產銷售和庫存數據,這就不是“大數據”。
另一方面,如果同一家餐廳再增加 10 個位置和一個移動應用程序,使客戶能夠在線下訂單、利用忠誠度獎勵並通過文本與客戶服務代表聊天,那麼您現在就擁有大數據情況。 該應用程序本身可能會產生有關以下方面的數據:
顧客最常點的餐點
客戶下訂單的時間
客戶根據地理位置數據從何處訂購食物
客戶居住的地方以及與每個城鎮相關的購買統計數據
每個地點的銷售數據
客戶如何使用他們的獎勵積分
高峰節假日採購數據
這些例子只是觸及了表面。 這種應用程序可以生成數十個數據集。 此外,信息將以近乎恆定的方式流入。 那就是大數據。
什麼是機器學習?
機器學習 (ML) 是指使用計算機識別數據中的模式。 機器學習使用算法來做到這一點,這些算法是逐步製定的指令集。 機器學習模型使用算法中的步驟來學習模式。 這還包括識別模式何時被打破以及學習如何將模式相互比較。
舉個簡單的例子,假設您想構建一個機器學習算法來分析銷售數據。 您有五年的銷售數據。 您的目標是通過確定您應該在 6 月到 8 月期間銷售哪些產品來最大化夏季利潤。
您可以將您的機器學習系統編程為:
逐月匯總每個產品的銷售數據。
確定 6 月和 8 月之間銷量最高的產品。
預測與提供每種產品相關的銷售額。
告訴您要提供哪些產品以及是否應該在 6 月、7 月、8 月或所有三個月內提供這些產品。
當然,您可以將 ML 更進一步,將每種產品的銷貨成本 (COGS) 納入其中,包括運輸、人工、存儲和其他數據。 那麼你的 ML 模型不僅可以推薦夏季銷量最高的產品,還可以告訴你哪些產品帶來的淨利潤最高。
然後,您可以使用相同的模型為以下方面提供銷售見解:
一年中的單個產品
針對類似目標市場的新產品
一年中每隔一個月
什麼是大數據中的機器學習?
在大數據的背景下,任何時候數據中可能存在模式,您都可以使用機器學習來發現它們並提供有用的見解。 此外,您還可以使用 ML 根據算法分析的模式提出建議。
機器學習如何處理大數據
機器學習最流行的應用之一是自動駕駛汽車。 汽車使用機器學習來決定如何處理從周圍環境和其他車輛收集的數據。
例如,當自動駕駛汽車內的攝像頭“看到”停車標誌時,它們可以識別並自動剎車。 這一決定背後的過程很可能始於一組數據科學家測試多種機器學習算法。 在高層次上,這需要三個步驟:
1.培訓
為了分析大數據,數據科學家首先使用訓練集來教一個或多個算法他們應該尋找什麼。
例如,對於停車標誌,訓練集將包含數千張停車標誌圖像。 數據工程師會從不同的角度、不同的光線下,甚至在樹木或其他物體部分遮擋的情況下呈現停車標誌的圖像。
在訓練階段結束時,希望算法已經識別出停車標誌的形狀和顏色的模式。 換句話說,它知道停車標誌“看起來像”——在不同的光線下和從不同的角度看。

2. 驗證
驗證集用於確定 ML 模型使用完全不同的大數據集的準確性。 驗證階段的目的是發現微調 ML 模型的方法。
例如,假設旨在識別停車標誌的 ML 模型準確率為 95%,而它出錯的所有圖像都非常暗。 然後,開發人員可以使用另一個公式來增加每張圖像的對比度,使 ML 模型更容易看到重要特徵。
3. 測試
測試階段涉及向 ML 模型提供更多大數據,這些數據與它在訓練和驗證階段看到的完全不同。
例如,為了測試停車標誌模型,程序員可以向 ML 模型展示 250,000 張不同種類標誌的圖像,其中一些是停車標誌。 然後,他們將分析結果,看看該模型能夠多準確地區分停車標誌,並避免錯誤識別其他類型的標誌。
機器學習和大數據的挑戰
使用 ML 研究大數據的數據科學家面臨的兩個最艱鉅的挑戰是不准確和道德困境。
1. 不准確
自然地,即使涉及高級計算過程,在大數據分析中使用機器學習時,您仍然會經歷反複試驗的過程。 這是因為在訓練、驗證和測試模型時,您永遠不知道哪些因素會影響您的結果。
例如,在識別圖像(例如停車標誌或人臉)時,多種因素可能會導致您的 ML 模型性能不佳。 例如,假設您正在開發機器學習模型來改進公司的安全系統。 具體來說,您需要一個可以識別高管和其他高級人員面孔的模型,以便他們可以獲准進入建築物的敏感區域。 在驗證階段,系統的準確率僅為 65% 左右。 但這可能是由於幾個變量造成的,例如:
面部像素化圖像
失焦的圖像
在面部掃描過程中看向別處的人
個人決定佩戴太陽鏡、面罩、圍巾或其他可能影響識別結果的東西
2. 倫理困境
還有道德挑戰。 例如,假設人力資源部門使用機器學習來識別最合格的候選人,從 1,500 份數字簡歷中選出他們。
如果 ML 模型是使用僅由男性經營的公司和招聘部門進行訓練的,則數據可能包含偏差。 有些男人可能更傾向於僱用其他男性——原因不是他們的優點或資格。 因此,在大多數情況下,工程師訓練 ML 模型尋找的“成功”候選人可能是男性。 因此,該模型推薦男性而不是可能更有資格的女性。
在商業環境中,大數據和機器學習有什麼關係?
在商業環境中,機器學習使用您的組織產生的大數據來改進或自動化關鍵業務流程並增強安全性和安全性。 潛在的應用程序實際上是無窮無盡的,並且與您生成的不同類型的數據一樣多樣化。
例如,工廠或生產設施可以使用機器學習來優化其工廠車間的溫度和濕度水平。 例如,機器學習模型可以計算出:
溫度和濕度水平可以最大限度地提高員工的工作效率,同時最大限度地減少他們必須採取的計劃外休息次數
敏感設備的理想溫度和濕度水平,在錯誤的條件下可能會更快地惡化
考慮到運行 HVAC 系統和除濕機的費用,最具成本效益的溫度和濕度條件
然後該系統可用於自動控制您的大氣系統以達到最佳效果。
機器學習和大數據分析如何用於營銷?
市場營銷提供了一些最有前途的機器學習和大數據分析應用。 考慮以下現實生活中的例子。
Harley Davidson 的 Albert 將領先優勢提高了 2,930%
Harley Davidson 製造了一個名為 Albert 的機器人,它使用機器學習來做出營銷決策[ 1 ] 。 這就是阿爾伯特如何幫助哈雷戴維森的高管們踏上更燦爛的夕陽。
Harley Davidson 希望利用他們與以前客戶的現有關係。 他們使用 Albert 來分析:
人們購買商品的頻率
這些客戶花了多少錢
客戶花多少時間瀏覽哈雷戴維森的網站
然後,Albert 使用此數據將客戶分成不同的部分。 然後,營銷團隊為每一類客戶創建了測試活動。 在測試活動成功後,該團隊將其擴大到涉及大量以前的客戶。
結果,Harley Davidson 的銷售額增加了 40%。 他們還產生了 2,930% 以上的潛在客戶。 這些線索中有一半是由阿爾伯特自己 [it?] 自己直接確定的。 Albert 研究了極有可能轉化為付費客戶的潛在客戶的資料,然後研究了其他用戶的數據資料並確定了“相似者”,即與高轉化率客戶有很多共同點的人。
無論您是想弄清楚瓊斯女士接下來會買什麼,還是要優化複雜生產設施的效率,機器學習都可以將看似隨機的大數據轉化為具有變革意義的見解。 通過一點頭腦風暴和創造性思維,您可以找到使用 ML 和大數據的方法來超越競爭對手,並將您的組織提升到一個新的水平。
根據您的需要,您可以聘請機構尋求數據分析方面的幫助。 查看我們的數據分析和機器學習招聘指南,以確定最適合您的人選。