如何在大数据分析中使用机器学习
已发表: 2022-11-25机器学习使组织能够将大数据转化为提高利润的洞察力。 了解大数据和机器学习如何相关以及如何使用它们。
多年前,企业主不得不依靠他们的记忆来定制他们为客户服务的方式。 当琼斯女士走进来时,一位店主不得不回忆她上次买的东西,她最后有没有把它带回来,以及她在上次来访时是否抱怨过。
现在,得益于大数据,大量客户和业务数据触手可及。 您知道琼斯女士住在哪里、她在过去 10 年里买了什么、她花了多少钱、她退货的频率以及许多其他指标。 使用机器学习,您可以将此数据和其他数据转化为促进业务发展的见解。 以下是大数据和机器学习的细分,以及如何利用它们为您的业务提供动力。
什么是大数据和机器学习?
大数据和机器学习既不同又密切相关。
什么是大数据?
大数据是指巨大的或极其复杂的数据集,如果没有专门的工具可能无法利用这些数据集。 有些企业永远不必处理大数据。 例如,如果您的一家餐厅在三个地点生产销售和库存数据,这就不是“大数据”。
另一方面,如果同一家餐厅再增加 10 个位置和一个移动应用程序,使客户能够在线下订单、利用忠诚度奖励并通过文本与客户服务代表聊天,那么您现在就拥有大数据情况。 该应用程序本身可能会产生有关以下方面的数据:
顾客最常点的餐点
客户下订单的时间
客户根据地理位置数据从何处订购食物
客户居住的地方以及与每个城镇相关的购买统计数据
每个地点的销售数据
客户如何使用他们的奖励积分
高峰节假日采购数据
这些例子只是触及了表面。 这种应用程序可以生成数十个数据集。 此外,信息将以近乎恒定的方式流入。 那就是大数据。
什么是机器学习?
机器学习 (ML) 是指使用计算机识别数据中的模式。 机器学习使用算法来做到这一点,这些算法是逐步制定的指令集。 机器学习模型使用算法中的步骤来学习模式。 这还包括识别模式何时被打破以及学习如何将模式相互比较。
举个简单的例子,假设您想构建一个机器学习算法来分析销售数据。 您有五年的销售数据。 您的目标是通过确定您应该在 6 月到 8 月期间销售哪些产品来最大化夏季利润。
您可以将您的机器学习系统编程为:
逐月汇总每个产品的销售数据。
确定 6 月和 8 月之间销量最高的产品。
预测与提供每种产品相关的销售额。
告诉您要提供哪些产品以及是否应该在 6 月、7 月、8 月或所有三个月内提供这些产品。
当然,您可以将 ML 更进一步,将每种产品的销货成本 (COGS) 纳入其中,包括运输、人工、存储和其他数据。 那么你的 ML 模型不仅可以推荐夏季销量最高的产品,还可以告诉你哪些产品带来的净利润最高。
然后,您可以使用相同的模型为以下方面提供销售见解:
一年中的单个产品
针对类似目标市场的新产品
一年中每隔一个月
什么是大数据中的机器学习?
在大数据的背景下,任何时候数据中可能存在模式,您都可以使用机器学习来发现它们并提供有用的见解。 此外,您还可以使用 ML 根据算法分析的模式提出建议。
机器学习如何处理大数据
机器学习最流行的应用之一是自动驾驶汽车。 汽车使用机器学习来决定如何处理从周围环境和其他车辆收集的数据。
例如,当自动驾驶汽车内的摄像头“看到”停车标志时,它们可以识别并自动刹车。 这一决定背后的过程很可能始于一组数据科学家测试多种机器学习算法。 在高层次上,这需要三个步骤:
1.培训
为了分析大数据,数据科学家首先使用训练集来教一个或多个算法他们应该寻找什么。
例如,对于停车标志,训练集将包含数千张停车标志图像。 数据工程师会从不同的角度、不同的光线下,甚至在树木或其他物体部分遮挡的情况下呈现停车标志的图像。
在训练阶段结束时,希望算法已经识别出停车标志的形状和颜色的模式。 换句话说,它知道停车标志“看起来像”——在不同的光线下和从不同的角度看。

2. 验证
验证集用于确定 ML 模型使用完全不同的大数据集的准确性。 验证阶段的目的是发现微调 ML 模型的方法。
例如,假设旨在识别停车标志的 ML 模型准确率为 95%,而它出错的所有图像都非常暗。 然后,开发人员可以使用另一个公式来增加每张图像的对比度,使 ML 模型更容易看到重要特征。
3. 测试
测试阶段涉及向 ML 模型提供更多大数据,这些数据与它在训练和验证阶段看到的完全不同。
例如,为了测试停车标志模型,程序员可以向 ML 模型展示 250,000 张不同种类标志的图像,其中一些是停车标志。 然后,他们将分析结果,看看该模型能够多准确地区分停车标志,并避免错误识别其他类型的标志。
机器学习和大数据的挑战
使用 ML 研究大数据的数据科学家面临的两个最艰巨的挑战是不准确和道德困境。
1. 不准确
自然地,即使涉及高级计算过程,在大数据分析中使用机器学习时,您仍然会经历反复试验的过程。 这是因为在训练、验证和测试模型时,您永远不知道哪些因素会影响您的结果。
例如,在识别图像(例如停车标志或人脸)时,多种因素可能会导致您的 ML 模型性能不佳。 例如,假设您正在开发机器学习模型来改进公司的安全系统。 具体来说,您需要一个可以识别高管和其他高级人员面孔的模型,以便他们可以获准进入建筑物的敏感区域。 在验证阶段,系统的准确率仅为 65% 左右。 但这可能是由于几个变量造成的,例如:
面部像素化图像
失焦的图像
在面部扫描过程中看向别处的人
个人决定佩戴太阳镜、面罩、围巾或其他可能影响识别结果的东西
2. 伦理困境
还有道德挑战。 例如,假设人力资源部门使用机器学习来识别最合格的候选人,从 1,500 份数字简历中选出他们。
如果 ML 模型是使用仅由男性经营的公司和招聘部门进行训练的,则数据可能包含偏差。 有些男人可能更倾向于雇用其他男性——原因不是他们的优点或资格。 因此,在大多数情况下,工程师训练 ML 模型寻找的“成功”候选人可能是男性。 因此,该模型推荐男性而不是可能更有资格的女性。
在商业环境中,大数据和机器学习有什么关系?
在商业环境中,机器学习使用您的组织产生的大数据来改进或自动化关键业务流程并增强安全性和安全性。 潜在的应用程序实际上是无穷无尽的,并且与您生成的不同类型的数据一样多样化。
例如,工厂或生产设施可以使用机器学习来优化其工厂车间的温度和湿度水平。 例如,机器学习模型可以计算出:
温度和湿度水平可以最大限度地提高员工的工作效率,同时最大限度地减少他们必须采取的计划外休息次数
敏感设备的理想温度和湿度水平,在错误的条件下可能会更快地恶化
考虑到运行 HVAC 系统和除湿机的费用,最具成本效益的温度和湿度条件
然后该系统可用于自动控制您的大气系统以达到最佳效果。
机器学习和大数据分析如何用于营销?
市场营销提供了一些最有前途的机器学习和大数据分析应用。 考虑以下现实生活中的例子。
Harley Davidson 的 Albert 将领先优势提高了 2,930%
Harley Davidson 制造了一个名为 Albert 的机器人,它使用机器学习来做出营销决策[ 1 ] 。 这就是阿尔伯特如何帮助哈雷戴维森的高管们踏上更灿烂的夕阳。
Harley Davidson 希望利用他们与以前客户的现有关系。 他们使用 Albert 来分析:
人们购买商品的频率
这些客户花了多少钱
客户花多少时间浏览哈雷戴维森的网站
然后,Albert 使用此数据将客户分成不同的部分。 然后,营销团队为每一类客户创建了测试活动。 在测试活动成功后,该团队将其扩大到涉及大量以前的客户。
结果,Harley Davidson 的销售额增加了 40%。 他们还产生了 2,930% 以上的潜在客户。 这些线索中有一半是由阿尔伯特自己 [it?] 自己直接确定的。 Albert 研究了极有可能转化为付费客户的潜在客户的资料,然后研究了其他用户的数据资料并确定了“相似者”,即与高转化率客户有很多共同点的人。
无论您是想弄清楚琼斯女士接下来会买什么,还是要优化复杂生产设施的效率,机器学习都可以将看似随机的大数据转化为具有变革意义的见解。 通过一点头脑风暴和创造性思维,您可以找到使用 ML 和大数据的方法来超越竞争对手,并将您的组织提升到一个新的水平。
根据您的需要,您可以聘请机构寻求数据分析方面的帮助。 查看我们的数据分析和机器学习招聘指南,以确定最适合您的人选。