大数据有哪些类型?

已发表: 2022-11-24

了解大数据的类型可以更好地为处理大型数据集做好准备

由于大数据,人工智能、机器学习和业务分析的许多进步成为可能。 数据为自动驾驶汽车的算法提供动力,建议我们应该看的下一部电影,并告诉企业领导者如何增加收入。

但并非所有数据都是相同的。

为了有效地分类、组织和分析企业及其客户生成的数据,业务分析师或数据科学家需要知道他们正在处理的数据类型。

/什么是大数据?

大数据是指需要复杂处理和分析的大量、高速或多变的信息。 数据本身并没有帮助——数据分析才是改进业务流程的关键。 企业使用多种技术来分析大数据,例如数据挖掘,它突出了数据中的模式。 例如,公司可以挖掘数据以了解哪些销售优惠会吸引特定消费者。 当公司正确处理大数据时,它有助于做出更好的决策,并帮助他们提供更好的客户服务和更好的产品。

让我们深入了解大数据的特征和主要类型。

大数据特征:5 Vs

虽然大数据是适用于多种数据类型的通用术语,但通常有五个特征用于定义大数据(也称为 5 V 或大数据的特征)。

1.体积

这个特点就是名字:大数据就是大。 大的定义是相对的,根据当时可用的技术而变化。 例如,一个 3 GB 的硬盘驱动器曾经被认为是巨大的,而现在具有 TB 存储空间的笔记本电脑是标准配置。

2.速度

大数据是快速生成的。 IoT 设备上的传感器每秒发送多次消息。 网站分析监控访问者的每一次鼠标移动,以深入了解他们的浏览习惯。 使用此数据的应用程序通常需要尽可能接近实时地处理它。

3.多样性

多样性是本文的主题(因此请继续阅读以获取更多信息!)。 大数据种类繁多; 每个收集数据的组织都从多个来源以多种格式收集数据。 为了将这些数据转化为有用的信息,必须结合来自不同来源的数据。

4. 真实性

准确性是定义数据质量的一个特征。 并非所有收集的数据都是完整的; 它可能不准确或包含损坏的数据点。 混乱的大数据弊大于利; 可能需要清理或丢弃数据以提供准确的见解。

5.价值

仅拥有大量数据的企业并不意味着其所有数据都是有用的。 大数据的另一个决定性特征是它将以洞察力的形式提供价值。

考虑聘请数据分析公司来帮助处理大数据? 浏览我们的顶级数据分析公司列表,并在 Capterra 的招聘指南中详细了解他们的服务。

大数据的三种主要类型

虽然我们可以为不同类型的大数据创建无数的类别,但将大数据分为三种主要类型要简单得多:结构化、非结构化和半结构化。

1.结构化数据

结构化大数据是以固定模式存储的数据。 最常见的是,这意味着它存储在关系数据库管理系统或 RDBMS 中。 此数据存储在表中,其中每条记录都有一组固定的属性,并且每个属性都有固定的数据类型。

一个例子是数据库中的用户记录:。

ID

电子邮件

姓名

城市

状态

邮政编码

1个

[email protected]

鲍勃

堪萨斯城

64030

2个

[email protected]

萨拉

芝加哥

白细胞介素

60007

3个

[email protected]

山姆

纽约

纽约

10001

4个

[email protected]

瑞克

洛杉矶

加州

90001

该表中的每条记录都具有相同的结构,并且每个属性都有特定的类型。 例如,State 列限制为两个大写字母,ID 和 ZIP code 列限制为整数。 如果您尝试在数据库中插入一条不适合此结构的记录,它将不允许插入,并且会显示错误。

结构化大数据通常是关系型的。 这意味着一条记录(如上面的用户表)可以链接到另一个表中的一条或多条记录。 假设用户表用于购物车,每个用户都有订单。

ID

用户身份

物品

全部的

1个

1个

杯子

2.00

2个

2个

4.00

3个

2个

盘子

3.00

4个

4个

勺子

1.00

上面订单表的 User_ID 属性将订单链接到用户表中的 ID。 我们可以看到 Sara 有两个订单,而 Sam 还没有订购。

这种静态结构使数据保持一致,易于输入、查询和组织。 用于查询此类数据库表的语言是 SQL(结构化查询语言)。 使用 SQL,开发人员可以编写查询,根据它们之间的关系以无限组合方式连接数据库表中的记录。

结构化数据的缺点是更新表的结构可能是一个复杂的过程。 在开始使用数据库之前,必须对表结构进行大量思考。 这种类型的大数据不如半结构化数据灵活。

2.非结构化数据

据一些估计,80-90% 的数据是非结构化的。 [ 1 ]但究竟什么是非结构化大数据? 任何不属于此处其他两个类别的数据都被视为非结构化数据。

以数字方式存储的一切都是数据。 非结构化数据包括文本、电子邮件、视频、音频、服务器日志、网页等等。 与可以以一致的方式查询和搜索的结构化和半结构化数据不同,非结构化数据不遵循一致的数据模型。

这意味着不是简单地使用查询将此数据转换为有用的信息,而是必须使用更复杂的过程,具体取决于数据源。 这就是机器学习、人工智能、自然语言处理和光学字符识别 (OCR) 可以派上用场的地方。

非结构化数据的一个示例是为费用报告存储的扫描收据。 在它们的原始图像格式中,数据基本上是无用的。 在这里,OCR 软件可以将图像转换为结构化数据,然后将其插入数据库。

非结构化大数据的缺点是难以处理,每个数据源都需要定制处理器。 优势包括仅存在多种类型的非结构化数据,因为从中收集的见解通常无法在任何其他数据源中找到。

3、半结构化数据

半结构化大数据介于结构化数据和非结构化数据之间。 半结构化数据的一个常见来源是 NoSQL 数据库。 NoSQL 数据库中的数据是有组织的,但它不是关系型的,也不遵循一致的模式。

例如,NoSQL 数据库中的用户记录可能如下所示:

{ _id: ObjectId("5effaa5662679b5af2c57829"), email: "[email protected]", name: "Sam", address: "101 Main Street" city: "Independence", state: "Iowa" }

在这里,用户通过记录中的键访问他们需要的数据。 虽然它看起来与上面结构化数据示例中的记录相似,但它的表格格式并不一致。

相反,它是 JSON 格式,用于存储和传输数据对象。 虽然数据库中的这条记录可能具有这组属性,但这并不意味着其余记录将具有相同的结构。 下一条记录可能缺少街道地址,但有邮政编码。

存储在 NoSQL 数据库中的半结构化数据的一个优点是它非常灵活。 如果您需要向记录添加更多数据,只需使用新键添加即可。 如果您需要数据保持一致,这也可能是一个缺点。

但是 NoSQL 数据并不是唯一的半结构化大数据类型。 XML 和 YAML 是应用程序用来传输和存储数据的另外两种灵活的数据格式。 电子邮件也可以被认为是半结构化数据,因为它的一部分可以被一致地解析,例如电子邮件地址、发送时间和 IP 地址,而正文是非结构化数据。

比较结构化、半结构化和非结构化数据

这张表更好地说明了这三种大数据之间的区别:

结构化的

半结构化

非结构化

格式

最常见的数据来自关系数据库,其中数据排列在结构化表格中,并具有特定类型,例如整数、浮点数和文本。

最常见的数据来自 NoSQL 数据库,并以数据序列化语言(如 JSON、XML 或 YAML)传输。

非结构化数据不遵循任何模式,可以采用日志文件、原始文本、图像、视频等形式。

查询

可以以结构化和一致的方式使用 SQL 快速查询。

这些数据是可以查询的,但是由于其半结构化的性质,记录可能不一致。

在许多情况下,必须使用自定义代码解析和处理原始数据。

交易

数据库支持事务以确保相关数据得到更新。

NoSQL 数据库部分支持事务。

非结构化数据无法进行交易。

灵活性

结构化数据集更新过程复杂,灵活性不高。

NoSQL 数据库非常灵活,因为数据模式可以动态更新。

非结构化数据最灵活,但也最难处理。

评估您的数据源以开始使用大数据

任何大数据项目的良好开端是清点您和您的企业可用的所有数据源,并按类型对它们进行分类。 这使您可以开始处理和编译数据以提供有用的见解。

要了解有关大数据及其在现代商业中的作用的更多信息,请查看以下资源:

  • 什么是大数据,它是如何产生的?

  • 如何创建新的商业智能战略