大数据有哪些类型？

已发表: 2022-11-24

了解大数据的类型可以更好地为处理大型数据集做好准备

由于大数据，人工智能、机器学习和业务分析的许多进步成为可能。数据为自动驾驶汽车的算法提供动力，建议我们应该看的下一部电影，并告诉企业领导者如何增加收入。

但并非所有数据都是相同的。

为了有效地分类、组织和分析企业及其客户生成的数据，业务分析师或数据科学家需要知道他们正在处理的数据类型。

/什么是大数据？

大数据是指需要复杂处理和分析的大量、高速或多变的信息。数据本身并没有帮助——数据分析才是改进业务流程的关键。企业使用多种技术来分析大数据，例如数据挖掘，它突出了数据中的模式。例如，公司可以挖掘数据以了解哪些销售优惠会吸引特定消费者。当公司正确处理大数据时，它有助于做出更好的决策，并帮助他们提供更好的客户服务和更好的产品。

让我们深入了解大数据的特征和主要类型。

大数据特征：5 Vs

虽然大数据是适用于多种数据类型的通用术语，但通常有五个特征用于定义大数据（也称为 5 V 或大数据的特征）。

1.体积

这个特点就是名字：大数据就是大。大的定义是相对的，根据当时可用的技术而变化。例如，一个 3 GB 的硬盘驱动器曾经被认为是巨大的，而现在具有 TB 存储空间的笔记本电脑是标准配置。

2.速度

大数据是快速生成的。 IoT 设备上的传感器每秒发送多次消息。网站分析监控访问者的每一次鼠标移动，以深入了解他们的浏览习惯。使用此数据的应用程序通常需要尽可能接近实时地处理它。

3.多样性

多样性是本文的主题（因此请继续阅读以获取更多信息！）。大数据种类繁多；每个收集数据的组织都从多个来源以多种格式收集数据。为了将这些数据转化为有用的信息，必须结合来自不同来源的数据。

4. 真实性

准确性是定义数据质量的一个特征。并非所有收集的数据都是完整的；它可能不准确或包含损坏的数据点。混乱的大数据弊大于利；可能需要清理或丢弃数据以提供准确的见解。

5.价值

仅拥有大量数据的企业并不意味着其所有数据都是有用的。大数据的另一个决定性特征是它将以洞察力的形式提供价值。

考虑聘请数据分析公司来帮助处理大数据？浏览我们的顶级数据分析公司列表，并在 Capterra 的招聘指南中详细了解他们的服务。

大数据的三种主要类型

虽然我们可以为不同类型的大数据创建无数的类别，但将大数据分为三种主要类型要简单得多：结构化、非结构化和半结构化。

1.结构化数据

结构化大数据是以固定模式存储的数据。最常见的是，这意味着它存储在关系数据库管理系统或 RDBMS 中。此数据存储在表中，其中每条记录都有一组固定的属性，并且每个属性都有固定的数据类型。

一个例子是数据库中的用户记录：。

ID	电子邮件	姓名	城市	状态	邮政编码
1个	[email protected]	鲍勃	堪萨斯城	莫	64030
2个	[email protected]	萨拉	芝加哥	白细胞介素	60007
3个	[email protected]	山姆	纽约	纽约	10001
4个	[email protected]	瑞克	洛杉矶	加州	90001

该表中的每条记录都具有相同的结构，并且每个属性都有特定的类型。例如，State 列限制为两个大写字母，ID 和 ZIP code 列限制为整数。如果您尝试在数据库中插入一条不适合此结构的记录，它将不允许插入，并且会显示错误。

结构化大数据通常是关系型的。这意味着一条记录（如上面的用户表）可以链接到另一个表中的一条或多条记录。假设用户表用于购物车，每个用户都有订单。

ID	用户身份	物品	全部的
1个	1个	杯子	2.00
2个	2个	碗	4.00
3个	2个	盘子	3.00
4个	4个	勺子	1.00

上面订单表的 User_ID 属性将订单链接到用户表中的 ID。我们可以看到 Sara 有两个订单，而 Sam 还没有订购。

这种静态结构使数据保持一致，易于输入、查询和组织。用于查询此类数据库表的语言是 SQL（结构化查询语言）。使用 SQL，开发人员可以编写查询，根据它们之间的关系以无限组合方式连接数据库表中的记录。

结构化数据的缺点是更新表的结构可能是一个复杂的过程。在开始使用数据库之前，必须对表结构进行大量思考。这种类型的大数据不如半结构化数据灵活。

2.非结构化数据

据一些估计，80-90% 的数据是非结构化的。 ^{[ 1 ]}但究竟什么是非结构化大数据？任何不属于此处其他两个类别的数据都被视为非结构化数据。

以数字方式存储的一切都是数据。非结构化数据包括文本、电子邮件、视频、音频、服务器日志、网页等等。与可以以一致的方式查询和搜索的结构化和半结构化数据不同，非结构化数据不遵循一致的数据模型。

这意味着不是简单地使用查询将此数据转换为有用的信息，而是必须使用更复杂的过程，具体取决于数据源。这就是机器学习、人工智能、自然语言处理和光学字符识别 (OCR) 可以派上用场的地方。

非结构化数据的一个示例是为费用报告存储的扫描收据。在它们的原始图像格式中，数据基本上是无用的。在这里，OCR 软件可以将图像转换为结构化数据，然后将其插入数据库。

非结构化大数据的缺点是难以处理，每个数据源都需要定制处理器。优势包括仅存在多种类型的非结构化数据，因为从中收集的见解通常无法在任何其他数据源中找到。

3、半结构化数据

半结构化大数据介于结构化数据和非结构化数据之间。半结构化数据的一个常见来源是 NoSQL 数据库。 NoSQL 数据库中的数据是有组织的，但它不是关系型的，也不遵循一致的模式。

例如，NoSQL 数据库中的用户记录可能如下所示：

{ _id: ObjectId("5effaa5662679b5af2c57829"), email: "[email protected]", name: "Sam", address: "101 Main Street" city: "Independence", state: "Iowa" }

在这里，用户通过记录中的键访问他们需要的数据。虽然它看起来与上面结构化数据示例中的记录相似，但它的表格格式并不一致。

相反，它是 JSON 格式，用于存储和传输数据对象。虽然数据库中的这条记录可能具有这组属性，但这并不意味着其余记录将具有相同的结构。下一条记录可能缺少街道地址，但有邮政编码。

存储在 NoSQL 数据库中的半结构化数据的一个优点是它非常灵活。如果您需要向记录添加更多数据，只需使用新键添加即可。如果您需要数据保持一致，这也可能是一个缺点。

但是 NoSQL 数据并不是唯一的半结构化大数据类型。 XML 和 YAML 是应用程序用来传输和存储数据的另外两种灵活的数据格式。电子邮件也可以被认为是半结构化数据，因为它的一部分可以被一致地解析，例如电子邮件地址、发送时间和 IP 地址，而正文是非结构化数据。

比较结构化、半结构化和非结构化数据

这张表更好地说明了这三种大数据之间的区别：

	结构化的	半结构化	非结构化
格式	最常见的数据来自关系数据库，其中数据排列在结构化表格中，并具有特定类型，例如整数、浮点数和文本。	最常见的数据来自 NoSQL 数据库，并以数据序列化语言（如 JSON、XML 或 YAML）传输。	非结构化数据不遵循任何模式，可以采用日志文件、原始文本、图像、视频等形式。
查询	可以以结构化和一致的方式使用 SQL 快速查询。	这些数据是可以查询的，但是由于其半结构化的性质，记录可能不一致。	在许多情况下，必须使用自定义代码解析和处理原始数据。
交易	数据库支持事务以确保相关数据得到更新。	NoSQL 数据库部分支持事务。	非结构化数据无法进行交易。
灵活性	结构化数据集更新过程复杂，灵活性不高。	NoSQL 数据库非常灵活，因为数据模式可以动态更新。	非结构化数据最灵活，但也最难处理。

评估您的数据源以开始使用大数据

任何大数据项目的良好开端是清点您和您的企业可用的所有数据源，并按类型对它们进行分类。这使您可以开始处理和编译数据以提供有用的见解。

要了解有关大数据及其在现代商业中的作用的更多信息，请查看以下资源：

什么是大数据，它是如何产生的？
如何创建新的商业智能战略