Каковы типы больших данных?

Опубликовано: 2022-11-24

Понимание типов больших данных может лучше подготовить вас к работе с большими наборами данных.

Многие достижения в области искусственного интеллекта, машинного обучения и бизнес-аналитики возможны благодаря большим данным. Данные приводят в действие алгоритмы, которые делают автомобили самоуправляемыми, предлагают следующий фильм, который мы должны посмотреть, и подсказывают бизнес-лидерам, как увеличить доход.

Но не все данные создаются одинаково.

Чтобы эффективно классифицировать, систематизировать и анализировать данные, генерируемые бизнесом и его клиентами, бизнес-аналитик или специалист по данным должны знать, с какими типами данных они работают.

/ Что такое большие данные?

Большие данные относятся к большим объемам, высокоскоростной или разнообразной информации, которая требует сложной обработки и анализа. Одни данные бесполезны — их анализ является ключом к совершенствованию бизнес-процессов. Компании используют несколько методов для анализа больших данных, таких как интеллектуальный анализ данных, который выделяет закономерности в данных. Например, компании могут анализировать данные, чтобы узнать, какие предложения продаж понравятся конкретным потребителям. Когда компании правильно обрабатывают большие данные, это способствует принятию более эффективных решений и помогает им предоставлять более качественное обслуживание клиентов и более качественные продукты.

Давайте углубимся в характеристики и основные типы больших данных.

Характеристики больших данных: 5 против

Хотя большие данные — это общий термин, который применяется ко многим типам данных, существует пять характеристик, обычно используемых для определения больших данных (также известных как 5 Vs или особенности больших данных).

1. Объем

Эта характеристика заложена в названии: Большие данные есть большие. Определение «большой» относительно и меняется в зависимости от технологий, доступных в данный момент. Например, жесткий диск на три гигабайта когда-то считался огромным, а теперь ноутбук с терабайтным хранилищем является стандартным.

2. Скорость

Большие данные генерируются быстро. Датчики на устройствах IoT отправляют сообщения несколько раз в секунду. Аналитика веб-сайта отслеживает каждое движение мыши, совершаемое посетителями, чтобы получить представление об их привычках просмотра. Приложения, использующие эти данные, часто должны обрабатывать их как можно ближе к реальному времени.

3. Разнообразие

Разнообразие — главная тема этой статьи (так что продолжайте читать, чтобы узнать больше!). Большие данные отличаются значительным разнообразием; каждая организация, которая собирает данные, делает это из нескольких источников и в разных форматах. Чтобы превратить эти данные в полезную информацию, необходимо объединить данные из разных источников.

4. Правдивость

Достоверность — это характеристика, определяющая качество данных. Не все собранные данные являются полными; он может быть неточным или содержать поврежденные точки данных. Беспорядочные большие данные могут принести больше вреда, чем пользы; данные могут нуждаться в очистке или удалении, чтобы обеспечить точное понимание.

5. Ценность

Просто наличие большого количества данных в бизнесе не означает, что все его данные полезны. Еще одна определяющая характеристика больших данных заключается в том, что они обеспечивают ценность в виде идей.

Думаете о том, чтобы нанять фирму по анализу данных для помощи с большими данными? Просмотрите наш список ведущих фирм по анализу данных и узнайте больше об их услугах в руководстве по найму Capterra.

3 основных типа больших данных

Хотя мы могли бы создать бесконечное количество категорий для разных типов больших данных, гораздо проще разделить большие данные на три основных типа: структурированные, неструктурированные и полуструктурированные.

1. Структурированные данные

Структурированные большие данные — это данные, хранящиеся в фиксированной схеме. Чаще всего это означает, что он хранится в системе управления реляционными базами данных или РСУБД. Эти данные хранятся в таблицах, где каждая запись имеет фиксированный набор свойств, а каждое свойство имеет фиксированный тип данных.

Одним из примеров являются пользовательские записи в базе данных:.

Я БЫ

Эл. адрес

Имя

Город

Состояние

почтовый индекс

1

[email protected]

Боб

Канзас-Сити

МО

64030

2

Сара@example.com

Сара

Чикаго

Иллинойс

60007

3

[email protected]

Сэм

Нью-Йорк

Нью-Йорк

10001

4

[email protected]

Рик

Лос-Анджелес

Калифорния

90001

Каждая запись в этой таблице имеет одинаковую структуру, и каждое свойство имеет определенный тип. Например, столбец «Штат» ограничен двумя буквами верхнего регистра, а столбцы «Идентификатор» и «Почтовый индекс» — целыми числами. Если вы попытаетесь вставить в базу данных запись, которая не соответствует этой структуре, она этого не допустит, и будет показана ошибка.

Структурированные большие данные обычно являются реляционными. Это означает, что запись, такая как приведенная выше пользовательская таблица, может быть связана с записью или записями в другой таблице. Допустим, пользовательская таблица предназначена для корзины покупок, и у каждого пользователя есть заказы.

Я БЫ

ID пользователя

Вещь

Общий

1

1

Чашка

2.00

2

2

Чаша

4.00

3

2

Пластина

3.00

4

4

Ложка

1,00

Свойство User_ID приведенной выше таблицы заказов связывает заказы с идентификаторами в пользовательской таблице. Мы видим, что у Сары два заказа, а Сэм еще не заказал.

Этот тип статической структуры делает данные согласованными и простыми для ввода, запроса и организации. Языком, используемым для запросов к таким таблицам базы данных, является SQL (язык структурированных запросов). Используя SQL, разработчики могут писать запросы, которые соединяют записи в таблицах базы данных в бесконечных комбинациях на основе их взаимосвязей.

Недостатком структурированных данных является то, что обновление структуры таблицы может быть сложным процессом. Прежде чем вы начнете использовать базу данных, нужно хорошо подумать о структурах таблиц. Этот тип больших данных не так гибок, как полуструктурированные данные.

2. Неструктурированные данные

По некоторым оценкам, 80-90% данных неструктурированы. [ 1 ] Но что такое неструктурированные большие данные? Любые данные, не подпадающие под две другие категории, здесь считаются неструктурированными.

Все, что хранится в цифровом виде, является данными. К неструктурированным данным относятся текст, электронная почта, видео, аудио, журналы сервера, веб-страницы и так далее. В отличие от структурированных и частично структурированных данных, которые можно запрашивать и искать согласованным образом, неструктурированные данные не соответствуют согласованной модели данных.

Это означает, что вместо простого использования запросов для преобразования этих данных в полезную информацию необходимо использовать более сложный процесс, зависящий от источника данных. Здесь могут быть полезны машинное обучение, искусственный интеллект, обработка естественного языка и оптическое распознавание символов (OCR).

Одним из примеров неструктурированных данных являются отсканированные квитанции, которые хранятся для отчетов о расходах. В родном формате изображения данные практически бесполезны. Здесь программное обеспечение OCR может преобразовать изображения в структурированные данные, которые затем могут быть вставлены в базу данных.

Недостатком неструктурированных больших данных является то, что их сложно обрабатывать, и для каждого источника данных требуется специальный процессор. Преимущества заключаются в простом существовании многих типов неструктурированных данных, так как информацию, полученную из них, часто нельзя найти ни в одном другом источнике данных.

3. Полуструктурированные данные

Полуструктурированные большие данные находятся где-то между структурированными и неструктурированными данными. Распространенным источником полуструктурированных данных являются базы данных NoSQL. Данные в базе данных NoSQL организованы, но не являются реляционными и не соответствуют согласованной схеме.

Например, запись пользователя в базе данных NoSQL может выглядеть так:

{ _id: ObjectId("5effaa5662679b5af2c57829"), email: "[email protected]", имя: "Sam", адрес: "101 Main Street", город: "Индепенденс", штат: "Айова" }

Здесь пользователи получают доступ к нужным им данным по ключам в записи. И хотя он похож на записи в приведенном выше примере со структурированными данными, он не имеет согласованного формата таблицы.

Вместо этого он имеет формат JSON, который используется для хранения и передачи объектов данных. Хотя эта одна запись в базе данных может иметь такой набор атрибутов, это не означает, что остальные записи будут иметь такую ​​же структуру. В следующей записи может отсутствовать почтовый адрес, но вместо этого должен быть почтовый индекс.

Преимущество полуструктурированных данных, хранящихся в базе данных NoSQL, заключается в том, что они очень гибкие. Если вам нужно добавить в запись больше данных, просто добавьте ее с новым ключом. Это также может быть недостатком, если вам нужно, чтобы данные были непротиворечивыми.

Но данные NoSQL — не единственный тип полуструктурированных больших данных. XML и YAML — это два других гибких формата данных, которые приложения используют для передачи и хранения данных. Электронная почта также может считаться полуструктурированными данными, поскольку ее части могут последовательно анализироваться, например адреса электронной почты, время отправки и IP-адреса, в то время как тело представляет собой неструктурированные данные.

Сравнение структурированных, полуструктурированных и неструктурированных данных

Эта таблица лучше иллюстрирует различия между этими тремя типами больших данных:

Структурированный

Полуструктурированный

Неструктурированный

Формат

Чаще всего это данные из реляционных баз данных, где данные расположены в структурированных таблицах и имеют определенные типы, такие как целое число, число с плавающей запятой и текст.

Чаще всего данные из баз данных NoSQL передаются на языке сериализации данных, таком как JSON, XML или YAML.

Неструктурированные данные не подчиняются какой-либо схеме и могут принимать форму файлов журналов, необработанного текста, изображений, видео и многого другого.

Запрос

Можно быстро запрашивать с помощью SQL в структурированном и согласованном виде.

Эти данные можно запрашивать, но из-за полуструктурированного характера записи могут быть несогласованными.

Необработанные данные должны быть проанализированы и обработаны с помощью специального кода во многих случаях.

Транзакции

Базы данных поддерживают транзакции для обеспечения обновления зависимых данных.

Транзакции частично поддерживаются в базах данных NoSQL.

Транзакции невозможны с неструктурированными данными.

Гибкость

Наборы структурированных данных имеют сложный процесс обновления и не очень гибкие.

Базы данных NoSQL являются гибкими, поскольку схемы данных могут обновляться динамически.

Неструктурированные данные являются наиболее гибкими, но и наиболее сложными для обработки.

Оцените свои источники данных, чтобы начать работу с большими данными

Хорошим первым шагом в любом проекте работы с большими данными является инвентаризация всех источников данных, доступных вам и вашему бизнесу, и их классификация по типам. Это позволяет вам начать обработку и компиляцию данных, чтобы предоставить полезную информацию.

Чтобы узнать больше о больших данных и их роли в современном бизнесе, ознакомьтесь со следующими ресурсами:

  • Что такое большие данные и как они генерируются?

  • Как создать новую стратегию бизнес-аналитики