Каковы типы больших данных?
Опубликовано: 2022-11-24Понимание типов больших данных может лучше подготовить вас к работе с большими наборами данных.
Многие достижения в области искусственного интеллекта, машинного обучения и бизнес-аналитики возможны благодаря большим данным. Данные приводят в действие алгоритмы, которые делают автомобили самоуправляемыми, предлагают следующий фильм, который мы должны посмотреть, и подсказывают бизнес-лидерам, как увеличить доход.
Но не все данные создаются одинаково.
Чтобы эффективно классифицировать, систематизировать и анализировать данные, генерируемые бизнесом и его клиентами, бизнес-аналитик или специалист по данным должны знать, с какими типами данных они работают.
/ Что такое большие данные?
Большие данные относятся к большим объемам, высокоскоростной или разнообразной информации, которая требует сложной обработки и анализа. Одни данные бесполезны — их анализ является ключом к совершенствованию бизнес-процессов. Компании используют несколько методов для анализа больших данных, таких как интеллектуальный анализ данных, который выделяет закономерности в данных. Например, компании могут анализировать данные, чтобы узнать, какие предложения продаж понравятся конкретным потребителям. Когда компании правильно обрабатывают большие данные, это способствует принятию более эффективных решений и помогает им предоставлять более качественное обслуживание клиентов и более качественные продукты.
Давайте углубимся в характеристики и основные типы больших данных.
Характеристики больших данных: 5 против
Хотя большие данные — это общий термин, который применяется ко многим типам данных, существует пять характеристик, обычно используемых для определения больших данных (также известных как 5 Vs или особенности больших данных).
1. Объем
Эта характеристика заложена в названии: Большие данные есть большие. Определение «большой» относительно и меняется в зависимости от технологий, доступных в данный момент. Например, жесткий диск на три гигабайта когда-то считался огромным, а теперь ноутбук с терабайтным хранилищем является стандартным.
2. Скорость
Большие данные генерируются быстро. Датчики на устройствах IoT отправляют сообщения несколько раз в секунду. Аналитика веб-сайта отслеживает каждое движение мыши, совершаемое посетителями, чтобы получить представление об их привычках просмотра. Приложения, использующие эти данные, часто должны обрабатывать их как можно ближе к реальному времени.
3. Разнообразие
Разнообразие — главная тема этой статьи (так что продолжайте читать, чтобы узнать больше!). Большие данные отличаются значительным разнообразием; каждая организация, которая собирает данные, делает это из нескольких источников и в разных форматах. Чтобы превратить эти данные в полезную информацию, необходимо объединить данные из разных источников.
4. Правдивость
Достоверность — это характеристика, определяющая качество данных. Не все собранные данные являются полными; он может быть неточным или содержать поврежденные точки данных. Беспорядочные большие данные могут принести больше вреда, чем пользы; данные могут нуждаться в очистке или удалении, чтобы обеспечить точное понимание.
5. Ценность
Просто наличие большого количества данных в бизнесе не означает, что все его данные полезны. Еще одна определяющая характеристика больших данных заключается в том, что они обеспечивают ценность в виде идей.
Думаете о том, чтобы нанять фирму по анализу данных для помощи с большими данными? Просмотрите наш список ведущих фирм по анализу данных и узнайте больше об их услугах в руководстве по найму Capterra.
3 основных типа больших данных
Хотя мы могли бы создать бесконечное количество категорий для разных типов больших данных, гораздо проще разделить большие данные на три основных типа: структурированные, неструктурированные и полуструктурированные.
1. Структурированные данные
Структурированные большие данные — это данные, хранящиеся в фиксированной схеме. Чаще всего это означает, что он хранится в системе управления реляционными базами данных или РСУБД. Эти данные хранятся в таблицах, где каждая запись имеет фиксированный набор свойств, а каждое свойство имеет фиксированный тип данных.
Одним из примеров являются пользовательские записи в базе данных:.
Я БЫ | Эл. адрес | Имя | Город | Состояние | почтовый индекс |
1 | Боб | Канзас-Сити | МО | 64030 | |
2 | Сара@example.com | Сара | Чикаго | Иллинойс | 60007 |
3 | Сэм | Нью-Йорк | Нью-Йорк | 10001 | |
4 | Рик | Лос-Анджелес | Калифорния | 90001 |
Каждая запись в этой таблице имеет одинаковую структуру, и каждое свойство имеет определенный тип. Например, столбец «Штат» ограничен двумя буквами верхнего регистра, а столбцы «Идентификатор» и «Почтовый индекс» — целыми числами. Если вы попытаетесь вставить в базу данных запись, которая не соответствует этой структуре, она этого не допустит, и будет показана ошибка.
Структурированные большие данные обычно являются реляционными. Это означает, что запись, такая как приведенная выше пользовательская таблица, может быть связана с записью или записями в другой таблице. Допустим, пользовательская таблица предназначена для корзины покупок, и у каждого пользователя есть заказы.
Я БЫ | ID пользователя | Вещь | Общий |
1 | 1 | Чашка | 2.00 |
2 ![]() | 2 | Чаша | 4.00 |
3 | 2 | Пластина | 3.00 |
4 | 4 | Ложка | 1,00 |
Свойство User_ID приведенной выше таблицы заказов связывает заказы с идентификаторами в пользовательской таблице. Мы видим, что у Сары два заказа, а Сэм еще не заказал.
Этот тип статической структуры делает данные согласованными и простыми для ввода, запроса и организации. Языком, используемым для запросов к таким таблицам базы данных, является SQL (язык структурированных запросов). Используя SQL, разработчики могут писать запросы, которые соединяют записи в таблицах базы данных в бесконечных комбинациях на основе их взаимосвязей.
Недостатком структурированных данных является то, что обновление структуры таблицы может быть сложным процессом. Прежде чем вы начнете использовать базу данных, нужно хорошо подумать о структурах таблиц. Этот тип больших данных не так гибок, как полуструктурированные данные.
2. Неструктурированные данные
По некоторым оценкам, 80-90% данных неструктурированы. [ 1 ] Но что такое неструктурированные большие данные? Любые данные, не подпадающие под две другие категории, здесь считаются неструктурированными.
Все, что хранится в цифровом виде, является данными. К неструктурированным данным относятся текст, электронная почта, видео, аудио, журналы сервера, веб-страницы и так далее. В отличие от структурированных и частично структурированных данных, которые можно запрашивать и искать согласованным образом, неструктурированные данные не соответствуют согласованной модели данных.
Это означает, что вместо простого использования запросов для преобразования этих данных в полезную информацию необходимо использовать более сложный процесс, зависящий от источника данных. Здесь могут быть полезны машинное обучение, искусственный интеллект, обработка естественного языка и оптическое распознавание символов (OCR).
Одним из примеров неструктурированных данных являются отсканированные квитанции, которые хранятся для отчетов о расходах. В родном формате изображения данные практически бесполезны. Здесь программное обеспечение OCR может преобразовать изображения в структурированные данные, которые затем могут быть вставлены в базу данных.
Недостатком неструктурированных больших данных является то, что их сложно обрабатывать, и для каждого источника данных требуется специальный процессор. Преимущества заключаются в простом существовании многих типов неструктурированных данных, так как информацию, полученную из них, часто нельзя найти ни в одном другом источнике данных.
3. Полуструктурированные данные
Полуструктурированные большие данные находятся где-то между структурированными и неструктурированными данными. Распространенным источником полуструктурированных данных являются базы данных NoSQL. Данные в базе данных NoSQL организованы, но не являются реляционными и не соответствуют согласованной схеме.
Например, запись пользователя в базе данных NoSQL может выглядеть так:
{ _id: ObjectId("5effaa5662679b5af2c57829"), email: "[email protected]", имя: "Sam", адрес: "101 Main Street", город: "Индепенденс", штат: "Айова" }
Здесь пользователи получают доступ к нужным им данным по ключам в записи. И хотя он похож на записи в приведенном выше примере со структурированными данными, он не имеет согласованного формата таблицы.
Вместо этого он имеет формат JSON, который используется для хранения и передачи объектов данных. Хотя эта одна запись в базе данных может иметь такой набор атрибутов, это не означает, что остальные записи будут иметь такую же структуру. В следующей записи может отсутствовать почтовый адрес, но вместо этого должен быть почтовый индекс.
Преимущество полуструктурированных данных, хранящихся в базе данных NoSQL, заключается в том, что они очень гибкие. Если вам нужно добавить в запись больше данных, просто добавьте ее с новым ключом. Это также может быть недостатком, если вам нужно, чтобы данные были непротиворечивыми.
Но данные NoSQL — не единственный тип полуструктурированных больших данных. XML и YAML — это два других гибких формата данных, которые приложения используют для передачи и хранения данных. Электронная почта также может считаться полуструктурированными данными, поскольку ее части могут последовательно анализироваться, например адреса электронной почты, время отправки и IP-адреса, в то время как тело представляет собой неструктурированные данные.
Сравнение структурированных, полуструктурированных и неструктурированных данных
Эта таблица лучше иллюстрирует различия между этими тремя типами больших данных:
Структурированный | Полуструктурированный | Неструктурированный | |
Формат | Чаще всего это данные из реляционных баз данных, где данные расположены в структурированных таблицах и имеют определенные типы, такие как целое число, число с плавающей запятой и текст. | Чаще всего данные из баз данных NoSQL передаются на языке сериализации данных, таком как JSON, XML или YAML. | Неструктурированные данные не подчиняются какой-либо схеме и могут принимать форму файлов журналов, необработанного текста, изображений, видео и многого другого. |
Запрос | Можно быстро запрашивать с помощью SQL в структурированном и согласованном виде. | Эти данные можно запрашивать, но из-за полуструктурированного характера записи могут быть несогласованными. | Необработанные данные должны быть проанализированы и обработаны с помощью специального кода во многих случаях. |
Транзакции | Базы данных поддерживают транзакции для обеспечения обновления зависимых данных. | Транзакции частично поддерживаются в базах данных NoSQL. | Транзакции невозможны с неструктурированными данными. |
Гибкость | Наборы структурированных данных имеют сложный процесс обновления и не очень гибкие. | Базы данных NoSQL являются гибкими, поскольку схемы данных могут обновляться динамически. | Неструктурированные данные являются наиболее гибкими, но и наиболее сложными для обработки. |
Оцените свои источники данных, чтобы начать работу с большими данными
Хорошим первым шагом в любом проекте работы с большими данными является инвентаризация всех источников данных, доступных вам и вашему бизнесу, и их классификация по типам. Это позволяет вам начать обработку и компиляцию данных, чтобы предоставить полезную информацию.
Чтобы узнать больше о больших данных и их роли в современном бизнесе, ознакомьтесь со следующими ресурсами:
Что такое большие данные и как они генерируются?
Как создать новую стратегию бизнес-аналитики