Jakie są rodzaje dużych zbiorów danych?

Opublikowany: 2022-11-24

Zrozumienie rodzajów dużych zbiorów danych może lepiej przygotować Cię do obsługi dużych zbiorów danych

Wiele postępów w sztucznej inteligencji, uczeniu maszynowym i analityce biznesowej jest możliwych dzięki dużym zbiorom danych. Dane zasilają algorytmy, które sprawiają, że samochody same się poruszają, sugerują następny film, który powinniśmy obejrzeć, i podpowiadają liderom biznesowym, jak zwiększyć przychody.

Ale nie wszystkie dane są tworzone w ten sam sposób.

Aby skutecznie klasyfikować, organizować i analizować dane generowane przez firmę i jej klientów, analityk biznesowy lub analityk danych musi wiedzieć, z jakim rodzajem danych pracuje.

/ Co to są duże zbiory danych?

Big data odnosi się do informacji o dużej objętości, dużej szybkości lub dużej różnorodności, które wymagają zaawansowanego przetwarzania i analizy. Same dane nie są pomocne — to ich analiza jest kluczem do usprawnienia procesów biznesowych. Firmy używają kilku technik do analizy dużych zbiorów danych, takich jak eksploracja danych, która podkreśla wzorce w danych. Na przykład firmy mogą eksplorować dane, aby dowiedzieć się, jakie oferty sprzedaży przypadną do gustu określonym konsumentom. Prawidłowe przetwarzanie dużych zbiorów danych przez firmy ułatwia podejmowanie lepszych decyzji i zapewnia lepszą obsługę klienta oraz lepsze produkty.

Przyjrzyjmy się charakterystyce i głównym typom dużych zbiorów danych.

Charakterystyka dużych zbiorów danych: 5 Vs

Chociaż duże zbiory danych to ogólny termin odnoszący się do wielu typów danych, istnieje pięć cech zwykle używanych do definiowania dużych zbiorów danych (znanych również jako 5 V lub cechy dużych zbiorów danych).

1. Głośność

Ta cecha jest zawarta w nazwie: Big data is big. Definicja dużego jest względna i zmienia się w zależności od dostępnej w danym momencie technologii. Na przykład dysk twardy o pojemności trzech gigabajtów był kiedyś uważany za ogromny, podczas gdy obecnie standardem jest laptop z terabajtem pamięci.

2. Prędkość

Duże dane są generowane szybko. Czujniki na urządzeniach IoT wysyłają wiadomości wiele razy na sekundę. Analityka witryny monitoruje każdy ruch myszy wykonywany przez odwiedzających, aby uzyskać wgląd w ich nawyki przeglądania. Aplikacje korzystające z tych danych często muszą przetwarzać je w czasie jak najbardziej zbliżonym do rzeczywistego.

3. Różnorodność

Różnorodność jest głównym tematem tego artykułu (więc czytaj dalej!). Istnieje znaczna różnorodność dużych zbiorów danych; każda organizacja, która gromadzi dane, robi to z wielu źródeł iw wielu formatach. Aby przekształcić te dane w użyteczne informacje, należy połączyć dane z różnych źródeł.

4. Prawdziwość

Prawdziwość to cecha określająca jakość danych. Nie wszystkie zebrane dane są kompletne; może być niedokładny lub zawierać uszkodzone punkty danych. Brudne duże zbiory danych mogą wyrządzić więcej szkody niż pożytku; dane mogą wymagać oczyszczenia lub odrzucenia, aby zapewnić dokładne spostrzeżenia.

5. Wartość

Firma mająca po prostu dużo danych nie oznacza, że wszystkie jej dane są przydatne. Inną charakterystyczną cechą dużych zbiorów danych jest to, że dostarczają one wartości w postaci spostrzeżeń.

Myślisz o zatrudnieniu firmy zajmującej się analizą danych do pomocy przy dużych zbiorach danych? Przejrzyj naszą listę najlepszych firm zajmujących się analizą danych i dowiedz się więcej o ich usługach w przewodniku zatrudniania firmy Capterra.

3 główne rodzaje dużych zbiorów danych

Chociaż moglibyśmy utworzyć nieskończoną liczbę kategorii dla różnych typów dużych zbiorów danych, znacznie łatwiej jest posortować duże zbiory danych na trzy główne typy: ustrukturyzowane, nieustrukturyzowane i częściowo ustrukturyzowane.

1. Dane strukturalne

Ustrukturyzowane duże zbiory danych to dane przechowywane w ustalonym schemacie. Najczęściej oznacza to, że jest przechowywany w systemie zarządzania relacyjnymi bazami danych lub RDBMS. Dane te są przechowywane w tabelach, w których każdy rekord ma ustalony zestaw właściwości, a każda właściwość ma ustalony typ danych.

Jednym z przykładów są rekordy użytkowników w bazie danych:.

ID	E-mail	Nazwa	Miasto	Państwo	kod pocztowy
1	[email protected]	Pion	Kansas City	MO	64030
2	[email protected]	Sara	Chicago	IL	60007
3	[email protected]	Sama	Nowy Jork	Nowy Jork	10001
4	[email protected]	Stóg	Los Angeles	CA	90001

Każdy rekord w tej tabeli ma taką samą strukturę, a każda właściwość ma określony typ. Na przykład kolumna Stan jest ograniczona do dwóch wielkich liter, a kolumny Identyfikator i Kod pocztowy są ograniczone do liczb całkowitych. Jeśli spróbujesz wstawić do bazy rekord, który nie pasuje do tej struktury, nie pozwoli na to i wyświetli się błąd.

Ustrukturyzowane duże zbiory danych są zazwyczaj relacyjne. Oznacza to, że rekord taki jak powyższa tabela użytkownika może być powiązany z rekordem lub rekordami w innej tabeli. Załóżmy, że tabela użytkownika dotyczy koszyka, a każdy użytkownik ma zamówienia.

ID	Identyfikator użytkownika	Przedmiot	Całkowity
1	1	Filiżanka	2.00
2	2	Miska	4.00
3	2	Talerz	3.00
4	4	Łyżka	1.00

Właściwość User_ID powyższej tabeli zamówień łączy zamówienia z identyfikatorami w tabeli użytkowników. Widzimy, że Sara ma dwa zamówienia, a Sam jeszcze nie złożył zamówienia.

Ten typ struktury statycznej sprawia, że dane są spójne i łatwe do wprowadzania, wyszukiwania i organizowania. Językiem używanym do wykonywania zapytań w tabelach bazy danych jest SQL (Structured Query Language). Korzystając z SQL, programiści mogą pisać zapytania, które łączą rekordy w tabelach bazy danych w nieskończonych kombinacjach na podstawie ich relacji.

Wadą danych strukturalnych jest to, że aktualizowanie struktury tabeli może być złożonym procesem. Przed rozpoczęciem korzystania z bazy danych należy poświęcić wiele uwagi strukturom tabel. Ten rodzaj dużych zbiorów danych nie jest tak elastyczny jak dane częściowo ustrukturyzowane.

2. Dane nieustrukturyzowane

Według niektórych szacunków 80-90% danych jest nieustrukturyzowanych. ^{[ 1 ]} Ale czym właściwie są nieustrukturyzowane duże zbiory danych? Wszelkie dane, które nie pasują do pozostałych dwóch kategorii, są traktowane jako nieustrukturyzowane.

Wszystko, co jest przechowywane cyfrowo, to dane. Dane nieustrukturyzowane obejmują tekst, e-mail, wideo, audio, dzienniki serwera, strony internetowe i tak dalej. W przeciwieństwie do danych ustrukturyzowanych i częściowo ustrukturyzowanych, które można przeszukiwać i przeszukiwać w spójny sposób, dane nieustrukturyzowane nie są zgodne ze spójnym modelem danych.

Oznacza to, że zamiast zwykłego używania zapytań do przekształcania tych danych w przydatne informacje, należy zastosować bardziej złożony proces, w zależności od źródła danych. Tutaj przydatne mogą być uczenie maszynowe, sztuczna inteligencja, przetwarzanie języka naturalnego i optyczne rozpoznawanie znaków (OCR).

Jednym z przykładów danych nieustrukturyzowanych są zeskanowane paragony, które są przechowywane w raportach wydatków. W ich natywnym formacie obrazu dane są zasadniczo bezużyteczne. W tym przypadku oprogramowanie OCR może przekształcić obrazy w uporządkowane dane, które następnie można wstawić do bazy danych.

Wadą nieustrukturyzowanych dużych zbiorów danych jest to, że są one trudne do przetworzenia, a każde źródło danych wymaga niestandardowego procesora. Korzyści obejmują samo istnienie wielu typów nieustrukturyzowanych danych, ponieważ zgromadzonych na ich podstawie spostrzeżeń często nie można znaleźć w żadnym innym źródle danych.

3. Dane częściowo ustrukturyzowane

Częściowo ustrukturyzowane duże zbiory danych mieszczą się gdzieś pomiędzy danymi ustrukturyzowanymi i nieustrukturyzowanymi. Typowym źródłem częściowo ustrukturyzowanych danych są bazy danych NoSQL. Dane w bazie danych NoSQL są zorganizowane, ale nie są relacyjne i nie są zgodne ze spójnym schematem.

Na przykład rekord użytkownika w bazie danych NoSQL może wyglądać tak:

{ _id: ObjectId("5effaa5662679b5af2c57829"), e-mail: "[email protected]", nazwa: "Sam", adres: "101 Main Street", miasto: "Independence", stan: "Iowa" }

Tutaj użytkownicy uzyskują dostęp do potrzebnych im danych za pomocą kluczy w rekordzie. Chociaż wygląda podobnie do rekordów w powyższym przykładzie danych strukturalnych, nie ma spójnego formatu tabeli.

Zamiast tego jest w formacie JSON, który służy do przechowywania i przesyłania obiektów danych. Chociaż ten jeden rekord w bazie danych może mieć ten zestaw atrybutów, nie oznacza to, że pozostałe rekordy będą miały taką samą strukturę. W następnym rekordzie może brakować adresu ulicy, ale zamiast tego może być podany kod pocztowy.

Zaletą częściowo ustrukturyzowanych danych przechowywanych w bazie danych NoSQL jest ich duża elastyczność. Jeśli chcesz dodać więcej danych do rekordu, po prostu dodaj je za pomocą nowego klucza. Może to być również wadą, jeśli potrzebujesz spójności danych.

Ale dane NoSQL nie są jedynym typem częściowo ustrukturyzowanych dużych zbiorów danych. XML i YAML to dwa inne elastyczne formaty danych używane przez aplikacje do przesyłania i przechowywania danych. Wiadomości e-mail można również uznać za dane częściowo ustrukturyzowane, ponieważ ich części można analizować spójnie, takie jak adresy e-mail, czas wysłania i adresy IP, podczas gdy treść to dane nieustrukturyzowane.

Porównanie danych ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych

Ta tabela lepiej ilustruje różnice między tymi trzema typami dużych zbiorów danych:

	Zbudowany	Częściowo ustrukturyzowane	Nieustrukturyzowane
Format	Najczęściej dane z relacyjnych baz danych, w których dane są uporządkowane w tabelach strukturalnych i mają określone typy, takie jak liczba całkowita, liczba zmiennoprzecinkowa i tekst.	Najczęściej dane z baz NoSQL i przesyłane w języku serializacji danych takim jak JSON, XML lub YAML.	Dane nieustrukturyzowane nie są zgodne z żadnym schematem i mogą mieć postać plików dziennika, nieprzetworzonego tekstu, obrazów, filmów i nie tylko.
zapytanie	Można szybko wysyłać zapytania za pomocą języka SQL w uporządkowany i spójny sposób.	Te dane można przeszukiwać, ale ze względu na ich częściowo ustrukturyzowany charakter rekordy mogą nie być spójne.	W wielu przypadkach surowe dane muszą zostać przeanalizowane i przetworzone przy użyciu niestandardowego kodu.
Transakcje	Bazy danych obsługują transakcje, aby zapewnić aktualizację danych zależnych.	Transakcje są częściowo obsługiwane w bazach danych NoSQL.	Transakcje nie są możliwe z nieustrukturyzowanymi danymi.
Elastyczność	Ustrukturyzowane zbiory danych mają złożony proces aktualizacji i nie są zbyt elastyczne.	Bazy danych NoSQL są elastyczne, ponieważ schematy danych można aktualizować dynamicznie.	Dane nieustrukturyzowane są najbardziej elastyczne, ale także najtrudniejsze do przetworzenia.

Oceń swoje źródła danych, aby rozpocząć pracę z dużymi zbiorami danych

Dobrym pierwszym krokiem w każdym projekcie Big Data jest inwentaryzacja wszystkich źródeł danych dostępnych dla Ciebie i Twojej firmy oraz kategoryzowanie ich według typu. Dzięki temu możesz rozpocząć przetwarzanie i kompilowanie danych w celu uzyskania przydatnych informacji.

Aby dowiedzieć się więcej o big data i jego roli we współczesnym biznesie, zapoznaj się z tymi zasobami:

Co to jest Big Data i jak jest generowany?
Jak stworzyć nową strategię Business Intelligence