Care sunt tipurile de date mari?

Publicat: 2022-11-24

Înțelegerea tipurilor de date mari vă poate pregăti mai bine pentru a gestiona seturi mari de date

Multe dintre progresele în AI , învățare automată și analize de afaceri sunt posibile datorită datelor mari. Datele alimentează algoritmii care fac mașinile să se conducă singure, sugerează următorul film pe care ar trebui să-l vedem și le spune liderilor de afaceri cum să crească veniturile.

Dar nu toate datele sunt create la fel.

Pentru a clasifica, organiza și analiza în mod eficient datele generate de o companie și de clienții săi, un analist de afaceri sau un cercetător de date trebuie să știe cu ce tip de date lucrează.

/ Ce este big data?

Big data se referă la informații de mare volum, de mare viteză sau de mare varietate care necesită procesare și analiză sofisticate. Datele în sine nu sunt utile – analiza lor este cheia pentru îmbunătățirea proceselor de afaceri. Companiile folosesc mai multe tehnici pentru a analiza big data, cum ar fi data mining, care evidențiază tiparele în date. De exemplu, companiile pot extrage date pentru a afla ce oferte de vânzare vor atrage anumiți consumatori. Atunci când companiile gestionează corect datele mari, facilitează luarea de decizii mai bune și le ajută să ofere un serviciu mai bun pentru clienți și produse mai bune.

Să ne aprofundăm în caracteristicile și principalele tipuri de date mari.

Caracteristicile Big Data: The 5 Vs

În timp ce big data este un termen general care se aplică multor tipuri de date, există cinci caracteristici utilizate în mod obișnuit pentru a defini big data (cunoscute și sub numele de 5 Vs sau caracteristicile big data).

1. Volumul

Această caracteristică este în numele: Big data este mare. Definiția lui mare este relativă și se modifică în funcție de tehnologia disponibilă la momentul respectiv. De exemplu, un hard disk de trei gigabyte era cândva considerat uriaș, în timp ce acum un laptop cu un terabyte de stocare este standard.

2. Viteza

Datele mari sunt generate rapid. Senzorii de pe dispozitivele IoT trimit mesaje de mai multe ori pe secundă. Analiza site-ului monitorizează fiecare mișcare a mouse-ului pe care vizitatorii o fac pentru a obține informații despre obiceiurile lor de navigare. Aplicațiile care folosesc aceste date trebuie adesea să le prelucreze cât mai aproape posibil de timp real.

3. Varietate

Varietatea este subiectul principal al acestui articol (deci continuați să citiți pentru mai multe!). Există o varietate semnificativă de date mari; fiecare organizație care colectează date face acest lucru din mai multe surse și în mai multe formate. Pentru a transforma aceste date în informații utile, datele din diverse surse trebuie combinate.

4. Veracitatea

Veracitatea este o caracteristică care definește calitatea datelor. Nu toate datele colectate sunt complete; poate fi inexact sau poate conține puncte de date corupte. Datele mari dezordonate pot face mai mult rău decât bine; este posibil ca datele să fie curățate sau aruncate pentru a oferi informații precise.

5. Valoare

O afacere pur și simplu care are multe date nu înseamnă că toate datele sale sunt utile. O altă caracteristică definitorie a datelor mari este că va oferi valoare sub formă de perspective.

Te gândești să angajezi o firmă de analiză a datelor pentru ajutor cu big data? Răsfoiți lista noastră de firme de analiză de date de top și aflați mai multe despre serviciile lor în ghidul de angajare Capterra.

3 tipuri principale de date mari

Deși am putea crea un număr infinit de categorii pentru diferitele tipuri de date mari, este mult mai simplu să sortăm datele mari în trei tipuri principale: structurate, nestructurate și semi-structurate.

1. Date structurate

Datele mari structurate sunt date stocate într-o schemă fixă. Cel mai frecvent, aceasta înseamnă că este stocată într-un sistem de gestionare a bazelor de date relaționale sau RDBMS. Aceste date sunt stocate în tabele în care fiecare înregistrare are un set fix de proprietăți și fiecare proprietate are un tip de date fix.

Un exemplu sunt înregistrările utilizatorilor dintr-o bază de date:.

ID	E-mail	Nume	Oraș	Stat	Cod poștal
1	[email protected]	Bob	orasul Kansas	MO	64030
2	[email protected]	Sara	Chicago	IL	60007
3	[email protected]	Sam	New York	NY	10001
4	[email protected]	Rick	Los Angeles	CA	90001

Fiecare înregistrare din acest tabel are aceeași structură și fiecare proprietate are un tip specific. De exemplu, coloana State este limitată la două litere mari, iar coloanele ID și cod poștal sunt limitate la numere întregi. Dacă încercați să inserați o înregistrare în baza de date care nu se potrivește cu această structură, aceasta nu o va permite și va fi afișată o eroare.

Datele mari structurate sunt de obicei relaționale. Aceasta înseamnă că o înregistrare, cum ar fi tabelul utilizator de mai sus, poate fi legată de o înregistrare sau înregistrări dintr-un alt tabel. Să presupunem că tabelul de utilizatori este pentru un coș de cumpărături și fiecare utilizator are comenzi.

ID	Numele de utilizator	Articol	Total
1	1	ceașcă	2.00
2	2	Castron	4.00
3	2	Farfurie	3.00
4	4	Linguriţă	1.00

Proprietatea User_ID a tabelului de comenzi de mai sus leagă comenzile la ID-urile din tabelul de utilizatori. Putem vedea că Sara are două comenzi, iar Sam nu a comandat încă.

Acest tip de structură statică face ca datele să fie consistente și ușor de introdus, interogat și organizat. Limbajul folosit pentru interogarea tabelelor de baze de date ca acestea este SQL (Structured Query Language). Folosind SQL, dezvoltatorii pot scrie interogări care unesc înregistrările în tabelele bazei de date în combinații nesfârșite pe baza relațiilor lor.

Dezavantajul datelor structurate este că actualizarea structurii unui tabel poate fi un proces complex. Trebuie să se gândească mult la structurile tabelelor chiar înainte de a începe să utilizați baza de date. Acest tip de big data nu este la fel de flexibil ca datele semi-structurate.

2. Date nestructurate

Potrivit unor estimări, 80-90% din date sunt nestructurate. ^{[ 1 ]} Dar ce sunt datele mari nestructurate? Orice date care nu se încadrează în celelalte două categorii de aici sunt considerate nestructurate.

Tot ceea ce este stocat digital sunt date. Datele nestructurate includ text, e-mail, video, audio, jurnalele de server, pagini web și mai departe. Spre deosebire de datele structurate și semi-structurate care pot fi interogate și căutate într-o manieră consecventă, datele nestructurate nu urmează un model de date consecvent.

Aceasta înseamnă că, în loc să folosiți pur și simplu interogări pentru a transforma aceste date în informații utile, trebuie utilizat un proces mai complex, în funcție de sursa datelor. Aici pot fi utile învățarea automată, inteligența artificială, procesarea limbajului natural și recunoașterea optică a caracterelor (OCR).

Un exemplu de date nestructurate sunt chitanțele scanate care sunt stocate pentru rapoartele de cheltuieli. În formatul lor de imagine nativ, datele sunt practic inutile. Aici, software-ul OCR poate transforma imaginile în date structurate care pot fi apoi inserate într-o bază de date.

Dezavantajul datelor mari nestructurate este că este greu de procesat, iar fiecare sursă de date are nevoie de un procesor personalizat. Avantajele includ simpla existență a multor tipuri de date nestructurate, deoarece informațiile adunate din acestea nu pot fi găsite adesea în nicio altă sursă de date.

3. Date semi-structurate

Big Data semi-structurate se încadrează undeva între datele structurate și cele nestructurate. O sursă comună de date semi-structurate este din bazele de date NoSQL. Datele dintr-o bază de date NoSQL sunt organizate, dar nu sunt relaționale și nu urmează o schemă consecventă.

De exemplu, o înregistrare de utilizator într-o bază de date NoSQL poate arăta astfel:

{ _id: ObjectId("5effaa5662679b5af2c57829"), e-mail: „[email protected]”, nume: „Sam”, adresa: „101 Main Street” oraș: „Independence”, stat: „Iowa” }

Aici, utilizatorii accesează datele de care au nevoie prin cheile din înregistrare. Și deși arată similar cu înregistrările din exemplul de date structurate de mai sus, nu este într-un format de tabel consistent.

În schimb, este în format JSON, care este folosit pentru a stoca și transmite obiecte de date. În timp ce această înregistrare din baza de date poate avea acest set de atribute, aceasta nu înseamnă că restul înregistrărilor vor avea aceeași structură. Următoarea înregistrare poate să nu aibă o adresă, dar să aibă în schimb un cod poștal.

Un avantaj al datelor semi-structurate stocate într-o bază de date NoSQL este că sunt foarte flexibile. Dacă trebuie să adăugați mai multe date la o înregistrare, adăugați-o pur și simplu cu o cheie nouă. Acest lucru poate fi, de asemenea, un dezavantaj dacă aveți nevoie de date pentru a fi consecvente.

Dar datele NoSQL nu sunt singurul tip de date mari semi-structurate. XML și YAML sunt alte două formate de date flexibile pe care aplicațiile le folosesc pentru a transfera și stoca date. E-mailul poate fi considerat și date semi-structurate, deoarece părți ale acestuia pot fi analizate în mod consecvent, cum ar fi adresele de e-mail, ora trimisă și adresele IP, în timp ce corpul este date nestructurate.

Compararea datelor structurate, semi-structurate și nestructurate

Acest tabel ilustrează mai bine diferențele dintre aceste trei tipuri de date mari:

	Structurat	Semi-structurat	Nestructurat
Format	Cel mai frecvent date din baze de date relaționale în care datele sunt aranjate în tabele structurate și au tipuri specifice, cum ar fi întreg, float și text.	Cel mai frecvent date din baze de date NoSQL și transferate într-un limbaj de serializare a datelor, cum ar fi JSON, XML sau YAML.	Datele nestructurate nu urmează nicio schemă și pot lua forma fișierelor jurnal, text brut, imagini, videoclipuri și multe altele.
Interogarea	Poate fi interogat rapid cu SQL într-un mod structurat și consistent.	Aceste date pot fi interogate, dar din cauza naturii semi-structurate, este posibil ca înregistrările să nu fie consistente.	Datele brute trebuie analizate și procesate cu cod personalizat în multe cazuri.
Tranzacții	Bazele de date acceptă tranzacții pentru a se asigura că datele dependente sunt actualizate.	Tranzacțiile sunt parțial acceptate în bazele de date NoSQL.	Tranzacțiile nu sunt posibile cu date nestructurate.
Flexibilitate	Seturile de date structurate au un proces de actualizare complex și nu sunt foarte flexibile.	Bazele de date NoSQL sunt flexibile deoarece schemele de date pot fi actualizate dinamic.	Datele nestructurate sunt cele mai flexibile, dar și cele mai greu de procesat.

Evaluați-vă sursele de date pentru a începe cu big data

Un prim pas bun în orice proiect de date mari este realizarea unui inventar al tuturor surselor de date disponibile pentru dvs. și afacerea dvs. și clasificarea lor în funcție de tip. Acest lucru vă permite să începeți procesarea și compilarea datelor pentru a oferi informații utile.

Pentru a afla mai multe despre big data și rolul lor în afacerile moderne, consultați aceste resurse:

Ce este Big Data și cum sunt generate?
Cum să vă creați noua strategie de Business Intelligence