Welche Arten von Big Data gibt es?

Veröffentlicht: 2022-11-24

Das Verständnis der Arten von Big Data kann Sie besser auf den Umgang mit großen Datensätzen vorbereiten

Viele der Fortschritte in den Bereichen KI, maschinelles Lernen und Geschäftsanalysen sind dank Big Data möglich. Daten treiben die Algorithmen an, die Autos selbstfahrend machen, schlagen den nächsten Film vor, den wir uns ansehen sollten, und sagen Führungskräften, wie sie den Umsatz steigern können.

Aber nicht alle Daten werden gleich erstellt.

Um die von einem Unternehmen und seinen Kunden generierten Daten effektiv zu klassifizieren, zu organisieren und zu analysieren, muss ein Business Analyst oder Data Scientist wissen, mit welcher Art von Daten er arbeitet.

/ Was ist Big Data?

Big Data bezieht sich auf Informationen mit hohem Volumen, hoher Geschwindigkeit oder hoher Vielfalt, die eine ausgefeilte Verarbeitung und Analyse erfordern. Die Daten allein sind nicht hilfreich – ihre Analyse ist der Schlüssel zur Verbesserung von Geschäftsprozessen. Unternehmen verwenden verschiedene Techniken, um Big Data zu analysieren, wie z. B. Data Mining, das Muster in den Daten hervorhebt. Beispielsweise können Unternehmen Daten auswerten, um zu erfahren, welche Verkaufsangebote bestimmte Verbraucher ansprechen. Wenn Unternehmen mit Big Data richtig umgehen, erleichtert dies bessere Entscheidungen und hilft ihnen, einen besseren Kundenservice und bessere Produkte zu liefern.

Lassen Sie uns in die Eigenschaften und Haupttypen von Big Data eintauchen.

Big-Data-Merkmale: Die 5 Vs

Während Big Data ein allgemeiner Begriff ist, der für viele Arten von Daten gilt, gibt es fünf Merkmale, die typischerweise verwendet werden, um Big Data zu definieren (auch bekannt als die 5 Vs oder die Merkmale von Big Data).

1. Volumen

Diese Eigenschaft steckt im Namen: Big Data ist Big. Die Definition von „groß“ ist relativ und ändert sich je nach der jeweils verfügbaren Technologie. Beispielsweise galt früher eine Festplatte mit drei Gigabyte als riesig, während heute ein Laptop mit einem Terabyte Speicherplatz Standard ist.

2. Geschwindigkeit

Big Data wird schnell generiert. Sensoren auf IoT-Geräten senden mehrmals pro Sekunde Nachrichten. Website-Analysen überwachen jede Mausbewegung der Besucher, um Einblicke in ihre Surfgewohnheiten zu erhalten. Anwendungen, die diese Daten verwenden, müssen sie oft so echtzeitnah wie möglich verarbeiten.

3. Vielfalt

Vielfalt ist das Hauptthema dieses Artikels (lesen Sie also weiter!). Big Data ist sehr unterschiedlich; Jede Organisation, die Daten sammelt, tut dies aus mehreren Quellen und in mehreren Formaten. Um diese Daten in nützliche Informationen umzuwandeln, müssen Daten aus verschiedenen Quellen kombiniert werden.

4. Wahrhaftigkeit

Wahrhaftigkeit ist ein Merkmal, das die Datenqualität definiert. Nicht alle gesammelten Daten sind vollständig; es kann ungenau sein oder beschädigte Datenpunkte enthalten. Unordentliche Big Data können mehr schaden als nützen; Daten müssen möglicherweise bereinigt oder verworfen werden, um genaue Erkenntnisse zu liefern.

5. Wert

Ein Unternehmen, das nur über viele Daten verfügt, bedeutet nicht, dass alle seine Daten nützlich sind. Ein weiteres charakteristisches Merkmal von Big Data ist, dass es einen Mehrwert in Form von Erkenntnissen liefert.

Denken Sie darüber nach, ein Datenanalyseunternehmen mit Big Data zu beauftragen? Durchsuchen Sie unsere Liste der führenden Datenanalyseunternehmen und erfahren Sie mehr über ihre Dienstleistungen im Einstellungsleitfaden von Capterra.

3 Haupttypen von Big Data

Während wir eine endlose Anzahl von Kategorien für die verschiedenen Arten von Big Data erstellen könnten, ist es viel einfacher, Big Data in drei Haupttypen zu sortieren: strukturiert, unstrukturiert und halbstrukturiert.

1. Strukturierte Daten

Strukturierte Big Data sind Daten, die in einem festen Schema gespeichert sind. Am häufigsten bedeutet dies, dass es in einem relationalen Datenbankverwaltungssystem oder RDBMS gespeichert ist. Diese Daten werden in Tabellen gespeichert, in denen jeder Datensatz einen festen Satz von Eigenschaften und jede Eigenschaft einen festen Datentyp hat.

Ein Beispiel sind Benutzerdatensätze in einer Datenbank:.

ICH WÜRDE	Email	Name	Stadt	Bundesland	PLZ
1	[email protected]	Bob	Kansas City	MO	64030
2	[email protected]	Sara	Chicago	Il	60007
3	[email protected]	Sam	New York	NY	10001
4	[email protected]	Rick	Los Angeles	CA	90001

Jeder Datensatz in dieser Tabelle hat die gleiche Struktur, und jede Eigenschaft hat einen bestimmten Typ. Beispielsweise ist die Spalte „Bundesstaat“ auf zwei Großbuchstaben beschränkt, und die Spalten „ID“ und „Postleitzahl“ sind auf Ganzzahlen beschränkt. Wenn Sie versuchen, einen Datensatz in die Datenbank einzufügen, der nicht zu dieser Struktur passt, wird dies nicht zugelassen, und es wird ein Fehler angezeigt.

Strukturierte Big Data sind typischerweise relational. Das bedeutet, dass ein Datensatz wie die obige Benutzertabelle mit einem oder mehreren Datensätzen in einer anderen Tabelle verknüpft werden kann. Nehmen wir an, die Benutzertabelle ist für einen Einkaufswagen und jeder Benutzer hat Bestellungen.

ICH WÜRDE	Benutzeridentifikation	Artikel	Gesamt
1	1	Tasse	2.00
2	2	Schüssel	4.00
3	2	Teller	3.00
4	4	Löffel	1.00

Die User_ID-Eigenschaft der Bestelltabelle oben verknüpft Bestellungen mit den IDs in der Benutzertabelle. Wir können sehen, dass Sara zwei Bestellungen hat und Sam noch nicht bestellt hat.

Diese Art von statischer Struktur macht die Daten konsistent und einfach einzugeben, abzufragen und zu organisieren. Die Sprache, mit der solche Datenbanktabellen abgefragt werden, ist SQL (Structured Query Language). Mithilfe von SQL können Entwickler Abfragen schreiben, die die Datensätze in Datenbanktabellen in endlosen Kombinationen basierend auf ihren Beziehungen verknüpfen.

Der Nachteil von strukturierten Daten besteht darin, dass das Aktualisieren der Struktur einer Tabelle ein komplexer Prozess sein kann. Bevor Sie überhaupt mit der Datenbanknutzung beginnen, müssen Sie sich viele Gedanken über Tabellenstrukturen machen. Diese Art von Big Data ist nicht so flexibel wie halbstrukturierte Daten.

2. Unstrukturierte Daten

Einigen Schätzungen zufolge sind 80-90 % der Daten unstrukturiert. ^{[ 1 ]} Aber was genau ist unstrukturiertes Big Data? Alle Daten, die hier nicht in die anderen beiden Kategorien passen, gelten als unstrukturiert.

Alles, was digital gespeichert wird, sind Daten. Unstrukturierte Daten umfassen Text, E-Mail, Video, Audio, Serverprotokolle, Webseiten und so weiter. Im Gegensatz zu strukturierten und halbstrukturierten Daten, die konsistent abgefragt und durchsucht werden können, folgen unstrukturierte Daten keinem konsistenten Datenmodell.

Das bedeutet, dass anstelle der einfachen Verwendung von Abfragen, um diese Daten in nützliche Informationen umzuwandeln, je nach Datenquelle ein komplexerer Prozess erforderlich ist. Hier können maschinelles Lernen, künstliche Intelligenz, Verarbeitung natürlicher Sprache und optische Zeichenerkennung (OCR) hilfreich sein.

Ein Beispiel für unstrukturierte Daten sind gescannte Belege, die für Spesenabrechnungen gespeichert werden. In ihrem nativen Bildformat sind die Daten im Wesentlichen nutzlos. Hier kann eine OCR-Software die Bilder in strukturierte Daten umwandeln, die dann in eine Datenbank eingefügt werden können.

Der Nachteil von unstrukturierten Big Data besteht darin, dass sie schwer zu verarbeiten sind und jede Datenquelle einen benutzerdefinierten Prozessor benötigt. Zu den Vorteilen gehört die bloße Existenz vieler Arten von unstrukturierten Daten, da die daraus gewonnenen Erkenntnisse oft in keiner anderen Datenquelle zu finden sind.

3. Halbstrukturierte Daten

Halbstrukturierte Big Data liegen irgendwo zwischen strukturierten und unstrukturierten Daten. Eine gängige Quelle halbstrukturierter Daten sind NoSQL-Datenbanken. Die Daten in einer NoSQL-Datenbank sind organisiert, aber sie sind nicht relational und folgen keinem konsistenten Schema.

Ein Benutzerdatensatz in einer NoSQL-Datenbank kann beispielsweise so aussehen:

{ _id: ObjectId("5effaa5662679b5af2c57829"), E-Mail: "[email protected]", Name: "Sam", Adresse: "101 Main Street" Stadt: "Independence", Staat: "Iowa" }

Hier greifen Benutzer über die Schlüssel im Datensatz auf die benötigten Daten zu. Und obwohl es den Datensätzen im obigen Beispiel für strukturierte Daten ähnlich sieht, liegt es nicht in einem konsistenten Tabellenformat vor.

Stattdessen liegt es im JSON-Format vor, das zum Speichern und Übertragen von Datenobjekten verwendet wird. Während dieser eine Datensatz in der Datenbank diesen Satz von Attributen haben kann, bedeutet dies nicht, dass die restlichen Datensätze dieselbe Struktur haben. Dem nächsten Datensatz fehlt möglicherweise eine Straßenadresse, dafür aber eine Postleitzahl.

Ein Vorteil halbstrukturierter Daten, die in einer NoSQL-Datenbank gespeichert sind, besteht darin, dass sie sehr flexibel sind. Wenn Sie einem Datensatz weitere Daten hinzufügen müssen, fügen Sie ihn einfach mit einem neuen Schlüssel hinzu. Dies kann auch ein Nachteil sein, wenn Sie konsistente Daten benötigen.

Aber NoSQL-Daten sind nicht die einzige Art von halbstrukturierten Big Data. XML und YAML sind zwei weitere flexible Datenformate, die Anwendungen zum Übertragen und Speichern von Daten verwenden. E-Mails können auch als halbstrukturierte Daten betrachtet werden, da Teile davon konsistent analysiert werden können, wie z. B. E-Mail-Adressen, Sendezeit und IP-Adressen, während der Hauptteil aus unstrukturierten Daten besteht.

Vergleich von strukturierten, halbstrukturierten und unstrukturierten Daten

Diese Tabelle veranschaulicht die Unterschiede zwischen diesen drei Arten von Big Data besser:

	Strukturiert	Halbstrukturiert	Unstrukturiert
Format	Am häufigsten Daten aus relationalen Datenbanken, in denen die Daten in strukturierten Tabellen angeordnet sind und bestimmte Typen wie Integer, Float und Text haben.	Am häufigsten Daten aus NoSQL-Datenbanken, die in einer Datenserialisierungssprache wie JSON, XML oder YAML übertragen werden.	Unstrukturierte Daten folgen keinem Schema und können die Form von Protokolldateien, Rohtext, Bildern, Videos und mehr annehmen.
Abfragen	Kann mit SQL schnell strukturiert und konsistent abgefragt werden.	Diese Daten können abgefragt werden, aber aufgrund ihrer halbstrukturierten Natur sind die Datensätze möglicherweise nicht konsistent.	Die Rohdaten müssen in vielen Fällen mit benutzerdefiniertem Code analysiert und verarbeitet werden.
Transaktionen	Datenbanken unterstützen Transaktionen, um sicherzustellen, dass abhängige Daten aktualisiert werden.	Transaktionen werden in NoSQL-Datenbanken teilweise unterstützt.	Mit unstrukturierten Daten sind keine Transaktionen möglich.
Flexibilität	Strukturierte Datensätze haben einen komplexen Aktualisierungsprozess und sind nicht sehr flexibel.	NoSQL-Datenbanken sind flexibel, da Datenschemata dynamisch aktualisiert werden können.	Unstrukturierte Daten sind am flexibelsten, aber auch am schwierigsten zu verarbeiten.

Werten Sie Ihre Datenquellen aus, um mit Big Data zu beginnen

Ein guter erster Schritt in jedem Big-Data-Projekt ist eine Bestandsaufnahme aller Datenquellen, die Ihnen und Ihrem Unternehmen zur Verfügung stehen, und deren Kategorisierung nach Typ. Auf diese Weise können Sie mit der Verarbeitung und Zusammenstellung von Daten beginnen, um nützliche Erkenntnisse zu gewinnen.

Um mehr über Big Data und seine Rolle in modernen Unternehmen zu erfahren, sehen Sie sich diese Ressourcen an:

Was ist Big Data und wie entsteht es?
So erstellen Sie Ihre neue Business-Intelligence-Strategie