Umgang mit großen Datenmengen mit Python: Eine Kurzanleitung

Veröffentlicht: 2022-06-12

Wir alle sind von Daten umgeben. Daten sind eine magische Sache, die genauso wächst wie Kohlendioxid in unserer Umwelt, mit dem Unterschied, dass es gut für uns ist, nicht so schlimm wie die zunehmende globale Erwärmung. Ich sage das, weil wir in Zukunft bessere Entscheidungen treffen können, wenn wir über eine riesige Datenmenge verfügen.

12 wichtige Tipps zum Erstellen einer WordPress-Landingpage wie ein Profi

Wir alle generieren jeden Tag neue Daten, entweder indem wir den Beitrag von jemandem liken oder den Beitrag des anderen kommentieren oder wenn wir einen neuen Beitrag auf einer sozialen Website hochladen.

Heutzutage gehen Unternehmen sehr sensibel mit Daten um, da das Sammeln, Speichern, Verarbeiten und Analysieren der Daten unerlässlich ist, um bessere Entscheidungen treffen zu können. Jedes Unternehmen muss die Webentwicklung ernst nehmen, da in der Gegenwart alles online ist und in der zukünftigen Welt sein wird.

Es gibt so viele Tools und Programmiersprachen, die uns helfen, die oben genannten Aufgaben zu erledigen. Excel ist ein leistungsstarkes Tabellenkalkulationstool für Datenanalysen.

Aber es hat so viele Einschränkungen, wenn es darum geht, eine riesige Datenmenge zu bewältigen. Die meisten Unternehmen verwenden EXCEL + VBA-Skripting, um einige komplexe Berechnungen durchzuführen, aber es hat auch verschiedene Einschränkungen.

Datenanalysten versuchen daher immer, neue Wege einzuschlagen, die ihnen helfen, ihre Arbeit zu beschleunigen und qualitativ hochwertige Analysen zu erstellen. Zu diesem Zweck verwenden Datenanalysten Programmiersprachen, die weitaus leistungsfähiger sind als jedes andere Tabellenkalkulationstool. Python und R sind die am meisten bevorzugten Programmiersprachen für die Datenanalyse.

In diesem Blog werde ich nicht über die Programmiersprache R sprechen, aber wir werden die Leistungsfähigkeit von Python untersuchen. In diesem Blog lernen Sie das gesamte Konzept anhand eines Beispiels aus der Praxis kennen.

Voraussetzungen um mit dem Programmieren zu beginnen

Was Sie vor Beginn der eigentlichen Programmierung benötigen:

  1. Python sollte auf Ihrem System installiert sein
  2. Sie sollten einen Editor haben, in dem Sie den Python-Code schreiben. Ich schlage vor, Sie installieren Jupyter Notebook .
  3. Installieren Sie Numpy und Pandas Library, bevor Sie mit der Codierung beginnen.
  4. Der letzte, aber wichtigste Punkt ist, dass Sie die Neugier haben sollten, die Grenzen der Datennutzung zu überschreiten. Neugier ist Trumpf!

Nachdem Sie nun alle Anforderungen aufeinander abgestimmt haben, beginnen wir mit der Reise der Datenanalyse.

Arbeitsplatz einrichten

  • Öffnen Sie Ihr Jupyter-Notebook und importieren Sie die folgenden Anweisungen:
    • importiere numpy als np
    • pandas als pd importieren
    • Betriebssystem importieren
  • Führen Sie die Zelle aus, indem Sie Umschalt + Eingabetaste drücken

Importieren von Daten

Zeigen Sie das Dateiformat Ihrer Daten an. Und fügen Sie den Code entsprechend hinzu:

Wenn Sie eine CSV-Datei haben, schreiben Sie den folgenden Code:

df = pd.read_csv(r„Aktueller_Pfad_Ihrer_CSV-Datei“)

Wenn Sie eine Excel-Datei haben, schreiben Sie den folgenden Code:

df = pd.read_excel(open(r„Actual_path_of_your_excel_file“, „rb“), sheet_name=“Name_des_Blatts_das_Sie_importieren_möchten“)

Ich habe eine Excel-Tabelle, daher habe ich im folgenden Beispiel die zweite Option verwendet.

Grundlegende Funktionen zum Kennenlernen der Daten

Jetzt haben Sie die Daten in Python importiert. Der nächste Schritt ist, dass Sie sich bewerben müssen, damit Sie eine Vogelperspektive Ihrer Daten haben.

Shape-Funktion

Die Shape-Funktion zeigt Ihnen die Gesamtzahl der Zeilen und Spalten in Ihrer importierten Datei. Schreiben Sie df.shape in Ihre Jupyter-Notebook-Zelle und führen Sie die Zelle aus, indem Sie Umschalt+Eingabe drücken.

Wenn Sie nur an Zeilen interessiert sind, schreiben Sie df.shape[0]

Wenn Sie nur an Spalten interessiert sind, schreiben Sie df.shape[1]

Kopffunktion

Wenn Sie die obersten Datensätze sehen möchten, können Sie head() verwenden. Schreiben Sie df.head() in Ihre Jupyter-Notebook-Zelle und führen Sie die Zelle durch Drücken von Shift+Enter aus. Es wird ein Datenrahmen mit den fünf obersten Datensätzen zurückgegeben.

Wenn Sie mehr als 5 Datensätze sehen möchten, können Sie die Zahl in runden Klammern angeben df.head(10) jetzt gibt es die Top 10 Datensätze zurück.

Tail-Funktion

Wenn Sie die wenigen Datensätze von unten sehen möchten, können Sie tail() verwenden. Schreiben Sie df.tail() in Ihre Jupyter-Notebook-Zelle und führen Sie die Zelle durch Drücken von Shift+Enter aus. Es wird ein Datenrahmen mit den unteren fünf Datensätzen zurückgegeben.

Wenn Sie mehr als fünf Datensätze sehen möchten, können Sie die Anzahl in runden Klammern angeben df.tail(10) ; Jetzt gibt es die Top 10 Datensätze zurück.

Erhalten aller Spaltennamen

Wenn Sie die Namen aller Spalten erhalten möchten, schreiben Sie einfach df.columns , und es wird der Name aller Spalten zurückgegeben.

Abrufen der spezifischen Spalte

Sie können jede Spalte anhand ihres Namens extrahieren. Nachdem Sie den folgenden Code angewendet haben, erhalten Sie eine Liste von Werten, die in der Spalte gespeichert sind.

Syntax:

Datenrahmen["Spaltenname"]

Beispiel:

df["Kandidatenname"]

Überprüfen Sie den Datentyp der Spalte

Da wir nun wissen, dass wir Daten in Spalten speichern, werden wir neugierig sein, den Datentyp der Spalte zu kennen, bevor wir irgendwelche Operationen darauf anwenden. Schreiben Sie dazu den folgenden Code in Ihre Jupyter Notebook-Zelle:

Syntax:

Datenrahmen[„Spaltenname“].dtype()

Beispiel:

df[„Alter des Kandidaten“].dtype()

Verwendung der Summenfunktion

Wenn Sie einige numerische Spalten in Ihren Daten haben und nur die Summe wissen möchten, indem Sie jeden Wert dieser bestimmten Spalte addieren, können Sie die Funktion sum() verwenden.

Bevor Sie diese Formel anwenden, stellen Sie sicher, dass der Spaltentyp nicht String ist

Syntax:

Datenrahmen[„Spaltenname“].sum()

Beispiel:

df["Gültige Stimmen insgesamt"].sum()

Im folgenden Beispiel fasse ich alle gültigen Stimmen zusammen, die in 117 Wahlkreisen des Punjab abgefragt wurden.

Durchschnitt einer bestimmten Spalte finden

Wenn Sie den Durchschnitt einer Spalte finden möchten, können Sie die Funktion mean() verwenden

Syntax:

Datenrahmen[„Spaltenname“].mean()

Beispiel:

df["Gültige Stimmen insgesamt"].mean()

Im folgenden Beispiel habe ich die durchschnittlichen Stimmen erhalten, die für jeden Kandidaten abgefragt werden.

Ermitteln des Maximalwerts in einer bestimmten Spalte

Wenn Sie den maximalen Wert einer Spalte finden möchten, können Sie die Funktion max() verwenden

Syntax:

Datenrahmen[„Spaltenname“].max()

Beispiel:

df[" Gültige Stimmen insgesamt"].max()

Im folgenden Beispiel habe ich die maximale Stimmenumfrage für den Kandidaten erhalten.

Ermitteln des Mindestwerts in einer bestimmten Spalte

Wenn Sie den Mindestwert einer Spalte finden möchten, können Sie die Funktion min() verwenden

Syntax:

Datenrahmen[„Spaltenname“].min()

Beispiel:

df[" Gültige Stimmen insgesamt"].min()

Im folgenden Beispiel habe ich die für den Kandidaten abgefragten Mindeststimmen erhalten.

Finden Sie die Standardabweichung einer bestimmten Spalte

Wenn Sie den Mindestwert einer Spalte finden möchten, können Sie die Funktion std() verwenden

Syntax:

Datenrahmen[„Spaltenname“].std()

Beispiel:

df["Gültige Stimmen insgesamt"].std()

Grundlegende String-Funktionen

Lassen Sie uns nun einige sehr nützliche Zeichenfolgenfunktionen besprechen, die bei Ihrer täglichen Arbeit hilfreich sind. Bevor Sie diese Zeichenfolgenfunktionen anwenden, stellen Sie jedoch sicher, dass der Spaltentyp String ist.

Die 8 besten Bildoptimierungstools für Ihre Web-App

Ermitteln der Länge von String

Wenn Sie den Mindestwert einer Spalte finden möchten, können Sie die Funktion std() verwenden

Syntax:

Dataframe[„Spaltenname“].str.len()

Beispiel:

df[“Name des Wahlkreises”].str.len()

Es wird die Liste mit numerischen Werten zurückgegeben, und diese numerischen Werte repräsentieren die Länge des entsprechenden Strings. Sie können diese Liste als neue Spalte hinzufügen, wenn Sie die Länge der Zeichenfolge in Ihren Daten anzeigen möchten.

Großschreibung des ersten Zeichens jedes Wortes

Wie Sie wissen, können wir in Excel keine Title Case-Funktion (Erstes Zeichen jedes Wortes groß schreiben) haben, aber Python. Verwenden Sie dazu die Funktion title()

Syntax:

Dataframe[„Spaltenname“].str.title()

Beispiel:

df[“Kandidatenname”].str.title()

Großbuchstaben

Sie können die Funktion upper() verwenden, um eine Zeichenfolge in Großbuchstaben umzuwandeln

Syntax:

Dataframe[„Spaltenname“].str.upper()

Beispiel:

df["Kandidatenname"].str.upper()

Kleinbuchstaben

Sie können die Funktion lower() verwenden, um eine Zeichenfolge in Kleinbuchstaben umzuwandeln

Syntax:

Dataframe[„Spaltenname“].str.lower()

Beispiel:

df[“Kandidatenname”].str.lower()

Abrufen eines bestimmten Datensatzes

Um den spezifischen Datensatz aus Ihren Daten zu erhalten, können Sie bestätigen, dass Ihre Daten mindestens eine Spalte mit einem eindeutigen Wert haben. Das Konzept ähnelt einem Primärschlüssel in SQL. Sie können auch mehrere Spalten mischen, um einen bestimmten Datensatz zu erhalten.

Wie in meinem Beispiel extrahiere ich die Datensätze, indem ich den folgenden Code für den Namen des Wahlkreises und den Namen des Kandidaten verwende:

df[(df["Wahlkreisname"] == "Sultanpur Lodhi") & (df["Kandidatenname"] == "SAJJAN SINGH CHEEMA")]

Abrufen einer Gruppe von Datensätzen

Manchmal möchten Sie vielleicht die Daten extrahieren, die zur selben Kategorie gehören. Wie im folgenden Beispiel möchte ich die Daten für den Wahlkreis Sultanpur Lodhi extrahieren, und ich möchte Kandidatennamen im Titelfall, und dann werde ich diese Daten als sultapur-lodhi-2017.csv exportieren

Jetzt enthält die Datei sultapur-lodhi-2017.csv nur Daten aus dem Wahlkreis Sultanpur Lodhi.

Einpacken

In diesem Blog haben Sie also einige grundlegende Funktionen zur Analyse einer riesigen Datenmenge kennengelernt. Ich habe Ihnen gerade eine kleine Tour durch die Datenanalyse in Python gegeben. Es gibt Unmengen von Dingen, die aufgedeckt werden und die es zu erkunden gilt.

Um weitere Blogs zu lesen, besuchen Sie www.webdew.com. Wenn Sie nach Webdesign- und Webentwicklungsdiensten suchen, wird unser Webteam begeistert sein, Ihnen das zu besorgen, was Sie wollen! Kontaktieren Sie uns, um mehr zu erfahren.

Herausgeber: Amruta