Umgang mit großen Datenmengen mit Python: Eine Kurzanleitung
Veröffentlicht: 2022-06-12Wir alle sind von Daten umgeben. Daten sind eine magische Sache, die genauso wächst wie Kohlendioxid in unserer Umwelt, mit dem Unterschied, dass es gut für uns ist, nicht so schlimm wie die zunehmende globale Erwärmung. Ich sage das, weil wir in Zukunft bessere Entscheidungen treffen können, wenn wir über eine riesige Datenmenge verfügen.
Wir alle generieren jeden Tag neue Daten, entweder indem wir den Beitrag von jemandem liken oder den Beitrag des anderen kommentieren oder wenn wir einen neuen Beitrag auf einer sozialen Website hochladen.
Heutzutage gehen Unternehmen sehr sensibel mit Daten um, da das Sammeln, Speichern, Verarbeiten und Analysieren der Daten unerlässlich ist, um bessere Entscheidungen treffen zu können. Jedes Unternehmen muss die Webentwicklung ernst nehmen, da in der Gegenwart alles online ist und in der zukünftigen Welt sein wird.
Es gibt so viele Tools und Programmiersprachen, die uns helfen, die oben genannten Aufgaben zu erledigen. Excel ist ein leistungsstarkes Tabellenkalkulationstool für Datenanalysen.
Aber es hat so viele Einschränkungen, wenn es darum geht, eine riesige Datenmenge zu bewältigen. Die meisten Unternehmen verwenden EXCEL + VBA-Skripting, um einige komplexe Berechnungen durchzuführen, aber es hat auch verschiedene Einschränkungen.
Datenanalysten versuchen daher immer, neue Wege einzuschlagen, die ihnen helfen, ihre Arbeit zu beschleunigen und qualitativ hochwertige Analysen zu erstellen. Zu diesem Zweck verwenden Datenanalysten Programmiersprachen, die weitaus leistungsfähiger sind als jedes andere Tabellenkalkulationstool. Python und R sind die am meisten bevorzugten Programmiersprachen für die Datenanalyse.
In diesem Blog werde ich nicht über die Programmiersprache R sprechen, aber wir werden die Leistungsfähigkeit von Python untersuchen. In diesem Blog lernen Sie das gesamte Konzept anhand eines Beispiels aus der Praxis kennen.
Voraussetzungen um mit dem Programmieren zu beginnen
Was Sie vor Beginn der eigentlichen Programmierung benötigen:
- Python sollte auf Ihrem System installiert sein
- Sie sollten einen Editor haben, in dem Sie den Python-Code schreiben. Ich schlage vor, Sie installieren Jupyter Notebook .
- Installieren Sie Numpy und Pandas Library, bevor Sie mit der Codierung beginnen.
- Der letzte, aber wichtigste Punkt ist, dass Sie die Neugier haben sollten, die Grenzen der Datennutzung zu überschreiten. Neugier ist Trumpf!
Nachdem Sie nun alle Anforderungen aufeinander abgestimmt haben, beginnen wir mit der Reise der Datenanalyse.
Arbeitsplatz einrichten
- Öffnen Sie Ihr Jupyter-Notebook und importieren Sie die folgenden Anweisungen:
- importiere numpy als np
- pandas als pd importieren
- Betriebssystem importieren
- Führen Sie die Zelle aus, indem Sie Umschalt + Eingabetaste drücken
Importieren von Daten
Zeigen Sie das Dateiformat Ihrer Daten an. Und fügen Sie den Code entsprechend hinzu:
Wenn Sie eine CSV-Datei haben, schreiben Sie den folgenden Code:
df = pd.read_csv(r„Aktueller_Pfad_Ihrer_CSV-Datei“)
Wenn Sie eine Excel-Datei haben, schreiben Sie den folgenden Code:
df = pd.read_excel(open(r„Actual_path_of_your_excel_file“, „rb“), sheet_name=“Name_des_Blatts_das_Sie_importieren_möchten“)
Ich habe eine Excel-Tabelle, daher habe ich im folgenden Beispiel die zweite Option verwendet.
Grundlegende Funktionen zum Kennenlernen der Daten
Jetzt haben Sie die Daten in Python importiert. Der nächste Schritt ist, dass Sie sich bewerben müssen, damit Sie eine Vogelperspektive Ihrer Daten haben.
Shape-Funktion
Die Shape-Funktion zeigt Ihnen die Gesamtzahl der Zeilen und Spalten in Ihrer importierten Datei. Schreiben Sie df.shape in Ihre Jupyter-Notebook-Zelle und führen Sie die Zelle aus, indem Sie Umschalt+Eingabe drücken.
Wenn Sie nur an Zeilen interessiert sind, schreiben Sie df.shape[0]
Wenn Sie nur an Spalten interessiert sind, schreiben Sie df.shape[1]
Kopffunktion
Wenn Sie die obersten Datensätze sehen möchten, können Sie head() verwenden. Schreiben Sie df.head() in Ihre Jupyter-Notebook-Zelle und führen Sie die Zelle durch Drücken von Shift+Enter aus. Es wird ein Datenrahmen mit den fünf obersten Datensätzen zurückgegeben.
Wenn Sie mehr als 5 Datensätze sehen möchten, können Sie die Zahl in runden Klammern angeben df.head(10) jetzt gibt es die Top 10 Datensätze zurück.
Tail-Funktion
Wenn Sie die wenigen Datensätze von unten sehen möchten, können Sie tail() verwenden. Schreiben Sie df.tail() in Ihre Jupyter-Notebook-Zelle und führen Sie die Zelle durch Drücken von Shift+Enter aus. Es wird ein Datenrahmen mit den unteren fünf Datensätzen zurückgegeben.
Wenn Sie mehr als fünf Datensätze sehen möchten, können Sie die Anzahl in runden Klammern angeben df.tail(10) ; Jetzt gibt es die Top 10 Datensätze zurück.
Erhalten aller Spaltennamen
Wenn Sie die Namen aller Spalten erhalten möchten, schreiben Sie einfach df.columns , und es wird der Name aller Spalten zurückgegeben.
Abrufen der spezifischen Spalte
Sie können jede Spalte anhand ihres Namens extrahieren. Nachdem Sie den folgenden Code angewendet haben, erhalten Sie eine Liste von Werten, die in der Spalte gespeichert sind.
Syntax:
Datenrahmen["Spaltenname"]
Beispiel:
df["Kandidatenname"]
Überprüfen Sie den Datentyp der Spalte
Da wir nun wissen, dass wir Daten in Spalten speichern, werden wir neugierig sein, den Datentyp der Spalte zu kennen, bevor wir irgendwelche Operationen darauf anwenden. Schreiben Sie dazu den folgenden Code in Ihre Jupyter Notebook-Zelle:

Syntax:
Datenrahmen[„Spaltenname“].dtype()
Beispiel:
df[„Alter des Kandidaten“].dtype()
Verwendung der Summenfunktion
Wenn Sie einige numerische Spalten in Ihren Daten haben und nur die Summe wissen möchten, indem Sie jeden Wert dieser bestimmten Spalte addieren, können Sie die Funktion sum() verwenden.
Bevor Sie diese Formel anwenden, stellen Sie sicher, dass der Spaltentyp nicht String ist
Syntax:
Datenrahmen[„Spaltenname“].sum()
Beispiel:
df["Gültige Stimmen insgesamt"].sum()
Im folgenden Beispiel fasse ich alle gültigen Stimmen zusammen, die in 117 Wahlkreisen des Punjab abgefragt wurden.
Durchschnitt einer bestimmten Spalte finden
Wenn Sie den Durchschnitt einer Spalte finden möchten, können Sie die Funktion mean() verwenden
Syntax:
Datenrahmen[„Spaltenname“].mean()
Beispiel:
df["Gültige Stimmen insgesamt"].mean()
Im folgenden Beispiel habe ich die durchschnittlichen Stimmen erhalten, die für jeden Kandidaten abgefragt werden.
Ermitteln des Maximalwerts in einer bestimmten Spalte
Wenn Sie den maximalen Wert einer Spalte finden möchten, können Sie die Funktion max() verwenden
Syntax:
Datenrahmen[„Spaltenname“].max()
Beispiel:
df[" Gültige Stimmen insgesamt"].max()
Im folgenden Beispiel habe ich die maximale Stimmenumfrage für den Kandidaten erhalten.
Ermitteln des Mindestwerts in einer bestimmten Spalte
Wenn Sie den Mindestwert einer Spalte finden möchten, können Sie die Funktion min() verwenden
Syntax:
Datenrahmen[„Spaltenname“].min()
Beispiel:
df[" Gültige Stimmen insgesamt"].min()
Im folgenden Beispiel habe ich die für den Kandidaten abgefragten Mindeststimmen erhalten.
Finden Sie die Standardabweichung einer bestimmten Spalte
Wenn Sie den Mindestwert einer Spalte finden möchten, können Sie die Funktion std() verwenden
Syntax:
Datenrahmen[„Spaltenname“].std()
Beispiel:
df["Gültige Stimmen insgesamt"].std()
Grundlegende String-Funktionen
Lassen Sie uns nun einige sehr nützliche Zeichenfolgenfunktionen besprechen, die bei Ihrer täglichen Arbeit hilfreich sind. Bevor Sie diese Zeichenfolgenfunktionen anwenden, stellen Sie jedoch sicher, dass der Spaltentyp String ist.
Ermitteln der Länge von String
Wenn Sie den Mindestwert einer Spalte finden möchten, können Sie die Funktion std() verwenden
Syntax:
Dataframe[„Spaltenname“].str.len()
Beispiel:
df[“Name des Wahlkreises”].str.len()
Es wird die Liste mit numerischen Werten zurückgegeben, und diese numerischen Werte repräsentieren die Länge des entsprechenden Strings. Sie können diese Liste als neue Spalte hinzufügen, wenn Sie die Länge der Zeichenfolge in Ihren Daten anzeigen möchten.
Großschreibung des ersten Zeichens jedes Wortes
Wie Sie wissen, können wir in Excel keine Title Case-Funktion (Erstes Zeichen jedes Wortes groß schreiben) haben, aber Python. Verwenden Sie dazu die Funktion title()
Syntax:
Dataframe[„Spaltenname“].str.title()
Beispiel:
df[“Kandidatenname”].str.title()
Großbuchstaben
Sie können die Funktion upper() verwenden, um eine Zeichenfolge in Großbuchstaben umzuwandeln
Syntax:
Dataframe[„Spaltenname“].str.upper()
Beispiel:
df["Kandidatenname"].str.upper()
Kleinbuchstaben
Sie können die Funktion lower() verwenden, um eine Zeichenfolge in Kleinbuchstaben umzuwandeln
Syntax:
Dataframe[„Spaltenname“].str.lower()
Beispiel:
df[“Kandidatenname”].str.lower()
Abrufen eines bestimmten Datensatzes
Um den spezifischen Datensatz aus Ihren Daten zu erhalten, können Sie bestätigen, dass Ihre Daten mindestens eine Spalte mit einem eindeutigen Wert haben. Das Konzept ähnelt einem Primärschlüssel in SQL. Sie können auch mehrere Spalten mischen, um einen bestimmten Datensatz zu erhalten.
Wie in meinem Beispiel extrahiere ich die Datensätze, indem ich den folgenden Code für den Namen des Wahlkreises und den Namen des Kandidaten verwende:
df[(df["Wahlkreisname"] == "Sultanpur Lodhi") & (df["Kandidatenname"] == "SAJJAN SINGH CHEEMA")]
Abrufen einer Gruppe von Datensätzen
Manchmal möchten Sie vielleicht die Daten extrahieren, die zur selben Kategorie gehören. Wie im folgenden Beispiel möchte ich die Daten für den Wahlkreis Sultanpur Lodhi extrahieren, und ich möchte Kandidatennamen im Titelfall, und dann werde ich diese Daten als sultapur-lodhi-2017.csv exportieren
Jetzt enthält die Datei sultapur-lodhi-2017.csv nur Daten aus dem Wahlkreis Sultanpur Lodhi.
Einpacken
In diesem Blog haben Sie also einige grundlegende Funktionen zur Analyse einer riesigen Datenmenge kennengelernt. Ich habe Ihnen gerade eine kleine Tour durch die Datenanalyse in Python gegeben. Es gibt Unmengen von Dingen, die aufgedeckt werden und die es zu erkunden gilt.
Um weitere Blogs zu lesen, besuchen Sie www.webdew.com. Wenn Sie nach Webdesign- und Webentwicklungsdiensten suchen, wird unser Webteam begeistert sein, Ihnen das zu besorgen, was Sie wollen! Kontaktieren Sie uns, um mehr zu erfahren.
Herausgeber: Amruta