Cum să gestionați cantități mari de date folosind python: un ghid rapid
Publicat: 2022-06-12Cu toții suntem înconjurați de date. Datele sunt un lucru magic care crește la fel cum a crescut dioxidul de carbon în mediul nostru, cu diferența că sunt bune pentru noi, nu la fel de rău ca încălzirea globală în creștere. Spun asta pentru că dacă avem o cantitate mare de date, atunci vom avea puterea de a lua decizii mai bune în viitor.
Cu toții generăm date noi în fiecare zi, fie dând like postării cuiva sau comentând postarea celuilalt, fie când încărcăm o postare nouă pe orice site de socializare.
În zilele noastre, companiile sunt foarte sensibile cu privire la date, deoarece colectarea, stocarea, procesarea și analiza datelor sunt vitale pentru luarea unor decizii mai bune. Fiecare companie trebuie să ia în serios dezvoltarea web, deoarece totul este online în prezent și va fi în lumea viitoare.
Există atât de multe instrumente și limbaje de programare care ne ajută să facem sarcinile menționate mai sus. Excel este un instrument puternic de foaie de calcul pentru a face analize de date.
Dar are atât de multe limitări atunci când vine vorba de abordarea unei cantități uriașe de date. Majoritatea companiilor folosesc EXCEL + VBA Scripting pentru a face niște calcule complexe, dar are și diverse limitări.
Așadar, analiștii de date încearcă întotdeauna să adopte noi modalități care îi ajută să-și accelereze munca și să genereze analize de calitate. Pentru a face acest lucru, analiștii de date folosesc limbaje de programare care sunt mult mai puternice decât orice alt instrument de calcul. Python și R sunt cele mai preferate limbaje de programare pentru analiza datelor.
În acest blog, nu voi vorbi despre limbajul de programare R, dar vom explora puterea lui Python. Veți învăța întregul concept folosind un exemplu din viața reală prin intermediul acestui blog.
Cerințe pentru a începe programarea
Ce veți avea nevoie înainte de a începe programarea propriu-zisă:
- Python ar trebui să fie instalat în sistemul dumneavoastră
- Ar trebui să aveți un editor în care să scrieți codul python. Vă sugerez să instalați Jupyter Notebook .
- Instalați Numpy și Pandas Library înainte de a începe codarea.
- Ultimul, dar cel mai important punct este că ar trebui să aveți curiozitatea de a depăși limitele utilizării datelor. Curiozitatea este cheia!
Acum că aveți toate cerințele aliniate, să începem călătoria analizei datelor.
Configurarea spațiului de lucru
- Deschideți caietul Jupyter și importați următoarele instrucțiuni:
- import numpy ca np
- importa panda ca pd
- import os
- Executați celula apăsând Shift + Enter
Import de date
Vizualizați formatul de fișier al datelor dvs. Și adăugați codul corespunzător:
Dacă aveți un fișier CSV, scrieți următorul cod:
df = pd.read_csv(r“Actual_path_of_your_your_csv_file”)
Dacă aveți un fișier Excel, scrieți următorul cod:
df = pd.read_excel(open(r“Actual_path_of_your_excel_file”, „rb”), sheet_name=“Numele_foii_pe care_doriți_să-l importați”)
Am o foaie Excel, așa că am folosit a doua opțiune în exemplul următor.
Funcții de bază pentru a cunoaște date
Acum ați importat datele în Python. Următorul pas este că trebuie să aplicați, astfel încât să aveți o vedere Bird Eye a datelor dvs.
Funcția de formă
Funcția de formă vă arată numărul total de rânduri și coloane din fișierul dvs. importat. Scrieți df.shape în celula notebook-ului dvs. Jupyter și executați celula apăsând Shift+Enter.
Dacă sunteți interesat doar de Rânduri, atunci scrieți df.shape[0]
Dacă sunteți interesat doar de Coloane, atunci scrieți df.shape[1]
Funcția capului
Dacă doriți să vedeți primele câteva înregistrări, atunci puteți utiliza head(). Scrieți df.head() în celula notebook-ului Jupyter și executați celula apăsând Shift+Enter. Va returna un cadru de date cu primele cinci înregistrări.
Dacă doriți să vedeți mai mult de 5 înregistrări, atunci puteți menționa numărul între paranteze rotunde df.head(10) acum returnează primele 10 înregistrări.
Funcția de coadă
Dacă doriți să vedeți cele câteva înregistrări din partea de jos, atunci puteți utiliza tail() . Scrieți df.tail() în celula notebook-ului dvs. Jupyter și executați celula apăsând Shift+Enter . Va returna un cadru de date cu ultimele cinci înregistrări.
Dacă doriți să vedeți mai mult de cinci înregistrări, atunci puteți menționa numărul între paranteze rotunde df.tail(10) ; acum, returnează primele 10 înregistrări.
Obținerea tuturor numelor de coloane
Dacă doriți să obțineți numele tuturor coloanelor, atunci scrieți pur și simplu df.columns și va returna numele tuturor coloanelor.
Obținerea unei coloane specifice
Puteți extrage orice coloană folosind numele acesteia. După aplicarea codului de mai jos care vă va returna o listă de valori care sunt stocate în coloană.
Sintaxă:
Cadru de date[„Column_name”]
Exemplu:
df[„Numele candidatului”]
Verificați tipul de date al coloanei
Acum, deoarece știm că stocăm datele în coloane și vom fi curioși să știm despre tipul de date al coloanei înainte de a aplica orice operațiuni asupra acesteia. Deci, pentru asta, scrieți următorul cod în celula Jupyter Notebook:

Sintaxă:
Dataframe[„Column_name”].dtype()
Exemplu:
df[„Vârsta candidatului”].dtype()
Utilizarea funcției sumă
Dacă aveți câteva coloane numerice în datele dvs. și doriți doar să cunoașteți Suma adăugând fiecare valoare a acelei coloane, atunci puteți utiliza funcția sum() .
Înainte de a aplica această formulă, asigurați-vă că tipul de coloană nu este String
Sintaxă:
Dataframe[„Column_name”].sum()
Exemplu:
df["Total de voturi valide"].sum()
În exemplul următor, însumez toate voturile valide care sunt votate în 117 circumscripții din Punjab.
Găsirea mediei unei anumite coloane
Dacă doriți să găsiți media unei coloane, atunci puteți utiliza funcția mean() .
Sintaxă:
Dataframe[„Column_name”].mean()
Exemplu:
df["Total de voturi valide"].mean()
În exemplul următor, am obținut media voturilor care sunt sondate pentru fiecare candidat.
Găsirea valorii maxime într-o anumită coloană
Dacă doriți să găsiți valoarea maximă a unei coloane, puteți utiliza funcția max() .
Sintaxă:
Dataframe[„Column_name”].max()
Exemplu:
df["Total de voturi valide"].max()
În exemplul următor, am obținut sondajul maxim de voturi pentru candidat.
Găsirea valorii minime într-o anumită coloană
Dacă doriți să găsiți valoarea minimă a unei coloane, atunci puteți utiliza funcția min() .
Sintaxă:
Dataframe[„Column_name”].min()
Exemplu:
df[" Total voturi valide"].min()
În exemplul următor, am obținut numărul minim de voturi sondate pentru candidat.
Găsiți abaterea standard a unei anumite coloane
Dacă doriți să găsiți valoarea minimă a unei coloane, puteți utiliza funcția std() .
Sintaxă:
Dataframe[„Column_name”].std()
Exemplu:
df["Total de voturi valide"].std()
Funcții de bază String
Acum haideți să discutăm câteva funcții șir foarte utile care sunt utile în munca dvs. de zi cu zi. Dar înainte de a aplica aceste funcții șir, asigurați-vă că tipul de coloană este String .
Găsirea lungimii șirului
Dacă doriți să găsiți valoarea minimă a unei coloane, puteți utiliza funcția std() .
Sintaxă:
Dataframe[„Column_name”].str.len()
Exemplu:
df[„Numele circumscripției”].str.len()
Va returna lista care are valori numerice, iar aceste valori numerice reprezintă lungimea șirului corespunzător. Puteți adăuga această listă ca o coloană nouă dacă doriți să afișați lungimea șirului în datele dvs.
Scrierea cu majuscule a primului caracter al fiecărui cuvânt
După cum știți, nu putem avea o funcție Titlu Case (Majusculează primul caracter al fiecărui cuvânt) în Excel, dar python o are. Deci, pentru asta utilizați funcția title() .
Sintaxă:
Dataframe[„Column_name”].str.title()
Exemplu:
df[„Numele candidatului”].str.title()
Majuscule
Puteți utiliza funcția upper() pentru a face un șir de caractere cu majuscule
Sintaxă:
Dataframe[„Column_name”].str.upper()
Exemplu:
df[„Numele candidatului”].str.upper()
Litere mici
Puteți utiliza funcția lower() pentru a face un șir de caractere cu minuscule
Sintaxă:
Dataframe[„Column_name”].str.lower()
Exemplu:
df[„Numele candidatului”].str.lower()
Obținerea unei înregistrări specifice
Pentru a obține o înregistrare specifică din datele dvs., puteți confirma că datele dvs. au cel puțin o coloană care are o valoare unică. Conceptul este similar cu o cheie primară din SQL. De asemenea, puteți combina mai multe coloane pentru a obține o anumită înregistrare.
La fel ca în exemplul meu, extrag înregistrările utilizând numele circumscripției și numele candidatului următorul cod:
df[(df["Numele circumscripției"] == "Sultanpur Lodhi ") & (df["Numele candidatului"] == "SAJJAN SINGH CHEEMA")]
Obținerea unui grup de înregistrări
Uneori este posibil să doriți să extrageți datele care aparțin aceleiași categorii. Ca în exemplul următor, vreau să extrag datele pentru circumscripția Sultanpur Lodhi și vreau nume de candidați în cazul titlului, apoi voi exporta aceste date ca sultapur-lodhi-2017.csv
Acum fișierul sultapur-lodhi-2017.csv conține date numai din circumscripția Sultanpur Lodhi.
Încheierea
Deci, în acest blog, ați învățat câteva funcții de bază pentru a analiza o cantitate imensă de date. Tocmai v-am făcut un mic tur al analizei datelor în Python. Există o mulțime de lucruri care sunt descoperite și sunt acolo de explorat.
Pentru a citi mai multe bloguri, vizitați www.webdew.com. Dacă sunteți în căutarea unor servicii de web design și dezvoltare web, echipa noastră web va fi încântată să vă obțină ceea ce doriți! Contactați-ne pentru a afla mai multe.
Editor: Amrutha