Cum să gestionați cantități mari de date folosind python: un ghid rapid

Publicat: 2022-06-12

Cu toții suntem înconjurați de date. Datele sunt un lucru magic care crește la fel cum a crescut dioxidul de carbon în mediul nostru, cu diferența că sunt bune pentru noi, nu la fel de rău ca încălzirea globală în creștere. Spun asta pentru că dacă avem o cantitate mare de date, atunci vom avea puterea de a lua decizii mai bune în viitor.

12 sfaturi esențiale pentru a crea o pagină de destinație WordPress ca un profesionist

Cu toții generăm date noi în fiecare zi, fie dând like postării cuiva sau comentând postarea celuilalt, fie când încărcăm o postare nouă pe orice site de socializare.

În zilele noastre, companiile sunt foarte sensibile cu privire la date, deoarece colectarea, stocarea, procesarea și analiza datelor sunt vitale pentru luarea unor decizii mai bune. Fiecare companie trebuie să ia în serios dezvoltarea web, deoarece totul este online în prezent și va fi în lumea viitoare.

Există atât de multe instrumente și limbaje de programare care ne ajută să facem sarcinile menționate mai sus. Excel este un instrument puternic de foaie de calcul pentru a face analize de date.

Dar are atât de multe limitări atunci când vine vorba de abordarea unei cantități uriașe de date. Majoritatea companiilor folosesc EXCEL + VBA Scripting pentru a face niște calcule complexe, dar are și diverse limitări.

Așadar, analiștii de date încearcă întotdeauna să adopte noi modalități care îi ajută să-și accelereze munca și să genereze analize de calitate. Pentru a face acest lucru, analiștii de date folosesc limbaje de programare care sunt mult mai puternice decât orice alt instrument de calcul. Python și R sunt cele mai preferate limbaje de programare pentru analiza datelor.

În acest blog, nu voi vorbi despre limbajul de programare R, dar vom explora puterea lui Python. Veți învăța întregul concept folosind un exemplu din viața reală prin intermediul acestui blog.

Cerințe pentru a începe programarea

Ce veți avea nevoie înainte de a începe programarea propriu-zisă:

  1. Python ar trebui să fie instalat în sistemul dumneavoastră
  2. Ar trebui să aveți un editor în care să scrieți codul python. Vă sugerez să instalați Jupyter Notebook .
  3. Instalați Numpy și Pandas Library înainte de a începe codarea.
  4. Ultimul, dar cel mai important punct este că ar trebui să aveți curiozitatea de a depăși limitele utilizării datelor. Curiozitatea este cheia!

Acum că aveți toate cerințele aliniate, să începem călătoria analizei datelor.

Configurarea spațiului de lucru

  • Deschideți caietul Jupyter și importați următoarele instrucțiuni:
    • import numpy ca np
    • importa panda ca pd
    • import os
  • Executați celula apăsând Shift + Enter

Import de date

Vizualizați formatul de fișier al datelor dvs. Și adăugați codul corespunzător:

Dacă aveți un fișier CSV, scrieți următorul cod:

df = pd.read_csv(r“Actual_path_of_your_your_csv_file”)

Dacă aveți un fișier Excel, scrieți următorul cod:

df = pd.read_excel(open(r“Actual_path_of_your_excel_file”, „rb”), sheet_name=“Numele_foii_pe care_doriți_să-l importați”)

Am o foaie Excel, așa că am folosit a doua opțiune în exemplul următor.

Funcții de bază pentru a cunoaște date

Acum ați importat datele în Python. Următorul pas este că trebuie să aplicați, astfel încât să aveți o vedere Bird Eye a datelor dvs.

Funcția de formă

Funcția de formă vă arată numărul total de rânduri și coloane din fișierul dvs. importat. Scrieți df.shape în celula notebook-ului dvs. Jupyter și executați celula apăsând Shift+Enter.

Dacă sunteți interesat doar de Rânduri, atunci scrieți df.shape[0]

Dacă sunteți interesat doar de Coloane, atunci scrieți df.shape[1]

Funcția capului

Dacă doriți să vedeți primele câteva înregistrări, atunci puteți utiliza head(). Scrieți df.head() în celula notebook-ului Jupyter și executați celula apăsând Shift+Enter. Va returna un cadru de date cu primele cinci înregistrări.

Dacă doriți să vedeți mai mult de 5 înregistrări, atunci puteți menționa numărul între paranteze rotunde df.head(10) acum returnează primele 10 înregistrări.

Funcția de coadă

Dacă doriți să vedeți cele câteva înregistrări din partea de jos, atunci puteți utiliza tail() . Scrieți df.tail() în celula notebook-ului dvs. Jupyter și executați celula apăsând Shift+Enter . Va returna un cadru de date cu ultimele cinci înregistrări.

Dacă doriți să vedeți mai mult de cinci înregistrări, atunci puteți menționa numărul între paranteze rotunde df.tail(10) ; acum, returnează primele 10 înregistrări.

Obținerea tuturor numelor de coloane

Dacă doriți să obțineți numele tuturor coloanelor, atunci scrieți pur și simplu df.columns și va returna numele tuturor coloanelor.

Obținerea unei coloane specifice

Puteți extrage orice coloană folosind numele acesteia. După aplicarea codului de mai jos care vă va returna o listă de valori care sunt stocate în coloană.

Sintaxă:

Cadru de date[„Column_name”]

Exemplu:

df[„Numele candidatului”]

Verificați tipul de date al coloanei

Acum, deoarece știm că stocăm datele în coloane și vom fi curioși să știm despre tipul de date al coloanei înainte de a aplica orice operațiuni asupra acesteia. Deci, pentru asta, scrieți următorul cod în celula Jupyter Notebook:

Sintaxă:

Dataframe[„Column_name”].dtype()

Exemplu:

df[„Vârsta candidatului”].dtype()

Utilizarea funcției sumă

Dacă aveți câteva coloane numerice în datele dvs. și doriți doar să cunoașteți Suma adăugând fiecare valoare a acelei coloane, atunci puteți utiliza funcția sum() .

Înainte de a aplica această formulă, asigurați-vă că tipul de coloană nu este String

Sintaxă:

Dataframe[„Column_name”].sum()

Exemplu:

df["Total de voturi valide"].sum()

În exemplul următor, însumez toate voturile valide care sunt votate în 117 circumscripții din Punjab.

Găsirea mediei unei anumite coloane

Dacă doriți să găsiți media unei coloane, atunci puteți utiliza funcția mean() .

Sintaxă:

Dataframe[„Column_name”].mean()

Exemplu:

df["Total de voturi valide"].mean()

În exemplul următor, am obținut media voturilor care sunt sondate pentru fiecare candidat.

Găsirea valorii maxime într-o anumită coloană

Dacă doriți să găsiți valoarea maximă a unei coloane, puteți utiliza funcția max() .

Sintaxă:

Dataframe[„Column_name”].max()

Exemplu:

df["Total de voturi valide"].max()

În exemplul următor, am obținut sondajul maxim de voturi pentru candidat.

Găsirea valorii minime într-o anumită coloană

Dacă doriți să găsiți valoarea minimă a unei coloane, atunci puteți utiliza funcția min() .

Sintaxă:

Dataframe[„Column_name”].min()

Exemplu:

df[" Total voturi valide"].min()

În exemplul următor, am obținut numărul minim de voturi sondate pentru candidat.

Găsiți abaterea standard a unei anumite coloane

Dacă doriți să găsiți valoarea minimă a unei coloane, puteți utiliza funcția std() .

Sintaxă:

Dataframe[„Column_name”].std()

Exemplu:

df["Total de voturi valide"].std()

Funcții de bază String

Acum haideți să discutăm câteva funcții șir foarte utile care sunt utile în munca dvs. de zi cu zi. Dar înainte de a aplica aceste funcții șir, asigurați-vă că tipul de coloană este String .

8 cele mai bune instrumente de optimizare a imaginii pentru aplicația dvs. web

Găsirea lungimii șirului

Dacă doriți să găsiți valoarea minimă a unei coloane, puteți utiliza funcția std() .

Sintaxă:

Dataframe[„Column_name”].str.len()

Exemplu:

df[„Numele circumscripției”].str.len()

Va returna lista care are valori numerice, iar aceste valori numerice reprezintă lungimea șirului corespunzător. Puteți adăuga această listă ca o coloană nouă dacă doriți să afișați lungimea șirului în datele dvs.

Scrierea cu majuscule a primului caracter al fiecărui cuvânt

După cum știți, nu putem avea o funcție Titlu Case (Majusculează primul caracter al fiecărui cuvânt) în Excel, dar python o are. Deci, pentru asta utilizați funcția title() .

Sintaxă:

Dataframe[„Column_name”].str.title()

Exemplu:

df[„Numele candidatului”].str.title()

Majuscule

Puteți utiliza funcția upper() pentru a face un șir de caractere cu majuscule

Sintaxă:

Dataframe[„Column_name”].str.upper()

Exemplu:

df[„Numele candidatului”].str.upper()

Litere mici

Puteți utiliza funcția lower() pentru a face un șir de caractere cu minuscule

Sintaxă:

Dataframe[„Column_name”].str.lower()

Exemplu:

df[„Numele candidatului”].str.lower()

Obținerea unei înregistrări specifice

Pentru a obține o înregistrare specifică din datele dvs., puteți confirma că datele dvs. au cel puțin o coloană care are o valoare unică. Conceptul este similar cu o cheie primară din SQL. De asemenea, puteți combina mai multe coloane pentru a obține o anumită înregistrare.

La fel ca în exemplul meu, extrag înregistrările utilizând numele circumscripției și numele candidatului următorul cod:

df[(df["Numele circumscripției"] == "Sultanpur Lodhi ") & (df["Numele candidatului"] == "SAJJAN SINGH CHEEMA")]

Obținerea unui grup de înregistrări

Uneori este posibil să doriți să extrageți datele care aparțin aceleiași categorii. Ca în exemplul următor, vreau să extrag datele pentru circumscripția Sultanpur Lodhi și vreau nume de candidați în cazul titlului, apoi voi exporta aceste date ca sultapur-lodhi-2017.csv

Acum fișierul sultapur-lodhi-2017.csv conține date numai din circumscripția Sultanpur Lodhi.

Încheierea

Deci, în acest blog, ați învățat câteva funcții de bază pentru a analiza o cantitate imensă de date. Tocmai v-am făcut un mic tur al analizei datelor în Python. Există o mulțime de lucruri care sunt descoperite și sunt acolo de explorat.

Pentru a citi mai multe bloguri, vizitați www.webdew.com. Dacă sunteți în căutarea unor servicii de web design și dezvoltare web, echipa noastră web va fi încântată să vă obțină ceea ce doriți! Contactați-ne pentru a afla mai multe.

Editor: Amrutha