Come gestire grandi quantità di dati utilizzando Python: una guida rapida

Pubblicato: 2022-06-12

Siamo tutti circondati da dati. I dati sono una cosa magica che sta crescendo proprio come l'anidride carbonica è cresciuta nel nostro ambiente, con la differenza che è un bene per noi, non così male come l'aumento del riscaldamento globale. Dico questo perché se disponiamo di un'enorme quantità di dati, avremo il potere di prendere decisioni migliori in futuro.

12 suggerimenti essenziali per creare una landing page di WordPress come un professionista

Tutti noi generiamo nuovi dati ogni giorno, sia mettendo mi piace al post di qualcuno o commentando il post dell'altro, sia quando carichiamo un nuovo post su qualsiasi sito social.

Al giorno d'oggi, le aziende sono molto sensibili ai dati, poiché la raccolta, l'archiviazione, l'elaborazione e l'analisi dei dati è vitale per prendere decisioni migliori. Ogni azienda deve prendere sul serio lo sviluppo web poiché tutto è online nel presente e lo sarà nel mondo futuro.

Ci sono così tanti strumenti e linguaggi di programmazione che ci aiutano a svolgere i compiti sopra menzionati. Excel è un potente strumento per fogli di calcolo per l'analisi dei dati.

Ma ha così tante limitazioni quando si tratta di affrontare un'enorme quantità di dati. La maggior parte delle aziende utilizza EXCEL + VBA Scripting per eseguire calcoli complessi, ma presenta anche varie limitazioni.

Quindi gli analisti di dati cercano sempre di adottare nuovi modi che li aiutino a velocizzare il loro lavoro e generare analisi di qualità. Per fare ciò, gli analisti di dati utilizzano linguaggi di programmazione che sono molto più potenti di qualsiasi altro strumento per fogli di calcolo. Python e R sono i linguaggi di programmazione preferiti per l'analisi dei dati.

In questo blog non parlerò del linguaggio di programmazione R, ma esploreremo la potenza di Python. Imparerai l'intero concetto usando un esempio di vita reale attraverso questo blog.

Requisiti per iniziare la programmazione

Cosa occorre prima di iniziare la programmazione vera e propria:

Python dovrebbe essere installato nel tuo sistema
Dovresti avere un editor in cui scrivi il codice Python. Ti suggerisco di installare Jupyter Notebook .
Installa Numpy e Pandas Library prima di iniziare la codifica.
Ultimo ma il punto più importante è che dovresti avere la curiosità di andare oltre i limiti dell'utilizzo dei dati. La curiosità è fondamentale!

Ora che hai tutti i requisiti allineati, iniziamo il viaggio dell'analisi dei dati.

Allestimento dello spazio di lavoro

Apri il tuo taccuino Jupyter e importa le seguenti istruzioni:

importa numpy come np
importa panda come pd
importare os

Esegui la cella premendo Maiusc + Invio

Importazione di dati

Visualizza il formato del file dei tuoi dati. E aggiungi il codice di conseguenza:

Se hai un file CSV, scrivi il seguente codice:

df = pd.read_csv(r"Actual_path_of_your_csv_file")

Se hai un file Excel, scrivi il seguente codice:

df = pd.read_excel(open(r“Actual_path_of_your_excel_file”, “rb”), sheet_name=“Nome_del_foglio_che_vuoi_importare”)

Ho un foglio excel, quindi ho usato la seconda opzione nel seguente esempio.

Funzioni di base per conoscere i dati

Ora hai importato i dati in Python. Il passo successivo è che devi fare domanda in modo da avere una vista a volo d'uccello dei tuoi dati.

Funzione forma

La funzione forma mostra il numero totale di righe e colonne nel file importato. Scrivi df.shape nella cella del tuo taccuino Jupyter ed esegui la cella premendo Maiusc + Invio.

Se sei interessato solo a Rows, scrivi df.shape[0]

Se sei interessato solo alle colonne, scrivi df.shape[1]

Funzione della testa

Se vuoi vedere i primi record, puoi usare head(). Scrivi df.head() nella cella del tuo notebook Jupyter ed esegui la cella premendo Maiusc + Invio. Restituirà un frame di dati con i primi cinque record.

Se vuoi vedere più di 5 record, puoi menzionare il numero tra parentesi tonde df.head(10) ora restituisce i primi 10 record.

Funzione di coda

Se vuoi vedere i pochi record dal basso, puoi usare tail() . Scrivi df.tail() nella cella del tuo notebook Jupyter ed esegui la cella premendo Maiusc+Invio . Restituirà un frame di dati con gli ultimi cinque record.

Se vuoi vedere più di cinque record, puoi menzionare il numero tra parentesi tonde df.tail(10) ; ora, restituisce i primi 10 record.

Ottenere tutti i nomi delle colonne

Se vuoi ottenere i nomi di tutte le colonne, scrivi semplicemente df.columns e restituirà il nome di tutte le colonne.

Ottenere la colonna specifica

Puoi estrarre qualsiasi colonna usando il suo nome. Dopo aver applicato il codice sottostante che ti restituirà un elenco di valori che sono memorizzati nella colonna.

Sintassi:

Dataframe["Column_name"]

Esempio:

df["Nome candidato"]

Controllare il tipo di dati della colonna

Ora, poiché sappiamo che memorizziamo i dati in colonne e saremo curiosi di conoscere il tipo di dati della colonna prima di applicare qualsiasi operazione su di essa. Quindi, per questo, scrivi il seguente codice nella cella di Jupyter Notebook:

Sintassi:

Dataframe[“Column_name”].dtype()

Esempio:

df["Età del candidato"].dtype()

Uso della funzione somma

Se hai delle colonne numeriche nei tuoi dati e vuoi solo conoscere la Sum aggiungendo ogni valore di quella particolare colonna, puoi usare la funzione sum() .

Prima di applicare questa formula assicurati che il tipo di colonna non sia String

Sintassi:

Dataframe[“Column_name”].sum()

Esempio:

df[" Voti totali validi".sum()

Nell'esempio seguente, riassumo tutti i voti validi che vengono votati in 117 collegi elettorali del Punjab.

Trovare la media di una particolare colonna

Se vuoi trovare la media di una colonna, puoi usare la funzione mean()

Sintassi:

Dataframe[“Column_name”].mean()

Esempio:

df[" Voti totali validi"].mean()

Nell'esempio seguente, ho ottenuto la media dei voti che vengono votati per ciascun candidato.

Trovare il valore massimo in una determinata colonna

Se vuoi trovare il valore massimo di una colonna, puoi usare la funzione max()

Sintassi:

Dataframe[“Column_name”].max()

Esempio:

df[" Voti totali validi".max()

Nell'esempio seguente, ho ottenuto il massimo dei voti per il candidato.

Trovare il valore minimo in una determinata colonna

Se vuoi trovare il valore minimo di una colonna, puoi usare la funzione min()

Sintassi:

Dataframe[“Column_name”].min()

Esempio:

df[" Voti totali validi"].min()

Nell'esempio seguente, ho ottenuto i voti minimi per il candidato.

Trova la deviazione standard di una particolare colonna

Se vuoi trovare il valore minimo di una colonna, puoi usare la funzione std()

Sintassi:

Dataframe[“Column_name”].std()

Esempio:

df[" Voti totali validi"].std()

Funzioni di base delle stringhe

Ora discutiamo alcune funzioni di stringa molto utili che sono utili nel tuo lavoro quotidiano. Ma prima di applicare queste funzioni di stringa, assicurati che il tipo di colonna sia String .

8 migliori strumenti di ottimizzazione delle immagini per la tua app web

Trovare la lunghezza di String

Se vuoi trovare il valore minimo di una colonna, puoi usare la funzione std()

Sintassi:

Dataframe[“Column_name”].str.len()

Esempio:

df[“Nome circoscrizione”].str.len()

Restituirà l'elenco che ha valori numerici e questi valori numerici rappresentano la lunghezza della stringa corrispondente. Puoi aggiungere questo elenco come Nuova colonna se vuoi mostrare la lunghezza della stringa nei tuoi dati.

Mettere in maiuscolo il primo carattere di ogni parola

Come sai, non possiamo avere una funzione Title Case (Maiuscolo il primo carattere di ogni parola) in Excel ma python ha. Quindi per quello usa la funzione title()

Sintassi:

Dataframe[“Column_name”].str.title()

Esempio:

df[“Nome candidato”].str.title()

Maiuscolo

È possibile utilizzare la funzione upper() per rendere maiuscolo i caratteri di una stringa

Sintassi:

Dataframe[“Column_name”].str.upper()

Esempio:

df[“Nome candidato”].str.upper()

Minuscolo

È possibile utilizzare la funzione lower() per rendere minuscoli i caratteri di una stringa

Sintassi:

Dataframe[“Column_name”].str.lower()

Esempio:

df[“Nome candidato”].str.lower()

Ottenere record specifico

Per ottenere il record specifico dai tuoi dati, puoi confermare che i tuoi dati hanno almeno una colonna che ha un valore univoco. Il concetto è simile a una chiave primaria in SQL. Puoi anche mescolare più colonne per ottenere un record specifico.

Come nel mio esempio, estraggo i record utilizzando il nome del collegio elettorale e il nome del candidato seguendo il codice:

df[(df["Nome circoscrizione"] == "Sultanpur Lodhi ") & (df["Nome candidato"] == "SAJJAN SINGH CHEEMA")]

Ottenere un gruppo di record

A volte potresti voler estrarre i dati che appartengono alla stessa categoria. Come nell'esempio seguente, voglio estrarre i dati per il collegio elettorale di Sultanpur Lodhi e voglio i nomi dei candidati nel titolo, quindi esporterò questi dati come sultapur-lodhi-2017.csv

Ora il file sultapur-lodhi-2017.csv contiene dati solo dal collegio elettorale di Sultanpur Lodhi.

Avvolgendo

Quindi, in questo blog, hai appreso alcune funzioni di base per analizzare un'enorme quantità di dati. Ti ho appena fatto un piccolo tour dell'analisi dei dati in Python. Ci sono tonnellate di cose che sono state scoperte e sono lì da esplorare.

Per leggere altri blog, visitare www.webdew.com. Se stai cercando servizi di web design e sviluppo web, il nostro team web sarà entusiasta di darti ciò che desideri! Contattaci per saperne di più.

Editore: Amrutha