Como lidar com grandes quantidades de dados usando python: um guia rápido
Publicados: 2022-06-12Todos nós estamos cercados de dados. Os dados são uma coisa mágica que está crescendo da mesma forma que o dióxido de carbono cresceu em nosso ambiente, com a diferença de que é bom para nós, não tão ruim quanto o aquecimento global crescente. Digo isso porque se tivermos uma enorme quantidade de dados, teremos o poder de tomar melhores decisões no futuro.
Todos nós geramos novos dados todos os dias, seja curtindo a postagem de alguém ou comentando a postagem de outra pessoa, ou quando enviamos uma nova postagem em qualquer site social.
Atualmente, as empresas são muito sensíveis em relação aos dados, pois coletar, armazenar, processar e analisar os dados é vital para tomar melhores decisões. Toda empresa precisa levar o desenvolvimento web a sério, pois tudo está online no presente e estará no mundo futuro.
Existem tantas ferramentas e linguagens de programação que nos ajudam a fazer as tarefas acima mencionadas. O Excel é uma ferramenta de planilha poderosa para fazer análises de dados.
Mas tem muitas limitações quando se trata de lidar com uma enorme quantidade de dados. A maioria das empresas usa scripts EXCEL + VBA para fazer alguns cálculos complexos, mas também tem várias limitações.
Assim, os analistas de dados sempre tentam adotar novas formas que os ajudem a agilizar seu trabalho e gerar análises de qualidade. Para fazer isso, os analistas de dados usam linguagens de programação que são muito mais poderosas do que qualquer outra ferramenta de planilha. Python e R são as linguagens de programação mais preferidas para fazer análise de dados.
Neste blog, não falarei sobre a linguagem de programação R, mas exploraremos o poder do Python. Você aprenderá todo o conceito usando um exemplo da vida real através deste blog.
Requisitos para iniciar a programação
O que você vai precisar antes de iniciar a programação real:
- Python deve ser instalado em seu sistema
- Você deve ter um editor onde você escreve o código python. Eu sugiro que você instale o Jupyter Notebook .
- Instale a Biblioteca Numpy e Pandas antes de iniciar a codificação.
- Por último, mas o ponto mais importante é que você deve ter a curiosidade de ir além dos limites do uso de dados. A curiosidade é fundamental!
Agora que você tem todos os requisitos alinhados, vamos iniciar a jornada de análise de dados.
Configurando o espaço de trabalho
- Abra seu notebook Jupyter e importe as seguintes instruções:
- importar numpy como np
- importar pandas como pd
- importar SO
- Execute a célula pressionando Shift + Enter
Importando dados
Visualize o formato de arquivo de seus dados. E adicione o código de acordo:
Se você tiver um arquivo CSV, escreva o seguinte código:
df = pd.read_csv(r“Caminho_real_do_seu_arquivo_csv”)
Se você tiver um arquivo do Excel, escreva o seguinte código:
df = pd.read_excel(abrir(r"Caminho_real_do_seu_arquivo_excel", "rb"), nome_da_folha="Nome_da_folha_qual_você_quer_para_importar")
Eu tenho uma planilha do Excel, então usei a segunda opção no exemplo a seguir.
Funções básicas para saber sobre os dados
Agora você importou os dados para o Python. O próximo passo é que você precisa se inscrever para ter uma visão panorâmica de seus dados.
Função de forma
A função de forma mostra o número total de linhas e colunas em seu arquivo importado. Escreva df.shape na célula do seu notebook Jupyter e execute a célula pressionando Shift+Enter.
Se você estiver interessado apenas em linhas, escreva df.shape[0]
Se você estiver interessado apenas em Colunas, escreva df.shape[1]
Função principal
Se você quiser ver os primeiros registros, você pode usar head(). Escreva df.head() na célula do seu notebook Jupyter e execute a célula pressionando Shift+Enter. Ele retornará um quadro de dados com os cinco principais registros.
Se você quiser ver mais de 5 registros, então você pode mencionar o número entre colchetes df.head(10) agora ele retorna os 10 primeiros registros.
Função de cauda
Se você quiser ver os poucos registros da parte inferior, poderá usar tail() . Escreva df.tail() em sua célula do notebook Jupyter e execute a célula pressionando Shift+Enter . Ele retornará um quadro de dados com os cinco registros inferiores.
Se você quiser ver mais de cinco registros, você pode mencionar o número entre colchetes df.tail(10) ; agora, ele retorna os 10 principais registros.
Obtendo todos os nomes das colunas
Se você quiser obter os nomes de todas as colunas, basta escrever df.columns , e ele retornará o nome de todas as colunas.
Obtendo a coluna específica
Você pode extrair qualquer coluna usando seu nome. Após aplicar o código abaixo que lhe retornará uma lista de valores que estão armazenados na coluna.
Sintaxe:
Dataframe[“Column_name”]
Exemplo:
df[“Nome do Candidato”]
Verifique o tipo de dados da coluna
Agora, como sabemos que armazenamos dados em colunas, ficaremos curiosos para saber sobre o tipo de dados da coluna antes de aplicar qualquer operação nela. Então, para isso, escreva o seguinte código na sua célula do Jupyter Notebook:

Sintaxe:
Dataframe[“Column_name”].dtype()
Exemplo:
df[“Idade do Candidato”].dtype()
Uso da função soma
Se você tiver algumas colunas numéricas em seus dados e quiser apenas saber a Soma adicionando cada valor dessa coluna específica, poderá usar a função sum() .
Antes de aplicar esta fórmula, certifique-se de que o tipo de coluna não seja String
Sintaxe:
Dataframe[“Column_name”].sum()
Exemplo:
df[" Total de votos válidos"].sum()
No exemplo a seguir, resumi todos os votos válidos que são pesquisados em 117 distritos eleitorais de Punjab.
Encontrando a média de uma coluna específica
Se você deseja encontrar a média de uma coluna, pode usar a função mean()
Sintaxe:
Dataframe[“Column_name”].mean()
Exemplo:
df[" Total de votos válidos"].mean()
No exemplo a seguir, obtive a média de votos que são pesquisados para cada candidato.
Encontrar o valor máximo em uma coluna específica
Se você deseja encontrar o valor máximo de uma coluna, pode usar a função max()
Sintaxe:
Dataframe[“Column_name”].max()
Exemplo:
df[" Total de votos válidos"].max()
No exemplo a seguir, obtive a votação máxima de votos para o candidato.
Encontrar o valor mínimo em uma coluna específica
Se você deseja encontrar o valor mínimo de uma coluna, pode usar a função min()
Sintaxe:
Dataframe[“Column_name”].min()
Exemplo:
df[" Total de votos válidos"].min()
No exemplo a seguir, obtive o mínimo de votos pesquisados para o candidato.
Encontre o desvio padrão de uma coluna específica
Se você deseja encontrar o valor mínimo de uma coluna, pode usar a função std()
Sintaxe:
Dataframe[“Column_name”].std()
Exemplo:
df[" Total de votos válidos"].std()
Funções básicas de string
Agora vamos discutir algumas funções de string muito úteis que são úteis em seu trabalho diário. Mas antes de aplicar essas funções de string, certifique-se de que o tipo de coluna seja String .
Encontrando o comprimento de String
Se você deseja encontrar o valor mínimo de uma coluna, pode usar a função std()
Sintaxe:
Dataframe[“Column_name”].str.len()
Exemplo:
df[“Nome do eleitorado”].str.len()
Ele retornará a lista que possui valores numéricos, e esses valores numéricos representam o comprimento da String correspondente. Você pode adicionar esta lista como uma Nova Coluna se quiser mostrar o comprimento da String em seus dados.
Capitalizando o primeiro caractere de cada palavra
Como você sabe que não podemos ter uma função Title Case (Capitalize first character of each word) no Excel, mas o python tem. Então, para isso, use a função title()
Sintaxe:
Dataframe[“Column_name”].str.title()
Exemplo:
df[“Nome do Candidato”].str.title()
Maiúsculas
Você pode usar a função upper() para tornar uma string de caracteres em maiúsculas
Sintaxe:
Dataframe[“Column_name”].str.upper()
Exemplo:
df[“Nome do Candidato”].str.upper()
Minúsculas
Você pode usar a função lower() para tornar os caracteres de uma string em minúsculas
Sintaxe:
Dataframe[“Column_name”].str.lower()
Exemplo:
df[“Nome do Candidato”].str.lower()
Obtendo registro específico
Para obter o registro específico de seus dados, você pode confirmar que seus dados têm pelo menos uma coluna com um valor exclusivo. O conceito é semelhante a uma chave primária em SQL. Você também pode misturar várias colunas para obter um registro específico.
Como no meu exemplo, extraio os registros usando o seguinte código: Nome do Grupo Constituinte e Nome do Candidato :
df[(df["Nome do eleitorado"] == "Sultanpur Lodhi ") & (df["Nome do Candidato"] == "SAJJAN SINGH CHEEMA")]
Obtendo um grupo de registros
Às vezes você pode querer extrair os dados que pertencem à mesma categoria. Como no exemplo a seguir, quero extrair os dados para Sultanpur Lodhi Constituency , e quero nomes de candidatos no título e, em seguida, exportarei esses dados como sultapur-lodhi-2017.csv
Agora , o arquivo sultapur-lodhi-2017.csv contém dados apenas do grupo Sultanpur Lodhi.
Empacotando
Então, neste blog, você aprendeu algumas funções básicas para analisar uma enorme quantidade de dados. Acabei de fazer um pequeno tour pela análise de dados em Python. Há toneladas de coisas que são descobertas e estão lá para explorar.
Para ler mais blogs, visite www.webdew.com. Se você estiver procurando por serviços de web design e desenvolvimento web, nossa equipe da web terá o prazer de obter o que você deseja! Contate-nos para saber mais.
Editor: Amrutha