Cómo manejar grandes cantidades de datos usando python: una guía rápida

Publicado: 2022-06-12

Todos estamos rodeados de datos. Los datos son algo mágico que está creciendo al igual que el dióxido de carbono ha crecido en nuestro entorno, con la diferencia de que es bueno para nosotros, no tan malo como el aumento del calentamiento global. Digo esto porque si tenemos una gran cantidad de datos, tendremos el poder de tomar mejores decisiones en el futuro.

12 consejos esenciales para crear una página de destino de WordPress como un profesional

Todos generamos nuevos datos todos los días, ya sea dando me gusta a la publicación de alguien o comentando la publicación de otro, o cuando subimos una nueva publicación en cualquier sitio social.

Hoy en día, las empresas son muy sensibles a los datos, ya que recopilar, almacenar, procesar y analizar los datos es vital para tomar mejores decisiones. Todas las empresas deben tomarse en serio el desarrollo web, ya que todo está en línea en el presente y lo estará en el mundo futuro.

Hay tantas herramientas y lenguajes de programación que nos ayudan a realizar las tareas mencionadas anteriormente. Excel es una poderosa herramienta de hoja de cálculo para realizar análisis de datos.

Pero tiene tantas limitaciones cuando se trata de abordar una gran cantidad de datos. La mayoría de las empresas utilizan EXCEL + VBA Scripting para realizar algunos cálculos complejos, pero también tiene varias limitaciones.

Por eso, los analistas de datos siempre intentan adoptar nuevas formas que les ayuden a agilizar su trabajo y generar análisis de calidad. Para hacer eso, los analistas de datos usan lenguajes de programación que son mucho más poderosos que cualquier otra herramienta de hoja de cálculo. Python y R son los lenguajes de programación preferidos para realizar análisis de datos.

En este blog, no hablaré sobre el lenguaje de programación R, pero exploraremos el poder de Python. Aprenderá todo el concepto utilizando un ejemplo de la vida real a través de este blog.

Requisitos para empezar a programar

Lo que necesitará antes de comenzar la programación real:

Python debe estar instalado en su sistema
Debe tener un editor donde escriba el código de python. Le sugiero que instale Jupyter Notebook .
Instale la biblioteca Numpy y Pandas antes de comenzar la codificación.
Por último, pero el punto más importante es que debe tener la curiosidad de ir más allá de los límites del uso de datos. ¡La curiosidad es clave!

Ahora que tiene todos los requisitos alineados, comencemos el viaje del análisis de datos.

Configuración del espacio de trabajo

Abra su cuaderno Jupyter e importe las siguientes declaraciones:

importar numpy como np
importar pandas como pd
importar sistema operativo

Ejecute la celda presionando Shift + Enter

Importación de datos

Ver el formato de archivo de sus datos. Y agregue el código en consecuencia:

Si tiene un archivo CSV, escriba el siguiente código:

df = pd.read_csv(r“Ruta_actual_de_su_archivo_csv”)

Si tiene un archivo de Excel, escriba el siguiente código:

df = pd.read_excel(open(r“Ruta_actual_de_su_archivo_de_excel”, “rb”), sheet_name=“Nombre_de_la_hoja_que_quiere_importar”)

Tengo una hoja de Excel, así que utilicé la segunda opción en el siguiente ejemplo.

Funciones básicas para conocer los datos

Ahora ha importado los datos a Python. El siguiente paso es que debe presentar una solicitud para tener una Vista de pájaro de sus datos.

Función de forma

La función de forma le muestra el número total de filas y columnas en su archivo importado. Escriba df.shape en la celda de su cuaderno Jupyter y ejecute la celda presionando Shift+Enter.

Si solo está interesado en filas, escriba df.shape[0]

Si solo está interesado en Columnas, escriba df.shape[1]

función de la cabeza

Si desea ver los primeros registros, puede usar head(). Escriba df.head() en la celda de su cuaderno Jupyter y ejecute la celda presionando Shift+Enter. Devolverá un marco de datos con los cinco registros principales.

Si desea ver más de 5 registros, puede mencionar el número entre corchetes df.head(10) ahora devuelve los 10 registros principales.

Función de cola

Si desea ver los pocos registros desde abajo, puede usar tail() . Escriba df.tail() en la celda de su cuaderno Jupyter y ejecute la celda presionando Shift+Enter . Devolverá un marco de datos con los cinco registros inferiores.

Si desea ver más de cinco registros, puede mencionar el número entre corchetes df.tail(10) ; ahora, devuelve los 10 mejores registros.

Obtener todos los nombres de columna

Si desea obtener los nombres de todas las columnas, simplemente escriba df.columns y devolverá el nombre de todas las columnas.

Obtener la columna específica

Puede extraer cualquier columna utilizando su nombre. Después de aplicar el código a continuación, le devolverá una lista de valores que se almacenan en la columna.

Sintaxis:

Marco de datos[“Nombre_columna”]

Ejemplo:

df[“Nombre del candidato”]

Comprobar el tipo de datos de la columna

Ahora, como sabemos que almacenamos datos en columnas, tendremos curiosidad por saber sobre el tipo de datos de la columna antes de aplicar cualquier operación en ella. Entonces, para eso, escriba el siguiente código en su celda Jupyter Notebook:

Sintaxis:

Marco de datos[“Nombre_columna”].dtype()

Ejemplo:

df[“Edad del candidato”].dtype()

Uso de la función de suma

Si tiene algunas columnas numéricas en sus datos y solo quiere saber la Suma sumando cada valor de esa columna en particular, entonces puede usar la función sum() .

Antes de aplicar esta fórmula, asegúrese de que el tipo de columna no sea Cadena

Sintaxis:

Marco de datos[“Nombre_columna”].sum()

Ejemplo:

df[" Total de votos válidos"].sum()

En el siguiente ejemplo, resumo todos los votos válidos que se obtienen en 117 distritos electorales de Punjab.

Encontrar el promedio de una columna en particular

Si desea encontrar el promedio de una columna, puede usar la función mean ()

Sintaxis:

Trama de datos[“Nombre_columna”].mean()

Ejemplo:

df[" Total de votos válidos"].mean()

En el siguiente ejemplo, obtuve los votos promedio que se encuestan para cada candidato.

Encontrar el valor máximo en una columna en particular

Si desea encontrar el valor máximo de una columna, puede usar la función max ()

Sintaxis:

Marco de datos[“Nombre_columna”].max()

Ejemplo:

df[" Total de votos válidos"].max()

En el siguiente ejemplo, obtuve la encuesta de votos máxima para el candidato.

Encontrar el valor mínimo en una columna en particular

Si desea encontrar el valor mínimo de una columna, puede usar la función min ()

Sintaxis:

Marco de datos[“Nombre_columna”].min()

Ejemplo:

df[" Total de votos válidos"].min()

En el siguiente ejemplo, obtuve los votos mínimos para el candidato.

Encuentra la desviación estándar de una columna en particular

Si desea encontrar el valor mínimo de una columna, puede usar la función std ()

Sintaxis:

Marco de datos[“Nombre_columna”].std()

Ejemplo:

df[" Total de votos válidos"].std()

Funciones básicas de cadena

Ahora analicemos algunas funciones de cadena muy útiles que son útiles en su trabajo diario. Pero antes de aplicar estas funciones de cadena, asegúrese de que el tipo de columna sea String .

Las 8 mejores herramientas de optimización de imágenes para tu aplicación web

Hallar la longitud de String

Si desea encontrar el valor mínimo de una columna, puede usar la función std ()

Sintaxis:

Marco de datos[“Nombre_columna”].str.len()

Ejemplo:

df[“Nombre del distrito electoral”].str.len()

Devolverá la lista que tiene valores numéricos, y estos valores numéricos representan la longitud de la cadena correspondiente. Puede agregar esta lista como una nueva columna si desea mostrar la longitud de la cadena en sus datos.

Poner en mayúscula el primer carácter de cada palabra

Como sabe, no podemos tener una función de caso de título (en mayúsculas el primer carácter de cada palabra) en Excel, pero Python sí. Así que para eso usa la función title()

Sintaxis:

Marco de datos[“Nombre_columna”].str.title()

Ejemplo:

df[“Nombre del candidato”].str.title()

Mayúsculas

Puede usar la función upper () para convertir una cadena de caracteres en mayúsculas

Sintaxis:

Marco de datos[“Nombre_columna”].str.upper()

Ejemplo:

df[“Nombre del candidato”].str.upper()

Minúscula

Puede usar la función lower () para hacer que los caracteres de una cadena estén en minúsculas

Sintaxis:

Marco de datos[“Nombre_columna”].str.lower()

Ejemplo:

df[“Nombre del candidato”].str.lower()

Obtener un registro específico

Para obtener el registro específico de sus datos, puede confirmar que sus datos tienen al menos una columna que tiene un valor único. El concepto es similar a una clave principal en SQL. También puede mezclar varias columnas para obtener un registro específico.

Al igual que en mi ejemplo, extraigo los registros usando el nombre del distrito electoral y el nombre del candidato con el siguiente código:

df[(df["Nombre del distrito electoral"] == "Sultanpur Lodhi") & (df["Nombre del candidato"] == "SAJJAN SINGH CHEEMA")]

Obtener un grupo de registros

A veces, es posible que desee extraer los datos que pertenecen a la misma categoría. Como en el siguiente ejemplo, quiero extraer los datos para el distrito electoral de Sultanpur Lodhi , y quiero los nombres de los candidatos en el caso del título, y luego exportaré estos datos como sultapur-lodhi-2017.csv

Ahora el archivo sultapur-lodhi-2017.csv contiene datos solo del distrito electoral de Sultanpur Lodhi.

Terminando

Entonces, en este blog, ha aprendido algunas funciones básicas para analizar una gran cantidad de datos. Acabo de darte un pequeño recorrido por el análisis de datos en Python. Hay toneladas de cosas que están descubiertas y están ahí para explorar.

Para leer más blogs, visite www.webdew.com. Si está buscando servicios de diseño y desarrollo web, ¡nuestro equipo web estará encantado de conseguirle lo que desea! Contáctanos para saber más.

Editor: Amrutha