Comment gérer de grandes quantités de données à l'aide de python : un guide rapide
Publié: 2022-06-12Nous sommes tous entourés de données. Les données sont une chose magique qui se développe de la même manière que le dioxyde de carbone s'est développé dans notre environnement, à la différence qu'il est bon pour nous, pas aussi mauvais que le réchauffement climatique croissant. Je dis cela parce que si nous avons une énorme quantité de données, nous aurons le pouvoir de prendre de meilleures décisions à l'avenir.
Nous générons tous de nouvelles données chaque jour, soit en aimant la publication de quelqu'un ou en commentant la publication de l'autre, soit lorsque nous téléchargeons une nouvelle publication sur n'importe quel site social.
De nos jours, les entreprises sont très sensibles aux données, car la collecte, le stockage, le traitement et l'analyse des données sont essentiels pour prendre de meilleures décisions. Chaque entreprise doit prendre au sérieux le développement Web, car tout est en ligne dans le présent et le sera dans le monde futur.
Il existe de nombreux outils et langages de programmation qui nous aident à effectuer les tâches mentionnées ci-dessus. Excel est un outil de tableur puissant pour effectuer des analyses de données.
Mais il a tellement de limites lorsqu'il s'agit de traiter une énorme quantité de données. La plupart des entreprises utilisent EXCEL + VBA Scripting pour effectuer des calculs complexes, mais il présente également diverses limitations.
Les analystes de données essaient donc toujours d'adopter de nouvelles méthodes qui les aident à accélérer leur travail et à générer une analyse de qualité. Pour ce faire, les analystes de données utilisent des langages de programmation bien plus puissants que tout autre tableur. Python et R sont les langages de programmation les plus appréciés pour l'analyse des données.
Dans ce blog, je ne parlerai pas du langage de programmation R, mais nous explorerons la puissance de Python. Vous apprendrez tout le concept en utilisant un exemple concret à travers ce blog.
Conditions requises pour commencer à programmer
Ce dont vous aurez besoin avant de commencer la programmation proprement dite :
- Python doit être installé sur votre système
- Vous devriez avoir un éditeur dans lequel vous écrivez le code python. Je vous suggère d'installer Jupyter Notebook .
- Installez la bibliothèque Numpy et Pandas avant de commencer le codage.
- Le dernier point, mais le plus important, est que vous devriez avoir la curiosité d'aller au-delà des limites de l'utilisation des données. La curiosité est la clé !
Maintenant que toutes les exigences sont alignées, commençons le parcours de l'analyse des données.
Mise en place de l'espace de travail
- Ouvrez votre notebook Jupyter et importez les instructions suivantes :
- importer numpy en tant que np
- importer des pandas en tant que pd
- importer le système d'exploitation
- Exécutez la cellule en appuyant sur Maj + Entrée
Importation de données
Affichez le format de fichier de vos données. Et ajoutez le code en conséquence :
Si vous avez un fichier CSV, écrivez le code suivant :
df = pd.read_csv(r“Actual_path_of_your_csv_file”)
Si vous avez un fichier Excel, écrivez le code suivant :
df = pd.read_excel(open(r"Actual_path_of_your_excel_file", "rb"), sheet_name="Name_of_sheet_which_you_want_to_import")
J'ai une feuille Excel, j'ai donc utilisé la deuxième option dans l'exemple suivant.
Fonctions de base à connaître sur les données
Vous avez maintenant importé les données dans Python. La prochaine étape est que vous devez postuler afin d'avoir une vue à vol d'oiseau de vos données.
Fonction de forme
La fonction de forme vous indique le nombre total de lignes et de colonnes dans votre fichier importé. Écrivez df.shape dans votre cellule de bloc-notes Jupyter et exécutez la cellule en appuyant sur Maj+Entrée.
Si vous n'êtes intéressé que par les lignes, écrivez df.shape[0]
Si vous n'êtes intéressé que par les colonnes, écrivez df.shape[1]
Fonction de tête
Si vous voulez voir les meilleurs enregistrements, vous pouvez utiliser head(). Écrivez df.head() dans votre cellule de bloc-notes Jupyter et exécutez la cellule en appuyant sur Maj+Entrée. Il renverra une trame de données avec les cinq premiers enregistrements.
Si vous voulez voir plus de 5 enregistrements, vous pouvez mentionner le nombre entre parenthèses df.head(10) maintenant il renvoie les 10 premiers enregistrements.
Fonction de queue
Si vous voulez voir les quelques enregistrements du bas, vous pouvez utiliser tail() . Écrivez df.tail() dans la cellule de votre notebook Jupyter et exécutez la cellule en appuyant sur Shift+Enter . Il renverra une trame de données avec les cinq derniers enregistrements.
Si vous voulez voir plus de cinq enregistrements, vous pouvez mentionner le nombre entre parenthèses df.tail(10) ; maintenant, il renvoie les 10 meilleurs enregistrements.
Obtenir tous les noms de colonnes
Si vous voulez obtenir les noms de toutes les colonnes, écrivez simplement df.columns , et il renverra le nom de toutes les colonnes.
Obtenir la colonne spécifique
Vous pouvez extraire n'importe quelle colonne en utilisant son nom. Après avoir appliqué le code ci-dessous qui vous renverra une liste de valeurs stockées dans la colonne.
Syntaxe:
Dataframe["Column_name"]
Exemple:
df["Nom du candidat"]
Vérifier le type de données de la colonne
Maintenant, comme nous savons que nous stockons des données dans des colonnes, nous serons curieux de connaître le type de données de la colonne avant d'y appliquer des opérations. Alors pour cela, écrivez le code suivant dans votre cellule Jupyter Notebook :

Syntaxe:
Dataframe["Column_name"].dtype()
Exemple:
df[“Âge du candidat”].dtype()
Utilisation de la fonction somme
Si vous avez des colonnes numériques dans vos données et que vous voulez simplement connaître la somme en ajoutant chaque valeur de cette colonne particulière, vous pouvez utiliser la fonction sum() .
Avant d'appliquer cette formule, assurez-vous que le type de colonne n'est pas String
Syntaxe:
Dataframe["Column_name"].sum()
Exemple:
df[" Total des votes valides"].sum()
Dans l'exemple suivant, je résume tous les votes valides qui sont votés dans 117 circonscriptions du Pendjab.
Trouver la moyenne d'une colonne particulière
Si vous voulez trouver la moyenne d'une colonne, vous pouvez utiliser la fonction mean ()
Syntaxe:
Dataframe["Column_name"].mean()
Exemple:
df[" Total des votes valides"].mean()
Dans l'exemple suivant, j'ai obtenu la moyenne des votes qui sont sondés pour chaque candidat.
Trouver la valeur maximale dans une colonne particulière
Si vous voulez trouver la valeur maximale d'une colonne, vous pouvez utiliser la fonction max ()
Syntaxe:
Dataframe["Column_name"].max()
Exemple:
df[" Total des votes valides"].max()
Dans l'exemple suivant, j'ai obtenu le sondage de votes maximum pour le candidat.
Trouver la valeur minimale dans une colonne particulière
Si vous voulez trouver la valeur minimale d'une colonne, vous pouvez utiliser la fonction min()
Syntaxe:
Dataframe["Column_name"].min()
Exemple:
df[" Total des votes valides"].min()
Dans l'exemple suivant, j'ai obtenu le nombre minimum de votes pour le candidat.
Trouver l'écart type d'une colonne particulière
Si vous voulez trouver la valeur minimale d'une colonne, vous pouvez utiliser la fonction std ()
Syntaxe:
Dataframe["Column_name"].std()
Exemple:
df[" Total des votes valides"].std()
Fonctions de chaîne de base
Voyons maintenant quelques fonctions de chaîne très utiles qui sont utiles dans votre travail quotidien. Mais avant d'appliquer ces fonctions de chaîne, assurez-vous que le type de colonne est String .
Trouver la longueur de String
Si vous voulez trouver la valeur minimale d'une colonne, vous pouvez utiliser la fonction std ()
Syntaxe:
Dataframe["Column_name"].str.len()
Exemple:
df["Nom de la circonscription"].str.len()
Il renverra la liste qui a des valeurs numériques, et ces valeurs numériques représentent la longueur de la chaîne correspondante. Vous pouvez ajouter cette liste en tant que nouvelle colonne si vous souhaitez afficher la longueur de la chaîne dans vos données.
Mettre en majuscule le premier caractère de chaque mot
Comme vous le savez, nous ne pouvons pas avoir de fonction Title Case (Capitualiser le premier caractère de chaque mot) dans Excel, mais python en a. Donc, pour cela, utilisez la fonction title ()
Syntaxe:
Dataframe["Column_name"].str.title()
Exemple:
df[“Nom du candidat”].str.title()
Haut de casse
Vous pouvez utiliser la fonction upper() pour mettre une chaîne de caractères en majuscule
Syntaxe:
Dataframe["Column_name"].str.upper()
Exemple:
df[“Nom du candidat”].str.upper()
Minuscule
Vous pouvez utiliser la fonction lower() pour mettre une chaîne de caractères en minuscules
Syntaxe:
Dataframe["Column_name"].str.lower()
Exemple:
df[“Nom du candidat”].str.lower()
Obtenir un enregistrement spécifique
Pour obtenir l'enregistrement spécifique à partir de vos données, vous pouvez confirmer que vos données ont au moins une colonne qui a une valeur unique. Le concept est similaire à une clé primaire en SQL. Vous pouvez également mélanger plusieurs colonnes pour obtenir un enregistrement spécifique.
Comme dans mon exemple, j'extrait les enregistrements en utilisant le code suivant du nom de la circonscription et du nom du candidat :
df[(df["Nom de la circonscription"] == "Sultanpur Lodhi ") & (df["Nom du candidat"] == "SAJJAN SINGH CHEEMA")]
Obtenir un groupe d'enregistrements
Parfois, vous voudrez peut-être extraire les données qui appartiennent à la même catégorie. Comme dans l'exemple suivant, je veux extraire les données de la circonscription de Sultanpur Lodhi et je veux les noms des candidats dans la casse du titre, puis j'exporterai ces données sous sultapur-lodhi-2017.csv
Maintenant , le fichier sultapur-lodhi-2017.csv contient uniquement des données de la circonscription de Sultanpur Lodhi.
Emballer
Ainsi, dans ce blog, vous avez appris quelques fonctions de base pour analyser une énorme quantité de données. Je viens de vous faire un petit tour de l'analyse de données en Python. Il y a des tonnes de choses qui sont découvertes et qui sont là pour être explorées.
Pour lire plus de blogs, visitez www.webdew.com. Si vous recherchez des services de conception et de développement Web, notre équipe Web se fera un plaisir de vous offrir ce que vous voulez! Contactez-nous pour en savoir plus.
Editeur : Amrutha