Pour l'analyse de données avancée, Python est meilleur qu'Excel.  Voici comment importer vos données Excel dans un script Python à l'aide de pandas!

Comment importer des données Excel dans des scripts Python à l'aide de pandas

Publicité Microsoft Excel est le tableur le plus utilisé dans le monde. Et pour cause: l'interface conviviale et les puissants outils intégrés facilitent le travail avec les données. Mais si vous souhaitez effectuer un traitement de données plus avancé, vous devez aller au-delà des capacités d'Excel et commencer à utiliser un langage de script / programmation tel que Python. Plutôt q

Publicité

Microsoft Excel est le tableur le plus utilisé dans le monde. Et pour cause: l'interface conviviale et les puissants outils intégrés facilitent le travail avec les données.

Mais si vous souhaitez effectuer un traitement de données plus avancé, vous devez aller au-delà des capacités d'Excel et commencer à utiliser un langage de script / programmation tel que Python. Plutôt que de copier manuellement vos données dans des bases de données, voici un tutoriel rapide sur la façon de charger vos données Excel dans Python à l'aide de Pandas.

Remarque: Si vous n'avez jamais utilisé Python auparavant, ce didacticiel peut s'avérer un peu difficile. Nous vous recommandons de commencer par ces sites Web pour apprendre Python. Les 5 meilleurs sites Web pour apprendre la programmation Python Les 5 meilleurs sites Web pour apprendre la programmation Python Vous voulez apprendre la programmation Python? Voici les meilleurs moyens d'apprendre Python en ligne, dont beaucoup sont entièrement gratuits. Pour en savoir plus, lisez Plus et ces exemples de base Python. 10 exemples de base Python qui vous aideront à apprendre rapidement 10 exemples de Python simples qui vous aideront à apprendre rapidement Cet article d'exemples de base de Python est destiné à ceux qui ont déjà une expérience de la programmation et veulent simplement transition vers Python le plus rapidement possible. Lire la suite .

Qu'est-ce qu'un Pandas?

Python Data Analysis Library («Pandas») est une bibliothèque à code source ouvert pour le langage de programmation Python, utilisée pour l’analyse et la manipulation de données.

Pandas charge les données dans des objets Python appelés Dataframes, qui stockent les données sous forme de lignes et de colonnes, à la manière d’une base de données traditionnelle. Une fois qu'un Dataframe est créé, il peut être manipulé à l'aide de Python, ouvrant ainsi un monde de possibilités.

Installer des pandas

Remarque: vous devez disposer de Python 2.7 ou version ultérieure pour installer Pandas.

Pour commencer à utiliser les pandas sur votre ordinateur, vous devez importer la bibliothèque de pandas. Si vous êtes à la recherche d'une solution poids lourd, vous pouvez télécharger Anaconda Python Distribution, qui intègre les pandas. Si vous n'avez pas d'utilisation pour Anaconda, Pandas est simple à installer dans votre terminal.

Pandas est un package PyPI, ce qui signifie que vous pouvez installer à l’aide de PIP pour Python via la ligne de commande. Les systèmes Mac modernes sont livrés avec PIP. Pour d'autres systèmes Windows, Linux et plus anciens, il est facile d'apprendre à installer PIP pour Python. Comment installer PIP Python sous Windows, Mac et Linux Comment installer PIP Python sous Windows, Mac et Linux De nombreux développeurs Python s'appuient sur un outil appelé PIP pour Python pour rendre tout plus facile et plus rapide. Voici comment installer Python PIP. Lire la suite .

Une fois votre terminal ouvert, vous pouvez installer la dernière version de Pandas à l’aide de la commande suivante:

 >> pip install pandas 

Pandas nécessite également la bibliothèque NumPy, installons-le également en ligne de commande:

 >> pip install numpy 

Pandas est maintenant installé et prêt à créer votre premier DataFrame!

Préparer les données Excel

Pour cet exemple, utilisons un exemple de fichier : un classeur Excel intitulé Cars.xlsx .

Tableau Excel pour les pandas en python

Cet ensemble de données affiche la marque, le modèle, la couleur et l'année des voitures entrées dans le tableau. Le tableau est affiché sous forme de plage Excel. Les pandas sont assez intelligents pour lire les données correctement.

Ce classeur est enregistré dans le répertoire Desktop, voici le chemin du fichier utilisé:

 /Users/grant/Desktop/Cars.xlsx 

Vous devez connaître le chemin du fichier du classeur pour utiliser les pandas. Commençons par ouvrir le code Visual Studio pour écrire le script. Si vous ne disposez pas d'un éditeur de texte, nous vous recommandons soit le code Visual Studio, soit l'éditeur Atom. Le code Visual Studio par rapport à Atom: quel éditeur de texte vous convient le mieux? Code Visual Studio vs Atom: quel éditeur de texte vous convient le mieux? Vous recherchez un éditeur de code gratuit et open-source? Visual Studio Code et Atom sont les deux meilleurs candidats. Lire la suite .

Écrire le script Python

Maintenant que vous avez choisi votre éditeur de texte, le vrai plaisir commence. Nous allons rassembler Python et notre cahier d’automobile pour créer un Pandas DataFrame.

Importer les bibliothèques Python

Ouvrez votre éditeur de texte et créez un nouveau fichier Python. Appelons cela Script.py .

Pour pouvoir utiliser les pandas dans votre script, vous devez l'importer dans votre code. Ceci est fait avec une ligne de code:

 import pandas as pd 

Ici, nous chargeons la bibliothèque de pandas et l’attachons à une variable «pd». Vous pouvez utiliser le nom de votre choix, nous utilisons «pd» pour abréger Pandas.

Pour utiliser Excel à l'aide de pandas, vous avez besoin d'un objet supplémentaire appelé ExcelFile . ExcelFile est intégré à l'écosystème des pandas. Vous importez donc directement depuis les pandas:

 from pandas import ExcelFile 

Travailler avec le chemin du fichier

Afin de permettre aux Pandas d'accéder à votre classeur, vous devez diriger votre script vers l'emplacement du fichier. Le moyen le plus simple consiste à fournir à votre script le chemin d'accès complet au classeur.

Rappelez notre chemin dans cet exemple: /Users/grant/Desktop/Cars.xlsx

Vous aurez besoin de ce chemin de fichier référencé dans votre script pour extraire les données. Plutôt que de référencer le chemin à l'intérieur de la fonction Read_Excel, gardez le code propre en stockant le chemin dans une variable:

 Cars_Path = '/Users/grant/Desktop/Cars.xlsx' 

Vous êtes maintenant prêt à extraire les données à l'aide d'une fonction Pandas!

Extraire des données Excel à l'aide de Pandas.Read_Excel ()

Avec les Pandas importés et votre ensemble de variables de chemin, vous pouvez maintenant utiliser les fonctions de l'objet Pandas pour accomplir notre tâche.

La fonction que vous devez utiliser est nommée de manière appropriée Read_Excel . La fonction Read_Excel prend le chemin du fichier d'un classeur Excel et renvoie un objet DataFrame avec le contenu du classeur. Les pandas attribuent cette fonction à:

 pandas.read_excel(path) 

L'argument «chemin» va être le chemin d'accès à notre classeur Cars.xlsx et nous avons déjà défini la chaîne de chemin d'accès avec la variable Cars_Path.

Vous êtes prêt à créer l'objet DataFrame! Mettons tout cela ensemble et définissons l'objet DataFrame sur une variable nommée «DF»:

 DF = pd.read_excel(Cars_Path) 

Enfin, vous souhaitez afficher le DataFrame, imprimons le résultat. Ajoutez une instruction print à la fin de votre script, en utilisant la variable DataFrame comme argument:

 print(DF) 

Il est temps d'exécuter le script dans votre terminal!

Exécuter le script Python

Ouvrez votre terminal ou votre ligne de commande et accédez au répertoire qui contient votre script. Dans ce cas, j'ai «Script.py» situé sur le bureau. Pour exécuter le script, utilisez la commande python suivie du fichier de script:

Script Python dans un terminal

Python extraira les données de «Cars.xlsx» dans votre nouveau DataFrame et imprimera le DataFrame sur le terminal!

Python DataFrame In Terminal

Un examen plus approfondi de l'objet DataFrame

À première vue, le DataFrame ressemble beaucoup à un tableau Excel classique. Les Pandas DataFrames sont donc faciles à interpréter.

Vos en-têtes sont étiquetés en haut de l'ensemble de données et Python a rempli les lignes avec toutes vos informations lues dans le classeur «Cars.xlsx».

Notez la colonne la plus à gauche, un index commençant à 0 et numérotant les colonnes. Les pandas appliqueront cet index à votre DataFrame par défaut, ce qui peut être utile dans certains cas. Si vous ne voulez pas que cet index soit généré, vous pouvez ajouter un argument supplémentaire dans votre code:

 DF = pd.read_excel(Cars_Path, index=False) 

Si vous définissez l'argument «index» sur False, la colonne d'index sera supprimée, vous ne laissant que vos données Excel.

Faire plus avec Python

Maintenant que vous avez la possibilité de lire des données à partir de feuilles de calcul Excel, vous pouvez appliquer la programmation Python comme vous le souhaitez. Travailler avec Pandas est un moyen simple, pour les programmeurs Python expérimentés, de travailler avec les données stockées dans des classeurs Excel.

La facilité avec laquelle Python peut être utilisé pour analyser et manipuler des données est l’une des nombreuses raisons pour lesquelles Python est le langage de programmation du futur. 6 raisons pour lesquelles Python est le langage de programmation du futur 6 raisons pour lesquelles Python est le langage de programmation du futur Vous voulez apprendre ou développer vos compétences en programmation? Voici pourquoi Python est le meilleur langage de programmation à apprendre cette année. Lire la suite .

Crédit d'image: Rawpixel / Depositphotos

En savoir plus sur: l'analyse de données, Microsoft Excel, Python, la création de scripts.