Python pour économistes

Ces notes de cours ont été construites pour le cours d’introduction à l’analyses de données avec Python suivi par les étudiants de 3ème année de la licence économie-gestion de l’Université de Franche-Comté. Ce document a pour objectif d’introduire l’utilisation de Pandas et Numpy, deux modules Python a des étudiants n’ayant aucune notion de programmation / language logiciel. Les étudiants peuvent exécuter tous les exemples fournis. Des exercices viennent clore certains chapitre.

Ces notes ne sauraient et n’ont pas pour vocation à être exhaustives de l’utilisation de Python. J’ai opté pour un brève passage sur les bases du language avant d’entammer directement sur l’utilisation de Pandas.

Le cours est sensé durer 12 heures. Tous les documents sont bien entendu open source. Python est le premier langage pour les scientifiques. La data science peut se résumer en trois points:

  • Traitements des sources de données

  • Visualisation

  • Etudes des données

Ce livre a été fait à l’aide de jupyter-book, jupyter-notebook et beaucoup de temps !

Petits tips

Il y a plein de ressources sur Internet, n’hésitez pas à fureter du coté du cours de Ewen Gallic (AMSE) ou encore de Xavier Dupre (ENSAE)

  • https://jakevdp.github.io/PythonDataScienceHandbook/

  • http://egallic.fr/Enseignement/Python/propos-liminaires.html

  • http://www.xavierdupre.fr/

Il y a aussi stackoverflow (https://stackoverflow.com/questions/tagged/python) où vous pouvez poser vos questions ou utiliser les réponses aux nombreuses questions déjà présentes. N’hésitez pas aussi à regarder les cheat sheets qui sont des documents condensés de commandes frequement utilisée.

Démarrage et installation

L’installation de Python peut se faire via le site officiel du language https://www.python.org/ mais depuis quelques années, l’utilisation d’une distribution peut s’avérer être un meilleur choix. Généralement, on se tourne vers la distribution Anaconda (https://www.anaconda.com/).

Une distribution est un ensemble de de “packages” que l’on peut où non installer. iOS est une distribution, tout comme Androïd. L’installation d’Anaconda permet donc d’installer un environnement sain et d’y ajouter les applications et modules que l’on trouve nécessaire.

Le cours utilise le notebook Jupyter. Il permet de mélanger du texte classique avec une mise en page simple et du code. Pour coder, on utilise plus généralement un IDE. Anaconda propose l’utilisation de Spyder parmis tant d’autres. C’est au choix de l’utilisateur. Il permet non seulement d’accéder au mode console (instruction par instruction) mais aussi au mode script. Un script est un ensemble de ligne de codes aui peuvent être lancer à la suite. Un éditeur de texte classique est un IDE !

Python seul n’est pas intéressant, par contre les modules qui l’accompagnent le sont. Pour installer un module sous Anaconda, il faut utiliser la commande conda mais nous y reviendrons par la suite.

La commande conda update –all permet de mettre à jour tous les modules.

Modules incournables :

  • Jupyter : gestion des notebooks (des pages blanches mélangeant code, équations, graphiques)

  • matplotlib : graphes scientifiques

  • numpy : calcul matriciel

  • pandas : gestion de DataFrame

  • Scipy : calcul scientifique

  • scikit-learn : machine learning, statistique descriptive

  • statsmodels : séries temporelles

Outils pour développer

  • GitHub : c’est le site par référence pour tous les projets open source.

  • BitBucket

  • git est un logiciel de suivi de source.

  • Evernote

  • Framapad

Il faut bien commencer à coder

Python est un langage de programmation. Comme l’Anglais ou l’Italien, un language de programmation possède sa propre grammaire et un vocabulaire (mot-clefs). Les règles :

  • L’indentation est primordiale : un code mal indenté ne fonctionne pas.

  • On commence à compter à 0.

  • Les marques de ponctuation sont importantes

  • Les majuscules et minuscules sont importantes

Première ligne de code dans la console:

2+3 
5

print(2+3)