# Gestion des données : NumPy et Pandas

Python est devenu le premier langage scientifiques. Il est ainsi possible de gérer l'ensemble des phases d'une analyse de données d'économistes. 

On pourrait résumer l'analyse empirique à 3 étapes : 

* Collecte des données (sources, ...) 
* Chargement des données 
* Traitement des données (valeurs manquantes, proxy, ...) 
* Visualisation des données
* Modèle statistiques

Nous commencerons directement au point numéro 2 tout en mentionnant que de nombreux modules existent afi nde récupérer des données directement sur internet via Python. Voici une liste non exhaustive: 

* import quandl
* import dbnomics

Si il n'existe pas de module spécifique, il existe des fonctions dans le module `Panda` que l'on va beaucoup utiliser. Un chapitre explorera cette possibilité mais ne sera pas exposée durant ce cours. 

## Chargement des données : méthode open()


### Répertoire de travail 

Ces données peuvent se situer sur le web ou sur votre ordinateur. Lorsque vous lancer Python ou Jupyter, vous le faite dans ce qu'on appel un répertoire de travail. Le répertoire contenant le *notebook* ou le porgramme est le répertoire courant. Lorsqu'on indiquera à Python d'importer des données, il faudra: 
* utiliser un chemin absolu et rentrer le chemin vers le fichier de données. Un chemin absolu commence toujours par `/`
* utiliser un chemin relative, l'origine sera alors le répertoire courant

Pour travailler avec différents répertoire, le module `os` peut-êtyre utile. Par exemple, on peut afficher dans Python le répertoire courant :

In [28]:
import os
cwd = os.getcwd()
print(cwd)

/home/user1/Nextcloud/Cours/Informatique/Python/intro_data_science/python_tutorial


Le module `os` propose plusieurs fonctions très utile. 
* La fonction `chdir()` permet de changer le répertoire courant 
* La fonction `listdir()`  permet de lister tous les documents et répertoires contenus dans le répertoire courant ou dans n'importe quel répertoire si le paramètre `path` renseigne le chemin. 
* ...


### Chargement à partir d'un fichier csv

Pour charger un fichier, on utilise la fonction `open()` puis on fait appel à la méthode `reader()` du module `csv`. Généralement, on utilise cette fonction dans un bloc `with`. Un fichier ouvert dans `with` est automatiquement refermé à la fin. Si on n'utilise pas ce bloc, il faut impérativement refermer le fichier après les opérations faites dessus afin d'éviter d'encombrer la mémoire ! 

In [29]:
import csv
with open('./data/25.csv') as doubs:
  doubs_reader = csv.reader(doubs, delimiter=',', quotechar='"')
  data = [x for x in doubs_reader]
print(data)
print(type(data))

[['id_mutation', 'date_mutation', 'numero_disposition', 'nature_mutation', 'valeur_fonciere', 'adresse_numero', 'adresse_suffixe', 'adresse_nom_voie', 'adresse_code_voie', 'code_postal', 'code_commune', 'nom_commune', 'code_departement', 'ancien_code_commune', 'ancien_nom_commune', 'id_parcelle', 'ancien_id_parcelle', 'numero_volume', 'lot1_numero', 'lot1_surface_carrez', 'lot2_numero', 'lot2_surface_carrez', 'lot3_numero', 'lot3_surface_carrez', 'lot4_numero', 'lot4_surface_carrez', 'lot5_numero', 'lot5_surface_carrez', 'nombre_lots', 'code_type_local', 'type_local', 'surface_reelle_bati', 'nombre_pieces_principales', 'code_nature_culture', 'nature_culture', 'code_nature_culture_speciale', 'nature_culture_speciale', 'surface_terrain', 'longitude', 'latitude'], ['2019-73036', '2019-02-25', '000001', 'Vente', '200000', '', '', 'AU VILLAGE', 'B037', '25640', '25490', 'Rigney', '25', '', '', '25490000ZK0354', '', '', '', '', '', '', '', '', '', '', '', '', '0', '', '', '', '', 'S', 'sols'

In [30]:
import csv
with open("./data/25.csv") as doubs:
    doubs_dict = csv.DictReader(doubs)
    data = [ligne for ligne in doubs_dict]
print(data)
print(type(data))

[OrderedDict([('id_mutation', '2019-73036'), ('date_mutation', '2019-02-25'), ('numero_disposition', '000001'), ('nature_mutation', 'Vente'), ('valeur_fonciere', '200000'), ('adresse_numero', ''), ('adresse_suffixe', ''), ('adresse_nom_voie', 'AU VILLAGE'), ('adresse_code_voie', 'B037'), ('code_postal', '25640'), ('code_commune', '25490'), ('nom_commune', 'Rigney'), ('code_departement', '25'), ('ancien_code_commune', ''), ('ancien_nom_commune', ''), ('id_parcelle', '25490000ZK0354'), ('ancien_id_parcelle', ''), ('numero_volume', ''), ('lot1_numero', ''), ('lot1_surface_carrez', ''), ('lot2_numero', ''), ('lot2_surface_carrez', ''), ('lot3_numero', ''), ('lot3_surface_carrez', ''), ('lot4_numero', ''), ('lot4_surface_carrez', ''), ('lot5_numero', ''), ('lot5_surface_carrez', ''), ('nombre_lots', '0'), ('code_type_local', ''), ('type_local', ''), ('surface_reelle_bati', ''), ('nombre_pieces_principales', ''), ('code_nature_culture', 'S'), ('nature_culture', 'sols'), ('code_nature_culture

### Chargement à partir d'un fichier txt

On peut facilement convertir un fichier `csv` en fichier `txt`. On utilise aussi la fonction `open()`.

La syntaxe de la fonction `open()` est : 

```
open(file, mode='r', buffering=-1,
    encoding=None, errors=None, newline=None)
``` 

avec 

* file : une `string` du chemin du fichier à ouvrir ;
* mode : différent mode d'ouverture du fichier (lecture, écriture) ;
* buffering : mise en mémoire ;
* encoding : encodage du fichier ;
* errors : spécifie la manière de gérer les erreurs d’encodage et de décodage ;
* newline : contrôle la fin des lignes.

Vous pouvez retrouver toutes ce options dans la documentation :-)


In [31]:
with open('./data/2009_02.txt', encoding="ISO-8859-2") as ecb:
    data = [x for x in ecb]
print(data)
    

['Introductory statement with Q&A\n', 'Jean-Claude Trichet, President of the ECB,\n', 'Lucas Papademos, Vice President of the ECB\n', 'Frankfurt am Main, 5 February 2009\n', 'Jump to the transcript of the questions and answers\n', 'Ladies and gentlemen, the Vice-President and I are very pleased to welcome you to todayŐs press conference. We will now report on the outcome of todayŐs meeting of the Governing Council, which was also attended by Commissioner Almunia.\n', 'On the basis of its regular economic and monetary analyses, at todayŐs meeting the Governing Council decided to leave the key ECB interest rates unchanged. As anticipated in our interest rate decision of 15 January 2009, the latest economic data and survey information confirm that the euro area and its major trading partners are undergoing an extended period of significant economic downturn, and that accordingly both external and domestic inflationary pressures are diminishing. We continue to expect inflation rates in the

## Introduction à Numpy et Pandas 

Ouvrir les données avec `open()` peut-être utile lorsqu'on travaille avec des fichiers simples. Par exemple des discours que l'on souhaite analyser. Pour des données plus évoluées, on utilisera le module `Pandas` qui introduit un nouvel objet: Le `Dataframe`. 

Le module `Pandas` s'est construit en parallèle de `NumPy`, un autre module qui propose des objets très utilese pour des opérations mathématiques comme le calcul matriciel. 

`Pandas` a apporté les `Dataframe` et se sont imposés pour manipuler les données. Il propose une façon très intuitive de représenter les données et dispose de méthodes spécifiquement conçues pour l'analyse de données. N'hésitez pas à faire des recherches Google afin de consulter les nombreux tutoriaux sur le sujet. 

### NumPy 

`NumPy` est un module Python qu'il faut charger pour pouvoir l'utiliser. Un module Python se charge en utilisant le mot-clef `import`: 

```
import module as abréviation_du_module
```

In [32]:
import numpy as np

On peut désormais utiliser toutes les méthodes contenues dans NumPy en utilisant l'abréviation de ce dernier `np`.
Si on avait voulu charger une méthode particulière, on aurait pu utiliser le mot-clef `from` : 

```
from module import methode
```

#### Les structured array

Un des objet très important de NumPy est le structured array. Il permet de créer une sorte de matrice avec des tyes différents à l'intérieur. 

In [33]:
# Use a compound data type for structured arrays
data = np.zeros(3, dtype={'names':('ville', 'prix', 'latitude'),
                          'formats':('U10', 'f8', 'f8')})
print(data.dtype)

[('ville', '<U10'), ('prix', '<f8'), ('latitude', '<f8')]


L'`array` data est maintenant composé de trois colonnes nommés villes, prix et latitude dans lesquelles on peut mettre respectivement une `string` de longueur 10 maximum, un float de longueur 16 et un float de longueur 16. 
Le tableau crée est rempli de `0` ar on a utiliser la méthode de `NumPy`, `zeros`. 

On peut le remplir si on le souhaite : 


In [34]:
data['ville'] = ['Besançon', 'Busy', 'Fontain']
data['prix'] = [2000, 1500, 1500]
data['latitude'] = [6.01,5.57,6.02]
print(data)

[('Besançon', 2000., 6.01) ('Busy', 1500., 5.57) ('Fontain', 1500., 6.02)]


Il est désormais possible d'accéder à une information particulière très facilement: 

In [35]:
print(data['ville'])
print(data['prix']>1500)
print(data[0])
print(data[1]['latitude'])
print(data[data['prix']>1500])

['Besançon' 'Busy' 'Fontain']
[ True False False]
('Besançon', 2000., 6.01)
5.57
[('Besançon', 2000., 6.01)]


On peut créer différent types de structured array :

In [36]:
t = np.dtype([('A', 'i4'), ('M', 'f4', (2, 2))])
X = np.zeros(1, dtype=t)
print(X[0])
print(X['M'][0])

(0, [[0., 0.], [0., 0.]])
[[0. 0.]
 [0. 0.]]


Ici, on a un `array` appele `X` avec deux éléments : `A` de type `int` et `M` de type `float` de taille (2x2). 
On peut donc créer des matrices avec NumPy !!! Nous verrons plus en détail d'autres méthodes de `NumPy` par la suite

### Pandas

Pandas introduit donc un objet appelé `Dataframe`. C'est une quelque sorte une tableau excel mais en plus évolué. 
Les `Dataframe` peuvent gérer beaucoup d’observations (environ des fichiers de 10 Mo). 

On peut représenter de `Dataframe` comme ceci (source xavierdupre.fr) : 
![Représentation d'un DF : source http://www.xavierdupre.fr/](images/df.png)

#### Series 

Une `Series` est similaire à un tableau ou une liste. Chaque valeur est associée à un index (par défaut les `0` à `N-1`).

In [37]:
import pandas as pd
s = pd.Series([2000, 2500, 500])
print(s)
s2 = {'Besançon': 2000, 'Busy': 1500, 'Fontain': 1500}
s2 = pd.Series(s2)
print(s2)
print(s2['Besançon'])
s3 = pd.Series([2000, 2500, 500], index = ['Besançon', 'Busy', 'Fontain'])
print(s3)

0    2000
1    2500
2     500
dtype: int64
Besançon    2000
Busy        1500
Fontain     1500
dtype: int64
2000
Besançon    2000
Busy        2500
Fontain      500
dtype: int64


L'exemple précédent montre que l'on peut assigner un index spécifique à la `Series` et qu'on peut accéder directement à ces valeurs via l'index. 
On peut aussi récupérer uniquement les valeurs ou les index de la `Series` avec les methodes `values` et `index`: 

In [38]:
print("valeur de s2 : ", s.values)
print(type(s.values))
print("Index de s2 : ", s.index)
print(type(s.index))

valeur de s2 :  [2000 2500  500]
<class 'numpy.ndarray'>
Index de s2 :  RangeIndex(start=0, stop=3, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


#### Dataframe

Pour créer un Dataframe, on utilise la méhode `DataFrame()` de `Pandas`. Pour créer un Dataframe, on peut utiliser un dictionnaire : 

In [39]:
d = {"ville" : ['Besançon', 'Busy', 'Fontain'], "Prix" : [2000, 1500, 1000], "cool" : [True, False, True]}
df = pd.DataFrame(d, index = d["ville"])
print(df)

             ville  Prix   cool
Besançon  Besançon  2000   True
Busy          Busy  1500  False
Fontain    Fontain  1000   True


Les éléments dans le dataframe ont aussi un index. Les valeur sont accessibles avec `values` et l’index avec `index`. Une nouveauté concerne ici les colonnes qui représente un second index : 

In [40]:
print(df.columns)

Index(['ville', 'Prix', 'cool'], dtype='object')


Il y a beaucoup d'autres façon de créer un Dataframe. Notamment à partir de différents objets: 
* une `Series`
* une liste de dictionnaire
* une liste de `Series`
* ...

Quelques exemples : 

In [41]:
s3 = pd.Series([2000, 2500, 500], index = ['Besançon', 'Busy', 'Fontain'])
df2 = pd.DataFrame(s3, columns=["Prix"])
print(df)

             ville  Prix   cool
Besançon  Besançon  2000   True
Busy          Busy  1500  False
Fontain    Fontain  1000   True


 Il est toujours possible de rajouter des colonnes dans un `Dataframe` grâce à la commande suivant : 

In [42]:
df["lat"] = np.zeros(3)
print(df)

             ville  Prix   cool  lat
Besançon  Besançon  2000   True  0.0
Busy          Busy  1500  False  0.0
Fontain    Fontain  1000   True  0.0


 
 #### Méthodes utiles de Pandas
 
 Il existe de nombreuses méthodes utilisables dans `Pandas` que vous serez amenés à utiliser : 
 
 * `shape` permet d'obtenir la dimension du Dataframe 
 * `loc`, extrait des éléments avec les noms de ceux-ci
 * `iloc`, extrait  à l'aide de l'indice de certains éléments
 * `rename`, renome des colonnes
 * `query`, applique une condition sur le Dataframe et 
 * `isnull()`, test afin de savoir si il y a des valeurs manquantes
 * `dropna()`, drop les `NaN`
 * `fillna()`, remplace les valeurs manquantes par d’autres valeurs
 * `drop()`, supprime une ou des valeurs 
 * `append()`, rajouter des lignes au dataframe
 * `drop_duplicates()`, permet de drop les doublons
 * `sort_values()`, tri le DataFrame

In [43]:
print(df.shape)

(3, 4)


In [44]:
print(df.iloc[1,0]) 
print(df.loc['Besançon','Prix'])
print(df.iloc[[0,1]])
print(df.loc[['Besançon','Fontain']])
print(df.iloc[0:1])
print(df.loc[:,"Prix"])
print(df["Prix"])

Busy
2000
             ville  Prix   cool  lat
Besançon  Besançon  2000   True  0.0
Busy          Busy  1500  False  0.0
             ville  Prix  cool  lat
Besançon  Besançon  2000  True  0.0
Fontain    Fontain  1000  True  0.0
             ville  Prix  cool  lat
Besançon  Besançon  2000  True  0.0
Besançon    2000
Busy        1500
Fontain     1000
Name: Prix, dtype: int64
Besançon    2000
Busy        1500
Fontain     1000
Name: Prix, dtype: int64


On peut jouer sur l'indice pour `iloc`. Il peut prendre différentes formes commet une valeur unique, une liste de valeurs ou un slice `[0:2]`. C'est identique pour les deux indices (ligne et colonne). 
Pour `loc`, les valeurs sont sensiblement pareils mais prennent les noms des lignes et/ou des colonnes.

On peut effectuer un test sur les valeurs du `DataFrame` afin d'affichier uniquement les prix supérieurs à 1500 : 

In [45]:
print(df.loc[df["Prix"]>1500])

             ville  Prix  cool  lat
Besançon  Besançon  2000  True  0.0


ou utiliser la méthode `query`: 

In [46]:
print(df.query("Prix>1500"))

             ville  Prix  cool  lat
Besançon  Besançon  2000  True  0.0


La méthode `append()` permet d'ajouter une ligne au DataFrame. Ajoutons une ligne avec une valeur manquante : 

In [47]:
l = pd.DataFrame([["École-Valentin", 3000, np.nan, False]],
                       columns = df.columns)
df = df.append(l)

Il est alors possible de : 
* savoir quelle valeur est manquante
* de supprimer les lignes qui possèdent des valeurs manquantes 
* de les gérer différement ...

In [48]:
print(df.isnull(),"\n")
print("Dataframe sans NaN \n", df.dropna(),"\n")
print("Delete la ligne pour laquelle l'index est 0 \n", df.drop(0),"\n")
print("Delete la ligne pour laquelle l'index est Besançon \n", df.drop('Besançon'),"\n")

label_ligne_0 = df.index[0]
print("Delete la 1ère ligne \n", df.drop(label_ligne_0),"\n")
print("Delete lignes 1 et 3 : \n", df.drop([df.index[0],df.index[2]]),"\n")

          ville   Prix   cool    lat
Besançon  False  False  False  False
Busy      False  False  False  False
Fontain   False  False  False  False
0         False  False   True  False 

Dataframe sans NaN 
              ville  Prix  cool  lat
Besançon  Besançon  2000   1.0  0.0
Busy          Busy  1500   0.0  0.0
Fontain    Fontain  1000   1.0  0.0 

Delete la ligne pour laquelle l'index est 0 
              ville  Prix  cool  lat
Besançon  Besançon  2000   1.0  0.0
Busy          Busy  1500   0.0  0.0
Fontain    Fontain  1000   1.0  0.0 

Delete la ligne pour laquelle l'index est Besançon 
                   ville  Prix  cool  lat
Busy               Busy  1500   0.0  0.0
Fontain         Fontain  1000   1.0  0.0
0        École-Valentin  3000   NaN  0.0 

Delete la 1ère ligne 
                   ville  Prix  cool  lat
Busy               Busy  1500   0.0  0.0
Fontain         Fontain  1000   1.0  0.0
0        École-Valentin  3000   NaN  0.0 

Delete lignes 1 et 3 : 
                ville 

Similairement, on peut supprimer des colonnes à l'aide de la même méthode :

In [49]:
print("Delete 1ère colonne :  \n", df.drop('ville', axis=1))

Delete 1ère colonne :  
           Prix  cool  lat
Besançon  2000   1.0  0.0
Busy      1500   0.0  0.0
Fontain   1000   1.0  0.0
0         3000   NaN  0.0


Il peut être utile de trier le tableau afin de voir si on a pas de valeurs abérantes :

In [50]:
df.sort_values(by="Prix", ascending=False)


Unnamed: 0,ville,Prix,cool,lat
0,École-Valentin,3000,,0.0
Besançon,Besançon,2000,1.0,0.0
Busy,Busy,1500,0.0,0.0
Fontain,Fontain,1000,1.0,0.0


#### Concaténation

Généralement, pour construire une base de données, on va aller dans plusieurs sources. Il va alors falloir les réunir ou encore, les concaténer. Il peut y avoir quelques soucis seon la disponibilité des données 
* un nombre de ligne différent
* un nombre de colonne différent
* un appariement enfonction d'une colonne 

Lorsque que l'on a deux dataframe avec le même nombre de ligne, ce n'est pas bien compliqué avec la méthode `concat()`: 



In [51]:
gdp = {"gdp" : [2600000,20000000,2600000], "pays" : ["France", "USA", "Italy"]}
cpi = {"cpi" : [0.5,0.7,1.8], "pays" : ["France", "USA", "Italy"]}
df1 = pd.DataFrame(gdp, index = gdp["pays"])
df2 = pd.DataFrame(cpi, index = cpi["pays"])
df = pd.concat([df1, df2], axis = 1)
df = df.drop("pays",axis = 1)



On peut aussi concaténer en-dessous : 

In [52]:
gdp = {"pays" : ["Germany"], "gdp" : [3000000] }
df3 = pd.DataFrame(gdp, index=gdp["pays"])
df = pd.concat([df,df3], axis = 0, sort=False)
print(df.drop("pays",  axis = 1))

              gdp  cpi
France    2600000  0.5
USA      20000000  0.7
Italy     2600000  1.8
Germany   3000000  NaN


#### Merge

Lorsque l'on a plus d'information, la méthode `concat` ne suffit pas. Chargeons le fichier `CDS.csv` comme un Dataframe afin d'illustrer ceci et séparons le en deux Dataframe distincts. 

In [53]:
CDS = pd.read_csv("data/CDS.csv", decimal=";")
print(CDS)
CDS_1 = CDS[["ID", "TIME", "CDS","FX"]]
CDS_1 = CDS_1[200:]
CDS_2 = CDS[["ID", "TIME", "SM","RESERVE"]]
CDS_2 = CDS_2[:2000]

            ID     TIME       CDS            FX       RESERVE            SM  \
0       BRAZIL  2003-01  1733.333  -0.002122902   0.024605373  -0.033266742   
1       BRAZIL  2003-02  1550.833   0.010608725  -0.000104981  -0.037897574   
2       BRAZIL  2003-03  1383.333  -0.058970473   0.094309413   0.137726228   
3       BRAZIL  2003-04   976.667  -0.138187133  -0.020148233   0.210473611   
4       BRAZIL  2003-05       945    0.02623382   0.051259455   0.024045242   
...        ...      ...       ...           ...           ...           ...   
2193  THAILAND  2015-09       168   0.014170733   -0.00140999  -0.051788376   
2194  THAILAND  2015-10   132.154  -0.021227626   0.017801769   0.053316171   
2195  THAILAND  2015-11   127.175   0.008200855  -0.014556534  -0.035438642   
2196  THAILAND  2015-12   134.796   0.005411793   0.005590694  -0.076495299   
2197  THAILAND  2016-01     153.3  -0.008509602   0.022285335   0.041199151   

          Mkt   Trsy           HY        Eq Prem   

La méthode `merge()` est une moyen performant pour rassembler les données. Elle nécessite de préciser la table de gauche et la table de droite. 

Par défaut, la fonction merge() réalise une jointure de type `inner` : toutes les lignes de la table de gauche qui trouvent une correspondance dans celle de droite, et toutes les colonnes seront dans le résultat :

In [54]:
print(pd.merge(left = CDS_1, right = CDS_2))
print(pd.merge(left = CDS_1, right = CDS_2, how = "left"))
print(pd.merge(left = CDS_1, right = CDS_2, how = "right"))
print(pd.merge(left = CDS_1, right = CDS_2, how = "outer"))

               ID     TIME      CDS            FX            SM       RESERVE
0        BULGARIA  2006-08     32.3  -0.006534198  -0.036077236  -0.014736322
1        BULGARIA  2006-09   30.958   0.015085451   0.004744333   0.027457783
2        BULGARIA  2006-10   20.526  -0.002835155   0.070304302   0.029129242
3        BULGARIA  2006-11   20.296  -0.038182185   0.055392157   0.080605005
4        BULGARIA  2006-12    17.23   0.002275106   0.043195541  -0.008095802
...           ...      ...      ...           ...           ...           ...
1795  SOUTHAFRICA  2012-04  156.439   0.030263158   0.007381947   -0.01853919
1796  SOUTHAFRICA  2012-05  197.365   0.040868455  -0.108304834  -0.014241211
1797  SOUTHAFRICA  2012-06      163   0.030674847   0.051158837   0.006972661
1798  SOUTHAFRICA  2012-07  131.294  -0.017857143   0.030473728  -0.000821959
1799  SOUTHAFRICA  2012-08  151.934   0.003636364  -0.007788623   0.010469899

[1800 rows x 6 columns]
            ID     TIME      CDS       