# Chapitre 3 - Python et les données (NumPy et Pandas)
Les deux packages principaux pour manipuler des données sont NumPy et Pandas, nous allons ici détailler l'utilisation des trois structures de base de ces packages que sont les ndarray de NumPy et les Series et DataFrame de Pandas.


<tr><td><img src="https://numpy.org/images/logo.svg" style="width: 200px;"/></td><td><img src="https://pandas.pydata.org/pandas-docs/stable/_static/pandas.svg" style="width: 200px;"/></td></tr>

## 3.2 NumPy et ses ndarray

### 3.2.1 Les ndarray de NumPy
Ces structures sont des structures multidimensionnelles dans lequelles on va généralement avoir un seul type de données.

Un array à une dimension est un vecteur, un array à deux dimensions est une matrice.


On commence par importer NumPy

In [1]:
import numpy as np

### 3.2.2 Construction des ndarray

A partir d'une liste

In [2]:
array_de_liste=np.array([1,4,7,9])

à partir d'une suite d'entiers

In [3]:
array_range=np.arange(10)
print(array_range)

[0 1 2 3 4 5 6 7 8 9]


en découpant un intervalle

In [4]:
array_linspace=np.linspace(0,9,10)
print(array_linspace)

[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


en utilisant des fonctions génératrices d'arrays

In [5]:
array_ones=np.ones(4)
print(array_ones)

[1. 1. 1. 1.]


### 3.2.3 Les types de données dans les ndarrays
On peut fixer le type des ndarrays en utilisant le paramètre __dtype__.

Le dtype peut être un des types de base mais aussi d'autres types comme np.complex128 si nécessaire.

In [6]:
arr1=np.array([1,4,7,9], dtype=int)

### 3.2.4 Les propriétés d'un ndarray

In [7]:
# on génère un array de nombres aléatoires tirés d'une 
# loi normale centrée réduite
arr_norm=np.random.randn(100000)

On peut donc extraite des informations sur notre array, ce sont ses propriétés

In [8]:
print(arr_norm.shape, arr_norm.dtype, arr_norm.ndim, arr_norm.size,
      arr_norm.itemsize, sep=" - ")

(100000,) - float64 - 1 - 100000 - 8


### 3.2.5 Accéder aux éléments d'un array

Pour passer à deux dimensions, on utilise :

In [9]:
arr_mult=np.arange(100).reshape(20,5)
# on affiche la forme d'une sous-matrice
arr_mult[:,[0,4]].shape

(20, 2)

In [10]:
# on peut extraite plusieurs lignes
list_ind=[2,5,7,9,14,18]
arr_mult[list_ind, :].shape

(6, 5)

### 3.2.6 La manipulation des arrays avec NumPy
Les opérations sur les arrays sont des opérations terme à terme.

La notion de broadcasting permet d'appliquer des opérations entre des arrays de tailles différentes.

In [11]:
arr1=np.array([1,4,7,9])
arr2=np.ones(3)
# on ne peut pas faire la somme de ces arrays car ils n'ont pas de dimensions communes
try:
    arr1+arr2
except Exception as e: 
    print("Erreur:",e)
    

Erreur: operands could not be broadcast together with shapes (4,) (3,) 


In [12]:
arr3=np.ones((3,4))
# par contre, on peut faire cette somme
arr1+arr3

array([[ 2.,  5.,  8., 10.],
       [ 2.,  5.,  8., 10.],
       [ 2.,  5.,  8., 10.]])

#### Cas d'application du broadcasting sur une image

On génère un arrau équivalent à une image de 1000 par 2000 pixels :

In [13]:
image=np.random.randint(0,255,(1000,2000,3))
image.shape

(1000, 2000, 3)

On génère un array qui va nous permettre de transformer tous les pixels de notre image.

In [14]:
transf = np.array([100, 255, 34])
transf.shape

(3,)

On peut appliquer la transformation en divisant la valeur de la couleur de chaque pixel par notre vecteur de transformation

In [15]:
new_image = image/transf
new_image.shape

(1000, 2000, 3)

#### Manipulation d’arrays
On travaille sur une nouvelle structure à 3 dimensions.

In [16]:
array_image=np.random.randint(1,255,(500,1000,3))
print(array_image.dtype, array_image.shape)

int32 (500, 1000, 3)


On peut extraire un rectangle à partir de notre image (100 premiers pixels horizontalement et 200 derniers pixels verticalement)

In [17]:
array_image_rect=array_image[:100,-200:]
array_image_rect.shape

(100, 200, 3)

On peut passer notre image au format 2 dimensions (on empile les pixels). Le -1 est automatiquement remplacé par sa valeur par NumPy (500000)

In [18]:
array_image_empile = array_image.reshape(-1,3)
array_image_empile.shape

(500000, 3)

On peut ausi changer la forme d'un array en utilisant .shape :

In [19]:
array_vec=np.arange(10)
array_vec.shape=(5,2)
array_vec

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

#### Les fonctions universelles de NumPy
On va comparer trois approches pour calculer une somme sur les éléments d'un array

- 1ère approche avec Python

In [20]:
%%timeit
somme=0
for elem in arr_mult :
    somme+= elem

11.9 µs ± 1.1 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


- 2ème approche avec les fonctions universelles de Python

In [21]:
%timeit sum(arr_mult)

13.1 µs ± 621 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


- 3ème approche avec les fonctions universelles de NumPy

In [22]:
%timeit np.sum(arr_mult)

3.23 µs ± 458 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


#### Les fonctions de génération de nombres aléatoires
NumPy possède un module spécifique pour ce type de fonctions, il s'agit de random.

Pour générer des nombres aléatoires issus d'une loi normale centrée réduite, on utilise :

In [23]:
np.random.randn(4)

array([ 0.00547969,  0.74077916, -0.61314554,  0.44633599])

Pour générer des nombres aléatoires entre 0 et 1 issus d'une loi uniforme, on utilise :

In [24]:
np.random.random(size=(2,2))

array([[0.27002299, 0.1304801 ],
       [0.5017343 , 0.43558317]])

Pour générer des entiers entre 0 et 4, on utilise :

In [25]:
np.random.randint(0,5,size=10)

array([4, 0, 4, 3, 1, 0, 4, 1, 1, 0])

#### Fixer la graine (seed)
Lorsqu'on veut pouvoir reproduire une analyse, on peut fixer la graine qui permet de générer les nombres pseudo-aléatoires.

In [26]:
# on crée un objet avec une graine fixée
rand_gen=np.random.RandomState(seed=12345)

In [27]:
# on crée un autre objet avec une graine fixée
rand_gen2=np.random.RandomState(seed=12345)

In [28]:
print(rand_gen.randn(2))
print(rand_gen2.randn(2))
rand_gen.randn(2)==rand_gen2.randn(2)

[-0.20470766  0.47894334]
[-0.20470766  0.47894334]


array([ True,  True])

### 3.2.7 Copies et vues d'array
Dans le cas classique, on fait référence au même objet (il s'agit d'un pointeur)

In [29]:
a=np.arange(10)
b=a
b[3]=33
print(a[3])

33


In [30]:
b.shape = (2,5)
a.shape

(2, 5)

Si on crée une vue, on a :

In [31]:
a=np.arange(10)
b=a.view()
b[3]=33
print(a[3])

33


In [32]:
b.shape = (2,5)
a.shape

(10,)

Si on crée une copie, on a :

In [33]:
a=np.arange(10)
b=a.copy()
b[1]=33
print(a[1])

1


In [34]:
b.shape = (5,2)
a.shape

(10,)

### Les arrays structurés
Il s'agit d'un type d'array moins utilisé mais qui permet d'avoir plusieurs types dans le même array

In [35]:
array_struct = np.array([('Client A', 900, 'Paris'),
                         ('Client B', 1200, 'Lyon')],
                        dtype=[('Clients', 'U10'),
                               ('CA', 'int'), 
                               ('Ville', 'U10')])
array_struct

array([('Client A',  900, 'Paris'), ('Client B', 1200, 'Lyon')],
      dtype=[('Clients', '<U10'), ('CA', '<i4'), ('Ville', '<U10')])

In [36]:
array_struct['Clients']

array(['Client A', 'Client B'], dtype='<U10')

In [37]:
array_struct['CA'][0]

900

### Exportation et importation d'arrays
pickle permet de sauver n'importe quel type d'objet Python mais NumPy a ses propres approches pour cela.

In [38]:
# on construit un array
array_grand=np.random.random((100000,100)) 

In [39]:
# on exporte avec save au format .npy
%time np.save("grand_array.npy", array_grand)

CPU times: total: 0 ns
Wall time: 78.5 ms


In [40]:
# on exporte en texte avec savetxt
%time np.savetxt("grand_array.txt", array_grand)

CPU times: total: 1.59 s
Wall time: 9.3 s


In [41]:
import os

In [42]:
print("Taille du fichier .npy :",os.stat("grand_array.npy").st_size)

Taille du fichier .npy : 80000128


In [43]:
print("Taille du fichier .txt :", os.stat("grand_array.txt").st_size)

Taille du fichier .txt : 250100000


In [44]:
# on supprime l'array
del array_grand

In [45]:
# on recharge array_grand à partir du fichier .npy
%time array_grand=np.load("grand_array.npy")

CPU times: total: 0 ns
Wall time: 40.2 ms


In [46]:
del array_grand

In [47]:
# on recharge array_grand à partir du fichier .txt
%time array_grand=np.loadtxt("grand_array.txt")

CPU times: total: 1.98 s
Wall time: 4.5 s


## 3.3 Les objets de Pandas

### 3.3.1 Les objets Series de Pandas
La première structure de Pandas est l'objet Series.

In [48]:
from pandas import Series

On peut créer une Series à partir d'une liste avec des index

In [49]:
ma_serie = Series([8,70,320, 1200],index=["Suisse","France","USA","Chine"])
ma_serie

Suisse       8
France      70
USA        320
Chine     1200
dtype: int64

On peut créer un objet Series à partir d'un dictionnaire

In [50]:
ma_serie2= Series({"Suisse" :8,"France" :70,"USA" :320,"Chine" :1200})
ma_serie2

Suisse       8
France      70
USA        320
Chine     1200
dtype: int64

On peut créer un objet Series à partir d'une fonction de NumPy

In [51]:
ma_serie3= Series(np.random.randn(5), index=["A","B","C","D","E"])
ma_serie3

A   -0.735650
B    0.962618
C    2.458069
D    0.480420
E    1.296680
dtype: float64

#### Extraire des éléments d'un objet Series
On peut extraire des éléments directement à partir de l'objet Series

In [52]:
ma_serie.iloc[:3] # équivalent à ma_serie[:3]

Suisse      8
France     70
USA       320
dtype: int64

on peut extraire des éléments par leur index

In [53]:
ma_serie[["Suisse","France","USA"]]

Suisse      8
France     70
USA       320
dtype: int64

on peut appliquer des conditions simples

In [54]:
ma_serie[ma_serie>50]

France      70
USA        320
Chine     1200
dtype: int64

et des conditions plus complexes avec les opérateurs | et &

In [55]:
ma_serie[(ma_serie>500)|(ma_serie<50)]

Suisse       8
Chine     1200
dtype: int64

#### Calculs sur les objets Series
On peut utiliser l'opérateur + pour faire une somme

In [56]:
ma_serie3= Series(np.random.randn(5),index=["A","B","C","D","E"])
ma_serie4=Series(np.random.randn(4), index=["A","B","C","F"])
ma_serie3+ma_serie4

A   -2.533682
B    0.391171
C   -0.298192
D         NaN
E         NaN
F         NaN
dtype: float64

Si on veut faire en sorte de ne pas avoir de données manquantes, on utilise :

In [57]:
ma_serie3.add(ma_serie4, fill_value=0)

A   -2.533682
B    0.391171
C   -0.298192
D   -1.621270
E    0.953718
F   -0.172373
dtype: float64

### 3.3.2 Les objets DataFrame de Pandas
Il s'agit de la structure principale de Pandas

In [58]:
import pandas as pd

On peut créer un DataFrame à partir d'une liste :

In [59]:
frame_list=pd.DataFrame([[2,4,6,7],[3,5,5,9]])
frame_list

Unnamed: 0,0,1,2,3
0,2,4,6,7
1,3,5,5,9


On peut construire un DataFrame à partir d'un dictionnaire :

In [60]:
dico1={"RS" :["Facebook","Twitter","Instagram","Linkedin","Snapchat"],
       "Budget" :[100,50,20,100,50],"Audience" :[1000,300,400,50,200]}
frame_dico=pd.DataFrame(dico1)
frame_dico

Unnamed: 0,RS,Budget,Audience
0,Facebook,100,1000
1,Twitter,50,300
2,Instagram,20,400
3,Linkedin,100,50
4,Snapchat,50,200


On peut construire un DataFrame à partir d'un array :

In [61]:
frame_mult=pd.DataFrame(arr_mult[:5,:],columns=["A","B","C","D","E"],
                        index=["Obs_" + str(i+1) for i in range(1,6)])
frame_mult

Unnamed: 0,A,B,C,D,E
Obs_2,0,1,2,3,4
Obs_3,5,6,7,8,9
Obs_4,10,11,12,13,14
Obs_5,15,16,17,18,19
Obs_6,20,21,22,23,24


On peut extraire une colonne avec :

In [62]:
frame_mult["A"]

Obs_2     0
Obs_3     5
Obs_4    10
Obs_5    15
Obs_6    20
Name: A, dtype: int32

On peut construire de nouvelles colonnes facilement

In [63]:
frame_mult["F"]=frame_mult["A"]*2

In [64]:
# on supprime la colonne
del frame_mult["F"]

In [65]:
# on peut insérer une colonne à un point précis dans le DataFrame
frame_mult.insert(0,"F",frame_mult["A"]*2)

In [66]:
# on supprime la colonne
del frame_mult["F"]

#### Accéder et manipuler les lignes du DataFrame
On extrait une ligne par son index en utilisant :

In [67]:
frame_mult.loc["Obs_4"]

A    10
B    11
C    12
D    13
E    14
Name: Obs_4, dtype: int32

On extrait une ligne par sa position en utilisant

In [68]:
frame_mult.iloc[3]

A    15
B    16
C    17
D    18
E    19
Name: Obs_5, dtype: int32

On extrait des valeurs à partir de listes :

In [69]:
frame_mult.loc[["Obs_2","Obs_3"],["A","B"]]

Unnamed: 0,A,B
Obs_2,0,1
Obs_3,5,6


On peut extraire une sous-partie du DataFrame

In [70]:
frame_mult.iloc[1:3,:2]

Unnamed: 0,A,B
Obs_3,5,6
Obs_4,10,11


#### Réindexation d'un DataFrame

In [71]:
frame_vec =pd.DataFrame(array_vec,index=["a","b","c","d","e"],columns=["A","B"])

In [72]:
frame_vec.reindex(index=["e","c","d"], columns=["B","A"])

Unnamed: 0,B,A
e,9,8
c,5,4
d,7,6


On peut réindexer le DataFrame en utilisant des fonctions lambda :

In [73]:
frame_vec2=frame_vec.rename(mapper=lambda x : "Obs. "+x.upper(),axis=0)
frame_vec2=frame_vec2.rename(mapper=lambda x : "Var. "+x.upper(), axis=1)

In [74]:
frame_vec2

Unnamed: 0,Var. A,Var. B
Obs. A,0,1
Obs. B,2,3
Obs. C,4,5
Obs. D,6,7
Obs. E,8,9


On peut aussi renommer les colonnes et les index avec des dictionnaires

In [75]:
frame_vec.rename(columns={"A" :"nouveau_A"}, index={"a" :"nouveau_a"})

Unnamed: 0,nouveau_A,B
nouveau_a,0,1
b,2,3
c,4,5
d,6,7
e,8,9


### 3.3.3 Copie et vue d'objets de Pandas
Les objets DataFrame de Pandas sont liés aux objets qui ont été utilisé pour les définir :

In [76]:
arr1=np.arange(6).reshape(3,2) #on crée un array
frame1=pd.DataFrame(arr1) # on crée un DataFrame à partir de l’array
frame1.iloc[1,1]=22 # on modifie une valeur du DataFrame

In [77]:
# l'array générateur est modifié
arr1

array([[ 0,  1],
       [ 2, 22],
       [ 4,  5]])

#### Accélérer vos calculs avec Pandas en utilisant PyArrow

Depuis la version 2.0, il est possible d’utiliser PyArrow plutôt que NumPy
comme outil de stockage des colonnes d’un DataFrame. Cette approche comporte
un avantage énorme, le temps de calcul nécessaire.

On peut l'utiliser pour charger des fichiers plus rapidement :

In [78]:
df = pd.read_csv("../data/CAC40.csv", engine='pyarrow')

On peut aussi définir des types avec cette fonctionnalité :

In [81]:
ser = pd.Series([1.3, 2.2, None], dtype="float32[pyarrow]")

Le développement de l'utilisation de Arrow en tant que backend pour Pandas avance rapidement afin d'accélérer les temps de calcul et de se rapprocher d'un package comme polars.

Nous allons dans le prochain Notebook, manipuler des données grâce à Python, NumPy et Pandas.