# Chapitre 2 - Les bases de Python / Python from scratch

Ce notebooks reprend les exemples de la dernière édition de l'ouvrage Python pour le data scientist publié en 2024 chez Dunod. Il s'agit d'un notebook d'accompagnement que vous pourrez réutiliser.

Ce chapitre consiste en un rappel des grands principes du langage Python.

### 2.1.2 Version de Python

Dans le cadre de ces notebooks (comme dans le cadre de l'ouvrage), nous utilisons Python 3 (en version 3.12).

Si vous désirez comprendre les différences entre les différentes versions, je vous invite à consulter ce site :

https://wiki.python.org/moin/Python2orPython3

In [3]:
import platform 
print(platform. python_version())

3.12.2


## 2.2 Utilisation de IPython

Comme nous utilisons des notebooks Jupyter, nous utilisons l'interpréteur IPython par défaut.

Celui-ci nous apporte de nombreux avantages :
    
    - Utilisation de la tabulation pour la complétion
    - Utilisation des clés magiques
    - Accès simplifié aux aides

### Accès aux aides

Vous pouvez accéder aux aides en utilisant la combinaison Shift + Tab mais aussi en utilisant :

In [4]:
sum?

[1;31mSignature:[0m [0msum[0m[1;33m([0m[0miterable[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [0mstart[0m[1;33m=[0m[1;36m0[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return the sum of a 'start' value (default: 0) plus an iterable of numbers

When the iterable is empty, return the start value.
This function is intended specifically for use with numeric values and may
reject non-numeric types.
[1;31mType:[0m      builtin_function_or_method

Et pour accéder au code source d'une fonction lorsqu'il est disponible :

In [5]:
sum??

[1;31mSignature:[0m [0msum[0m[1;33m([0m[0miterable[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [0mstart[0m[1;33m=[0m[1;36m0[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return the sum of a 'start' value (default: 0) plus an iterable of numbers

When the iterable is empty, return the start value.
This function is intended specifically for use with numeric values and may
reject non-numeric types.
[1;31mType:[0m      builtin_function_or_method

### Les clés magiques de IPython

IPython possède de nombreuses clés magiques, elles sont appelées dans un Notebook en utilisant le symbole %. Une clé magique avec un % s'applique à une ligne, une clé magique avec %% s'applique à toute une cellule.

Pour obtenir la liste des clés magiques, on peut utiliser :

In [6]:
%lsmagic

Available line magics:
%alias  %alias_magic  %autoawait  %autocall  %automagic  %autosave  %bookmark  %cd  %clear  %cls  %code_wrap  %colors  %conda  %config  %connect_info  %copy  %ddir  %debug  %dhist  %dirs  %doctest_mode  %echo  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %macro  %magic  %mamba  %matplotlib  %micromamba  %mkdir  %more  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %ren  %rep  %rerun  %reset  %reset_selective  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%cmd  %%code_wrap  %%debug  %%file  %%html  %%javascript  %%js  %%latex 

Voici quelques clés magiques utiles :

In [7]:
# Liste des objets chargés en mémoire
%whos

Variable   Type      Data/Info
------------------------------
platform   module    <module 'platform' from '<...>on-ds\\Lib\\platform.py'>
sys        module    <module 'sys' (built-in)>


In [8]:
# Timer pour mesurer le temps de traitement
%timeit 2**10

10.3 ns ± 0.379 ns per loop (mean ± std. dev. of 7 runs, 100,000,000 loops each)


## 2.3 Les bases du langage pour commencer à coder

### 2.3.1 Les principes

#### Typage des variables
On commence par définir l'opérateur d'allocation qui est le =

In [9]:
var1=1

Le typage étant automatique (duck typing), on définit le type en utilisant la valeur alouée :

In [10]:
var1=10
var2=3.5
var3="Python"
var4=True
print(type(var1),type(var2),type(var3),type(var4))

<class 'int'> <class 'float'> <class 'str'> <class 'bool'>


### 2.3.2 Un langage tout objet
En Python, tous ce que nous allons utiliser sont des objets issus de classes. Ainsi ces objets ont les attributs et les méthodes liées aux classes.

Ainsi pour une chaîne de caractères :

In [11]:
chaine1="Python"
# on utilise une méthode de la classe str :
print(chaine1.upper())

PYTHON


### 2.3.3 Les commentaires

En Python les commentaires sont indiqué par le signe #.

Ils peuvent être sur une ligne complète ou après le code

### 2.3.6 Les opérateurs logiques

Pour tester un type, on peut utiliser :

In [12]:
type(chaine1) is str

True

In [13]:
entier1=44

In [14]:
type(chaine1) is type(entier1)

False

## 2.4 Les structures en Python

Il existe plusieurs structures en Python : les tuples, les listes et les dictionnaires en sont les pricipales.

### 2.4.1 Les tuples

In [15]:
# on définit un tuple avec ()
tup1=(1, True, 7.5,9)

In [16]:
# on accède à un élément d'un tuple (et de n'importe quelle structure) avec []
tup1[2]

7.5

In [17]:
# les tuples possèdent peu de méthodes
tup1.count(9)

1

### 2.4.2 Les listes

Les listes sont définies avec des [] et peuvent être constitués de tous les types d'objets

In [18]:
list1=[3,5,6, True]

On accède à un élément d'une liste en utilisant []:

In [19]:
list1[0]

3

In [20]:
# On peut facilement accéder à plusieurs éléments de différentes façons
list1[0:2] == list1[:2]

True

In [21]:
# Extraire le dernier élément
list1[-1]

True

In [22]:
# Extraire les 3 derniers éléments
list1[-3:]

[5, 6, True]

Voici un exemple de listes avec des chaînes de caractères

La liste possède de nombreuses méthodes, ici on utilise une inversion des éléments.

In [23]:
liste_pays=["Chine","Inde","Etats-Unis","France","Espagne","Suisse"]
print(liste_pays[:3])
print(liste_pays[-3:])
liste_pays.reverse()
print(liste_pays)

['Chine', 'Inde', 'Etats-Unis']
['France', 'Espagne', 'Suisse']
['Suisse', 'Espagne', 'France', 'Etats-Unis', 'Inde', 'Chine']


Les *list comprehension* sont des générateurs de listes qui utilisent des conditions et des boucles.

Dans cet exemple, on va extraire le carré des éléments pairs de la list_init

In [24]:
list_init=[4,6,7,8]
list_comp=[val**2 for val in list_init if val % 2 == 0]
print(list_comp)

[16, 36, 64]


### 2.4.3 Les chaînes de caratères

On a trois façons équivalentes de définir des chaînes de caractères

In [25]:
chaine1="Python pour le data scientist"
chaine2='Python pour le data scientist'
chaine3="""Python pour le data scientist"""

Une chaîne de caractère est en fait une liste spécifique dans laquelle chaque élément est un caractère

In [26]:
print(chaine1[:6])
print(chaine1[-14:])
print(chaine1[15:20])

Python
data scientist
data 


On peut facilement passer d'une chaîne de caractères à une liste

In [27]:
# on sépare les éléments en utilisant l’espace
liste1=chaine1.split()
print(liste1)

['Python', 'pour', 'le', 'data', 'scientist']


In [28]:
# on joint les éléments avec l’espace
chaine1bis=" ".join(liste1)
print(chaine1bis)

Python pour le data scientist


## 2.4.4 Les dictionnaires

Les dictionnaires permettent de stocker des éléments en utilisant un système de clés.

In [29]:
dict1={"cle1":"valeur1", "cle2":"valeur2", "cle3":"valeur3"}

In [30]:
# on accède à un élément par sa clé
dict1["cle2"]

'valeur2'

In [31]:
# on peut afficher la liste des clés
dict1.keys()

dict_keys(['cle1', 'cle2', 'cle3'])

In [32]:
# on peut aussi afficher les pairs clé : valeur
dict1.items()

dict_items([('cle1', 'valeur1'), ('cle2', 'valeur2'), ('cle3', 'valeur3')])

In [33]:
# on crée une clé et a valeur associée :
dict1["cle4"]="valeur4"

In [34]:
# on peut supprimer cette clé
del dict1["cle4"]

In [35]:
# on peut aussi utiliser la fonction dict :
dict2=dict(cle1="valeur1",cle2="valeur2")

In [36]:
dict2["cle1"]

'valeur1'

## 2.5 Conditions / Boucles avec Python

### 2.5.1 Conditions
Les conditions sont simples à mettre en place en Python

In [37]:
# on définit a
a = True

In [38]:
# première condition
if a is True :
    print("c'est vrai")

c'est vrai


In [39]:
# on ajoute une alternative
if a is True :
    print("c'est vrai")
else :
    print("ce n'est pas vrai")

c'est vrai


In [40]:
# on ajoute un elif
if a is True :
    print("c'est vrai")
elif a is False :
    print("c'est faux")
else :
    print("ce n'est pas un booléen")

c'est vrai


#### Opérateurs de comparaison
On peut utiliser en Python == ou is et leur utilisation sera différente

In [41]:
# True est égal à 1
True == 1

True

In [42]:
# False est égal à 0
False == 0

True

In [43]:
# mais True n'est pas 1 (objet différent)
True is 1

  True is 1


False

In [44]:
# en comparaisons True est plus grand que False (1>0)
True > False

True

In [45]:
# pour des chaînes de caractères, l’ordre alphabétique prime
"Python" > "Java"

True

In [46]:
"Java"< "C"

False

### 2.5.2 Les boucles
#### La boucle for
La boucle *for* itère sur les éléments d'un objet. 

Avec une liste on a :

In [47]:
for elem in [1, 2]:
    print(elem)

1
2


La fonction range() permet de générer une suite d'entiers :

In [48]:
print(list(range(5)))
print(list(range(2,5)))
print(list(range(2,15,2)))

[0, 1, 2, 3, 4]
[2, 3, 4]
[2, 4, 6, 8, 10, 12, 14]


Pour générer une boucle sur des entiers de 0 à 10, on utilise :

In [49]:
for i in range(11) :
    print(i,end="--")

0--1--2--3--4--5--6--7--8--9--10--

Attention, la dernière valeur est toujours exclue !

La fonction *enumerate()* permet de générer un indice en plus de la valeur de l'élement :

In [50]:
for i, a in enumerate(liste_pays) :
    print(i, a)

0 Suisse
1 Espagne
2 France
3 Etats-Unis
4 Inde
5 Chine


La fonction *zip* permet de joindre deux listes et de les parcourir "en parallèle"

In [51]:
for jour, meteo in zip(["lundi","mardi"],["beau","mauvais"]) :
    print(" % s, il fera % s" %(jour.capitalize(), meteo))

 Lundi, il fera beau
 Mardi, il fera mauvais


On peut combiner *enumerate* et *zip* :

In [52]:
for i, (jour, meteo) in enumerate(zip(["lundi","mardi"],["beau","mauvais"])) :
    print(" % i : % s, il fera % s" %(i, jour.capitalize(), meteo))

  0 : Lundi, il fera beau
  1 : Mardi, il fera mauvais


#### La boucle While
Cette boucle a un fonctionnement classique en Python :

In [53]:
i=1
val_stop=50
while i<100 :
    i+=1
    if i>val_stop :
        break
print(i)

51


## 2.6 Les fonctions
Il est très simple de définir des fonctions en Python

In [54]:
def ma_fonc(a,b) :
    print(a+b)

In [62]:
# on a différentes approches pour appeler une fonction
ma_fonc(a=4, b=6)
ma_fonc(4,6)
ma_fonc(b=6, a=4)

10
10
10


### Les valeurs par défaut des paramètres
On peut définir des valeurs par défaut, ici on fixe b=6. Si b est renseigné dans l'appel, il prend la valeur renseignée, sinon il prend la valeur par défaut.

In [63]:
def ma_fonc_b(a, b=6) :
    print(a+b)

In [64]:
ma_fonc_b(2,5)
ma_fonc_b(2)

7
8


In [65]:
def ma_fonc2(a, b=6, c=5, d=10) :
    print(a+b+c+d)

In [66]:
ma_fonc2(2, c=3)
ma_fonc2(2, d=1)

21
14


Lorsqu'on a plusieurs paramètres dans un appel de fonction, plutôt que d'appeler séparément les éléments, on peut fournir une liste à la fonction. 

Dans ce cas on utilisera *list :

In [67]:
list_fonc=[3,5,6,8]
ma_fonc2(*list_fonc)

22


On peut aussi utiliser un dictionnaire et on utilise **dico :

In [68]:
dico_fonc={"a":5,"b":6,"c":7,"d":5}
ma_fonc2(**dico_fonc)

23


### L'utlisation de \*args et \*\*kwargs dans un appel de fonctions
Ceci va permettre d'avoir un nombre indéfini de paramètres dans l'appel de la fonctions.

\*args est associé à une liste et \*\*kwargs à un dictionnaire (c'est les \* qui comptent et non les noms des arguents)

In [69]:
def ma_fonc3(param_obligatoire,*args,**kwargs) :
    print("Argument obligatoire :", param_obligatoire)
    # si on a des arguments positionnés après les arguments obligatoires
    # on les affiche
    if args :
        for val in args :
            print("Argument dans args : ", val)
    # si on a des arguments du type arg1 =… situé après les arguments
    # obligatoires, on les affiche
    if kwargs :
        for key, val in kwargs.items() :
             print("Nom de l’argument et valeur dans kwargs", key, val,sep=": ")

In [70]:
ma_fonc3("DATA","Science","Python", option="mon_option")

Argument obligatoire : DATA
Argument dans args :  Science
Argument dans args :  Python
Nom de l’argument et valeur dans kwargs: option: mon_option


In [71]:
ma_fonc3("DATA", autre_option="mon_option")

Argument obligatoire : DATA
Nom de l’argument et valeur dans kwargs: autre_option: mon_option


Dans ce code, on a combiné les différentes options. On utilise souvent ce type
d’arguments lorsqu’on appelle des fonctions de manière imbriquée de manière à
éviter d’avoir à nommer tous les paramètres de toutes les fonctions appelées. Bien
entendu, c’est à l’utilisateur de bien nommer les paramètres dans la partie kwargs

### 2.6.3 Les docstrings
Les docstrings consistent en des descriptions des fonctions, des classes ou des modules que l'on définit en utilisant """ """ dans la ligne suivant la définition de la fonction / classe / module :

In [72]:
def ma_fonction(*args):
    """Cette fonction calcule la somme des paramètres"""
    if args:
        return sum(args)
    else:
        return None

In [73]:
help(ma_fonction)

Help on function ma_fonction in module __main__:

ma_fonction(*args)
    Cette fonction calcule la somme des paramètres



Pour une description des bonnes pratiques en terme d'utilisation des docstrings, je vous conseile la lecture de PEP 257 :


https://www.python.org/dev/peps/pep-0257/


### 2.6.4 Les retours multiples
Il est possible d'avoir plusieurs objets dans un return de fonctions. Dans ce cas ces différents éléments sont soit stockés dans un tuple, soit associé à différents objets.

In [74]:
def ma_fonc(a, b) :
    return a+b, a-b

In [75]:
tu1=ma_fonc(2,5)
print(tu1)
val1, val2=ma_fonc(2,5)
print(val1, val2)

(7, -3)
7 -3


### 2.6.5 Les fonctions lambdas
Il s'agit de fonctions anonymes qui s'écrivent en une seule ligne.

En voici deux exemples :

In [76]:
ma_chaine="Python pour le data scientist"
(lambda chaine : chaine.upper().split())(ma_chaine)

['PYTHON', 'POUR', 'LE', 'DATA', 'SCIENTIST']

In [77]:
ma_liste = [1, 6, 8, 3, 12]
nouvelle_liste = list(filter(lambda x: (x >= 6), ma_liste))
print(nouvelle_liste)

[6, 8, 12]


## 2.7 Les classes
### 2.7.1 Comment reconnaître une classe

On reconnaît une classe car, en principe, elle s'écrit avec des majuscule et sans séparateurs.

On aura : KMeans() est une classe

### 2.7.2 Définir une classe
On définit simplement des classes en Python

In [78]:
class MonImage:
    def __init__(self, resolution = 300, source = "./", taille= 500) :
        self.resolution = resolution
        self.source = source
        self.taille = taille

In [79]:
# on crée un objet de la classe qu'on a créé plus haut
image_1 = MonImage(source="../other/python-pour-le-data-scientist-dunod.jpeg",
                  taille=500)

En plus du constructeur \__init\__(), on va ajouter des méthodes :

In [80]:
class MonImage:
    def __init__(self, resolution = 300, source = "./", taille= 500) :
        self.resolution=resolution
        self.source=source
        self.taille=taille

    def affiche_caract(self):
        print("Résolution:", self.resolution)
        print("Taille:", self.taille)
        print("Source:", self.source)

    def agrandir_image(self, facteur) :
        self.taille*= facteur

In [81]:
# on applique une méthode sur notre objet
image_1 = MonImage(source="../other/python-pour-le-data-scientist-dunod.jpeg",
                  taille=500)
image_1.agrandir_image(2)
print(image_1.taille)

1000


Je vous conseille fortement d'approfondir la notion de classe, centrale dans la programmation orientée objet de Python. 

La notion d'héritage est extrêmement importante et vous servira dès que vous serez un développeur plus aguérri.

De nombreuses références sont disponibles sur le web et à la fin de l'ouvrage.

## 2.8 Les modules et les packages

On peut importer simplement des packages dans un notebook ou dans un script

In [82]:
import datetime

In [83]:
print(datetime.date.today())

2024-04-09


On donne souvent des noms courts aux packages :

In [84]:
import numpy as np

In [85]:
print(np.random.random(1))

[0.7130933]


On peut aussi importer une classe ou une fonction spécifiquement :

In [86]:
from pandas import DataFrame

La création de package et de module est simple en Python, référez-vous à la partie à ce sujet dans l'ouvrage ou à la documentation de Python ici :

https://docs.python.org/3/tutorial/modules.html

## 2.9 Aller plus loin

### 2.9.1 La gestion d'exceptions
Il est souvent nécessaire de gérer les erreurs qui peuvent être présentes dans un programme.

In [87]:
def rapport(x, y) :
    try:
        return x/y
    except ZeroDivisionError :
        print("Division par zéro")
        return None
    except TypeError :
        print("Le type entré ne correspond pas")
        return None

In [88]:
def rapport2(x, y) :
    try:
        resultat = x/y
    except ZeroDivisionError:
        print("Division par zéro")
    else:
        print("Le résultat est %.2f" %(resultat))
    finally:
        print("Le calcul est terminé")

In [89]:
rapport2(1,2)

Le résultat est 0.50
Le calcul est terminé


In [90]:
rapport2(1,0)

Division par zéro
Le calcul est terminé


Dans ce cas, l'erreur est affiché mais le programme execute quand même ce qui se trouve après finally

In [91]:
rapport2("&", 3)

Le calcul est terminé


TypeError: unsupported operand type(s) for /: 'str' and 'int'

### 2.9.2 Les expressions régulières
Python possède un module re qui permet de travailler sur des chaînes de caractères en utilisant des expressions réguières.

Ce code illustre un cas où l'on chercherait à tester la présence d'une adresse email :

In [93]:
import re
chaine = "info@stat4decision.com"
# on vérifie qu'il y a bien le signe @ et on vérifie que l'adresse se termine
# oar .fr ou .com
regexp = r"(^[a-z0-9._-]+@[a-z0-9._-]+\.[(com|fr)]+)"
if re.match(regexp, chaine) is not None :
    print("Vrai")
else:
    print("Faux")

Vrai


### 2.9.3 Les décorateurs
Il s'agit d'utiliser des fonctions de fonctions. Vous pouvez consulter l'ouvrage pour plus de détails.

In [94]:
def bonjour() :
    return "Bonjour !"

def bonjour_aurevoir(fonction) :
    print(fonction(), "Au revoir !", sep="\n")

bonjour_aurevoir(bonjour)

Bonjour !
Au revoir !


In [95]:
# on définit le décorateur - vérification du nom d’utilisateur
def test_utilisateur(fonction) :
    def verif_utilisateur(*args) :
        if args[0]=="Emmanuel" :
            fonction(*args)
        else :
            print("Mauvais utilisateur")
    return verif_utilisateur

In [96]:
# on définit un mauvais utilisateur avec le bon password
utilisateur="Paul"
password_emmanuel="Python"

In [97]:
# on définit la fonction affiche_mot_de_passe qui affiche le mot de
# passe que si l’utilisateur est Emmanuel en utilisant le décorateur
@test_utilisateur
def afficher_mot_de_passe(utilisateur) :
    print("Mon mot de passe est % s" %(password_emmanuel))

In [98]:
# on appelle la fonction décorée
afficher_mot_de_passe(utilisateur)

Mauvais utilisateur


In [99]:
# on change d’utilisateur
utilisateur="Emmanuel"
afficher_mot_de_passe(utilisateur)

Mon mot de passe est Python


Ce chapitre ainsi que ce notebook ne constitue qu'un avant-goût de toutes les possibilités de Python.

Dans la suite, nous allons nous intéresser plus précisément au outil pour le traitement de données de Python.

Si vous désirez approfondir votre pratique du langage avec notamment les héritages pour la programmation orientée objet, je vous invite à consulter le wiki de la Python Software Foundation :
https://wiki.python.org/moin/

Et les nombreuses ressources web (notamment https://stackoverflow.com/).

Par ailleurs, les IA actuelles sont de bons assistant pour vous aider à coder en Python.

De nombreuses autres ressources vous permettrons de compléter vos compétences en Python