This research focused on the case of customer payment defaults (credits) in Taiwan and compared the predictive accuracy of default probability among data mining methods.

To run the web app on local

pip install gradio


Projet Machine Learning

3IA - 2022/2023

🎯 Objectives :
L'objectif de ce projet est de:

  • Comprendre les données en faisant des graphiques, utilisant pandas,...
  • Faire la Préparation des données nettoyage, encodage, normalisation et etc ...
  • Faire l'étape de feautres selection.
  • Tester 8 algorithmes de classification (K_nearst neighbors, Arbre de décision, Régression Logistique, Naive Bayes ,SVM, Random Forest, Xgboost,neural network) pour la résolution d'un problème de classification binaire(deux classes)
  • Régler le maximum de paramètres pour chaque algorithme
  • Tracer la matrice de confusion et afficher classification_report de chaque algorithme
  • Choisir le meilleur algorithme en utilisant classification_report
  • Tracer les courbes ROC et calculer Auc pour les algorithmes.

Base de données Predicting Credit Card Defaul

Cette recherche a porté sur le cas des défauts de paiement des clients(les crédits) à Taïwan et compare l'exactitude prédictive de la probabilité de défaut parmi des méthodes d'exploration de données.

vous pouvez consulter le fichier sur ce lien: (click ici)

Cette recherche a utilisé une variable binaire, le paiement par défaut X24: Paiement par défaut (1=clients crédibles, 0=clients non crédibles) (Oui = 1, Non =0), comme variable de réponse.

Cette étude a passé en revue la littérature et a utilisé les 23 variables suivantes comme variables explicatives :

X1 : Montant du crédit accordé (dollar NT) : il comprend à la fois le crédit à la consommation individuel et son crédit (supplémentaire) familial.
X2 : Sexe (1 = masculin ; 2 = féminin).
X3 : Éducation (1 = études supérieures ; 2 = université ; 3 = lycée ; 4 = autres).
X4 : Etat civil (1 = marié ; 2 = célibataire ; 3 = autres).
X5 : Âge (année).
X6 - X11 : Historique des paiements passés. Nous avons suivi les derniers relevés de paiements mensuels (d'avril à septembre 2005) comme suit : X6 = le statut de remboursement en septembre 2005 ; X7 = l'état du remboursement en août 2005 ; . . .;X11 = l'état de remboursement en avril 2005. L'échelle de mesure de l'état de remboursement est : -1 = payer en bonne et due forme ; 1 = retard de paiement d'un mois ; 2 = retard de paiement de deux mois ; . . .; 8 = retard de paiement de huit mois ; 9 = retard de paiement de neuf mois et plus.
X12-X17 : Montant du relevé de facture (dollar NT). X12 = montant du relevé de facture en septembre 2005 ; X13 = montant du relevé de facture en août 2005 ; . . .; X17 = montant du relevé de facture en avril 2005.
X18-X23 : Montant du paiement précédent (dollar NT). X18 = montant payé en septembre 2005 ; X19 = montant payé en août 2005 ; . . .;X23 = montant payé en avril 2005.

on peut catégoriser les clients entre defaulters (qui ont des crédits)"y=1" et non defaulters "y=0"

Data understanding

#!pip install imblearn
#!pip install -U imbalanced-learn
#!pip install optuna
#!pip install scikit-optimize
# Chargement des bibliothèques
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import optuna
from sklearn.preprocessing import RobustScaler
import warnings
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

Importer l'ensemble de données : default_of_credit_card_clients.xls

Question : Créer une variable data à qui vous affectez la base de données


data = pd.read_excel('default_of_credit_card_clients.xls')
Unnamed: 0 X1 X2 X3 X4 X5 X6 X7 X8 X9 ... X15 X16 X17 X18 X19 X20 X21 X22 X23 Y
1 1 20000 2 2 1 24 2 2 -1 -1 ... 0 0 0 0 689 0 0 0 0 1
2 2 120000 2 2 2 26 -1 2 0 0 ... 3272 3455 3261 0 1000 1000 1000 0 2000 1
3 3 90000 2 2 2 34 0 0 0 0 ... 14331 14948 15549 1518 1500 1000 1000 1000 5000 0
4 4 50000 2 2 1 37 0 0 0 0 ... 28314 28959 29547 2000 2019 1200 1100 1069 1000 0

5 rows × 25 columns

Question : Quelle est la dimension de data?

(30001, 25)

Question : En utilisant la méthode head (resp la méthode tail ) afiicher les trois premières lignes de data(resp les trois dérnières lignes de data)

Unnamed: 0 X1 X2 X3 X4 X5 X6 X7 X8 X9 ... X15 X16 X17 X18 X19 X20 X21 X22 X23 Y
1 1 20000 2 2 1 24 2 2 -1 -1 ... 0 0 0 0 689 0 0 0 0 1
2 2 120000 2 2 2 26 -1 2 0 0 ... 3272 3455 3261 0 1000 1000 1000 0 2000 1

3 rows × 25 columns

Unnamed: 0 X1 X2 X3 X4 X5 X6 X7 X8 X9 ... X15 X16 X17 X18 X19 X20 X21 X22 X23 Y
29998 29998 30000 1 2 2 37 4 3 2 -1 ... 20878 20582 19357 0 0 22000 4200 2000 3100 1
29999 29999 80000 1 3 1 41 1 -1 0 0 ... 52774 11855 48944 85900 3409 1178 1926 52964 1804 1
30000 30000 50000 1 2 1 46 0 0 0 0 ... 36535 32428 15313 2078 1800 1430 1000 1000 1000 1

3 rows × 25 columns

Question : Dans un seul fichier afficher les statistiques nécessaires pour data

       Unnamed: 0     X1     X2     X3     X4     X5     X6     X7     X8  \
count       30001  30001  30001  30001  30001  30001  30001  30001  30001   
unique      30001     82      3      8      5     57     12     12     12   
top            ID  50000      2      2      2     29      0      0      0   
freq            1   3365  18112  14030  15964   1605  14737  15730  15764   

           X9  ...    X15    X16    X17    X18    X19    X20    X21    X22  \
count   30001  ...  30001  30001  30001  30001  30001  30001  30001  30001   
unique     12  ...  21549  21011  20605   7944   7900   7519   6938   6898   
top         0  ...      0      0      0      0      0      0      0      0   
freq    16455  ...   3195   3506   4020   5249   5396   5968   6408   6703   

          X23      Y  
count   30001  30001  
unique   6940      3  
top         0      0  
freq     7173  23364  

[4 rows x 25 columns]

Question : Quelle est la nouvelle dimension de data?


data = data.set_axis(data.iloc[0], axis=1)
data = data[1:]
data = data.drop(axis=1, columns='ID')
data['Y'] = data['default payment next month'].astype('category')
data = data.drop(axis=1, columns='default payment next month')
data = data.rename(columns={'PAY_0': 'PAY_1'}) # wrong column name PAY_0 setted to PAY_1
pd.options.display.max_columns = None

1 20000 2 2 1 24 2 2 -1 -1 -2 -2 3913 3102 689 0 0 0 0 689 0 0 0 0 1
2 120000 2 2 2 26 -1 2 0 0 0 2 2682 1725 2682 3272 3455 3261 0 1000 1000 1000 0 2000 1
3 90000 2 2 2 34 0 0 0 0 0 0 29239 14027 13559 14331 14948 15549 1518 1500 1000 1000 1000 5000 0
data = data.astype(int)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 1 to 30000
Data columns (total 24 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   LIMIT_BAL  30000 non-null  int32
 1   SEX        30000 non-null  int32
 2   EDUCATION  30000 non-null  int32
 3   MARRIAGE   30000 non-null  int32
 4   AGE        30000 non-null  int32
 5   PAY_1      30000 non-null  int32
 6   PAY_2      30000 non-null  int32
 7   PAY_3      30000 non-null  int32
 8   PAY_4      30000 non-null  int32
 9   PAY_5      30000 non-null  int32
 10  PAY_6      30000 non-null  int32
 11  BILL_AMT1  30000 non-null  int32
 12  BILL_AMT2  30000 non-null  int32
 13  BILL_AMT3  30000 non-null  int32
 14  BILL_AMT4  30000 non-null  int32
 15  BILL_AMT5  30000 non-null  int32
 16  BILL_AMT6  30000 non-null  int32
 17  PAY_AMT1   30000 non-null  int32
 18  PAY_AMT2   30000 non-null  int32
 19  PAY_AMT3   30000 non-null  int32
 20  PAY_AMT4   30000 non-null  int32
 21  PAY_AMT5   30000 non-null  int32
 22  PAY_AMT6   30000 non-null  int32
 23  Y          30000 non-null  int32
dtypes: int32(24)
memory usage: 2.7 MB
1 20000 2 2 1 24 2 2 -1 -1 -2 -2 3913 3102 689 0 0 0 0 689 0 0 0 0 1
2 120000 2 2 2 26 -1 2 0 0 0 2 2682 1725 2682 3272 3455 3261 0 1000 1000 1000 0 2000 1
3 90000 2 2 2 34 0 0 0 0 0 0 29239 14027 13559 14331 14948 15549 1518 1500 1000 1000 1000 5000 0
4 50000 2 2 1 37 0 0 0 0 0 0 46990 48233 49291 28314 28959 29547 2000 2019 1200 1100 1069 1000 0
5 50000 1 2 1 57 -1 0 -1 0 0 0 8617 5670 35835 20940 19146 19131 2000 36681 10000 9000 689 679 0

Question: Utiliser la methode .nunique () pour compter le nombre de valeurs uniques qui se produisent dans une base de données ou dans une colonne

LIMIT_BAL       81
SEX              2
EDUCATION        7
MARRIAGE         4
AGE             56
PAY_1           11
PAY_2           11
PAY_3           11
PAY_4           11
PAY_5           10
PAY_6           10
BILL_AMT1    22723
BILL_AMT2    22346
BILL_AMT3    22026
BILL_AMT4    21548
BILL_AMT5    21010
BILL_AMT6    20604
PAY_AMT1      7943
PAY_AMT2      7899
PAY_AMT3      7518
PAY_AMT4      6937
PAY_AMT5      6897
PAY_AMT6      6939
Y                2
dtype: int64

Question: Obtenez la corrélation de "default payment next month" avec d'autres variables:

1        1
2        1
3        0
4        0
5        0
29996    0
29997    0
29998    1
29999    1
30000    1
Name: Y, Length: 30000, dtype: int32
SEX          0
AGE          0
PAY_1        0
PAY_2        0
PAY_3        0
PAY_4        0
PAY_5        0
PAY_6        0
BILL_AMT1    0
BILL_AMT2    0
BILL_AMT3    0
BILL_AMT4    0
BILL_AMT5    0
BILL_AMT6    0
PAY_AMT1     0
PAY_AMT2     0
PAY_AMT3     0
PAY_AMT4     0
PAY_AMT5     0
PAY_AMT6     0
Y            0
dtype: int64
#Pour avoir une idée sur la correlation entre la variable suvived et les autres variables
import seaborn as sns
sns.heatmap(data.corr()[['Y']],cmap="RdBu_r",center=0.0, annot=True);


1 20000 2 2 1 24 2 2 -1 -1 -2 -2 3913 3102 689 0 0 0 0 689 0 0 0 0 1
2 120000 2 2 2 26 -1 2 0 0 0 2 2682 1725 2682 3272 3455 3261 0 1000 1000 1000 0 2000 1
3 90000 2 2 2 34 0 0 0 0 0 0 29239 14027 13559 14331 14948 15549 1518 1500 1000 1000 1000 5000 0
4 50000 2 2 1 37 0 0 0 0 0 0 46990 48233 49291 28314 28959 29547 2000 2019 1200 1100 1069 1000 0
5 50000 1 2 1 57 -1 0 -1 0 0 0 8617 5670 35835 20940 19146 19131 2000 36681 10000 9000 689 679 0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
29996 220000 1 3 1 39 0 0 0 0 0 0 188948 192815 208365 88004 31237 15980 8500 20000 5003 3047 5000 1000 0
29997 150000 1 3 2 43 -1 -1 -1 -1 0 0 1683 1828 3502 8979 5190 0 1837 3526 8998 129 0 0 0
29998 30000 1 2 2 37 4 3 2 -1 0 0 3565 3356 2758 20878 20582 19357 0 0 22000 4200 2000 3100 1
29999 80000 1 3 1 41 1 -1 0 0 0 -1 -1645 78379 76304 52774 11855 48944 85900 3409 1178 1926 52964 1804 1
30000 50000 1 2 1 46 0 0 0 0 0 0 47929 48905 49764 36535 32428 15313 2078 1800 1430 1000 1000 1000 1

30000 rows × 24 columns

(30000, 24)

Question: Faire la comparaison des distributions avec un boxplot par rapport a la variable cible 'default payment next month'

dataBoxPlot=data.drop("Y", axis=1);

# Déterminer la taille de la grille de subplots
nrows = 4
ncols = 6

# Créer la grille de subplots
fig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(20,10))
axes = axes.flatten()

# Boucler sur les colonnes du dataframe pour tracer les boxplots
for i, column in enumerate(dataBoxPlot.columns):
    sns.boxplot(x=data['Y'], y=dataBoxPlot[column], ax=axes[i])
# Ajuster l'espacement entre les subplots

# Afficher la figure


Plots Supplémentaires

# Définir le style de Seaborn

# Créer la grille de sous-graphiques
fig, axs = plt.subplots(nrows=4, ncols=6, figsize=(18, 12))

# Ajuster l'espacement entre les sous-graphiques
plt.subplots_adjust(wspace=0.4, hspace=0.4)

# Tracer les boîtes à moustaches sur chaque sous-graphique
for i, col in enumerate(data.columns):
    sns.boxplot(x=data[col], ax=axs[i//6, i%6])
    axs[i//6, i%6].set_title(col, fontsize=12)
    axs[i//6, i%6].set_xlabel('')
    axs[i//6, i%6].set_ylabel('')

# Ajouter un titre global à la figure
fig.suptitle('Distributions des features', fontsize=16)

# Ajouter des étiquettes d'axe
for ax in axs.flat:

for ax in axs.flat:

# Afficher la figure


Distribution selon l'âge, le niveau d'éducation et l'éatat civil

# Create a figure instance, and the subplots
fig = plt.figure(figsize=(14,14))
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,3)

sns.countplot(x="SEX", hue='Y', 
              data=data,ax=ax1,saturation=1).set(title='Distribution selon le genre',xticklabels=['Male','Female'])
              data=data,ax=ax2,saturation=1).set(title="Distribution selon le niveau d'éducation",
              data=data,ax=ax3,saturation=1).set(title="Distribution selon l'état civil",
[Text(0.5, 1.0, "Distribution selon l'état civil"),
 [Text(0, 0, 'unknown'),
  Text(1, 0, 'married'),
  Text(2, 0, 'single'),
  Text(3, 0, 'others')]]


Historique de paiment

# Historique de paiement
fig = plt.figure(figsize=(14,14))
ax1 = fig.add_subplot(3,2,1)
ax2 = fig.add_subplot(3,2,2)
ax3 = fig.add_subplot(3,2,3)
ax4 = fig.add_subplot(3,2,4)
ax5 = fig.add_subplot(3,2,5)
ax6 = fig.add_subplot(3,2,6)
sns.countplot(x="PAY_1", hue='Y', data=data,ax=ax1,saturation=1).set_title('Historique des paiements September2005')
sns.countplot(x="PAY_2", hue='Y', data=data,ax=ax2,saturation=1).set_title('Historique des paiements Août2005')
sns.countplot(x="PAY_3", hue='Y', data=data,ax=ax3,saturation=1).set_title('Historique des paiements Juillet2005')
sns.countplot(x="PAY_4", hue='Y', data=data,ax=ax4,saturation=1).set_title('Historique des paiements Juin2005')
sns.countplot(x="PAY_5", hue='Y', data=data,ax=ax5,saturation=1).set_title('Historique des paiements Mai2005')
sns.countplot(x="PAY_6", hue='Y', data=data,ax=ax6,saturation=1).set_title('Historique des paiements Avril2005')
Text(0.5, 1.0, 'Historique des paiements Avril2005')


Montant du relevé de facture (dollar NT)

#Montant du relevé de facture (dollar NT)
sns.pairplot(data, hue='Y',vars =['BILL_AMT1','BILL_AMT2','BILL_AMT3','BILL_AMT4','BILL_AMT5','BILL_AMT6'],palette="tab20")
<seaborn.axisgrid.PairGrid at 0x19fad3b9640>


Montant du paiement précédent (dollar NT)

#Montant du paiement précédent (dollar NT)
sns.pairplot(data, hue='Y',vars =['PAY_AMT1','PAY_AMT2','PAY_AMT3','PAY_AMT4','PAY_AMT5','PAY_AMT6'],palette="tab20")
<seaborn.axisgrid.PairGrid at 0x19fb9a71100>


Data cleaning and preprocessing

Education and marriage features

m = (data['EDUCATION'] == 0)|(data['EDUCATION'] == 6)|(data['EDUCATION'] == 5)
data = data.drop(data.EDUCATION[m].index.values, axis=0)

m = (data['MARRIAGE'] == 0)
data = data.drop(data.MARRIAGE[m].index.values, axis=0)

Paying features

m = (data['PAY_1'] == -2)
data = data.drop(data.PAY_1[m].index.values, axis=0)
m = (data['PAY_2'] == -2)
data = data.drop(data.PAY_2[m].index.values, axis=0)
m = (data['PAY_3'] == -2)
data = data.drop(data.PAY_3[m].index.values, axis=0)
m = (data['PAY_4'] == -2)
data = data.drop(data.PAY_4[m].index.values, axis=0)
m = (data['PAY_5'] == -2)
data = data.drop(data.PAY_5[m].index.values, axis=0)
m = (data['PAY_6'] == -2)
data = data.drop(data.PAY_6[m].index.values, axis=0)

One-hot encoding for categorical variables

data['EDUCATION'] = data['EDUCATION'].astype('category')
data['SEX'] = data['SEX'].astype('category')
data['MARRIAGE'] = data['MARRIAGE'].astype('category')

data=pd.concat([pd.get_dummies(data['EDUCATION'], prefix='EDUCATION'), 
                  pd.get_dummies(data['SEX'], prefix='SEX'), 
                  pd.get_dummies(data['MARRIAGE'], prefix='MARRIAGE'),
data.drop(['EDUCATION'],axis=1, inplace=True)
data.drop(['SEX'],axis=1, inplace=True)
data.drop(['MARRIAGE'],axis=1, inplace=True)
2 0 1 0 0 0 1 0 1 0 120000 26 -1 2 0 0 0 2 2682 1725 2682 3272 3455 3261 0 1000 1000 1000 0 2000 1
3 0 1 0 0 0 1 0 1 0 90000 34 0 0 0 0 0 0 29239 14027 13559 14331 14948 15549 1518 1500 1000 1000 1000 5000 0
4 0 1 0 0 0 1 1 0 0 50000 37 0 0 0 0 0 0 46990 48233 49291 28314 28959 29547 2000 2019 1200 1100 1069 1000 0

Replace outliers

def replace_outliers(data, target_col):
    Q1 = data.drop(columns=target_col).quantile(0.25)
    Q3 = data.drop(columns=target_col).quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    for col in data.drop(columns=target_col):
        col_mean = np.mean(data[col])
        data[col] = np.where((data[col] < lower_bound[col]) | (data[col] > upper_bound[col]), col_mean, data[col])

    return data
data = replace_outliers(data,"Y")
2 0.0 1.0 0.0 0.0 0.0 1.0 0.0 1.0 0.0 120000.0 26.0 0.180518 0.189028 0.0 0.0 0.0 0.088596 2682.0 1725.0 2682.0 3272.0 3455.0 3261.0 0.0 1000.0 1000.0 1000.0 0.0 2000.0 1
3 0.0 1.0 0.0 0.0 0.0 1.0 0.0 1.0 0.0 90000.0 34.0 0.000000 0.000000 0.0 0.0 0.0 0.000000 29239.0 14027.0 13559.0 14331.0 14948.0 15549.0 1518.0 1500.0 1000.0 1000.0 1000.0 5000.0 0
4 0.0 1.0 0.0 0.0 0.0 1.0 1.0 0.0 0.0 50000.0 37.0 0.000000 0.000000 0.0 0.0 0.0 0.000000 46990.0 48233.0 49291.0 28314.0 28959.0 29547.0 2000.0 2019.0 1200.0 1100.0 1069.0 1000.0 0


Robust Scaler

# Initialise le RobustScaler
scaler = RobustScaler()

# Normalise les données
data[data.columns] = scaler.fit_transform(data[data.columns])

# Affiche la DataFrame normalisée
2 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0000 -0.615385 1.0 1.0 0.0 0.0 0.0 1.0 -0.600784 -0.620744 -0.587972 -0.577134 -0.564821 -0.541801 -0.633602 -0.390016 -0.25 -0.248617 -0.503810 0.000000 1.0
3 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 -0.1875 0.000000 0.0 0.0 0.0 0.0 0.0 0.0 -0.087315 -0.374746 -0.356975 -0.322114 -0.281560 -0.236138 -0.263177 -0.260010 -0.25 -0.248617 -0.251905 0.774643 0.0
4 0.0 1.0 0.0 0.0 0.0 0.0 1.0 -1.0 0.0 -0.4375 0.230769 0.0 0.0 0.0 0.0 0.0 0.0 0.255893 0.309257 0.401871 0.000334 0.063760 0.112062 -0.145559 -0.125065 -0.20 -0.223755 -0.234524 -0.258214 0.0

fig=plt.figure(1, figsize=(25,15))
plt.xticks(np.arange(0,14), labels=cols, rotation=25, fontsize=18)
# plt.title('Boxplot', fontsize= 35)

plt.savefig('Fig - Boxplot')



plt.figure(figsize=(12, 6))
sns.countplot(x = 'Y', data = data)
plt.title('Target Variable Distribution')


from imblearn.over_sampling import SMOTE
X = data.drop("Y", axis=1)
y = data["Y"]
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)
count_class_resampled = pd.Series(y_resampled).value_counts()
data_res = pd.concat([pd.DataFrame(X_resampled), pd.DataFrame(y_resampled, columns=['Y'])], axis=1)
1.0    17788
0.0    17788
Name: Y, dtype: int64


SEX_1          0
SEX_2          0
MARRIAGE_1     0
MARRIAGE_2     0
MARRIAGE_3     0
LIMIT_BAL      0
AGE            0
PAY_1          0
PAY_2          0
PAY_3          0
PAY_4          0
PAY_5          0
PAY_6          0
BILL_AMT1      0
BILL_AMT2      0
BILL_AMT3      0
BILL_AMT4      0
BILL_AMT5      0
BILL_AMT6      0
PAY_AMT1       0
PAY_AMT2       0
PAY_AMT3       0
PAY_AMT4       0
PAY_AMT5       0
PAY_AMT6       0
Y              0
dtype: int64

Question: Pour voir les relations entre ces caractéristiques, faire des graphiques par paire :

#Certe que ce graphique nous montre toutes les relations mais il est preférable de voir chaque relation des features a part
sns.pairplot(data, hue='Y', height=2.5)


Question: Tracer avec seaborn un graphe qui permet de voir une idée sur la correlation entre la variable 'default payment next month' et les autres variables

corr = data.corr()
plt.figure(figsize = (15, 12))
sns.heatmap(corr, cmap='RdYlGn', annot = True, center = 0)
plt.title('Correlogram', fontsize = 15, color = 'darkgreen')


Question : Faire la sélection des feautres avec différentes méthodes: SelectKBest, correlation, Recursive Feature Elimination (RFE), VarianceThreshold...

################SELECT K BEST######################
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression

X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
# X est la matrice de caractéristiques
# y est la variable cible
# k est le nombre de fonctionnalités à sélectionner

# Instancier le sélecteur avec la fonction de score f_regression
selector = SelectKBest(score_func=f_regression, k=6)

# Adapter le sélecteur aux données
X_new = selector.fit_transform(X_res, y_res)
idxs_selected = selector.get_support(indices=True)

# Récupérer les noms des fonctionnalités sélectionnées
feat_names_selectKbest = X_res.columns[idxs_selected].tolist()
['LIMIT_BAL', 'PAY_1', 'PAY_2', 'PAY_3', 'PAY_AMT1', 'PAY_AMT2']
################ RFE ######################
from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
# X est la matrice de caractéristiques
# y est la variable cible
# n_features_to_select est le nombre de fonctionnalités à sélectionner

# Instancier l'estimateur pour la régression linéaire
estimator = LinearRegression()

# Instancier le sélecteur RFE avec l'estimateur et le nombre de fonctionnalités à sélectionner
selector = RFE(estimator, n_features_to_select=6)

# Adapter le sélecteur aux données, y_res)

# Récupérer les indices des fonctionnalités sélectionnées
idxs_selected = selector.get_support(indices=True)

# Récupérer les noms des fonctionnalités sélectionnées
feat_names_RFE = X_res.columns[idxs_selected].tolist()
from sklearn.feature_selection import VarianceThreshold

X_res = data_res.drop("Y", axis=1)

# X est la matrice de caractéristiques
# threshold est le seuil de variance

# Instancier le sélecteur avec le seuil de variance
selector = VarianceThreshold()

# Adapter le sélecteur aux données
X_new = selector.fit_transform(X_res)

# Récupérer les indices des fonctionnalités sélectionnées
idxs_selected = selector.get_support(indices=True)
# Récupérer les noms des fonctionnalités sélectionnées
feat_names_varianceThreshold = X_res.columns[idxs_selected].tolist()

Question: Appliquer l'analyse en composante principale pour faire des représentations graphiques des données.

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

X_res = data_res.drop("Y", axis=1)
y_res = data["Y"]
# Instancier l'objet PCA avec le nombre de composantes souhaité

pca = PCA(0.98)

X_res= (X_res - X_res.mean()) / X_res.std()
# Appliquer l'ACP aux données
X_pca = pca.fit_transform(X_res)

# Créer un dataframe pour les composantes principales
df_pca = pd.DataFrame(X_pca)

# Créer un graphique avec les données projetées sur les deux premières composantes principales
plt.scatter(X_pca[:, 0], X_pca[:, 1])

plt.xlabel('Première composante principale')
plt.ylabel('Deuxième composante principale')


Question 5:Extraire de data : les observations dans une variableX et les classes dans une variable y

X = data_res[feat_names_RFE]
y = data_res["Y"]

Question 6: Diviser l'ensemble des observations X et l'ensemble de classes y, chacun en deux sous-ensembles :

  • un sous-ensemble d'apprentissage : 80% de l'ensemble initial
  • un sous-ensemble de test : 20% de l'ensemble initial
Indication : Fixer à 0 le générateur aléatoire
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

Courbe Roc et Auc

Chaque Courbe Roc et Acu est sous son modele

Cette fonction permet de sortir la courbe de ROC at AUC de chaque modele

import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, auc

def plot_roc_curve(y_test, y_pred, title='ROC Curve'):
    # Calculate fpr, tpr, and thresholds
    fpr, tpr, thresholds = roc_curve(y_test, y_pred, drop_intermediate=False)
    # Calculate AUC score
    roc_auc = auc(fpr, tpr)
    # Plot ROC curve
    plt.plot(fpr, tpr, color='darkorange', label='ROC curve (area = %0.2f)' % roc_auc)
    plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.legend(loc="lower right")


1- K Nearest Neighbor(KNN)

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

En utilisant la méthode GridSearchCV, identifier le meilleur nombre de voisin (tester les valeurs de $n_{neighbors}\in {1,2,3...25}$, ainsi que la meilleur distance à utiliser (tester les valeurs de $p\in {1,2,3,4,5,6 }$

knn = KNeighborsClassifier()

# Définir l'espace des hyperparamètres à optimiser
param_grid = {"n_neighbors": range(1, 26), "p": range(1, 7)}

# Créer une instance de GridSearchCV pour trouver les meilleurs hyperparamètres
grid_search = GridSearchCV(knn, param_grid, cv=5), y_train)
Afficher les meilleures valeurs des hyperparamètres réglés

print("Best hyperparameters:", grid_search.best_params_)
Best hyperparameters: {'n_neighbors': 22, 'p': 2}

Créer une instance final_model_knn de l'algorithme de classification par KNN en utilisant les meilleurs hyperparamètres trouvés dans la question précédente

Entrainer final_model_knn sur le sous-ensemble de données approprié.

final_model_knn = grid_search.best_estimator_

Tracer la matrice de confusion de final_model_knn

from sklearn.metrics import confusion_matrix
import seaborn as sns

y_pred_knn = final_model_knn.predict(X_test)
cm = confusion_matrix(y_test, y_pred_knn)

sns.heatmap(cm, annot=True, cmap='Blues', fmt='g', cbar=False)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')


Afficher le classification_report de final_model_knn

from sklearn.metrics import classification_report
report = classification_report(y_test, y_pred_knn)
              precision    recall  f1-score   support

         0.0       0.55      0.75      0.63      3514
         1.0       0.62      0.41      0.49      3602

    accuracy                           0.58      7116
   macro avg       0.59      0.58      0.56      7116
weighted avg       0.59      0.58      0.56      7116
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred_knn)
print("Accuracy:", accuracy)
Accuracy: 0.5750421585160203
plot_roc_curve(y_test,y_pred,title='ROC Curve pour KNN')


Pour les autres algoritmes vous allez suivre pratiquement le meme raisonnement.

2- Decision Tree

Importer le modèle DecisionTreeClassifier à partir du module tree du module sklearn.

#On va utiliser la Data de base avant La feature selection 
X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_treeD = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
from sklearn.tree import DecisionTreeClassifier

Créer un dictionaire param_grid, en vue de configurer les trois hyperparamètres suivants :

- criterion : qui peut être soit l'indice de Gini soit l'entropie
- max_depth : qui varie de 1 à 19
- splitter : qui peut être soit best ou random
param_grid = {'criterion': ['gini', 'entropy'],
              'max_depth': range(1, 20),
              'splitter': ['best', 'random']}

Créer une instance de recherche par grille appliquée sur l'algorithme de classification par arbre de décision. La recherche doit tester toutes les combinaisons des valeurs des hyperparamètres de la grille de la question précédente. La recherche doit se faire à travers une validation croisée à 5 découpes.

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold

cv = KFold(n_splits=5, shuffle=True, random_state=42)
clf = DecisionTreeClassifier()
grid_search = GridSearchCV(clf, param_grid=param_grid, cv=cv, n_jobs=-1)

Afficher les meilleures valeurs des hyperparamètres réglés, y_train)
{'criterion': 'gini', 'max_depth': 12, 'splitter': 'best'}

Créer une instance final_model_dt de l'algorithme de classification par arbres de décision en utilisant les meilleurs hyperparamètres trouvés dans la question précédente

final_model_dt = DecisionTreeClassifier(**grid_search.best_params_), y_train)
Afficher l'arbre sous forme de régles de décision

from sklearn.tree import export_text

tree_rules = export_text(final_model_dt, feature_names=list(X_train.columns))
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |--- PAY_AMT6 >  -0.52
|   |   |   |   |   |   |   |   |   |--- BILL_AMT4 <= 2.48
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT1 <= 2.60
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT1 >  2.60
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT4 >  2.48
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_1 <= 0.45
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_1 >  0.45
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |--- LIMIT_BAL >  0.19
|   |   |--- BILL_AMT1 <= 0.34
|   |   |   |--- PAY_AMT3 <= 0.87
|   |   |   |   |--- PAY_AMT2 <= 0.94
|   |   |   |   |   |--- LIMIT_BAL <= 1.00
|   |   |   |   |   |   |--- PAY_AMT1 <= 0.83
|   |   |   |   |   |   |   |--- BILL_AMT1 <= -0.64
|   |   |   |   |   |   |   |   |--- PAY_6 <= 0.00
|   |   |   |   |   |   |   |   |   |--- PAY_AMT3 <= -0.37
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT4 <= -0.64
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT4 >  -0.64
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- PAY_AMT3 >  -0.37
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |--- PAY_6 >  0.00
|   |   |   |   |   |   |   |   |   |--- PAY_5 <= 0.99
|   |   |   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 0.75
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- LIMIT_BAL >  0.75
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- PAY_5 >  0.99
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_1 <= 0.14
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_1 >  0.14
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |--- BILL_AMT1 >  -0.64
|   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 0.19
|   |   |   |   |   |   |   |   |   |--- BILL_AMT3 <= -0.52
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT2 <= -0.44
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT2 >  -0.44
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT3 >  -0.52
|   |   |   |   |   |   |   |   |   |   |--- PAY_4 <= 0.50
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_4 >  0.50
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |--- LIMIT_BAL >  0.19
|   |   |   |   |   |   |   |   |   |--- PAY_AMT6 <= -0.36
|   |   |   |   |   |   |   |   |   |   |--- PAY_4 <= 0.03
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_4 >  0.03
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- PAY_AMT6 >  -0.36
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT3 <= -0.51
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT3 >  -0.51
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |--- PAY_AMT1 >  0.83
|   |   |   |   |   |   |   |--- PAY_AMT3 <= 0.28
|   |   |   |   |   |   |   |   |--- PAY_AMT3 <= -0.29
|   |   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 0.28
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- LIMIT_BAL >  0.28
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT5 <= -0.63
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT5 >  -0.63
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |--- PAY_AMT3 >  -0.29
|   |   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 0.89
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 <= 0.36
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 >  0.36
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- LIMIT_BAL >  0.89
|   |   |   |   |   |   |   |   |   |   |--- PAY_6 <= 0.50
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- PAY_6 >  0.50
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |--- PAY_AMT3 >  0.28
|   |   |   |   |   |   |   |   |--- PAY_AMT1 <= 0.87
|   |   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 0.22
|   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |--- LIMIT_BAL >  0.22
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT3 <= 0.55
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT3 >  0.55
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |--- PAY_AMT1 >  0.87
|   |   |   |   |   |   |   |   |   |--- PAY_AMT6 <= -0.50
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- PAY_AMT6 >  -0.50
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT1 <= -0.64
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT1 >  -0.64
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |--- LIMIT_BAL >  1.00
|   |   |   |   |   |   |--- PAY_AMT4 <= 0.10
|   |   |   |   |   |   |   |--- BILL_AMT5 <= -0.59
|   |   |   |   |   |   |   |   |--- PAY_AMT3 <= -0.41
|   |   |   |   |   |   |   |   |   |--- PAY_AMT5 <= -0.21
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT4 <= -0.65
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT4 >  -0.65
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- PAY_AMT5 >  -0.21
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT1 <= 0.89
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT1 >  0.89
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |--- PAY_AMT3 >  -0.41
|   |   |   |   |   |   |   |   |   |--- AGE <= -0.20
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_3 <= 0.09
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_3 >  0.09
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- AGE >  -0.20
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 <= -0.41
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 >  -0.41
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |--- BILL_AMT5 >  -0.59
|   |   |   |   |   |   |   |   |--- PAY_AMT3 <= 0.21
|   |   |   |   |   |   |   |   |   |--- SEX_2 <= -0.98
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT5 <= -0.50
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT5 >  -0.50
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- SEX_2 >  -0.98
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT2 <= -0.62
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT2 >  -0.62
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |--- PAY_AMT3 >  0.21
|   |   |   |   |   |   |   |   |   |--- PAY_AMT4 <= -0.05
|   |   |   |   |   |   |   |   |   |   |--- AGE <= 0.67
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- AGE >  0.67
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- PAY_AMT4 >  -0.05
|   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |--- PAY_AMT4 >  0.10
|   |   |   |   |   |   |   |--- BILL_AMT3 <= -0.65
|   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |--- BILL_AMT3 >  -0.65
|   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 1.89
|   |   |   |   |   |   |   |   |   |--- BILL_AMT1 <= -0.65
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_2 <= 0.35
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- EDUCATION_2 >  0.35
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT1 >  -0.65
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT1 <= 0.09
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT1 >  0.09
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |--- LIMIT_BAL >  1.89
|   |   |   |   |   |   |   |   |   |--- BILL_AMT5 <= -0.48
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 <= -0.45
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 >  -0.45
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT5 >  -0.48
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT1 <= -0.13
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT1 >  -0.13
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |--- PAY_AMT2 >  0.94
|   |   |   |   |   |--- PAY_AMT2 <= 0.95
|   |   |   |   |   |   |--- BILL_AMT2 <= -0.53
|   |   |   |   |   |   |   |--- LIMIT_BAL <= 1.00
|   |   |   |   |   |   |   |   |--- BILL_AMT4 <= 0.10
|   |   |   |   |   |   |   |   |   |--- BILL_AMT3 <= 0.21
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT3 <= -0.32
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT3 >  -0.32
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- BILL_AMT3 >  0.21
|   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |--- BILL_AMT4 >  0.10
|   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |--- LIMIT_BAL >  1.00
|   |   |   |   |   |   |   |   |--- BILL_AMT2 <= -0.54
|   |   |   |   |   |   |   |   |   |--- BILL_AMT1 <= -0.14
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT6 <= -0.52
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT6 >  -0.52
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT1 >  -0.14
|   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |--- BILL_AMT2 >  -0.54
|   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |--- BILL_AMT2 >  -0.53
|   |   |   |   |   |   |   |--- PAY_AMT5 <= -0.50
|   |   |   |   |   |   |   |   |--- BILL_AMT6 <= -0.61
|   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |--- BILL_AMT6 >  -0.61
|   |   |   |   |   |   |   |   |   |--- AGE <= 0.12
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- AGE >  0.12
|   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |--- PAY_AMT5 >  -0.50
|   |   |   |   |   |   |   |   |--- PAY_AMT4 <= -0.48
|   |   |   |   |   |   |   |   |   |--- BILL_AMT3 <= -0.06
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT5 <= -0.54
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT5 >  -0.54
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT3 >  -0.06
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |--- PAY_AMT4 >  -0.48
|   |   |   |   |   |   |   |   |   |--- PAY_AMT5 <= 1.44
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- PAY_AMT5 >  1.44
|   |   |   |   |   |   |   |   |   |   |--- PAY_3 <= 0.50
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |   |--- PAY_3 >  0.50
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |--- PAY_AMT2 >  0.95
|   |   |   |   |   |   |--- BILL_AMT4 <= -0.55
|   |   |   |   |   |   |   |--- PAY_AMT6 <= 1.05
|   |   |   |   |   |   |   |   |--- PAY_1 <= 0.91
|   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |--- PAY_1 >  0.91
|   |   |   |   |   |   |   |   |   |--- BILL_AMT5 <= -0.12
|   |   |   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 0.49
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- LIMIT_BAL >  0.49
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |--- BILL_AMT5 >  -0.12
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT6 <= 0.05
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- PAY_AMT6 >  0.05
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |--- PAY_AMT6 >  1.05
|   |   |   |   |   |   |   |   |--- LIMIT_BAL <= 0.58
|   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |--- LIMIT_BAL >  0.58
|   |   |   |   |   |   |   |   |   |--- BILL_AMT5 <= -0.46
|   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT5 >  -0.46
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |--- BILL_AMT4 >  -0.55
|   |   |   |   |   |   |   |--- PAY_4 <= 0.05
|   |   |   |   |   |   |   |   |--- BILL_AMT6 <= -0.34
|   |   |   |   |   |   |   |   |   |--- BILL_AMT1 <= -0.58
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 <= -0.40
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT6 >  -0.40
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT1 >  -0.58
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT3 <= -0.50
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT3 >  -0.50
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |--- BILL_AMT6 >  -0.34
|   |   |   |   |   |   |   |   |   |--- BILL_AMT4 <= 0.37
|   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |--- BILL_AMT4 >  0.37
|   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |--- PAY_4 >  0.05
|   |   |   |   |   |   |   |   |--- PAY_AMT4 <= 1.21
|   |   |   |   |   |   |   |   |   |--- AGE <= -0.29
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT2 <= -0.40
|   |   |   |   |   |   |   |   |   |   |   |--- class: 0.0
|   |   |   |   |   |   |   |   |   |   |--- BILL_AMT2 >  -0.40
|   |   |   |   |   |   |   |   |   |   |   |--- class: 1.0
|   |   |   |   |   |   |   |   |   |--- AGE >  -0.29
|   |   |   |   |   |   |   |   |   |   |--- AGE <= 1.52
|   |   |   |   |   |   |   |   |   |   |   |--- truncated branch of depth 2
|   |   |   |   |   |   |   |   |   |   |--- AGE >  1.52
Faire la prédiction

y_pred_Dtree = final_model_dt.predict(X_test)

Tracer la matrice de confusion de final_model_dt

from sklearn.metrics import confusion_matrix
import seaborn as sns

cm = confusion_matrix(y_test_treeD, y_pred_Dtree)

sns.heatmap(cm, annot=True, cmap='Blues', fmt='g', cbar=False)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')


Afficher le classification_report de final_model_dt

from sklearn.metrics import classification_report

print(classification_report(y_test_treeD, y_pred_Dtree))

#Résultat avce X_res et y_res (data sans feature selection)
              precision    recall  f1-score   support

         0.0       0.78      0.76      0.77      3514
         1.0       0.77      0.80      0.78      3602

    accuracy                           0.78      7116
   macro avg       0.78      0.78      0.78      7116
weighted avg       0.78      0.78      0.78      7116
plot_roc_curve(y_test_treeD,y_pred_Dtree,title='ROC Curve pour Decision Tree')


3- LogisticRegression

Vous allez suivre pratiquement le même raisonnement. vous allez répondre aux même questions déjà posées

X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_clf = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
# Chargement de LogisticRegression
from sklearn.linear_model import LogisticRegression

1-Créer un dictionnaire param_grid contenant les hyperparamètres :

param_grid = {
    'C': [0.1, 1, 10],
    'penalty': ['l1', 'l2'],
    'solver': ['liblinear', 'saga']

2-Créer une instance de GridSearchCV pour trouver les meilleurs hyperparamètres :

from sklearn.model_selection import GridSearchCV

clf = LogisticRegression(random_state=42)
grid_search = GridSearchCV(clf, param_grid=param_grid, cv=5)

3-Faire tourner la recherche sur grille et afficher les meilleurs hyperparamètres :, y_train)
print("Meilleurs hyperparamètres : ", grid_search.best_params_)
Meilleurs hyperparamètres :  {'C': 10, 'penalty': 'l2', 'solver': 'saga'}

4-Créer une instance de LogisticRegression avec les meilleurs hyperparamètres :

best_clf = LogisticRegression(**grid_search.best_params_)

5-Entraîner votre modèle sur les données de formation :, y_train)
Tracer la matrice de confusion de LogisticRegression

from sklearn.metrics import confusion_matrix
import seaborn as sns

y_pred_clf = best_clf.predict(X_test)
cm = confusion_matrix(y_test_clf, y_pred_clf)

sns.heatmap(cm, annot=True, cmap='Greens', fmt='g', cbar=False)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')


Afficher le classification_report de LogisticRegression

from sklearn.metrics import classification_report
print(classification_report(y_test_clf, y_pred_clf))
              precision    recall  f1-score   support

         0.0       0.67      0.75      0.71      3514
         1.0       0.73      0.64      0.68      3602

    accuracy                           0.70      7116
   macro avg       0.70      0.70      0.70      7116
weighted avg       0.70      0.70      0.70      7116
plot_roc_curve(y_test_clf,y_pred_clf,title='ROC Curve pour LogisticRegression')


4- GaussianNB (Gaussian Naive Bayes)

Vous allez suivre pratiquement le même raisonnement. vous allez répondre aux même questions déjà posées

X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_gnb = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
# Chargement de GaussianNB
from sklearn.naive_bayes import GaussianNB

il n'y a pas d'hyperparamètres pour Gaussian Naive Bayes.

Créer une instance model de l'algorithme de classification par GaussianNB.

Entrainer model sur le sous-ensemble de données approprié.

gnb = GaussianNB(), y_train)
Tracer la matrice de confusion de model

from sklearn.metrics import confusion_matrix
import seaborn as sns

cm = confusion_matrix(y_test_gnb, y_pred_gnb)

sns.heatmap(cm, annot=True, cmap='Reds', fmt='g', cbar=False)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')


Afficher le classification_report de model

from sklearn.metrics import classification_report
print(classification_report(y_test_gnb, y_pred_gnb))
              precision    recall  f1-score   support

         0.0       0.67      0.44      0.53      3514
         1.0       0.59      0.79      0.68      3602

    accuracy                           0.62      7116
   macro avg       0.63      0.61      0.60      7116
weighted avg       0.63      0.62      0.61      7116
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test_gnb, y_pred_gnb)
print("Accuracy:", accuracy)
Accuracy: 0.6170601461495222
plot_roc_curve(y_test_gnb,y_pred_gnb,title='ROC Curve pour GaussianNB')


5- SVM (Support Vector Machine)

1-Importez le module SVM depuis sklearn.svm :

from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split, cross_val_score

Vous allez suivre pratiquement le même raisonnement. vous allez répondre aux même questions déjà posées

X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_svm = train_test_split(X_res,y_res, test_size=0.2, random_state=0)

2-Créer un dictionnaire param_grid contenant les hyperparamètres :

param_grid = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf', 'sigmoid'],
    'gamma': ['scale', 'auto']

3-Créer une instance de GridSearchCV pour trouver les meilleurs hyperparamètres :

from sklearn.model_selection import GridSearchCV

clf = SVC(random_state=42)
grid_search = GridSearchCV(clf, param_grid=param_grid, cv=5)

4-Faire tourner la recherche sur grille et afficher les meilleurs hyperparamètres :, y_train)
print("Meilleurs hyperparamètres : ", grid_search.best_params_)
Meilleurs hyperparamètres :  {'C': 10, 'gamma': 'scale', 'kernel': 'rbf'}

5-Créer une instance de SVC avec les meilleurs hyperparamètres :

best_clf = SVC(C=grid_search.best_params_['C'],

6-Entraînez le modèle SVM sur les données de formation :, y_train)
7-Tracez la matrice de confusion avec confusion_matrix de sklearn.metrics :

from sklearn.metrics import confusion_matrix
import seaborn as sns

y_pred_svm = best_clf.predict(X_test)
cm = confusion_matrix(y_test_svm, y_pred)

sns.heatmap(cm, annot=True, cmap='gray', fmt='g', cbar=False)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')


8-Afficher le rapport de classification avec classification_report de sklearn.metrics :

from sklearn.metrics import classification_report
print(classification_report(y_test_svm, y_pred_svm))
              precision    recall  f1-score   support

         0.0       0.76      0.80      0.78      3514
         1.0       0.79      0.75      0.77      3602

    accuracy                           0.78      7116
   macro avg       0.78      0.78      0.78      7116
weighted avg       0.78      0.78      0.78      7116
plot_roc_curve(y_test_svm,y_pred_svm,title='ROC Curve pour SVM')


6- Random Forest

Dans cette partie on a utilisé le modele RandomForest Classifier avec BayesSearchCV pour trouver les meilleurs hyperparamètres:

1-Importez le module RandomForestClassifier depuis sklearn.ensemble :

from sklearn.ensemble import RandomForestClassifier

Vous allez suivre pratiquement le même raisonnement. vous allez répondre aux même questions déjà posées

#On va utiliser la Data de base avant La feature selection 
X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_rf = train_test_split(X_res,y_res, test_size=0.2, random_state=0)

2- Créer un dictionnaire param_grid contenant les hyperparamètres:

#Installez cette bibliotheque afin que vous pourriez utilisé BayesSearchCV
#!pip install scikit-optimize
from skopt import BayesSearchCV
from import Real, Integer
from sklearn.model_selection import StratifiedKFold

param_grid = {'max_depth': Integer(1, 20),
              'n_estimators': Integer(10, 100),
              'min_samples_split': Integer(2, 20),
              'min_samples_leaf': Integer(1, 20)}

3- Créer une instance de BayesSearchCV pour trouver les meilleurs hyperparamètres :

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
rf = RandomForestClassifier()
bayes_search = BayesSearchCV(rf, param_grid, cv=cv, n_iter=50, n_jobs=-1)

4-Faire tourner la recherche sur grille et afficher les meilleurs hyperparamètres :, y_train)
print("Best parameters: ", bayes_search.best_params_)
Best parameters:  OrderedDict([('max_depth', 20), ('min_samples_leaf', 1), ('min_samples_split', 2), ('n_estimators', 100)])

5-Créer une instance de RandomForestClassifier avec les meilleurs hyperparamètres :

final_model_rf = RandomForestClassifier(**bayes_search.best_params_), y_train)
6-Afficher l'importance des variables avec feature_importances_ :

importances = final_model_rf.feature_importances_
indices = np.argsort(importances)[::-1]

for f in range(X_train.shape[1]):
    print("%d. feature %d (%f)" % (f + 1, indices[f], importances[indices[f]]))
1. feature 11 (0.087074)
2. feature 9 (0.081235)
3. feature 24 (0.061765)
4. feature 23 (0.060270)
5. feature 17 (0.056498)
6. feature 18 (0.055355)
7. feature 25 (0.053770)
8. feature 22 (0.050846)
9. feature 19 (0.050199)
10. feature 21 (0.048682)
11. feature 28 (0.047646)
12. feature 26 (0.047582)
13. feature 27 (0.047364)
14. feature 20 (0.047098)
15. feature 10 (0.046765)
16. feature 12 (0.031625)
17. feature 13 (0.020600)
18. feature 14 (0.015664)
19. feature 16 (0.013198)
20. feature 15 (0.011663)
21. feature 1 (0.011109)
22. feature 0 (0.010269)
23. feature 2 (0.009709)
24. feature 5 (0.008400)
25. feature 4 (0.008124)
26. feature 6 (0.007707)
27. feature 7 (0.007570)
28. feature 8 (0.001910)
29. feature 3 (0.000304)

7-Tracer la matrice de confusion avec confusion_matrix de sklearn.metrics :

from sklearn.metrics import confusion_matrix
import seaborn as sns

y_pred_rf = final_model_rf.predict(X_test)
cm = confusion_matrix(y_test_rf, y_pred_rf)

sns.heatmap(cm, annot=True, cmap='BuPu', fmt='g', cbar=False)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')


8-Afficher le rapport de classification avec classification_report de sklearn.metrics

from sklearn.metrics import classification_report

y_pred = final_model_rf.predict(X_test)
print(classification_report(y_test_rf, y_pred_rf))
              precision    recall  f1-score   support

         0.0       0.85      0.86      0.86      3514
         1.0       0.86      0.85      0.86      3602

    accuracy                           0.86      7116
   macro avg       0.86      0.86      0.86      7116
weighted avg       0.86      0.86      0.86      7116

9-Calculer l'accuracy du modèle Random Forest avec la fonction accuracy_score de sklearn.metrics :

from sklearn.metrics import accuracy_score

y_pred = final_model_rf.predict(X_test)
accuracy = accuracy_score(y_test_rf, y_pred_rf)
print("Accuracy:", accuracy)
Accuracy: 0.8568015739179314
plot_roc_curve(y_test_rf,y_pred_rf,title='ROC Curve pour Random Forest')


7- XGBoost

Dans cette partie on a utilisé le modele XGBoost Classifier avec RandomizedSearchCV pour trouver les meilleurs hyperparamètres:

1-Importer le module XGBClassifier depuis xgboost :

from xgboost import XGBClassifier

Vous allez suivre pratiquement le même raisonnement. vous allez répondre aux même questions déjà posées

#On va utiliser la Data de base avant La feature selection 
X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_xgboost = train_test_split(X_res,y_res, test_size=0.2, random_state=0)

2-Créer un dictionnaire param_grid contenant les hyperparamètres:

param_grid = {'max_depth': range(3,10,2),
              'min_child_weight': range(1,6,2),
              'gamma': [i/10.0 for i in range(0,5)],
              'subsample': [i/10.0 for i in range(6,10)],
              'colsample_bytree': [i/10.0 for i in range(6,10)],
              'reg_alpha': [1e-5, 1e-2, 0.1, 1, 100]}

3-Utiliser RandomizedSearchCV pour trouver les meilleurs hyperparamètres :

from sklearn.model_selection import RandomizedSearchCV

clf = XGBClassifier()
random_search = RandomizedSearchCV(clf, param_distributions=param_grid, n_iter=100, cv=5, random_state=42, n_jobs=-1)

4-Faire tourner la recherche aléatoire et afficher les meilleurs hyperparamètres :, y_train)
{'subsample': 0.9, 'reg_alpha': 0.01, 'min_child_weight': 1, 'max_depth': 9, 'gamma': 0.1, 'colsample_bytree': 0.7}

5-Créer une instance de XGBClassifier avec les meilleurs hyperparamètres :

final_model_xgb = XGBClassifier(**random_search.best_params_), y_train)
6-Afficher l'importance des variables avec plot_importance de xgboost :

from xgboost import plot_importance



7-Tracer la matrice de confusion avec confusion_matrix de sklearn.metrics :

from sklearn.metrics import confusion_matrix
import seaborn as sns

y_pred_xgboost = final_model_xgb.predict(X_test)
cm = confusion_matrix(y_test_xgboost, y_pred_xgboost)

sns.heatmap(cm, annot=True, cmap='Blues', fmt='g', cbar=False)
plt.xlabel('Predicted labels')
plt.ylabel('True labels')


8-Afficher le rapport de classification avec classification_report de sklearn.metrics :

from sklearn.metrics import classification_report

y_pred = final_model_xgb.predict(X_test)
print(classification_report(y_test_xgboost, y_pred_xgboost))
              precision    recall  f1-score   support

         0.0       0.85      0.90      0.87      3514
         1.0       0.89      0.84      0.87      3602

    accuracy                           0.87      7116
   macro avg       0.87      0.87      0.87      7116
weighted avg       0.87      0.87      0.87      7116

9-Calculer l'accuracy du modèle XGBoost avec la fonction accuracy_score de sklearn.metrics :

from sklearn.metrics import accuracy_score

y_pred = final_model_xgb.predict(X_test)
accuracy = accuracy_score(y_test_xgboost, y_pred_xgboost)
print("Accuracy:", accuracy)
Accuracy: 0.8677627880831928
plot_roc_curve(y_test_xgboost,y_pred_xgboost,title='ROC Curve pour XGboost')


8- Neural Network

X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_mlp = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
from sklearn.neural_network import MLPClassifier
# Initialiser Multi-layer Perceptron 
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(hidden_layer_sizes=(12,5),max_iter=20, random_state=25,shuffle=True, verbose=True)

#Entrainer le classifieur, y_train)
# confusion matrix pour Multi-layer Perceptron.
from sklearn.metrics import confusion_matrix
import seaborn as sns

matrix = confusion_matrix(y_test_mlp,y_pred_mlp)
plt.subplots(figsize=(4, 4))
sns.heatmap(matrix,annot=True, cmap='coolwarm',fmt="d")
plt.title('Matrice De Confusion pour MLP');


from sklearn.metrics import roc_curve, auc

# Calculer les probabilités prédites de classe positive pour l'ensemble de test
mlp_prob = mlp.predict_proba(X_test)[:,1]

# Calculer fpr, tpr, and thresholds
fpr, tpr, thresholds = roc_curve(y_test_mlp, y_pred_mlp)

# Calculer AUC score
roc_auc = auc(fpr, tpr)

#  ROC curve
plt.plot(fpr, tpr, color='darkorange', label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve Pour MLP')
plt.legend(loc="lower right")


from sklearn.metrics import classification_report
print(classification_report(y_test_mlp, y_pred_mlp))
              precision    recall  f1-score   support

         0.0       0.71      0.79      0.75      3514
         1.0       0.77      0.69      0.73      3602

    accuracy                           0.74      7116
   macro avg       0.74      0.74      0.74      7116
weighted avg       0.74      0.74      0.74      7116
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test_mlp, y_pred_mlp)
print("Accuracy:", accuracy)
Accuracy: 0.7379145587408656

9- KerasClassifier

X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_keras = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.wrappers.scikit_learn import KerasClassifier

1-Créer une fonction pour le modèle :

def create_model(optimizer='adam', activation='relu', units=64):
    model = Sequential()
    model.add(Dense(units=units, activation=activation, input_shape=(X_train.shape[1],)))
    model.add(Dense(units=1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy'])
    return model

2-Créer une instance de KerasClassifier pour utiliser avec GridSearchCV :

model = KerasClassifier(build_fn=create_model, verbose=0)
C:\Users\LEOPARD\AppData\Local\Temp\ipykernel_3996\ DeprecationWarning: KerasClassifier is deprecated, use Sci-Keras ( instead. See for help migrating.
  model = KerasClassifier(build_fn=create_model, verbose=0)

3-Créer un dictionnaire param_grid contenant les hyperparamètres :

param_grid = {
    'optimizer': ['adam', 'rmsprop'],
    'activation': ['relu', 'tanh'],
    'units': [32, 64, 128]

4-Créez une instance de GridSearchCV pour trouver les meilleurs hyperparamètres :

from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)

5-Faire tourner la recherche sur grille et affichez les meilleurs hyperparamètres :, y_train)
print("Meilleurs hyperparamètres : ", grid_search.best_params_)
Meilleurs hyperparamètres :  {'activation': 'relu', 'optimizer': 'adam', 'units': 128}

6-Créer une instance de modèle avec les meilleurs hyperparamètres :

best_model = create_model(optimizer=grid_search.best_params_['optimizer'],

7-Entraîner votre modèle sur les données de formation :, y_train, epochs=10, batch_size=32, verbose=0)
<keras.callbacks.History at 0x1eca6dd5930>

8-Tracer la matrice de confusion avec confusion_matrix de sklearn.metrics :

# confusion matrix pour Multi-layer Perceptron.
from sklearn.metrics import confusion_matrix
import seaborn as sns

matrix = confusion_matrix(y_test_keras,y_pred_keras)
plt.subplots(figsize=(4, 4))
sns.heatmap(matrix,annot=True, cmap='coolwarm',fmt="d")
plt.title('Matrice De Confusion pour Keras');


9-Afficher le rapport de classification avec classification_report de sklearn.metrics :

from sklearn.metrics import classification_report
print(classification_report(y_test_keras, y_pred_keras  ))
              precision    recall  f1-score   support

         0.0       0.73      0.75      0.74      3514
         1.0       0.75      0.72      0.74      3602

    accuracy                           0.74      7116
   macro avg       0.74      0.74      0.74      7116
weighted avg       0.74      0.74      0.74      7116
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test_keras, y_pred_keras  )
print("Accuracy:", accuracy)
Accuracy: 0.7381956155143339
plot_roc_curve(y_test_keras,y_pred_keras,title='ROC Curve pour KerasClassifier') 


10- GradientBoostingClassifier

from sklearn.ensemble import GradientBoostingClassifier
X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_gbt = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
# Creation du model GradientBoostingClassifier
gbt = GradientBoostingClassifier()

# Entrainer le modele sur les données, y_train)

# Faire la prédiction

y_pred_gbt = gbt.predict(X_test)

# Evaluation du modele
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test_gbt, y_pred_gbt)
print("Accuracy:", accuracy)
Accuracy: 0.8093029792017987
from sklearn.metrics import classification_report
print(classification_report(y_test_gbt, y_pred_gbt  ))
              precision    recall  f1-score   support

         0.0       0.79      0.84      0.81      3514
         1.0       0.83      0.78      0.81      3602

    accuracy                           0.81      7116
   macro avg       0.81      0.81      0.81      7116
weighted avg       0.81      0.81      0.81      7116
plot_roc_curve(y_test_gbt,y_pred_gbt,title='ROC Curve pour GradientBoostingClassifier')


11- CatBoostClassifier

from catboost import CatBoostClassifier
X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_catboost = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
# Creation du modele CatBoost classifier
catboost = CatBoostClassifier()

# Train the model on the training data, y_train)

# Make predictions on new data

y_pred_catboost = catboost.predict(X_test)

# Evaluate the model
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test_catboost, y_pred_catboost)
print("Accuracy:", accuracy)
Accuracy: 0.8688870151770658
# confusion matrix pour Multi-layer Perceptron.
from sklearn.metrics import confusion_matrix
import seaborn as sns

matrix = confusion_matrix(y_test_catboost,y_pred_catboost)
plt.subplots(figsize=(4, 4))
sns.heatmap(matrix,annot=True, cmap='coolwarm',fmt="d")
plt.title('Matrice De Confusion pour catboost');


from sklearn.metrics import classification_report
print(classification_report(y_test_catboost, y_pred_catboost  ))
              precision    recall  f1-score   support

         0.0       0.84      0.91      0.87      3514
         1.0       0.90      0.83      0.86      3602

    accuracy                           0.87      7116
   macro avg       0.87      0.87      0.87      7116
weighted avg       0.87      0.87      0.87      7116
plot_roc_curve(y_test_catboost,y_pred_catboost,title='ROC Curve pour CatBoost')


12- Lightgbm

import lightgbm as lgb
X_res = data_res.drop("Y", axis=1)
y_res = data_res["Y"]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test_lgb = train_test_split(X_res,y_res, test_size=0.2, random_state=0)
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
import lightgbm as lgb

# Define the grid of hyperparameters to search
param_grid = {'n_estimators': [50, 100, 200],
              'max_depth': [3, 5, 7],
              'learning_rate': [0.01, 0.1, 0.5]}

# Create a GridSearchCV object and fit it to the data
lgb_model = lgb.LGBMClassifier()
grid_search = GridSearchCV(lgb_model, param_grid, cv=5), y_train)

print("Best hyperparameters:", grid_search.best_params_)

final_model_lgb = grid_search.best_estimator_
y_pred_lgb = final_model_lgb.predict(X_test)

# Report accuracy score
accuracy = accuracy_score(y_test_lgb, y_pred_lgb)
print("Accuracy:", accuracy)
Best hyperparameters: {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 200}
Accuracy: 0.8617200674536256
from sklearn.metrics import classification_report
print(classification_report(y_test_lgb, y_pred_lgb  ))
              precision    recall  f1-score   support

         0.0       0.84      0.90      0.86      3514
         1.0       0.89      0.83      0.86      3602

    accuracy                           0.86      7116
   macro avg       0.86      0.86      0.86      7116
weighted avg       0.86      0.86      0.86      7116
# confusion matrix pour Multi-layer Perceptron.
from sklearn.metrics import confusion_matrix
import seaborn as sns

matrix = confusion_matrix(y_test_lgb,y_pred_lgb)
plt.subplots(figsize=(4, 4))
sns.heatmap(matrix,annot=True, cmap='coolwarm',fmt="d")
plt.title('Matrice De Confusion pour catboost');


plot_roc_curve(y_test_lgb,y_pred_lgb,title='ROC Curve pour Lightgbm')


Etude compartive

def result(y_test, y_prediction):
    y_test = pd.Series(y_test)
    y_prediction = pd.Series(y_prediction)
    for i in range(len(y_test)):
        if y_test.iloc[i] == 1 and y_prediction.iloc[i]==1:
        elif y_test.iloc[i]==0 and y_prediction.iloc[i]==1:
        elif y_test.iloc[i]==0 and y_prediction.iloc[i]==0:
    tpr = tp/(tp+fn)
    tnr = tn/(tn+fp)
    fpr = fp/(fp+tn)
    precision = tp/(tp+fp)
    f = 2 * precision*tpr/(precision+tpr)
    accuracy = (tp+tn)/(tp+tn+fp+fn)

    return ({'Precision':precision,'Recall':tpr, 'Specificity':tnr,'False Positive Rate':fpr,
             'f-score':f, 'Accuracy':accuracy,'tp':tp,'fp':fp,'tn':tn,'fn':fn})
res_knn = result(y_test,y_pred_knn)
res_treeD  = result(y_test_treeD,y_pred_Dtree)
res_clf  = result(y_test_clf,y_pred_clf)
res_gnb  = result(y_test_gnb,y_pred_gnb)
res_svm = result(y_test_svm,y_pred_svm)
res_rf = result(y_test_rf,y_pred_rf)
res_xgboost = result(y_test_xgboost,y_pred_xgboost)
res_mlp = result(y_test_mlp,y_pred_mlp)
res_keras = result(y_test_keras, y_pred_keras.flatten())
res_gbt = result(y_test_gbt,y_pred_gbt)
res_catboost = result(y_test_catboost,y_pred_catboost)
res_lgb = result(y_test_lgb,y_pred_lgb)
             index=['Knn','Decision tree','clf','Gnb','svm','Randomf','XGboost','MPL','keras',
#            index=['CLF','GNB','Lightgb'])
<style scoped> .dataframe tbody tr th:only-of-type { vertical-align: middle; }
.dataframe tbody tr th {
    vertical-align: top;

.dataframe thead th {
    text-align: right;
Precision Recall Specificity False Positive Rate f-score Accuracy tp fp tn fn
Knn 0.772849 0.798168 0.759533 0.240467 0.785305 0.779089 2875 845 2669 727
Decision tree 0.770241 0.797612 0.756118 0.243882 0.783688 0.777122 2873 857 2657 729
clf 0.727187 0.641588 0.753273 0.246727 0.681711 0.696740 2311 867 2647 1291
Gnb 0.591526 0.786785 0.443085 0.556915 0.675325 0.617060 2834 1957 1557 768
svm 0.794472 0.750139 0.801081 0.198919 0.771669 0.775295 2702 699 2815 900
Randomf 0.864522 0.850361 0.863404 0.136596 0.857383 0.856802 3063 480 3034 539
XGboost 0.892594 0.839811 0.896414 0.103586 0.865398 0.867763 3025 364 3150 577
MPL 0.747805 0.685730 0.762948 0.237052 0.715424 0.723862 2470 833 2681 1132
keras 0.750649 0.722932 0.753842 0.246158 0.736529 0.738196 2604 865 2649 998
Gbt 0.834376 0.777624 0.841776 0.158224 0.805001 0.809303 2801 556 2958 801
Catboost 0.904517 0.828429 0.910359 0.089641 0.864802 0.868887 2984 315 3199 618
lgb 0.891682 0.827318 0.896983 0.103017 0.858295 0.861720 2980 362 3152 622
import matplotlib.pyplot as plt
%matplotlib inline
fig, ax = plt.subplots(figsize=(25, 10))
ind = np.arange(12)
width = 0.2
rects1 =,res_ml['Accuracy'],width, color='tab:blue')
rects2 =,res_ml['f-score'],width, color='tab:green')
rects3 =*2,res_ml['Precision'],width, color='tab:cyan')

ax.set_xticks(ind + width)
ax.set_xticklabels(('Knn','Decision tree','clf','Gnb','svm','Randomf','XGboost','MPL','keras',
ax.legend((rects1[0], rects2[0],rects3[0]), ('Accuracy', 'f-score','Precision'),loc='center left',bbox_to_anchor=(1, 0.4))
ax.set_title('ML results')
def autolabel(rects):
    Attach a text label above each bar displaying its height
    for rect in rects:
        height = rect.get_height()
        ax.text(rect.get_x() + rect.get_width()/2., 1.05*height,
                ha='center', va='bottom' , )
plt.savefig('ML_result.png', dpi=600,bbox_inches="tight")



Après avoir passé par l'étape la plus importante qui est le data engineering, comprenant tout d'abord la visualisation pour mieux comprendre les données et le contexte du projet, puis l'étape de data cleaning et data preprocessing pour nettoyer et préparer les données, on passe à la modélisation.

Pour ce projet, nous avons utilisé douze modèles de classification, parmi lesquels le Random Forest Classifier, le Neural Network et le Decision Tree.

Les résultats ont montré que les meilleurs performances ont été obtenues par le modèle XGboost avec un score f1 de 0,865398, suivi par le Catboost avec un score f1 de 0,864802, et enfin le Lightgbm avec un score f1 de 0,858295.



