La prédiction en apprentissage automatique, comment marche les algorithmes de classification des données : le cas de renforcement de capacité en TIC des étudiants de l’ENSup

Moussa DIALLO1,*, Youssouf KONE2, Cheick A. T. CAMARA1, Fanta Mady KEITA1
1Ecole Normale Supérieure (ENSup) de Bamako, Mali
2 Institut Universitaire de Formation Professionnelle (IUFP), Université de Ségou, Mali.
*Auteur correspondant : moussdiall@yahoo.fr, Tél : 00223 70 24 34 49

Résumé
Dans cet article, nous décrivons les différentes étapes pour résoudre un problème de prédiction en utilisant les algorithmes de l’apprentissage automatique, particulièrement les algorithmes de classification. Notre cas d’étude est le renforcement de capacité en TIC (Technologie de l’information et de la communication) des étudiants de l’ENSup (Ecole Normale Supérieure). Dans notre cas d’étude, nous avons une classification binaire car nous déterminons si les étudiants ont besoin d’un renforcement de capacité (oui) ou pas (non). Une prédiction en classification se fait généralement en cinq phases : la phase d’enquête, de prétraitement, de séparation de jeu de données, de modélisation et évaluation. La phase d’enquête est utilisée pour la collection des données brutes (données primaires). Dans cet article, nous utilisons un questionnaire de 101 questions pour 250 étudiants. La phase de prétraitement est utilisée pour transformer les données brutes en jeu de données (dataset). Le jeu de données est divisé en données d’entrainement et de teste dans la phase de séparation. Nous utilisons la séparation de la validation croisée. Seulement les données d’entrainement seront utilisées pour la création du modèle de l’algorithme dans la phase de modélisation. Les données de teste sont utilisées pour évaluer les différents algorithmes dans la phase d’évaluation. Nous utilisons les algorithmes de classification suivants : la Régression Logistique (RL), Naïf Bayes (NB.), Machine à Vecteurs de Support (MVS), K-Voisins les plus proches (KVP) et Perceptron Multicouche (PMC). Les résultats montrent que MLP et LR performent mieux que les autres.
Mots clés : TIC, ENSup, Algorithmes de classification, Apprentissage Automatique, prédiction des données

Abstract
In this paper, we describe the different steps to solve a prediction problem using machine learning algorithms, particularly classification algorithms. Our case study is the capacity building in ICT (Information and Communication Technology) of students at ENSup (Ecole Normale Supérieure). In our case study, we have a binary classification because we determine whether students need capacity building (yes) or not (no). A prediction in classification is generally done in five phases: the investigation phase, preprocessing, dataset separation, modeling and evaluation. The survey phase is used for the collection of raw data (primary data). In this article, we use a questionnaire of 101 questions for 250 students. The preprocessing phase is used to transform the raw data into a dataset. The dataset is divided into training and testing data in the separation phase. We use cross-validation separation. Only the training data will be used for creating the algorithm model in the modeling phase. The test data is used to evaluate the different algorithms in the evaluation phase. We use the following classification algorithms: Logistic Regression (LR), Naïve Bayes (NB.), Support Vector Machine (SVM), K-Nearest Neighbors (KNN) and Multilayer Perceptron (MLP). The results show that MLP and LR perform better than the others.
Keywords : ICT, ENSup, Classification algorithms, Machine Learning, Data prediction

Article en PDF