Public
Responsables Infocentre (Datamining, Marketing, Qualité...), utilisateurs et gestionnaires métiers de bases de données.
Pré-requis
Connaissances de base en Python. Connaissances de base en statistiques ou avoir suivi le stage "Statistiques, maîtriser les fondamentaux" (Référence Aquantic SMF).
Objectifs
À la fin de la formation, le participant sera capable de :
- Comprendre le concept de modélisation statistique.
- Sélectionner la régression ou la classification selon le type de données.
- Juger les performances prédictives d'un algorithme.
- Créer des sélections et des classements dans de larges ensembles de données pour identifier des tendances.
Programme
Introduction à la modélisation
- Initiation au langage Python.
- Découverte du logiciel Jupiter Notebook.
- Processus de création d'un modèle.
- Algorithmes supervisés et non supervisés.
- Décision entre la régression et la classification. Pratique: Installation de Python 3, Anaconda et Jupiter Notebook.
Méthodes d'évaluation de modèles
- Techniques de ré-échantillonnage pour l'apprentissage, la validation et le test de sets.
- Test de la représentativité des données d'apprentissage.
- Mesures de la performance des modèles prédictifs.
- Matrices de confusion et de coût, courbes ROC et AUC. Pratique : Implémentation d'échantillonnage de sets de données. Réaliser des tests d'évaluation sur divers modèles fournis.
Les algorithmes supervisés
- Concept de la régression linéaire univariée.
- La régression multivariée.
- Régression polynomiale.
- Régression régularisée.
- Naive Bayes.
- Régression logistique. Pratique: Application des régressions et des classifications sur différentes sortes de données.
Les algorithmes non supervisés
- Clustering hiérarchique.
- Clustering non hiérarchique.
- Approches mixtes. Pratique : Exécution de clustering non supervisé sur divers sets de données.
Analyse en composantes
- Analyse en composantes principales.
- Analyse factorielle des correspondances.
- Analyse des correspondances multiples.
- Analyse factorielle pour données mixtes.
- Classification hiérarchique sur composantes principales. Pratique: Mise en application de la réduction du nombre de variables et identification des facteurs sous-jacents aux dimensions avec une grande variabilité.
Analyse de textes
- Collecte et prétraitement de données textuelles.
- Extraction d'entités primaires, d'entités nommées et résolution de la référence.
- Étiquetage grammatical, analyse syntaxique et sémantique.
- Lemmatisation.
- Représentation vectorielle de textes.
- Pondération TF-IDF.
- Word2Vec. Pratique : Exploration du contenu d'une base de textes via l'analyse sémantique latente.
