Public
Dataminers, chargés d'études statistiques, développeurs, chefs de projet, consultants en informatique décisionnelle.
Pré-requis
Connaissances de base des modèles relationnels, des statistiques et des langages de programmation. Connaissances de base des concepts de la Business Intelligence.
Objectifs
À la fin de la formation, le participant sera capable de :
- Appréhender les concepts principaux du Big Data
- Saisir l'écosystème technologique d'un projet Big Data
- Juger les techniques de gestion des flux de données massives
- Mettre en œuvre des modèles d'analyses statistiques pour répondre aux exigences professionnelles
- Se familiariser avec les outils de visualisation de données
Programme
Programme de formation
Comprendre les concepts clés et les enjeux du Big Data
- Les origines du Big Data.
- Importance changeante de la valeur des données.
- Les données en tant que matière première.
- Les chiffres clés du marché mondial et français.
- Les défis du Big Data : RCI, organisation, confidentialité des données. Démonstration Présentation d'une structure de Big Data.
Technologies du Big Data
- Structure et éléments de la plateforme Hadoop 2.
- Les méthodes de stockage (NoSQL, HDFS).
- Fonctionnement de MapReduce et Yarn...
- Principales distributions Hadoop : Hortonworks, Cloudera, MapR...
- Les technologies : Spark, Storm, Databrick, Machine Learning Azure...
- Processus d'installation d'une plateforme Hadoop.
- Présentation des technologies spécifiques au Big Data (Talend, Tableau, Qlikview...). Démonstration Installation d'une plateforme complète de Big Data.
Traitement des données Big Data
- Fonctionnement du système de fichiers distribués Hadoop (HDFS).
- Importation de données vers le HDFS.
- Traitement des données avec PIG.
- Requêtes SQL avec HIVE.
- Création de flux de données massives avec un ETL. Démonstration : Mise en œuvre de flux de données massives.
Méthodes d'analyse et traitement des données pour le Big Data
- Les méthodes d'exploration.
- Segmentation et classification.
- Apprentissage automatique, estimation et prédiction.
- Temps réel, IA.
- Mise en place de modèles. Démonstration Présentation de l'environnement Spark, Jupyter Notebook, R Notebook et Shiny. Réalisation d'analyses d'apprentissage automatique en utilisant les langages R, Python et Scala.
Visualisation de données, représentation visuelle des données
- Principales solutions du marché.
- Aller au-delà des rapports statiques.
- La visualisation de données et l'art de raconter les chiffres de manière créative et ludique.
- Mesurer l'e-réputation, la notoriété d'une marque, l'expérience et la satisfaction du client... Démonstration Présentation et utilisation d'un outil de visualisation de données pour réaliser des analyses dynamiques.
Conclusion
- Les conditions de succès.
- Résumé des meilleures pratiques.
- Bibliographie.
