La formation comprend un volume horaire de 300 heures de cours à l’exclusion du temps consacré aux évaluations. L’enseignement repose sur 32 cours répartis en 3 modules de niveau progressif. Il est possible de rentrer directement en module 2 (un test de prérequis est organisé). Certains documents de cours sont en anglais.
Module 1 : Maîtriser les bases de la statistique60h
Ce module constitue une remise à niveau en statistique pour pouvoir se familiariser avec « la culture de la donnée ». Il aborde le concept de modélisation aléatoire et les techniques élémentaires de la statistique. Le cadre du modèle linéaire gaussien permet de formuler de manière élémentaire de nombreuses situations concrètes et illustre la résolution de problématiques. Une mise en pratique informatique à l’aide du logiciel R est déployée.
- Remise à niveau en probabilités
- Estimation classique, tests, régions de confiance
- Modèle linéaire gaussien
- Mise en pratique statistique sous le logiciel R
NB : Les titulaires d’un diplôme de niveau bac + 4 sanctionnant un bon niveau en modélisation aléatoire, en probabilité et en statistique pourront être dispensés de ce premier module.
Module 2 : Traiter les données par la statistique avancée120h
Les titulaires d’un diplôme de niveau Bac + 4 sanctionnant un bon niveau en modélisation aléatoire, en probabilité et en statistique peuvent être dispensés du module 1. Un test mathématique spécifique est proposé aux candidats pour l'accès direct au module 2.
Ce module décline les outils mathématiques et statistiques qui permettent d’envisager le traitement transversal de nombreuses problématiques. L’objectif est de présenter un très large panorama des techniques modernes à la fois sur les plans méthodologiques et pratiques et d’être en capacité d’effectuer des choix de modèles probants et de les appliquer de manière pertinente selon les résultats et objectifs attendus.
- Choix de modèles
- Modèles linéaires généralisés
- Régression non-paramétrique
- Analyse de données
- Bases de données sous SQL
- Valeurs extrêmes
- Approche bayésienne
- Séries temporelles
- Données manquantes et données censurées
- R avancé
- Python
NB : Les auditeurs dispensés du Module 1 pourront se voir offrir une formation accélérée au logiciel R sur proposition des directeurs de la formation.
Module 3 : Développer l’apprentissage et le big data120h
Il est possible d'intégrer directement le module 3, sous réserve d'avoir réussi le test d'entrée.
Ce module est essentiellement dévolu à la thématique du big data qui recouvre toutes les problématiques pour lesquelles les volumes des données sont tels que celles-ci ne peuvent être gérées par les approches classiques. Les techniques idoines sont celles de l’apprentissage statistique qui se situe à l’interface de l’informatique et de la statistique.
- Optimisation
- Apprentissage supervisé
- Graphes
- Deep learning
- Pratique du Deep Learning
- Classification non-supervisée
- Ethique et protection des données
- Calcul parallèle
- Cloud computing
- Visualisation des données
- Mini-projets
- Mise en pratique marketing
- Mise en pratique actuariat
- Case studies in Finance
Modalités pédagogiques
Les cours en présentiel et en distanciel sont illustrés par des jeux de données artificielles et réelles avec une mise en œuvre directe sur machine :
- Les intervenants s’assureront que les auditeurs disposent d’ordinateur personnel et des logiciels nécessaires mis à jour
- Les auditeurs auront accès au cluster informatique du CEREMADE pour les cours qui le nécessitent
- Des études de cas feront l’objet de travaux individuels ou collectifs en inter-session
- La diversité des pratiques professionnelles et le développement de la recherche en statistique imposent que les auditeurs assurent un travail d’analyse et de synthèse sur la base d’une bibliographie préparée par les responsables de la formation, ainsi que des recherches documentaires
- Ponctuellement, des conférences viennent compléter la formation, afin que des professionnels présentent leur pratique de la science des données en entreprise
- Plusieurs projets rythment la formation, afin de s’exercer à l’implémentation et à l’interprétation des techniques rencontrées
Modalités d'évaluation
La validation des acquis se fait tout au long du programme :
- Module 1 : devoirs sur table
- Modules 2 et 3 : travaux pratiques et mise en application sur données réelles, projets individuels et de groupes
Focus sur
Webinaire sur la thématique de la décision algorithmique | Dauphine-PSL
Laurence Lelièvre
06 26 71 77 67
contact.stat-big-data@dauphine.psl.eu