Le Certificat Data Science de Dauphine-PSL est une formation accélérée, de 9 jours (63 heures) sur 3 mois, axée sur les modules clés du métier de data scientist, notamment la gestion des données massives et l'apprentissage automatique.
Langages, Modèles et Systèmes & Applications3,5 jours
- Introduction à l’analyse de grandes masses de données
- Architectures avec parallélisme massif
- L’écosystème Hadoop et MapReduce
- Architectures et langages NoSQL
- Intégrer HADOOP dans un Système d’Information d’Entreprise
- Stockage des données (Base de données classiques et base de données Nosql)
Machine Learning & Data Mining3 jours
- Introduction à l’apprentissage automatique
- Apprentissage supervisé (modèles prédictifs) : Régression, arbres de décision, bagging, SVM, réseaux de neurones
- Apprentissage non-supervisé (modèles explicatifs/exploratoires) : Changement de représentation/ Réduction de dimensionnaté, analyse par composantes principales, décomposition en valeurs singulières, clustering
- Sessions pratiques sous Python avec les librairies ScikitLearn et PyTorch (deep learning)
Graph Databases1,5 jours
- Bases de données graphes : modélisation des données en graphe, architecture, Neo4j
- Langages de requête pour les graphes (Cypher)
- Frameworks pour l’analyse des graphes ( Pregel, GraphX)
Projet1 jour
Les participants auront l’occasion de mettre en oeuvre les connaissances acquises dans les modules du certificat dans le cadre d’un projet pratique.
Modalités pédagogiques

Des infrastructures matérielles adaptées à la pratique de la data science
Afin d'assurer le bon déroulement des travaux pratiques et l'application des techniques abordées pendant le certificat sur des jeux de données de grande taille, les participants ont accès à un cluster composé de 10 serveurs, dont la capacité de mémoire vive atteint 40 GO de RAM par serveur et la capacité de stockage secondaire totale du cluster atteint 10 TO.
Un apprentissage en effectif réduit
Le Certificat Data Science accepte un maximum de 15 participants par promotion afin de garantir une meilleure compréhension et un suivi individuel rapproché de chaque participant tout au long de la formation.
Langue d'enseignement
La formation est dispensée en français (des supports en anglais pourront être utilisés).
Contrôle des connaissances
La validation des acquis des enseignements et la délivrance du certificat Data Science est conditionnelle à plusieurs types d’épreuves :
- Un QCM (avec des questions libres) pour chacune des 3 matières au programme, permettant de valider l’acquisition des connaissances vues tout au long de la formation.
- La construction et la soutenance d’un projet.
Responsable de la formation & intervenants
La formation est assurée par des conférenciers et des professeurs de classe internationale qui participent à différents enseignements au sein d'établissements de PSL (Université Paris Dauphine-PSL et ENS), de l'Ecole Centrale et de l'Ecole Polytechnique.
Khalid Belhajjame
Maître de conférences en informatique et membre du LAMSADE, Université Paris Dauphine-PSL
Khalid Belhajjame est spécialiste en pay-as-you data integration, e-Science, scientific workflow management, provenance tracking & exploitation et semantic web services.
Jamal Atif
Professeur des Universités en informatique, Université Paris Dauphine-PSL
Jamal Atif est chercheur en Machine learning. Il est chargé de mission IA au CNRS et directeur scientifique adjoint de l'institut PRAIRIE.
Dario Colazzo
Professeur et membre du LAMSADE, Université Paris Dauphine-PSL
Dario Colazzo est responsable du Pôle Data Science du LAMSADE (Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision) de Dauphine-PSL. Il est également co-directeur du département MIDO (Mathématiques et informatique de la Décision et des Organisations) de Dauphine-PSL et responsable pour l’Informatique. Il est par ailleurs professeur chargé de cours à l’École Polytechnique au sein du CMAP.
Ses recherches et ses intérêts se situent à l’intersection des bases de données et des langages de programmation, avec un focus récent sur des aspects de traitement sûr et efficace pour les données massives et semi- structurées - Big Data.
Daniela Grigori
Professeure des universités en informatique, Université Paris Dauphine-PSL
Daniela Grigori est spécialiste en business process Management, workflow technology, web services, SOA et data mining.
Elle est par ailleurs directrice du LAMSADE (Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision) de Dauphine-PSL.
Focus sur
Webinaire sur la thématique de la décision algorithmique | Dauphine-PSL

Contact
Florence Biéret
06 79 75 64 02
florence.bieret@dauphine.psl.eu