
DATA SCIENTIST
Durée
350 h en bootcamp – campus inversé, soit 50 jours, 35h par semaine, 10 demi-journées en présentiel
Dates prévisionnelles
non définies à ce jour
Lieu
EdFab pour le présentiel
Tarif public : 9 500€ (cas particulier nous contacter pour devis)
Pour les Demandeurs d’emploi : 6 200€
Pour le programme Paris Code : prise en charge d’une AIF par Pôle Emploi
Objectifs
Le Responsable de la gestion et de l’analyse de volumes de données massifs pour la stratégie et l’opérationnel de l’entreprise, le data scientist part de sources dispersées et explore de plus hauts niveaux de données pour en sortir des indicateurs qui serviront à la direction générale de l’entreprise. La formation Datascience est répartie selon les 4 pôles qui correspondent aux disciplines à maîtriser pour devenir un expert data-scientist : Le pôle mathématiques, le pôle informatique, le pôle modélisation et le pôle gestion de la donnée et visualisation.
Pre requis :
– Niveau au moins Bac+4/5 scientifique ou technique de préférence Mathématiques, Informatique ou Physique, Biologie, etc.
– Rigueur du raisonnement logique, faculté d’analyse, esprit de synthèse, sens de l’organisation
– Etre à l’aise avec l’environnement Windows
– Connaissance de l’anglais pour le passage des certifications
Métiers : Métiers du Big data
Data scientist
Chief data officer
Data Librarian
Data Analyst
Data Miner
Modalités pédagogiques :
3 phases :
Pédagogie :
- Formation inversée intensive avec succession de “sprints”. Chaque sprint s’étend sur 2 semaines et contient l’équivalent de 40h .
- Pendant toute la durée de la formation, les étudiants ont accès à un chat synchrone et asynchrone accessible de 9h00 à 20h en ligne sur lequel ils peuvent poser des questions
- Des séances de Coachings en présentiel seront dispensés à la fin de chaque sprint
- Tout au long de leur formation, les stagiaires seront invités à valider leurs acquis à travers des tests métiers de code qui récapituleront les notions abordées. La réussite à ces tests permettra l’obtention de certifications.
- A l’issue de chaque sprint des supports pédagogiques.Déroulement
Phase 1 (avec le langage R)
Objectifs : prise en main le langage de programmation R et maitrise des bases du machine learning
Phase 2 (avec Python)
Objectifs : prise en main du langage python et application du machine learning à un niveau avancé
Phase 3 : sprint final
Objectifs : travail en équipe pour obtenir un bon classement dans une compétition de machine learning internationale à définir selon la période de formation.
Légende :
Pôle mathématique Pôle Informatique
Pôle Outils de gestion de la Pôle Modélisation
donnée et visualisation
Programme phase 1 – 120 heures
Sprint 1 : Prise en main du langage R. Durée 30 heures
Objectifs : Prise en main du langage de programmation R avec programme de transition de SAS vers R, manipulation de données en R (data cleaning et processing), initiation aux librairies ggplot2, dplyr et data table
Sprint 2 : Machine Learning avec Caret. Durée 35 heures
Objectifs : Introduction au Machine Learning. Apprentissage supervisé et non supervisé. Maitrise du package caret. Paramétrage des modèles, métriques, hyperparamètres& fonctions de coûts
Sprint 3 : Data vizualisation en R & NLP. Durée 35 heures
Objectifs : Maitrise de la data visualisation et des objets graphiques en R à travers la bibliothèque ggplot2. Introduction au NLP et au text mining en R. Premières notions d’analyses de sentiments
Phase de révision et préparations aux tests de validation des sprints. Durée 20 heures
Programme phase 2 – 175 heures
Sprint 1 : Prise en main du langage Python. Durée 35 heures
Objectifs : Prise en main du langage de programmation Python avec introduction aux principales librairies: Numpy et Pandas
Sprint 2 : Data Vizualisation avancée. Durée 35 heures
Objectifs : Introduction à la data vizualisation avec Matplotlib. Découverte d’une multitude d’objets graphiques. Initiation à la bibliotheque de data vizualisation D3JS
Sprint 3 : Machine Learning avec Scikit-learn. Durée 35 heures
Objectifs : Introduction au Machine Learning avec Scikit-learn, Régression Simple, Régression complexe et Clustering.
Sprint 4 : Machine Learning avancé. Durée 45 heures
Objectifs : Notions avancées de Machine Learning avec Text Mining, Graph Mining, Recommender Systems, PySpark & Deep Learning
Phase de révision et préparations aux tests de validation des sprints. Durée 25 heures
Programme phase 3 – 55 heures
La phase 3 consiste en des Usecases clients. Ces Usecases porteront sur des problématiques concrètes d’entreprises de la banque, de l’assurance, du retail, du conseil, de l’industrie…
Usecase : SIG & Données météorologiques
Usecase : NLP
Usecase : Social Listening
Usecase : Prédiction du taux de churn
Usecase : Data Vizualization
L’intérêt de ces Usecases est de mettre en pratique toutes les notions acquises lors des deux premières phases. Elles pourront être effectuées en binôme ou trinôme.
Evaluation/certification à l’issue des sprints
Méthodes pédagogiques
- Un parcours de formation commun au groupe;
- Des modalités d’apprentissage différentes ;
- Interactivité et alternance entre les différentes méthodes (présentiel / distanciel) :
- Le stagiaire peut faire et refaire les exercices, revoir et approfondir les notions travaillées en cours avec le formateur, à tout moment, à partir de son accès à DataScientest
Moyens pédagogiques
- Plateforme Full SAAS qui révolutionne l’accès a la Datascience, Allocation d’une VM par candidat
- Mise à disposition d’un environnement Prêt-a-coder.
- Cas d’usages réels à réaliser sur la plateforme
- Plate-forme Slack dédiée permettant un échange constant avec les formateurs et Mentor
- Astuces des praticiens pour le data-processing, data-cleaning, data-acquisition, data-visualization
- 15 tutoriels à valider
- 100+ Workshops à réaliser
- 1 Projet data-science en équipe
- 3 Challenges
Processus et articulation pédagogiques
Entretien : Il est obligatoire en amont de la formation, après que le stagiaire ait candidaté au programme. L’ensemble des candidats ne peuvent pas rejoindre la formation. (taux de sélection autour de 50%).
Première séance : Le formateur présente la plateforme et comment l’utiliser, les objectifs et l’organisation de la formation ainsi que l’articulation pédagogique et la complémentarité des méthodes pédagogiques proposées (face à face, téléconférence, visioconférence et e-learning). Il sensibilise à la collaboration et l’entraide entre participants.
Formation à distance : travail en autonomie sur la plateforme entre deux séances de formation en présentiel. C’est un travail dirigé suivi au jour le jour par l’équipe de formation. Sondage quotidien par le formateur sur la plate-forme collaborative de messagerie Slack
Support pédagogique utilisé
- Supports papier : documentations, fiche outils, exercices pratiques tirés de situations professionnelles.
- Supports informatiques : Une machine virtuelle par stagiaire
- Plateforme Full SAAS qui révolutionne l’accès à la Datascience, Allocation d’une VM par candidat, DataScientest.com est la première plateforme en ligne de programmation, dédiée à la formation et au recrutement de Data Scientists en entreprise.
Matériels pédagogiques utilisés
- Un paperboard et un vidéo-projecteur
- Outil collaboratif via SLAK
- WIFI
Modalités d’évaluation
- 1 à deux évaluations en temps limité à passer en ligne chaque semaine dans un environnement de programmation propriétaire, avec feedback du formateur.
- Chaque candidat doit obtenir la certification dans le temps imparti, et peut la repasser jusqu’à trois fois.
Programme
Pôle Mathématique
- Les notions de mathématiques suivantes sont indispensables pour maîtriser les outils de la data-science
- Algèbre linéaire et probabilités
- Statistiques
- Optimisation
- Apprentissage statistique et inférence non-paramétrique
Pôle Informatique
- R
- Python
- Scala
- Spark
- SGBD SQL et NoSQL
- Cloud computing
- Algorithmes distribués sur grandes bases de données
- Map & Reduce
Pôle Modélisation
Théorique
- Introduction au Machine learning
- Méthodes de réduction de dimension
- Modèles supervisés
- Modèles non supervisés
- Traitement du langage naturel (NLP)
- Deep learning
- Machine learning avancée et systèmes experts
Pôle outils de gestion de la donnée et visualisation
- SGBD & Hive
- Talend et préparation de la donnée
- Outils de visualisation (Tableau software et Power BI)
- Maîtrise de Git / Github