DATA SCIENTIST

Durée

350 h en bootcamp – campus inversé,  soit 50 jours, 35h par semaine, 10 demi-journées en présentiel

Dates prévisionnelles

non définies à ce jour

Lieu

EdFab pour le présentiel

Tarif public : 9 500€ (cas particulier nous contacter pour devis)

Pour les Demandeurs d’emploi : 6 200€

Pour le programme Paris Code : prise en charge d’une AIF par Pôle Emploi

Objectifs

Le Responsable de la gestion et de l’analyse de volumes de données massifs pour la stratégie et l’opérationnel de l’entreprise, le data scientist part de sources dispersées et explore de plus hauts niveaux de données pour en sortir des indicateurs qui serviront à la direction générale de l’entreprise. La formation Datascience est répartie selon les 4 pôles qui correspondent aux disciplines à maîtriser pour devenir un expert data-scientist : Le pôle mathématiques, le pôle informatique, le pôle modélisation et le pôle gestion de la donnée et visualisation.

Pre requis :

– Niveau au moins Bac+4/5 scientifique ou technique de préférence Mathématiques, Informatique ou Physique, Biologie, etc.
– Rigueur du raisonnement logique, faculté d’analyse, esprit de synthèse, sens de l’organisation
– Etre à l’aise avec l’environnement Windows
– Connaissance de l’anglais pour le passage des certifications

Métiers : Métiers du Big data

Data scientist
Chief data officer
Data Librarian
Data Analyst
Data Miner

Modalités pédagogiques :

3 phases :

Pédagogie :

  • Formation inversée intensive avec succession de “sprints”. Chaque sprint s’étend sur 2 semaines et contient l’équivalent de 40h .
  • Pendant toute la durée de la formation, les étudiants ont accès à un chat synchrone et asynchrone accessible de 9h00 à 20h en ligne sur lequel ils peuvent poser des questions
  • Des séances de Coachings en présentiel seront dispensés à la fin de chaque sprint
  • Tout au long de leur formation, les stagiaires seront invités à valider leurs acquis à travers des tests métiers de code qui récapituleront les notions abordées. La réussite à ces tests permettra l’obtention de certifications.
  • A l’issue de chaque sprint des supports pédagogiques.Déroulement

    Phase 1 (avec le langage R)

    Objectifs : prise en main le langage de programmation R et maitrise des bases du machine learning

    Phase 2 (avec Python)

    Objectifs : prise en main du langage python et application du machine learning à un niveau avancé

    Phase 3 : sprint final

    Objectifs : travail en équipe pour obtenir un bon classement dans une compétition de machine learning internationale à définir selon la période de formation.

    Légende :

    Pôle mathématique                         Pôle Informatique

    Pôle Outils de gestion de la          Pôle Modélisation

    donnée et visualisation

    Programme phase 1 – 120 heures

    Sprint 1 : Prise en main du langage R. Durée 30 heures

    Objectifs : Prise en main du langage de programmation R avec programme de transition de SAS vers R, manipulation de données en R (data cleaning et processing), initiation aux librairies ggplot2, dplyr et data table

    Sprint 2 : Machine Learning avec Caret. Durée 35 heures

    Objectifs : Introduction au Machine Learning. Apprentissage supervisé et non supervisé. Maitrise du package caret. Paramétrage des modèles, métriques, hyperparamètres& fonctions de coûts

    Sprint 3 : Data vizualisation en R & NLP. Durée 35 heures

    Objectifs : Maitrise de la data visualisation et des objets graphiques en R à travers la bibliothèque ggplot2. Introduction au NLP et au text mining en R. Premières notions d’analyses de sentiments

    Phase de révision et préparations aux tests de validation des sprints. Durée 20 heures

    Programme phase 2 – 175 heures

    Sprint 1 : Prise en main du langage Python. Durée 35 heures

    Objectifs : Prise en main du langage de programmation Python avec introduction aux principales librairies: Numpy et Pandas

    Sprint 2 : Data Vizualisation avancée. Durée 35 heures

    Objectifs : Introduction à la data vizualisation avec Matplotlib. Découverte d’une multitude d’objets graphiques. Initiation à la bibliotheque de data vizualisation D3JS

    Sprint 3 : Machine Learning avec Scikit-learn. Durée 35 heures

    Objectifs : Introduction au Machine Learning avec Scikit-learn, Régression Simple, Régression complexe et Clustering.

    Sprint 4 : Machine Learning avancé. Durée 45 heures

    Objectifs : Notions avancées de Machine Learning avec Text Mining, Graph Mining, Recommender Systems, PySpark & Deep Learning

    Phase de révision et préparations aux tests de validation des sprints. Durée 25 heures

    Programme phase 3 – 55 heures

    La phase 3 consiste en des Usecases clients. Ces Usecases porteront sur des problématiques concrètes d’entreprises de la banque, de l’assurance, du retail, du conseil, de l’industrie…

    Usecase : SIG & Données météorologiques

    Usecase : NLP

    Usecase : Social Listening

    Usecase : Prédiction du taux de churn

    Usecase : Data Vizualization

    L’intérêt de ces Usecases est de mettre en pratique toutes les notions acquises lors des deux premières phases. Elles pourront être effectuées en binôme ou trinôme.

    Evaluation/certification à l’issue des sprints

    Méthodes pédagogiques

    • Un parcours de formation commun au groupe;
    • Des modalités d’apprentissage différentes ;
    • Interactivité et alternance entre les différentes méthodes (présentiel / distanciel) :
    • Le stagiaire peut faire et refaire les exercices, revoir et approfondir les notions travaillées en cours avec le formateur, à tout moment, à partir de son accès à DataScientest

    Moyens pédagogiques

    • Plateforme Full SAAS qui révolutionne l’accès a la Datascience, Allocation d’une VM par candidat
    • Mise à disposition d’un environnement Prêt-a-coder.
    • Cas d’usages réels à réaliser sur la plateforme
    • Plate-forme Slack dédiée permettant un échange constant avec les formateurs et Mentor
    • Astuces des praticiens pour le data-processing, data-cleaning, data-acquisition, data-visualization
    • 15 tutoriels à valider
    • 100+ Workshops à réaliser
    • 1 Projet data-science en équipe
    • 3 Challenges

Processus et articulation pédagogiques

Entretien : Il est obligatoire en amont de la formation, après que le stagiaire ait candidaté au programme.  L’ensemble des candidats ne peuvent pas rejoindre la formation. (taux de sélection autour de 50%).

Première séance : Le formateur présente la plateforme et comment l’utiliser, les objectifs  et l’organisation de la formation ainsi que l’articulation pédagogique et la complémentarité des méthodes pédagogiques proposées (face à face, téléconférence, visioconférence et e-learning). Il sensibilise à la collaboration et l’entraide entre participants.

Formation à distance : travail en autonomie sur la plateforme entre deux séances de formation en présentiel. C’est un travail dirigé suivi au jour le jour par l’équipe de formation. Sondage quotidien par le formateur sur la plate-forme collaborative de messagerie Slack

Support pédagogique utilisé

  • Supports papier : documentations, fiche outils, exercices pratiques tirés de situations professionnelles.
  • Supports informatiques : Une machine virtuelle par stagiaire
  • Plateforme Full SAAS qui révolutionne l’accès à la Datascience, Allocation d’une VM par candidat, DataScientest.com est la première plateforme en ligne de programmation, dédiée à la formation et au recrutement de Data Scientists en entreprise.

Matériels pédagogiques utilisés

  • Un paperboard et un vidéo-projecteur
  • Outil collaboratif via SLAK
  • WIFI

Modalités d’évaluation

  • 1 à deux évaluations en temps limité à passer en ligne chaque semaine dans un environnement de programmation propriétaire, avec feedback du formateur.
  • Chaque candidat doit obtenir la certification dans le temps imparti, et peut la repasser jusqu’à trois fois.

Programme

Pôle Mathématique

  • Les notions de mathématiques suivantes sont indispensables pour maîtriser les outils de la data-science
  • Algèbre linéaire et probabilités
  • Statistiques
  • Optimisation
  • Apprentissage statistique et inférence non-paramétrique

 

Pôle Informatique

  • R
  • Python
  • Scala
  • Spark
  • SGBD SQL et NoSQL
  • Cloud computing
  • Algorithmes distribués sur grandes bases de données
  • Map & Reduce

Pôle Modélisation

Théorique

  • Introduction au Machine learning
  • Méthodes de réduction de dimension
  • Modèles supervisés
  • Modèles non supervisés
  • Traitement du langage naturel (NLP)
  • Deep learning
  • Machine learning avancée et systèmes experts

 Pôle outils de gestion de la donnée et visualisation

  • SGBD & Hive
  • Talend et préparation de la donnée
  • Outils de visualisation (Tableau software et Power BI)
  • Maîtrise de Git / Github

S’inscrire maintenant

© Copyright - Flexilearning