Ingénierie de la fouille et de la visualisation de données massives
Code UE : RCP216-PAR
- Cours + travaux pratiques
- 6 crédits
- Volume horaire de référence
(+ ou - 10%) : 50 heures
Responsable(s)
Michel CRUCIANU
Public, conditions d’accès et prérequis
Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Présence et réussite aux examens
Pour l'année universitaire 2022-2023 :
- Nombre d'inscrits : 83
- Taux de présence à l'évaluation : 36%
- Taux de réussite parmi les présents : 53%
Objectifs pédagogiques
Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.
Compétences visées
Capacité à réaliser la fouille de données massives en utilisant une plate-forme de calcul distribué (Spark) via JupyterHub. Capacité à mettre en place un système de recommandation. Capacité à réaliser la fouille de textes en exploitant des encodages (word embeddings) et des modèles de langage (language models) en se servant d'une bibliothèque logicielle évoluée (SparkNLP). Capacité à concevoir une visualisation pertinente des données. Capacité à traiter des données en flux. Capacité à construire des modèles descriptifs et décisionnels sur des données massives. Capacité à évaluer des critères observationnels d'équité des prédictions et à modifier un modèle prédictif pour respecter des critères d'équité.
1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Aspects éthiques dans la fouille de données
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet les auditeurs peuvent utiliser le JupyterHub du Cnam.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
a. Recherche par similarité, systèmes de recommandation
b. Classification automatique
c. Fouille de données textuelles
d. Fouille de flux de données
e. Apprentissage supervisé à large échelle
f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Aspects éthiques dans la fouille de données
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet les auditeurs peuvent utiliser le JupyterHub du Cnam.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de http://cedric.cnam.fr/vertigo/Cours/RCP216/
Note finale = ((note de projet + note d'examen) / 2).
- Ryza, S., U. Laserson, S. Owen and J. Wills : Advanced Analytics with Spark, O'Reilly, 2014.
- A. Rajaraman and J. D. Ullman : Cambridge University Press, New York, NY, USA, 2014.
Cette UE apparaît dans les diplômes et certificats suivants
Rechercher une formation
RECHERCHE MULTI-CRITERES
Plus de critères de recherche sont proposés:
-
Vous pouvez sélectionner des formations grâce à un mot ou à une expression (chaîne de caractères) présent dans l’intitulé de la formation, sa description ou ses index (discipline ou métier).
Des mots-clés sont suggérés à partir du 3e caractère saisi, mais vous pouvez aussi rechercher librement. - Les différents items sélectionnés sont croisés.
ex: "Comptabilité" et "Diplôme" - Les résultats comprennent des formations de la région (UE, diplômes, certificats, stages) et des formations proposées à distance par d'autres centres du Cnam.
- Les codes des formations à Paris se terminent par le suffixe PAR01 (pour le centre Cnam Paris) et PAR02 (pour Cnam Entreprises).
- Certains diplômes se déclinent selon plusieurs parcours. Pour afficher tous les parcours, tapez la racine du code (ex : « LG035 »).
- Dans tous les cas, veillez à ne pas insérer d'espace ni de ponctuation supplémentaire.
Plus de critères de recherche sont proposés:
- Type de diplôme
- Niveau d'entrée
- Modalité de l'enseignement
- Programmation semestrielle
Chargement du résultat...
Intitulé de la formation |
Type |
Modalité(s) |
Lieu(x) |
|
---|---|---|---|---|
Intitulé de la formation
Certificat de spécialisation Analyste de données massives
|
Lieu(x)
À la carte
|
|||
Intitulé de la formation
Diplôme d'ingénieur Spécialité informatique Parcours Intelligence Artificielle et Optimisation
|
Type
Diplôme d'ingénieur
|
Lieu(x)
À la carte
|
||
Intitulé de la formation
Diplôme d'ingénieur Spécialité informatique Parcours Intelligence Artificielle et Optimisation
|
Type
Diplôme d'ingénieur
|
Lieu(x)
Package
|
Lieu(x)
Grand-Est
|
|
Intitulé de la formation
Master Droit, économie et gestion mention Finance Parcours Finance numérique et Fintech
|
Lieu(x)
Package
|
Lieu(x)
Paris
|
||
Intitulé de la formation
Master Sciences des données
|
Lieu(x)
Package
|
Lieu(x)
Paris
|
||
Intitulé de la formation
Master Sciences des données
|
Lieu(x)
À la carte
|
Lieu(x)
Liban
|
||
Intitulé de la formation | Type | Modalité(s) | Lieu(x) |
Contact
EPN05 - Informatique
2 rue Conté
75003 Paris
Tel :01 40 27 22 58
Swathi RANGANADIN RAJASELVAM
2 rue Conté
75003 Paris
Tel :01 40 27 22 58
Swathi RANGANADIN RAJASELVAM
Voir le site
Centre(s) d'enseignement proposant cette formation
-
Paris
- 2024-2025 1er semestre : Formation ouverte et à distance (FOAD)
- 2025-2026 1er semestre : Formation ouverte et à distance (FOAD)
- 2026-2027 1er semestre : Formation ouverte et à distance (FOAD)
Comment est organisée cette formation ?2024-2025 1er semestre : Formation ouverte et à distance
Dates importantes
- Période des séances du 16/09/2024 au 18/01/2025
- Période d'inscription : du 10/06/2024 à 10:00 au 18/10/2024 à 23:59
- Date de 1ère session d'examen : la date sera publiée sur le site du centre ou l'ENF
- Date de 2ème session d'examen : la date sera publiée sur le site du centre ou l'ENF
Précision sur la modalité pédagogique
- Une formation ouverte et à distance (FOAD) est une formation dispensée 100% à distance, qui peut être suivie librement, à son rythme.
- Regroupements physiques facultatifs : Aucun
Organisation du déploiement de l'unité
- Délai maximum de réponse à une solicitation : sous 96 heures (Jours ouvrés)
Modes d'animation de la formation
- Forum
- Visioconférence
- Organisation d'une séance de démarrage
- Evaluation de la satisfaction
- Hot line technique
Ressources mises à disposition sur l'Espace Numérique de Formation
- Documents de cours
- Enregistrement de cours
- TP en ligne
Modalité de contrôle de l'acquisition des compétences et des connaissances (validation de l'UE)
- Examens présentiels dans un centre habilité
- Projet(s) individuel(s)
2024-2025 2nd semestre : Formation en présentiel soir ou samedi
Dates importantes
- Période des séances du 03/02/2025 au 07/06/2025
- Période d'inscription : du 10/06/2024 à 10:00 au 14/03/2025 à 23:59
- Date de 1ère session d'examen : la date sera publiée sur le site du centre ou l'ENF
- Date de 2ème session d'examen : la date sera publiée sur le site du centre ou l'ENF
Précision sur la modalité pédagogique
- Une formation en présentiel est dispensée dans un lieu identifié (salle, amphi ...) selon un planning défini (date et horaire).
-
Centre Cnam Paris
- 2024-2025 2nd semestre : Formation en présentiel soir ou samedi
- 2025-2026 2nd semestre : Formation en présentiel soir ou samedi
- 2026-2027 2nd semestre : Formation en présentiel soir ou samedi
Comment est organisée cette formation ?2024-2025 1er semestre : Formation ouverte et à distance
Dates importantes
- Période des séances du 16/09/2024 au 18/01/2025
- Période d'inscription : du 10/06/2024 à 10:00 au 18/10/2024 à 23:59
- Date de 1ère session d'examen : la date sera publiée sur le site du centre ou l'ENF
- Date de 2ème session d'examen : la date sera publiée sur le site du centre ou l'ENF
Précision sur la modalité pédagogique
- Une formation ouverte et à distance (FOAD) est une formation dispensée 100% à distance, qui peut être suivie librement, à son rythme.
- Regroupements physiques facultatifs : Aucun
Organisation du déploiement de l'unité
- Délai maximum de réponse à une solicitation : sous 96 heures (Jours ouvrés)
Modes d'animation de la formation
- Forum
- Visioconférence
- Organisation d'une séance de démarrage
- Evaluation de la satisfaction
- Hot line technique
Ressources mises à disposition sur l'Espace Numérique de Formation
- Documents de cours
- Enregistrement de cours
- TP en ligne
Modalité de contrôle de l'acquisition des compétences et des connaissances (validation de l'UE)
- Examens présentiels dans un centre habilité
- Projet(s) individuel(s)
2024-2025 2nd semestre : Formation en présentiel soir ou samedi
Dates importantes
- Période des séances du 03/02/2025 au 07/06/2025
- Période d'inscription : du 10/06/2024 à 10:00 au 14/03/2025 à 23:59
- Date de 1ère session d'examen : la date sera publiée sur le site du centre ou l'ENF
- Date de 2ème session d'examen : la date sera publiée sur le site du centre ou l'ENF
Précision sur la modalité pédagogique
- Une formation en présentiel est dispensée dans un lieu identifié (salle, amphi ...) selon un planning défini (date et horaire).
Code UE : RCP216-PAR
- Cours + travaux pratiques
- 6 crédits
- Volume horaire de référence
(+ ou - 10%) : 50 heures
Responsable(s)
Michel CRUCIANU