AccueilChoisir ma formationPar discipline

Ingénierie de la fouille et de la visualisation de données massives

Code UE : RCP216-PAR

Cours + travaux pratiques
6 crédits
Volume horaire de référence
(+ ou - 10%) : 50 heures

Responsable(s)

Michel CRUCIANU

Public, conditions d’accès et prérequis

Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Connaissance d'au moins un langage de programmation.
Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur https://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, le résultat vous est donné immédiatement et n'est pas enregistré.

L'avis des auditeurs

Les dernières réponses à l'enquête d'appréciation pour cet enseignement :

Fiche synthétique au format PDF

Présence et réussite aux examens

Pour l'année universitaire 2023-2024 :

Nombre d'inscrits : 68
Taux de présence à l'évaluation : 54%
Taux de réussite parmi les présents : 89%

Objectifs pédagogiques

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué.
Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux.
L'UE s'intéresse également au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats mais aussi dans les opérations de fouille de données.

Compétences visées

Réaliser la fouille de données massives en utilisant une plate-forme de calcul distribué (Spark) via JupyterHub. Mettre en place un système de recommandation. Réaliser la fouille de textes en exploitant des encodages (word embeddings) et des modèles de langage (language models) en se servant d'une bibliothèque logicielle évoluée (SparkNLP). Mettre en œuvre une visualisation pertinente des données. Traiter des données en flux. Construire des modèles descriptifs et décisionnels sur des données massives. Evaluer des critères observationnels d'équité des prédictions et modifier un modèle prédictif pour respecter des critères d'équité.

Mots-clés

Contenu

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents
            a. Recherche par similarité, systèmes de recommandation
            b. Classification automatique
            c. Fouille de données textuelles
            d. Fouille de flux de données
            e. Apprentissage supervisé à large échelle
            f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Aspects éthiques dans la fouille de données
Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Ces TP seront réalisés à l'aide de Apache Spark pour la fouille de données et de réseaux sociaux, et à l'aide de Gephi pour la visualisation de graphes. Pour les travaux pratiques comme pour le travail sur le projet les auditeurs peuvent utiliser le JupyterHub du Cnam.
Les supports de cours et de TP, ainsi que d'autres explications concernant le déroulement de l'UE sont accessibles à partir de https://cedric.cnam.fr/vertigo/Cours/RCP216/

Modalité d'évaluation

Note finale = ((note de projet + note d'examen) / 2).

Bibliographie

Ryza, S., U. Laserson, S. Owen and J. Wills. : Advanced Analytics with Spark. O'Reilly.
A. Rajaraman and J. D. Ullman. : Mining Massive Datasets. Cambridge University Press, New York, NY, USA.

Cette UE apparaît dans les diplômes et certificats suivants

Chargement du résultat...

Intitulé de la formation	Type	Modalité(s)	Lieu(x)
Intitulé de la formation Master Droit, économie et gestion mention Finance Parcours Finance numérique et Fintech	Type Diplôme national (DEUST, licence, master, doctorat, diplôme d'Etat)	Lieu(x) Package	Lieu(x) Paris	Entrée Niveau 6 (Bac+3 et 4)
Intitulé de la formation Certificat de spécialisation Analyste de données massives	Type Certificat d'établissement	Lieu(x) À la carte	Lieu(x) Bretagne, Centre - Val de Loire, Liban, Madagascar, Paris	Entrée Sans niveau spécifique
Intitulé de la formation Master Science des données	Type Diplôme national (DEUST, licence, master, doctorat, diplôme d'Etat)	Lieu(x) Package	Lieu(x) Paris	Entrée Niveau 6 (Bac+3 et 4)
Intitulé de la formation Master Science des données	Type Diplôme national (DEUST, licence, master, doctorat, diplôme d'Etat)	Lieu(x) À la carte	Lieu(x) Liban	Entrée Niveau 6 (Bac+3 et 4)
Intitulé de la formation Master Informatique — Parcours Traitement de l'information et exploitation des données (TRIED)	Type Diplôme national (DEUST, licence, master, doctorat, diplôme d'Etat)	Lieu(x) Package	Lieu(x) Paris	Entrée Niveau 6 (Bac+3 et 4)
Intitulé de la formation Diplôme d'ingénieur Spécialité informatique Parcours Intelligence Artificielle et Optimisation	Type Diplôme d'ingénieur	Lieu(x) À la carte	Lieu(x) Auvergne - Rhône-Alpes, Centre - Val de Loire, Madagascar, Paris, Pays de la Loire	Entrée Niveau 5 (Bac+2)
Intitulé de la formation	Type	Modalité(s)	Lieu(x)

Contact

EPN05 - Informatique
2 rue Conté 33.1.9A
75003 Paris
Tel :01 58 80 87 99
Jean-mathieu Codassé

Voir le site

cedric.cnam.fr/vertigo/Cours/RCP216/

Centre(s) d'enseignement proposant cette formation

Paris
- 2025-2026 1er semestre : Formation ouverte et à distance (FOAD)
Comment est organisée cette formation ?
2025-2026 1er semestre : Formation ouverte et à distance
Dates importantes
Période des séances du 15/09/2025 au 17/01/2026
Période d'inscription : du 02/06/2025 à 10:00 au 17/10/2025 à 18:00
Date de 1ère session d'examen : la date sera publiée sur le site du centre ou l'ENF
Date de 2ème session d'examen : la date sera publiée sur le site du centre ou l'ENF
Précision sur la modalité pédagogique
Une formation ouverte et à distance (FOAD) est une formation dispensée 100% à distance, qui peut être suivie librement, à son rythme.
Regroupements physiques facultatifs : Aucun
Organisation du déploiement de l'unité
Délai maximum de réponse à une solicitation : sous 96 heures (Jours ouvrés)
Modes d'animation de la formation
Forum
Messagerie intégrée à la plateforme
Visioconférence
Organisation d'une séance de démarrage
Evaluation de la satisfaction
Hot line technique
Ressources mises à disposition sur l'Espace Numérique de Formation
Documents de cours
Enregistrement de cours
Documents d'exercices, études de cas ou autres activités pédagogiques
Outils spécifiques (exerciseur, simulateurs, etc)
Bibliographie et Webographie
Modalité de contrôle de l'acquisition des compétences et des connaissances (validation de l'UE)
Examens présentiels dans un centre habilité
Projet(s) individuel(s)

Voir descriptif national Voir le descriptif de la formation dans le catalogue national

Ingénierie de la fouille et de la visualisation de données massives

Code UE : RCP216-PAR

Responsable(s)

Public, conditions d’accès et prérequis

L'avis des auditeurs

Présence et réussite aux examens

Objectifs pédagogiques

Compétences visées

Mots-clés

Contenu

Modalité d'évaluation

Bibliographie

Cette UE apparaît dans les diplômes et certificats suivants

Rechercher une formation

Type(s) de formation

Type(s) de diplôme

Niveau d'entrée

Contact

Centre(s) d'enseignement proposant cette formation

Dates importantes

Précision sur la modalité pédagogique

Organisation du déploiement de l'unité

Modes d'animation de la formation

Ressources mises à disposition sur l'Espace Numérique de Formation

Modalité de contrôle de l'acquisition des compétences et des connaissances (validation de l'UE)

Code UE : RCP216-PAR

Responsable(s)

Dans la même rubrique