Avec l'avènement du Digital, les données sont de plus en plus
omniprésentes et en nombre tel qu'il n'est plus possible d'envisager une
analyse sur un ordinateur personnel. Le Big Data est né chez les géants
de l'Internet (Google, Amazon, Facebook, Yahoo) et a donné lieu à de
nombreux outils devenus Open Source comme Big Table, Hadoop, MongoDB
pour n'en citer que quelques-uns. Le module Big Data présente les
différentes approches existantes pour la prise en compte de données
massives à savoir un traitement par batch (avec Hadoop et Map Reduce),
un traitement live (avec Apache Spark) et finalement l'architecture
lambda mixant les deux approches.
- Responsable de cours: Alloui, Ilham
- Responsable de cours: Ferraguig, Lynda
- Responsable de cours: Huget, Marc-Philippe
- Responsable de cours: Monnet, Sebastien
- Responsable de cours: Vernier, Flavien
Ce cours présente une vue d’ensemble de l’apprentissage automatique, de ses grands principes à sa mise en œuvre par des algorithmes spécialisés. Les principes de l’apprentissage sont présentés par le biais d’une typologie des problèmes abordés et des catégories d’apprentissage. Concrètement, la formulation d’un problème d’apprentissage correspond à spécifier conjointement objectifs, données et modèles. Le problème formulé est ensuite résolu en utilisant un algorithme adapté. Si les grands principes de l’apprentissage se déclinent sur les différents problèmes abordés, leur résolution fait appel à des algorithmes différents. Ce cours se focalise sur les problèmes de classification en mode supervisé et non-supervisé. Dans ce contexte, les grandes familles de modèles (arbres, réseaux de neurones, règles, modèles bayésiens, …) et algorithmes associés seront appréhendés par la pratique puis revisités a posteriori de façon à extraire les principes et concepts propres aux différentes méthodes.
- Responsable de cours: Benoit, Alexandre
- Responsable de cours: Galichet, Sylvie
- Responsable de cours: Meger, Nicolas
- Responsable de cours: Mian, Ammar
Ce cours présente les méthodes statistiques exploitées en analyse de données (analyse factorielle) ou en modélisation de la relation explicative d'une variable (régression) et positionne leur utilisation dans la pyramide de l’informatique décisionnelle moderne.
La première partie du cours est consacrée à l’analyse factorielle qui, par confrontation des espaces d’individus et de variables, enrichit l‘interprétation et permet d’exhiber la structure interne des données. La nature et le codage des données conduisent à deux variantes essentielles des méthodes factorielles, à savoir l’analyse en composantes principales (ACP) et l’analyse des correspondances multiples (ACM), combinées dans l’analyse factorielle multiple (AFM).
La seconde partie présente différents modèles de régression et les méthodes d’estimation de leurs paramètres, du modèle linéaire aux modèles plus complexes, de structure éventuellement mal connue, adaptés à différentes hypothèses sur la distribution des données
.
- Responsable de cours: Atto, Abdourrahmane
- Responsable de cours: Bralet, Antoine
- Responsable de cours: Couturier, Vincent
- Responsable de cours: Galichet, Sylvie
Ce cours vise à acquérir les compétences nécessaires à la mise en place
de méthodes "Agile" pour le développement de logiciels. Dans ces
contextes, visant la qualité logicielle, le test logiciel sera introduit
à travers la conception de suite de tests et leur implémentation via
différentes unité de test.
- Responsable de cours: Cimpan, Sorana
- Responsable de cours: Vernier, Flavien
Ce cours vise à apprendre à maitriser les systèmes distribués à grande échelle, en particulier ceux gérant de grandes masses de données.
- Responsable de cours: Alloui, Ilham
- Responsable de cours: Monnet, Sebastien
- Responsable de cours: Salamatian, Mohammad-Reza
L'objectif de ce cours est d'apprendre à concevoir et mettre en œuvre une base de données distribuée pour le Big Data. Nous aborderons deux aspects : l'organisation des données (représentation, stockage, répartition, passage à l'échelle, etc.) et l'organisation des traitements (définition, répartition, restitution, etc.).
- Responsable de cours: Alloui, Ilham
- Responsable de cours: Huget, Marc-Philippe
- Responsable de cours: Valet, Lionel
Le métier de Data Scientist se compose de trois volets :
- Connaissances en statistiques
- Connaissances en informatique
- Dimension métiers
- Responsable de cours: Benoit, Alexandre
- Responsable de cours: Galichet, Sylvie
- Responsable de cours: Monnet, Sebastien
- Responsable de cours: Polytech, Resp-Idu
- Responsable de cours: Vernier, Flavien
- Responsable de cours: Benoit, Alexandre
- Responsable de cours: Cimpan, Sorana
- Responsable de cours: Dongmo-Fouodjio, Sandra-Joyce
- Responsable de cours: Ferraguig, Lynda
- Responsable de cours: Huget, Marc-Philippe
- Responsable de cours: Lopez-Uroz, Lorenzo
- Responsable de cours: Vernier, Flavien
- Responsable de cours: Vignollet, Laurence