4ème année de la spécialité Informatique Données Usages - Semestre 8

 Avec l'avènement du Digital, les données sont de plus en plus omniprésentes et en nombre tel qu'il n'est plus possible d'envisager une analyse sur un ordinateur personnel. Le Big Data est né chez les géants de l'Internet (Google, Amazon, Facebook, Yahoo) et a donné lieu à de nombreux outils devenus Open Source comme Big Table, Hadoop, MongoDB pour n'en citer que quelques-uns. Le module Big Data présente les différentes approches existantes pour la prise en compte de données massives à savoir un traitement par batch (avec Hadoop et Map Reduce), un traitement live (avec Apache Spark) et finalement l'architecture lambda mixant les deux approches. 

 Ce cours présente une vue d’ensemble de l’apprentissage automatique, de ses grands principes à sa mise en œuvre par des algorithmes spécialisés. Les principes de l’apprentissage sont présentés par le biais d’une typologie des problèmes abordés et des catégories d’apprentissage. Concrètement, la formulation d’un problème d’apprentissage correspond à spécifier conjointement objectifs, données et modèles. Le problème formulé est ensuite résolu en utilisant un algorithme adapté. Si les grands principes de l’apprentissage se déclinent sur les différents problèmes abordés, leur résolution fait appel à des algorithmes différents. Ce cours se focalise sur les problèmes de classification en mode supervisé et non-supervisé. Dans ce contexte, les grandes familles de modèles (arbres, réseaux de neurones, règles, modèles bayésiens, …) et algorithmes associés seront appréhendés par la pratique puis revisités a posteriori de façon à extraire les principes et concepts propres aux différentes méthodes. 

  

 

Ce cours présente les méthodes statistiques exploitées en analyse de données (analyse factorielle) ou en modélisation de la relation explicative d'une variable (régression) et positionne leur utilisation dans la pyramide de l’informatique décisionnelle moderne.

La première partie du cours est consacrée à l’analyse factorielle qui, par confrontation des espaces d’individus et de variables, enrichit l‘interprétation et permet d’exhiber la structure interne des données. La nature et le codage des données conduisent à deux variantes essentielles des méthodes factorielles, à savoir l’analyse en composantes principales (ACP) et l’analyse des correspondances multiples (ACM), combinées dans l’analyse factorielle multiple (AFM).

La seconde partie présente différents modèles de régression et les méthodes d’estimation de leurs paramètres, du modèle linéaire aux modèles plus complexes, de structure éventuellement mal connue, adaptés à différentes hypothèses sur la distribution des données

 


  

Ce cours vise à acquérir les compétences nécessaires à la mise en place de méthodes "Agile" pour le développement de logiciels. Dans ces contextes, visant la qualité logicielle, le test logiciel sera introduit à travers la conception de suite de tests et leur implémentation via différentes unité de test.

 Ce cours vise à apprendre à maitriser les systèmes distribués à grande échelle, en particulier ceux gérant de grandes masses de données. 

  

 L'objectif de ce cours est d'apprendre à concevoir et mettre en œuvre une base de données distribuée pour le Big Data. Nous aborderons deux aspects : l'organisation des données (représentation, stockage, répartition, passage à l'échelle, etc.) et l'organisation des traitements (définition, répartition, restitution, etc.). 

  

 Le métier de Data Scientist se compose de trois volets : 

  • Connaissances en statistiques
  • Connaissances en informatique
  • Dimension métiers
L'objectif de ce module est de se concentrer sur la troisième partie à savoir la dimension métiers par l'intermédiaire de rencontres avec des professionnels qui sont confrontés à des problèmes de Data Science