4ème année de la spécialité Informatique Données Usages - Semestre 8

 Avec l'avènement du Digital, les données sont de plus en plus omniprésentes et en nombre tel qu'il n'est plus possible d'envisager une analyse sur un ordinateur personnel. Le Big Data est né chez les géants de l'Internet (Google, Amazon, Facebook, Yahoo) et a donné lieu à de nombreux outils devenus Open Source comme Big Table, Hadoop, MongoDB pour n'en citer que quelques-uns. Le module Big Data présente les différentes approches existantes pour la prise en compte de données massives à savoir un traitement par batch (avec Hadoop et Map Reduce), un traitement live (avec Apache Spark) et finalement l'architecture lambda mixant les deux approches. 

 Ce cours présente une vue d’ensemble de l’apprentissage automatique, de ses grands principes à sa mise en œuvre par des algorithmes spécialisés. Les principes de l’apprentissage sont présentés par le biais d’une typologie des problèmes abordés et des catégories d’apprentissage. Concrètement, la formulation d’un problème d’apprentissage correspond à spécifier conjointement objectifs, données et modèles. Le problème formulé est ensuite résolu en utilisant un algorithme adapté. Si les grands principes de l’apprentissage se déclinent sur les différents problèmes abordés, leur résolution fait appel à des algorithmes différents. Ce cours se focalise sur les problèmes de classification en mode supervisé et non-supervisé. Dans ce contexte, les grandes familles de modèles (arbres, réseaux de neurones, règles, modèles bayésiens, …) et algorithmes associés seront appréhendés par la pratique puis revisités a posteriori de façon à extraire les principes et concepts propres aux différentes méthodes. 

  

 

Ce cours présente les méthodes statistiques exploitées en analyse de données (analyse factorielle) ou en modélisation de la relation explicative d'une variable (régression) et positionne leur utilisation dans la pyramide de l’informatique décisionnelle moderne.

La première partie du cours est consacrée à l’analyse factorielle qui, par confrontation des espaces d’individus et de variables, enrichit l‘interprétation et permet d’exhiber la structure interne des données. La nature et le codage des données conduisent à deux variantes essentielles des méthodes factorielles, à savoir l’analyse en composantes principales (ACP) et l’analyse des correspondances multiples (ACM), combinées dans l’analyse factorielle multiple (AFM).

La seconde partie présente différents modèles de régression et les méthodes d’estimation de leurs paramètres, du modèle linéaire aux modèles plus complexes, de structure éventuellement mal connue, adaptés à différentes hypothèses sur la distribution des données

 


  

Ce cours vise à acquérir les compétences nécessaires à la mise en place de méthodes "Agile" pour le développement de logiciels. Dans ces contextes, visant la qualité logicielle, le test logiciel sera introduit à travers la conception de suite de tests et leur implémentation via différentes unité de test.

 Ce cours vise à apprendre à maitriser les systèmes distribués à grande échelle, en particulier ceux gérant de grandes masses de données. 

  

 L'objectif de ce cours est d'apprendre à concevoir et mettre en œuvre une base de données distribuée pour le Big Data. Nous aborderons deux aspects : l'organisation des données (représentation, stockage, répartition, passage à l'échelle, etc.) et l'organisation des traitements (définition, répartition, restitution, etc.). 

  

 Le métier de Data Scientist se compose de trois volets : 

  • Connaissances en statistiques
  • Connaissances en informatique
  • Dimension métiers
L'objectif de ce module est de se concentrer sur la troisième partie à savoir la dimension métiers par l'intermédiaire de rencontres avec des professionnels qui sont confrontés à des problèmes de Data Science 

  

 Le premier projet au semestre 6 a permis d'analyser quels étaient les besoins en terme de données pour répondre un problème, comment les obtenir et comment les consolider pour qu'elles soient exploitables. Ce deuxième projet vise à considérer l'étape suivante dans un projet de Data Science à savoir faire l'analyse et la visualisation des données : sélectionner les caractéristiques des données qu'il faudra utiliser pour l'analyse et envisager quels sont les meilleurs moyens de visualiser ces données pour les mettre en valeur. Ce projet partira à nouveau d'un problème et cherchera à, comme pour le PROJ 631, trouver les données nécessaires, les mettre en forme puis à effectuer une analyse et une visualisation. Ce module pourra faire l'objet d'un challenge entre une entreprise partenaire de la formation et les étudiants de la formation. L'entreprise fournirait les données et un travail conjoint entre l'entreprise et les étudiants pourrait aboutir à une solution au problème posé. Un exemple illustratif dans le cadre de ce projet est la campagne publicitaire d'une entreprise sur Twitter. Il convient pour cela de connaître qui suit le compte Twitter de l'entreprise, quelle est la fréquence où ces utilisateurs tweetent afin de trouver le moment le plus opportun pour communiquer avec eux.