Statistiques avancées pour Big Data

  • Niveau d'étude

    BAC +5

  • ECTS

    3 crédits

  • Composante

    Sciences économiques, gestion, mathématiques et informatique

  • Volume horaire

    21h

  • Période de l'année

    Enseignement neuvième semestre

Description

Le cours a pour objectif de présenter les méthodes économétriques destinées au Big Data i.e. quand l'économètre possède plus de variables explicatives que d'observation. Il sera divisée en trois modules. Le premier module sera consacré aux régressions Ridge et Lasso. Le second présentera diverses méthodes d'apprentissage machine (Arbre de classification, forêts aléatoires, SVM, Réseaux de neurones). Le troisième sera consacré à l'analyse de données non numériques et des textes notamment.
L'évaluation se fera sur une examen écrit et un dossier portant sur l'un des trois modules.

Lire plus

Objectifs

- Découverte des régression pénalisées dans le cadre de grandes bases de données
- Mise en application des logiciels statistiques pour des problèmes Big Data
- Utilisation des algorithmes d'apprentissage machine dans un but prédictif
- Connaître les limites des statistiques sur des données textuelles

Lire plus

Évaluation

Session 1 : évaluation sur projet

Session 2 : écrit, oral ou dossier

Lire plus

Pré-requis obligatoires

Économétrie paramétrique, Modélisation statistiques, Python niveau débutant

Lire plus

Compétences visées

- Savoir quel modèle utiliser pour un problème donné
- Utiliser les logiciels statistiques pour mettre en oeuvre les différents modèles
- Savoir entraîner une algorithme d'apprentissage machine

Lire plus

Bibliographie

- Econometrics and Machine Learning, A. Charpentier, E. Flachaire and A. Ly, Economics and Statistics, 2018, 505, 147-169

- Python Data Science Handbook, Jake Vanderplas

- The Elements of Statistical Learning, J.H. Friedman, R.Tibshirani et T.Hastie, Springer 2009

Lire plus

Ressources pédagogiques

Classe interactive et Travail sur ordinateur

Lire plus