Outils pour le Big Data
IUT de Lannion - dept Informatique - février-mars 2017

Enseignements

Ce cours présente des outils et méthodes de traitement de gros volumes de données (Big Data) au travers de la suite logicielle Hadoop. Hadoop est un ensemble de services et d'applications permettant de stocker et d'administrer des fichiers et des bases de données de très grande taille et de lancer des programmes de calcul sur ces données. Le principe est de répartir les données et les traitements sur un groupe de plusieurs machines appelé amas (cluster). Hadoop est utilisé par des entreprises comme Google, Facebook, Amazon, etc. Ce cours présente plusieurs outils de cette suite : Prérequis :

Cours et TP

Le cours est organisé en différents thèmes. La durée de chaque thème dépend de la complexité.

thème CM TP durée
Principes généraux,
HDFS
CM1 TP1 1 semaine
Principes généraux
Map-Reduce en Python
CM1 et CM2 TP2 1 semaine
Distribution des traitements
Map-Reduce sur YARN
CM1, CM2 et CM3 TP3 3 semaines
Pig CM4 TP4 1 semaine
Spark CM5 et CM6 TP5 1 semaine
HBase CM7 TP6 1 semaine
Hive et Cassandra CM8 TP7 optionnel

J'ai concaténé les transparents pour produire ce document : Cours.


Remonter au dossier parent

Pierre Nerzic - pages perso - pierre.nerzic@univ-rennes1.fr - mis à jour le