Outils pour le Big Data
IUT de Lannion - dept Informatique - février-mars 2018

Enseignements

Ce cours présente des outils et méthodes de traitement de gros volumes de données (Big Data) au travers de la suite logicielle Hadoop. Hadoop est un ensemble de services et d'applications permettant de stocker et d'administrer des fichiers et des bases de données de très grande taille et de lancer des programmes de calcul sur ces données. Le principe est de répartir les données et les traitements sur un groupe de plusieurs machines appelé amas (cluster). Hadoop est utilisé par des entreprises comme Google, Facebook, Amazon, etc. Ce cours présente plusieurs outils de cette suite : Prérequis :

Cours et TP

Le cours est organisé en différents thèmes. La durée de chaque thème dépend de la complexité.

thème CM TP durée
Principes généraux,
HDFS
CM1 TP1 1 semaine
Principes généraux
Map-Reduce en Python
CM1 TP2 1 semaine
Distribution des traitements
Map-Reduce sur YARN
CM1, CM2 et CM3 TP3 2 ou 3 semaines
Spark CM4 TP4 1 ou 2 semaines
Cassandra et SparkSQL CM5 TP5 1 semaine
ElasticSearch et Kibana CM6 TP6 1 semaine
Pig CM7 TP7
Hbase et Hive CM8 TP8

J'ai concaténé les transparents pour produire ce document : Cours.

NB: une partie du cours sera tronquée cette année. Il faudra faire un choix entre tous ces outils. HBase et Pig seront probablement mis de côté. Spark, Cassandra et ElasticSearch sont actuellement les outils les plus performants.

Installation personnelle pour faire les TP

Si vous voulez travailler chez vous, avoir plus de temps pour finir les TP ou essayer des choses, je vous ai préparé une image virtuelle à utiliser avec QEmu ou VirtualBox. Il s'agit d'un fichier ISO contenant tout ce qu'il faut pour installer un système Debian et Hadoop. Si vous ne savez pas trop ce que c'est, alors abstenez-vous. Le risque est que vous confondiez la machine réelle avec la machine virtuelle, ce qui écraserait votre système et vous ferait perdre absolument tout.

Pour commencer, il vous faut un PC assez rapide, ayant au moins 8 Go de RAM et 16 Go d'espace disque. Ensuite, vous devrez télécharger cette archive ZIP contenant l'image ISO ainsi qu'un script de lancement. Attention, elle fait presque 2Go, car elle contient un système Debian 9 complet, ainsi que Hadoop, Cassandra et ElasticSearch. Il y a aussi un document, EXPLICATIONS_PDC_Qemu.pdf expliquant toute la démarche. Vous avez intérêt à bien l'étudier et poser les questions avant de vous lancer là-dedans. En résumé, vous devrez installer QEmu ou VirtualBox sur votre PC, créer une machine virtuelle qui utilise l'image ISO, la démarrer afin d'installer le système Hadoop, puis enfin utiliser cette machine virtuelle sans l'image ISO, en mode normal.


Remonter au dossier parent

Pierre Nerzic - pages perso - pierre.nerzic@univ-rennes1.fr - mis à jour le