Enseignements

Ce cours présente des outils et méthodes de traitement de gros volumes de données (Big Data) au travers de la suite logicielle Hadoop. Hadoop est un ensemble de services et d'applications permettant de stocker et d'administrer des fichiers et des bases de données de très grande taille et de lancer des programmes de calcul sur ces données. Le principe est de répartir les données et les traitements sur un groupe de plusieurs machines appelé amas (cluster). Hadoop est utilisé par des entreprises comme Google, Facebook, Amazon, etc. Ce cours présente plusieurs outils de cette suite :

HDFS : un système de fichier distribué,
MapReduce : API Java permettant l'écriture de programmes distribués de recherche d'information,
Spark : un outil concurrent de Hadoop pour exécuter des programmes,
Cassandra : une base de données distribuée pouvant fonctionner avec Spark,
Pig : un outil permettant d'écrire des programmes destinés à MapReduce avec un langage de script,
HBase : une base de données orientée colonne, non SQL, qui s'appuie sur HDFS,
Hive : un SGBD appuyé sur HBase qui propose un langage de requête ressemblant à SQL et générant des programmes MapReduce,
ElasticSearch : une base de données distribuée.

Prérequis :

Langage Java
Langage Python de base
Bases de données
Systèmes d'exploitation

Cours et TP

Le cours est organisé en différents thèmes. La durée de chaque thème dépend de la complexité.

thème	CM	TP	durée
Principes généraux, HDFS	CM1	TP1	1 semaine
Principes généraux Map-Reduce en Python	CM1	TP2	1 semaine
Distribution des traitements Map-Reduce sur YARN	CM1, CM2 et CM3	TP3	3 semaines
Spark et SparkSQL	CM4	TP4	1,5 semaines
Cassandra	CM5	TP5	0,5 semaine
ElasticSearch	CM6	TP6	1 semaine
Pig	CM7	TP7
Hbase et Hive	CM8	TP8

J'ai concaténé les transparents pour produire ce document : Cours.

Installation personnelle pour faire les TP

Si vous voulez travailler chez vous, avoir plus de temps pour finir les TP ou essayer des choses, je vous ai préparé une image virtuelle à utiliser avec QEmu ou VirtualBox. Il s'agit d'un fichier ISO contenant tout ce qu'il faut pour installer un système Debian et Hadoop. Si vous ne savez pas trop ce que c'est, alors abstenez-vous. Le risque est que vous confondiez la machine réelle avec la machine virtuelle, ce qui écraserait votre système et vous ferait perdre absolument tout.

Pour commencer, il vous faut un PC assez rapide, ayant au moins 8 Go de RAM et 16 Go d'espace disque. Ensuite, vous devrez télécharger cette archive ZIP contenant l'image ISO ainsi qu'un script de lancement. Attention, elle fait presque 2Go, car elle contient un système Debian 9 complet, ainsi que Hadoop, Cassandra et ElasticSearch. Il y a aussi un document, EXPLICATIONS_PDC_Qemu.pdf expliquant toute la démarche. Vous avez intérêt à bien l'étudier et poser les questions avant de vous lancer là-dedans. En résumé, vous devrez installer QEmu ou VirtualBox sur votre PC, créer une machine virtuelle qui utilise l'image ISO, la démarrer afin d'installer le système Hadoop, puis enfin utiliser cette machine virtuelle sans l'image ISO, en mode normal.

Remonter au dossier parent

Sommaire

Enseignements

Cours et TP

Installation personnelle pour faire les TP