Outils informatiques pour le Big Data

Bonjour,

Hier, j’ai fait mon dernier cours pour le mastère de statistique

Ce cours propose aux étudiants de découvrir les outils python destinés à la science de la donnée et au système de fichiers distribué Hadoop.

Nous avons utilisé les bibliothèques suivantes:

  • concurrent.futures
  • pandas
  • dask
  • pyspark
  • hdfs3
  • pyarrow

Les supports sont disponibles sur mybinder

Les sources sont sur github

links