Bonjour,
Hier, j’ai fait mon dernier cours pour le mastère de statistique
Ce cours propose aux étudiants de découvrir les outils python destinés à la science de la donnée et au système de fichiers distribué Hadoop.
Nous avons utilisé les bibliothèques suivantes:
- concurrent.futures
- pandas
- dask
- pyspark
- hdfs3
- pyarrow
Les supports sont disponibles sur mybinder
Les sources sont sur github