#!/usr/bin/python from pyspark import SparkConf, SparkContext sc = SparkContext(conf=SparkConf().setAppName("arbres")) arbres = sc.textFile("hdfs:/share/paris/arbres.csv") tableau = arbres.map(lambda ligne: ligne.split(';')) paires = tableau.map(lambda champs: (champs[6],champs[5])) pairesok1 = paires.filter( lambda (hauteur,annee): hauteur!='' and hauteur!='HAUTEUR') pairesok2 = pairesok1.map( lambda (hauteur,annee): (float(hauteur), annee)) classement = pairesok2.sortByKey(ascending=False) print classement.first()