Concours 2016-2017

Cette année, nous allons travailler avec la plate forme Kaggle qui regroupe des concours de « machine learning ».  Nous allons participer au concours "Movie Recommendation".

Pourquoi ce concours?

Aujourd’hui les usagers et/ou les consommateurs ont la possibilité de donner leur avis sur les contenus facebook, youtube…, sur les produits en vente sur internet, sur les films, etc. Leur avis est exprimé par un vote.  Et ces votes sont des indicateurs utilisés, par exemple, pour guider les consommateurs ou pour estimer une opinion.

Objectif

L’objectif principal ici est de développer le meilleur modèle  possible pour prédire le vote d’une personne sur un film. Les votes sont codés 1 à 5. Pour construire le (ou les) modèle(s), on dispose de données sur  6040 utilisateurs de la plateforme MovieLens et de données sur environ 3900 films. On dispose aussi, bien sûr, des votes des utilisateurs pour une partie des films.
Réf : http://files.grouplens.org/papers/harper-tiis2015.pdf
         https://en.wikipedia.org/wiki/Learning_to_rank

A visiter : tutoriel pour les systèmes de recommandation sous Python

Les modèles seront validés selon le score défini ci-dessous et calculé pour un échantillon test.
Pour chaque individu de l'ensemble de test, on sélectionne les 5% des films les mieux notés. Le score est la moyenne des notes données à ces films par l'utilisateur.

Données

Pour obtenir les données, il faut s'inscrire sur Kaggle.
Le fichier pour les soumissions : submission_sample.csv

Les fichiers suivants seront utiles : rec_runner.py , matrix_factorization_soln.py

6 mars 2017, Exemple de script, mise en forme des données: MF_algorithms_v1.py, matrix_factorization_soln_v1.py
Télécharger aussi les fichiers de ce répertoire et installer le package (ou charger les fichiers dont vous avez besoin).
Référence : bpmf.pdf

Exemple de script, mise en forme des données: PreparationDonnees.py
Exemple de script, régression logistique : MOVIES_LogisticRegression.py
Exemple de script, arbre de décision, adaboost, conbinaison de modèles : DecisionTrees.py

Type de films (type_mat): type_films.txt, type_films.npy (pour charger : np.load)

Logiciels

Logiciels recommandés : Python et R.

Evaluation

Le travail sera évalué selon plusieurs critères
1. Classement Kaggle.
2. Présentation de 15 minutes dont l'objectif sera de décrire et de "défendre" votre solution.
3. Qualité de la programmation.

Les pseudos seront diffusés à tout le groupe pour que chacun puisse suivre la compétition. On vous demandera en effet de faire des soumissions régulièrement.

Concours 2015-2016


Lien vers wikistat : wikistat.fr
Document support : diagnostiquer un pourriel (P. Besse)
Données :  spam.Rdata, spamq.Rdata

Classement - 2 février 2016 (mis en partie à jour le 23/02/2016)


Noms Méthode
Données
Erreur de classement (%)
1
Esso, Hamon, Verdon
Forêts
quanti
4.73
2
Lesaint, Vauleon, Schmidt ACP+ANN /Forêts / boosting
quali / quanti 4.75 / 5.65/trop long...
3
Boulagouaz, Darras, L'Hermitte
Forêts/bagging
quanti/quanti
5.65/5.21
4
Desrus, Helleu   Forêts/ lasso+forêt quali 5.65/ 6.08
5
Lefeuvre, Remaud Forêts+combine / adaboost quali/quanti 6.09 / 6.52

Classement - 26 janvier 2016


Noms Méthode
Données
Erreur de classement (%)
1
Lesaint, Vauleon, Schmidt
Forêts / ANN
quanti / quali
5.65 / 6.95
2
Desrus, Helleu Forêts quali
5.65
3
Lefeuvre, Remaud Forêts+combine quali
6.09
4




5






Classement - 18 janvier 2016


Noms Méthode
Données
Erreur de classement (%)
1
Lesaint, Vauleon, Schmidt
Forêts
quanti
5.65
2
Darras, L'Hermite, Boulagouaz
GLM logit quali
6.09
3
Hamon, Verdon knn (k=1) quali
8.69
4
Lefeuvre, Remaud GLM logit quanti
9.13
5
Desrus, Helleu GLM logit quanti
11.3

Exposés Master 2 de statistique et économétrie (2013-2014)

Présentation : cliquer ici

Exposés Master 2 de statistique et économétrie (2012-2013)



1. Modèle linéaire, ANOVA : slides (pdf)
2. Classification (clustering) : slides_1 (pdf), slides_2 (pdf)
3. Régression logistique : slides_1 (pdf), slides_2 (pdf)
4. Régression de Poisson : slides_1 (pdf), slides_2 (pdf)
5. Modèle de Cox : slides (pdf)
6. Modélisation ARMA : slides (pdf)
7. Modélisation ARMAX : slides (pdf)