CORRECTIONS
&
DIGRESSIONS

Le coefficient de corrélation

Le coefficient de corrélation (linéaire) sert à comparer deux listes ordonnées de données. En considérant que la première liste représente les abscisses et la deuxième représente les ordonnées, chaque entrée de la double liste est alors associée à un point du plan.

Ce procédé peut être mis en oeuvre dès lors qu'on dispose de 2 caractères pour une population statistique donnée.

On considère que plus le nuage de points obtenu s'approche d'une droite et plus les listes sont corrélées. Le coefficient de corrélation sert à mesurer le défaut d'alignement.

 

Si on note ( x 1 , y 1 ) , ( x 2 , y 2 ) , , ( x n , y n ) les points considérés, le coefficient de corrélation s'exprime


r = cov(x,y) σ x σ y


où, en notant les moyennes de x et y respectivement par x et y :


cov(x,y) = 1 n i = 1 n (x i x )(y i y ) σ x = 1 n i = 1 n ( x i x ) 2 σ y = 1 n i = 1 n ( y i y ) 2


La valeur du coefficient de corrélation est comprise entre -1 et 1 (le signe indique celui de la pente de la droite). En sciences sociales, on considère que la corrélation est  grande lorsque coefficient est supérieur à 0.9. En sciences physiques par contre, où bon nombre de lois physiques peuvent s’exprimer comme une corrélation entre grandeurs, un coefficient de 0.9 obtenu à l'aide de mesures très précises n'est pas suffisant pour conclure à une corrélation linéaire.



Suivant la forme du nuage de points obtenu, on peut s'orienter vers d'autres types de corrélations (parabolique, logarithmique, etc.) qui peuvent aussi se transposer en une étude de corrélation linéaire après changement de variable.


A titre d'exemple concret, considérons l'étude suivante tirée de Esprit scientifique, esprit critique. On y établit la corrélation entre la taille des pieds et la réussite à la dictée à l'école primaire. On relève les données suivantes pour la population d'élèves considérée.



Le coefficient de corrélation de l'ordre de -0.96 est grand (en valeur absolue). Faut-il en conclure que la taille des pieds est un gage de réussite ? Non, bien sûr.

Il se trouve en fait que les élèves les plus âgés sont les plus avancés dans leur cursus scolaire donc font moins de fautes. Et comme ils sont plus grands, ils ont de plus grands pieds.

On peut donc s'amuser à étudier la corrélation entre deux séries de données quelconques, ce dont je ne me prive pas dans le roman.

P169-173. Une bonne partie des corrélations totalement saugrenues entre des données n'ayant rien à voir (corrélations spécieuses) est tirée du site Suprious correlations  où sont répertoriéees tout un tas de corrélations farfelues entre des données officielles américaines.

Par exemple, en bonne place on y trouve une corrélation de 0.666 entre les sorties des film de Nicolas Cage et les morts par noyade.


Il se peut  que les valeurs des coefficients diffèrent légèrement de ceux qui sont dans l'ouvrage avec la prise en compte de nouvelles données statistiques américaines dans le calcul du coefficient de corrélation.

J'ai repris les valeurs données sur le site avec le nombre de chiffres significatifs indiqué. Evidemment, j'aurai pu n'en conserver qu'un ou deux étant donné la volatilité d'interprétation d'un tel coefficient. Ce choix n'est en rien mathématique, bien plus esthétique en vérité. Pour les coefficients de corrélation "inventés" concernant les personnages du roman, j'ai conservé par homogénéité le même nombre de chiffres en complétant néanmoins par une série de zéros.

Avec toutes les données offertes dans notre monde numérique, libre à vous  de calculer les coefficients les plus farfelus qui vous tombent sous la main. Ne manquez pas de me tenir au courant de vos pépites qui dépasseraient un coefficient de 0.9 !



Je me propose d'établir une corrélation entre votre activité facebook en 2018 et certains phénomènes que j'ai choisis de retenir. Je vous invite donc à renseigner ci-dessous, pour chacun des mois de l'année 2018, le nombre de vos "Activity Logs" (dont l'historique se retrouve derrière le triangle en haut à droite).
A titre exemple, voici le nombre de mes activités facebook pour l'année 2018 : 0,0,5,0,0,0,2,11,18,1,1,19. Vous pourrez noter la pauvreté de ma vie sociale !
Après tout, rien de plus normal que de prendre appui sur facebook pour illustrer la corrélation, quand on sait comment le réseau social exploite les corrélations des données qui lui sont fournies pour traquer nos envies, pénétrer nos espaces de plus en plus intimes.
Si vous n'avez pas de compte facebook, restez comme cela, je m'en voudrais de vous inciter à entrer chez Big Brother. Quelque part, je vous envie.
Pour les autres, vous me trouverez navré de ne pas respecter la philosophie facebook jusqu'au bout. En effet, les données que vous renseignerez ici ne seront ni enregistrées, ni analysées par un logiciel marketing, ni transmises à grand prix et dans la plus grande opacité à des compagnies publicitaires partenaires.
Sources ! https://www.lemonde.fr/les-decodeurs/article/2019/02/27/hausse-de-3-9-des-morts-sur-les-routes-en-janvier-un-chiffre-a-prendre-avec-precaution_5428965_4355770.html
https://www.data.gouv.fr/fr/datasets/chiffres-departementaux-mensuels-relatifs-aux-crimes-et-delits-enregistres-par-les-services-de-police-et-de-gendarmerie-depuis-janvier-1996/