mardi 8 octobre 2024
Quelques réflexes de bon sens concernant les chiffres
Par Alice, mardi 8 octobre 2024 à 22:17 :: 2024
Pas grand chose à raconter (ma boîte est très intéressante, les administrateurs rejouent l'auto-destruction de l'aristocratie à la fin de la Restauration, je suis dans Balzac — mais je ne peux pas raconter cela maintenant).
Je vais m'attaquer à autre chose, un peu ou très prétentieux ou présomptueux ou les deux, en réponse à la souris1 qui regrettait de ne pas avoir de notions d'économie et à Fredi M. qui lui est un expert en économie (et en diplomatie moyenne-orientale).
Je vais le faire en deux ou trois billets (selon l'intensité de mon impression d'être ridicule (mais après toutes ces années je résiste assez bien à cela)). Aujourd'hui je commence par quelques pistes et réflexes de bon sens concernant les chiffres.
1/ Les pourcentages.
Les gens sont totalement perdus avec les pourcentages, et les médias, volontairement ou pas (pas sûre que tous les journalistes les maîtrisent), balancent des pourcentages effrayants alors que deux secondes de réflexion montrent qu'ils sont simplement ridicules.
La première règle est qu'il faut faire attention à la base de référence (le "pour cent" dans "cent pour cent").
* J'ai une cafetière, elle est en panne: 100% des cafetières de la maison sont en panne. Mais en réalité, c'est une pour une. Cela ne veut rien dire. Il faudrait prendre toutes les cafetières du quartier pour avoir une idée du taux de panne. C'est une question de taille d'échantillon: c'est un métier de savoir combien de cafetières il faut prendre pour avoir un pourcentage qui ait un sens.
Donc quand on vous balance un pourcentage, ne pas réagir trop vite, bien le regarder, voir ce qui est compté, quand, où, par qui…
* Par exemple les accidents de la route en 2021: ils ont explosé par rapport à 2020. Normal: en 2020, on a passé trois à cinq mois sans conduire. Ce n'est pas 2021 l'extraordinaire, mais 2020, la base de référence.
* «80%2 des cancers du poumon surviennent chez des fumeurs» est très différent de «80% des fumeurs ont un cancer du poumon». Or les gens ont tendance à dire l'une ou l'autre phrase indifféremment en pensant dire la même chose.
* Une décomposition en pourcentage donne toujours… 100: donc se réjouir parce que le % de morts par accidents de la route a diminué en déplorant que le % de morts de crise cardiaque a augmenté (en imaginant que ce soit les deux seules causes pour simplifier) est juste stupide: au total il faut atteindre 100, tous les morts sont morts de quelque chose, 100% des morts sont morts.
Dit autrement, tous les pourcentages d'une décomposition ne peuvent pas descendre ensemble: si certains baissent, d'autres montent. Si l'on veut savoir s'il faut se réjouir ou se lamenter, il faut regarder les chiffres absolus, et non les pourcentages.
* Et dernier point: une décomposition en % ne peut pas dépasser 100. Je ne pensais pas écrire cela un jour, mais après tout, Maduro a annoncé début août des résultats d'élection qui dépassaient les 100% (fous rires sur Twitter), et je me demande si Trump n'a pas fait quelque chose d'approchant récemment.
2/ La différence entre moyenne et médiane
Dans des statistiques, deux notions sont associées (un peu comme le signifiant et le signifié en linguistique): un nombre d'occurrences (par exemple UNE cafetière) et la qualité ou valeur mesurée (par exemple être cassée ou pas).
La moyenne va s'intéresser à la valeur, la médiane à la distribution des occurrences.
*Pour faire une moyenne (non pondérée), on additionne toutes les valeurs et on divise par le nombre d'occurrences.
Exemple : neuf personnes ont 10 euros, une en a 1000; en moyenne chacune a 109 euros.
On voit tout de suite que ce chiffre n'a pas beaucoup d'intérêt. C'est ainsi qu'il y a quelques temps a circulé un chiffre sur le patrimoine moyen des Français. Ainsi que l'a fait remarquer un Twittos: si Bernard Arnauld entre dans n'importe quelle assemblée, tous deviennent en moyenne millionnaires.
*La médiane, elle, compte la répartition des occurrences. Ici il y a dix occurrences, la moitié atteint 10 euros et l'autre est au-dessus. La médiane est donc de 10 euros.
Si cette mesure n'est pas assez fine, on peut ajouter des quartiles (occurrences groupées par quart), des déciles (par dixième), etc.
Il faut simplement conserver à l'esprit que plus les écarts sont grands et les occurrences sont dispersées, moins la moyenne a une signification utile.
Vous trouverez ici une illustration de la différence moyenne/médiane concernant les salaires en France.
Le seuil de pauvreté est un montant calculé par rapport au niveau de vie médian de la population.
3/ Ecouter les médias d'une oreille critique.
Il y a deux jours, j'écoutais RTL peu après l'annonce du report de la prochaine augmentation des retraites (indexation sur l'inflation). Tôt le matin (avant sept heures), les auditeurs laissent des messages pour donner leur opinion sur un sujet ou un autre et bien sûr, tous les retraités levés tôt criaient au scandale, comme d'habitude on s'en prenait aux plus faibles, etc.
Peu après, pendant le journal, un court reportage nous annonçait que du fait de la météo pourrie, les résultats du secteur de l'habillement étaient bons. Il détaillait le panier moyen des actifs (environ 60 euros, de mémoire) et ajoutait que les retraités, du fait de leur pouvoir d'achat supérieur, avaient dépensé davantage (70 euros environ).
Personne n'a relevé (et je le comprends : le journaliste qui l'aurait fait aurait passé un sale quart d'heure).
Ce genre de distorsion, de truc bizarre, d'illogisme, arrive régulièrement. Nous ne sommes pas obligés de prendre parti, mais il faudrait au moins prendre l'habitude de le relever au passage, pour ne pas être dupe: il y a certes des retraités pauvres, et plus ils sont âgés plus c'est terrible, et certes une moyenne ne veut rien dire, mais tout de même, réussir à nous donner des informations aussi contradictoires sans une amorce d'hésitation, c'est remarquable.
Notes
1: voir certains commentaires en juin
2: chiffre approximatif, de mémoire
Je vais m'attaquer à autre chose, un peu ou très prétentieux ou présomptueux ou les deux, en réponse à la souris1 qui regrettait de ne pas avoir de notions d'économie et à Fredi M. qui lui est un expert en économie (et en diplomatie moyenne-orientale).
Je vais le faire en deux ou trois billets (selon l'intensité de mon impression d'être ridicule (mais après toutes ces années je résiste assez bien à cela)). Aujourd'hui je commence par quelques pistes et réflexes de bon sens concernant les chiffres.
1/ Les pourcentages.
Les gens sont totalement perdus avec les pourcentages, et les médias, volontairement ou pas (pas sûre que tous les journalistes les maîtrisent), balancent des pourcentages effrayants alors que deux secondes de réflexion montrent qu'ils sont simplement ridicules.
La première règle est qu'il faut faire attention à la base de référence (le "pour cent" dans "cent pour cent").
* J'ai une cafetière, elle est en panne: 100% des cafetières de la maison sont en panne. Mais en réalité, c'est une pour une. Cela ne veut rien dire. Il faudrait prendre toutes les cafetières du quartier pour avoir une idée du taux de panne. C'est une question de taille d'échantillon: c'est un métier de savoir combien de cafetières il faut prendre pour avoir un pourcentage qui ait un sens.
Donc quand on vous balance un pourcentage, ne pas réagir trop vite, bien le regarder, voir ce qui est compté, quand, où, par qui…
* Par exemple les accidents de la route en 2021: ils ont explosé par rapport à 2020. Normal: en 2020, on a passé trois à cinq mois sans conduire. Ce n'est pas 2021 l'extraordinaire, mais 2020, la base de référence.
* «80%2 des cancers du poumon surviennent chez des fumeurs» est très différent de «80% des fumeurs ont un cancer du poumon». Or les gens ont tendance à dire l'une ou l'autre phrase indifféremment en pensant dire la même chose.
* Une décomposition en pourcentage donne toujours… 100: donc se réjouir parce que le % de morts par accidents de la route a diminué en déplorant que le % de morts de crise cardiaque a augmenté (en imaginant que ce soit les deux seules causes pour simplifier) est juste stupide: au total il faut atteindre 100, tous les morts sont morts de quelque chose, 100% des morts sont morts.
Dit autrement, tous les pourcentages d'une décomposition ne peuvent pas descendre ensemble: si certains baissent, d'autres montent. Si l'on veut savoir s'il faut se réjouir ou se lamenter, il faut regarder les chiffres absolus, et non les pourcentages.
* Et dernier point: une décomposition en % ne peut pas dépasser 100. Je ne pensais pas écrire cela un jour, mais après tout, Maduro a annoncé début août des résultats d'élection qui dépassaient les 100% (fous rires sur Twitter), et je me demande si Trump n'a pas fait quelque chose d'approchant récemment.
2/ La différence entre moyenne et médiane
Dans des statistiques, deux notions sont associées (un peu comme le signifiant et le signifié en linguistique): un nombre d'occurrences (par exemple UNE cafetière) et la qualité ou valeur mesurée (par exemple être cassée ou pas).
La moyenne va s'intéresser à la valeur, la médiane à la distribution des occurrences.
*Pour faire une moyenne (non pondérée), on additionne toutes les valeurs et on divise par le nombre d'occurrences.
Exemple : neuf personnes ont 10 euros, une en a 1000; en moyenne chacune a 109 euros.
On voit tout de suite que ce chiffre n'a pas beaucoup d'intérêt. C'est ainsi qu'il y a quelques temps a circulé un chiffre sur le patrimoine moyen des Français. Ainsi que l'a fait remarquer un Twittos: si Bernard Arnauld entre dans n'importe quelle assemblée, tous deviennent en moyenne millionnaires.
*La médiane, elle, compte la répartition des occurrences. Ici il y a dix occurrences, la moitié atteint 10 euros et l'autre est au-dessus. La médiane est donc de 10 euros.
Si cette mesure n'est pas assez fine, on peut ajouter des quartiles (occurrences groupées par quart), des déciles (par dixième), etc.
Il faut simplement conserver à l'esprit que plus les écarts sont grands et les occurrences sont dispersées, moins la moyenne a une signification utile.
Vous trouverez ici une illustration de la différence moyenne/médiane concernant les salaires en France.
Le seuil de pauvreté est un montant calculé par rapport au niveau de vie médian de la population.
3/ Ecouter les médias d'une oreille critique.
Il y a deux jours, j'écoutais RTL peu après l'annonce du report de la prochaine augmentation des retraites (indexation sur l'inflation). Tôt le matin (avant sept heures), les auditeurs laissent des messages pour donner leur opinion sur un sujet ou un autre et bien sûr, tous les retraités levés tôt criaient au scandale, comme d'habitude on s'en prenait aux plus faibles, etc.
Peu après, pendant le journal, un court reportage nous annonçait que du fait de la météo pourrie, les résultats du secteur de l'habillement étaient bons. Il détaillait le panier moyen des actifs (environ 60 euros, de mémoire) et ajoutait que les retraités, du fait de leur pouvoir d'achat supérieur, avaient dépensé davantage (70 euros environ).
Personne n'a relevé (et je le comprends : le journaliste qui l'aurait fait aurait passé un sale quart d'heure).
Ce genre de distorsion, de truc bizarre, d'illogisme, arrive régulièrement. Nous ne sommes pas obligés de prendre parti, mais il faudrait au moins prendre l'habitude de le relever au passage, pour ne pas être dupe: il y a certes des retraités pauvres, et plus ils sont âgés plus c'est terrible, et certes une moyenne ne veut rien dire, mais tout de même, réussir à nous donner des informations aussi contradictoires sans une amorce d'hésitation, c'est remarquable.
Notes
1: voir certains commentaires en juin
2: chiffre approximatif, de mémoire