Naked statistics – Les stats expliquées à mon boss?

Cet article vous a plu ? Pourquoi ne pas le partager ?

Quel est l’avenir du football américain? Pourquoi constate-t-on une hausse des cas d’autisme aux Etats-Unis ces dix dernières années? Comment repérer les meilleurs enseignants et les meilleures écoles? Comment lutter contre la pauvreté? Ces questions, un peu bateau, concédons-le, ne sont pas de celles qu’on a l’habitude de trouver à l’intérieur d’un manuel de probabilités. Et pourtant, voilà exactement ce que vous trouverez à l’issue de la lecture de Naked Statistics, un excellent bouquin écrit par Charles Wheelan, et dont je vous recommande chaudement la lecture.

naked statistics


Ce n’est pas un livre de maths à proprement parler, et certainement pas un ouvrage théorique: vous n’y trouverez ni théorème, ni corollaire, ni démonstration. Non, ce livre est plutôt un ouvrage de vulgarisation, à l’intention de celles et ceux qui n’ont pas reçu de formation dans ce domaine, ou ont oublié les cours de proba de terminale vingt ou trente ans plus tôt.

Bien structuré, très agréable à lire, plein d’humour – un auteur capable de citer Donald Rumsfeld par deux fois et à propos ne saurait être triste – Naked statistics propose un formidable voyage au pays de la variable aléatoire et du théorème de la limite centrée. Sans aucune démonstration, mais avec de nombreux exemples tirés de la vie réelle (d’un américain moyen, certes), autour du sport (l’auteur a l’air féru de golf et de base-ball), de la santé, de la politique ou des moeurs des américains moyens: coefficient de corrélation, régression linéaire, ce livre vous rappelle les fondements théoriques qui permettent de valider le résultat d’un sondage ou d’une étude comme il en parait tous les jours. Il vous apprend à décoder ce que les journalistes passent en général sous silence, les coefficients d’incertitude liés à toute approche statistique, qui ne se veut pas une preuve irréfutable, mais plutôt la mise en évidence d’une tendance majeure, facile à décoder si on dispose des outils mathématiques adéquats.

Car, et c’est là l’un des intérêts majeurs de ce livre, si les statistiques fournissent un formidable outil pour analyser, décortiquer, étudier une population ou un sujet donné, elles peuvent également être particulièrement néfastes si on les utilise de manière inappropriée. Wheelan consacre tout un chapitre aux « données », matériau de base sur lequel s’appuie toute d »marche statistique. Plus qu’un usage erroné de l’outil statistique, c’est l’utilisation de données de mauvaise qualité que dénonce l’auteur, qui fournit quelques exemples classiques de « pièges »:

  • le biais de sélection, lorsque l’échantillon de données n’est pas représentatif
  • le biais de publication, qui pousse à ne publier que les études qui exposent une corrélation étonnante, et passent sous silence celles qui démontrent l’effet inverse
  • le biais de réminiscence, où l’on s’appuie trop sur les souvenirs des personnes étudiées que sur des données réelles
  • le biais de survivance, particulièrement présent dans le secteur financier, qui consiste à ne conserver que les échantillons qui valident les hypothèses initiales

A l’heure où le « Big Data » devient un sujet d’intérêt général pour le public et pour les politiques, où des milliards de milliards d’octets sont stockés à des fins plus ou moins claires, où des centaines d’entreprises se lancent à l’assaut de ces immenses amas de données, un petit détour par la case « statistiques » ne me semble pas inopportun. La lecture de ce petit livre an anglais de 200 pages est donc vivement conseillée. En attendant un probable « Les stats expliquées à mon boss« …

Note: Petit cocorico, parmi les économistes et statisticiens cités dans ce livre, Esther Duflo a droit à un passage extrêmement laudatif, pour la qualité des études qu’elle mène, et l’originalité de ses approches. Sans en dévoiler le détail, je vous invite à les quatre pages qui lui sont consacrées dans la conclusion de cet ouvrage.

Note: la première mention de Donald Rumsfeld a lieu page ix. La citation originale se trouve ici, je ne peux m’empêcher de la retranscrire tant elle relève du chef d’oeuvre.

Reports that say that something hasn’t happened are always interesting to me, because as we know, there are known knowns; there are things we know we know. We also know there are known unknowns; that is to say we know there are some things we do not know. But there are also unknown unknowns — the ones we don’t know we don’t know. And if one looks throughout the history of our country and other free countries, it is the latter category that tend to be the difficult ones.

Cet article vous a plu ? Pourquoi ne pas le partager ?