Les statistiques permettent trop souvent de faire des raccourcis dangereux dans l'analyse des résultats
Dans un article publié en mars 2019 dans Nature, 800 statisticiens et scientifiques rappellaient qu'aucun seuil statistique ne peut définir à lui seul le succès ou l'échec d'une expérimentation. Le seuil de 5 % proposé par Ronald Fisher en 1925 permet de définir un résultat significatif indépendant du hasard lorsque le calcul du p est inférieur ou égal à 0,05. Initialement, ce calcul statistique était un outil pour indiquer si un résultat doit nécessiter une analyse plus approfondie. Mais il a été rapidement détourné de son sens premier et depuis des décennies, il valide ou invalide à lui seul les résultats de la majorité des études scientifiques, quel que soit le domaine.
Les auteurs considèrent que ce seuil de 5 % est un raccourci pour la qualité scientifique dans 96 % des publications dans le domaine biomédical et des sciences de la vie. Cette notion de barrière des 5 % doit être dépassée : il est incompréhensible que des valeurs de 4,9 % et de 5,1 % amènent à des résultats opposés.
Pour juger de la qualité d'une étude et interpréter les résultats, on ne peut se contenter d'un p ≤ 0,05. Il faut toujours chercher les facteurs pouvant influencer la qualité des résultats : critères d'inclusion, d'exclusion, qualité des données recueillies, plan de l'étude, fiabilité du test statistique de calcul du p, paramètres pouvant biaiser l'étude...
Les statistiques permettent trop souvent de faire des raccourcis dangereux dans l'analyse des résultats. D'après l'un des auteurs de cet article, Blake McShane, « les statistiques sont souvent perçues à tort comme un moyen de se débarrasser de l'incertitude alors qu'il s'agit plutôt de quantifier le degré d'incertitude ».
Lors d'une analyse multivariée, un résultat présentant un p > 0,05, qui est dit à tort « statistiquement non significatif », ne veut pas forcément dire qu'il n'y a pas de lien entre deux variables. Et, au contraire, un résultat présentant un p ≤ 0,05, « statistiquement significatif », n'implique pas forcément un lien réel entre deux variables. Il précise uniquement que le lien dû au hasard est faible. Ainsi, cette dichotomie peut amener à des conclusions biaisées.
L'effet pervers est que la sélection de la majorité études est faite en fonction de cette valeur de p. Ainsi, lorsqu'une étude présente une valeur supérieure à 5 %, elle n'a quasiment aucune chance d'être publiée, alors qu'elle peut apporter des résultats intéressants. Les scientifiques nous alertent car toute cette littérature scientifique non publiée présente un frein à la recherche et aux avancées scientifiques. À l'inverse, certaines études avec un seuil inférieur à 5 % mais avec de nombreux biais peuvent répandre de fausses vérités. Une analyse critique de chaque article reste indispensable !