A la Une, Documentation d'actualités, Veille sociétale

La pêche aux alphas, niveau 2 : cours de perfectionnement

19 mai 2016

Nous avons vu, dans un article précédent, comment un astrologue pouvait montrer (presque) scientifiquement un lien entre signe astrologique et cancer, grâce à une technique infaillible : la pêche aux alphas. Rappelons le principe : le résultat d’une étude épidémiologique est dit statistiquement significatif, s’il n’y a que 5 % de chances que la liaison observée entre un facteur environnemental  et une maladie soit due au hasard : 5% représente ici ce qu’on appelle le risque de première espèce, appelé par convention a. Il suffit donc de tester une vingtaine de facteurs environnementaux, ou de maladies, pour être à peu près sûr d’obtenir un résultat significatif ! Simple, mais un peu trop facile à détecter si on s’en tient aux méthodes classiques d’analyse, qui permettent justement de calculer le risque de première espèce. Nous allons voir maintenant, sur l’exemple d’une publication réelle, comment le recours à des tests statistiques plus sophistiqués permet d’enrober la pêche aux alphas dans un brouillard suffisamment épais pour devenir presque indétectable. Pour cela, nous serons obligés de rentrer dans des détails statistiques assez complexes que nous n’infligerons pas à tous les lecteurs. Nous donnerons simplement le résumé ici, les lecteurs les plus motivés (ou les chercheurs soucieux de rendre leurs travaux plus attractifs) trouveront le détail du raisonnement dans la version complète de notre étude[1].

1604PoissonAlpha

Pour être franc, la méthode employée dans notre exemple astrologique était quand même un peu basique. S’il veut faire carrière, un scientifique doit parfois convaincre des publics un peu moins conciliants  que les jurys de thèse d’Elisabeth Tessier ou des frères Bogdanov. Nous allons donc étudier aujourd’hui une méthode de pêche aux alphas plus sophistiquée, qui nous permettra cette fois de passer le barrage du comité de lecture d’une revue de bonne réputation. Vantardise ? Pas du tout : l’exemple que nous allons voir provient d’un article authentique[2], publié dans la revue Environmental Health Perspective (impact factor de 7,977 en 2014). Un article tellement sérieux qu’il a été cité par le magazine La Recherche en mars 2016, dans son dossier « accablant » sur les pesticides. Il a également inspiré l’enquête Exppert 6 de Générations Futures[3], ce qui confirme son impact dans les plus hautes sphères scientifiques (non, là on plaisante…).

Le principe de l’étude

L’étude décrite dans cet article part d’une idée intéressante : utiliser les aspirateurs comme instrument de mesure des pollutions domestiques. Les chercheurs ont analysé le contenu des sacs à poussière des aspirateurs de plus de 1000 personnes dans 4 régions différentes des USA, pour y rechercher les traces de 27 produits cancérogènes avérés ou soupçonnés. Ils ont ensuite vérifié s’il y avait un lien entre le lymphôme non-hodgkinien, une forme de cancer des cellules sanguines, et la concentration de ces produits dans les poussières de l’habitation… et ils ont effectivement trouvé un lien significatif pour certains d’entre eux ! Significatif, vraiment ?

Il est permis de se poser la question, car les auteurs ont étudié 27 produits chimiques dans 4 sites différents, ce qui nous fait au total 108 couples (produit x site). Cela nous fait un vivier assez grand pour que nous ayons de bonnes chances d’y pêcher quelques alphas bien frais : même si l’ensemble des produits étaient parfaitement inoffensifs, nous devrions normalement en trouver 5 avec des OR[4] significativement différents de 1 (pour le risque de 1ère espèce a = 5%).

Dans un premier temps, nous allons donc vérifier si le nombre de résultats significatifs obtenus est supérieur à celui que donnerait un cocktail de produits inoffensifs…et nous constaterons vite que ce n’est pas le cas. Nous verrons ensuite comment les chercheurs ont réussi à rendre leurs résultats plus attractifs, en les enrobant dans une analyse statistique plus élaborée…mais hors de propos !

Notons ici un détail important qui nous aidera pour la suite : les mesures réalisées pour cette enquête sont déjà anciennes, et avaient l’objet d’une première publication en 2005, qui donnait des résultats moins fracassants. Cette nouvelle publication de 2015 présente les résultats d’une nouvelle méthode statistique, appliquée a posteriori aux mêmes données.

Les résultats, première lecture : un cas typique de pêche aux alphas

La première chose à faire sur des résultats de ce type est de vérifier si nous avons réellement un excès de résultats significatifs, compte tenu du grand nombre de tests statistiques qui ont été réalisés. A ce stade, on note déjà un détail qui n’inspire pas confiance : les résultats de base ne figurent pas dans la publication, mais ont été relégués dans les annexes électroniques. Si on fait l’effort de les repêcher et de les remettre en ordre, on constate immédiatement que les auteurs ont en fait amalgamé des familles chimiques qui ont des comportements très différents dans leurs résultats :

  • 5 molécules de la famille des PCB (polychlorobiphenyles), des substances cancérigènes bien reconnues, et d’ailleurs déjà interdites depuis longtemps au moment de l’étude, qui ont un lien positif avec le lymphôme non hodgkinien dans tous les sites de l’étude
  • 22 molécules d’autres familles chimiques (dont 15 pesticides) : pour ces produits, la répartition des résultats semble parfaitement aléatoire. Certains d’entre eux ont une liaison positive significative avec le LNH, mais d’autres ont une liaison négative tout aussi significative (ce qui voudrait dire qu’ils protègent de cette maladie…). En fait, la distribution de leurs résultats ne se distingue en rien de celle qu’aurait donnée un mélange de produits inoffensifs. Il s’agit d’ailleurs du jeu de données que nous avions utilisé pour notre jeu-test « Statisticien, épidémiologiste, astrologue : quel scientifique êtes-vous ? »

Si on reprend la grille d’interprétation de notre jeu-test, tout statisticien aurait donc conclu que les analyses montrent un lien très probable entre contamination aux PCB et lymphôme non hodgkinien (en particulier pour le PCB 180), mais qu’il n’y a aucun indice d’un effet cancérogène pour les 22 autres molécules. Des épidémiologistes feraient sans doute de même, s’il s’agissait de signes astrologiques. Mais comme on parle ici de produits hautement suspects, ils ouvriraient sans doute le parapluie en notant que 3 organo-chlorés  (α-chlordane, γ-chlordane et DDE) ont en moyenne des OR non significatifs, mais relativement élevés, et mériteraient donc des études complémentaires. C’est d’ailleurs la conclusion à laquelle arrivait la première publication sur ces analyses de poussière, en 2005[5].

Il faut toutefois noter qu’il y a une différence importante entre le cas des signes astrologiques, et celui de nos produits chimiques : chaque personne n’a qu’un signe astrologique, alors qu’elle peut avoir plusieurs produits chimiques dans son appartement. Il est donc possible que la distribution des résultats soit faussée par des associations statistiques entre produits. Il y avait donc de vraies et bonnes raisons pour faire des analyses supplémentaires, afin de redresser les résultats en fonction des corrélations éventuelles entre produits. C’est l’objectif officiel de cette publication de 2015…mais nous allons voir que la méthode choisie avait également une autre vertu moins avouable : appliquée à ce type de données, c’est un  « aspirateur à alphas » aussi efficace que discret…

Une nouvelle méthode statistique au secours des pêcheurs d’alphas

Dans cette publication de 2015, les données ont donc été réanalysées à l’aide d’une nouvelle méthode statistique : la weighted quantile sum regression[6]. Cette méthode vise à hiérarchiser l’effet de chaque molécule dans un cocktail de produits potentiellement dangereux, en éliminant l’effet des corrélations éventuelles entre eux. Dans cette régression, on construit un indice (le weighted quantile sum index, WQSI), qui fait la somme des influences de chaque molécule sur la maladie étudiée, en attribuant à chaque produit un coefficient qui optimise la liaison entre le WQSI et cette maladie. Les produits qui ont le coefficient le plus élevé dans le WQSI sont donc supposés être les plus influents sur la maladie étudiée. Un WQSI a été calculé pour chacun des 4 sites d’étude, et un cinquième pour le regroupement de l’ensemble des résultats. Tous ces WQSI ont une liaison significative ou hautement significative avec le LNH (sauf celui calculé pour Seattle, mais qui n’est pas très loin d’être significatif) (tableau 2 de Czarnota et al 2015). C’est-à-dire que les personnes habitant dans un logement où le WQSI est élevé ont significativement plus de risques d’être atteints de LNH. Il semble donc cette fois que nous ayons une bonne méthode pour mettre en évidence un lien entre le cocktail de substances présentes dans les poussières et la maladie étudiée…mais les choses se gâtent quand on regarde le détail des résultats par molécule et par site.

Notons d’abord une caractéristique de la régression WQS, que les auteurs citent sans s’appesantir… et pour cause : elle ne s’applique qu’à des données ayant toutes un lien de même direction avec le facteur étudié. Dans le cas présent, cela veut dire qu’on ne pourrait l’appliquer que si tous les produits étudiés provoquaient le LNH (ou si tous en protégeaient). Ce n’est évidemment pas le cas ici, puisque nous avons vu que dans l’analyse initiale, à part le cas des PCB, nous avions pour les 22 produits restants très exactement 50% de molécules ayant un lien positif, et 50% ayant un lien négatif, avec la maladie étudiée. Normalement, cette méthode n’aurait donc pas dû être utilisée ici, mais cela n’a apparemment pas gêné le comité de lecture de la revue, qui a dû considérer qu’une faute avouée peut être pardonnée.

A partir du moment où on accepte ce choix méthodologique étrange, tout s’arrange : la régression élimine automatiquement les molécules ayant eu une liaison négative avec le lymphôme, et on obtient des WQS Index ayant des corrélations superbes avec la maladie. Seul « petit » problème restant : les coefficients obtenus n’ont bien sûr aucune cohérence, puisqu’ils ont simplement servi à gommer les variations aléatoires des OR, en éliminant les molécules à OR <1. Résultats : un même produit peut être très fortement lié au LNH dans un site et pas du tout dans un autre, ce qui serait pour le moins difficile à expliquer d’un point de vue toxicologique. Et quand on examine pour chaque site quels sont les produits qui ont une réelle liaison avec le LNH, on retrouve à chaque fois ceux qui avaient justement eu les plus forts Odds Ratio (l’indicateur utilisé en 2005, qui nous permettait justement de constater que les résultats avaient tout l’air d’être dus au hasard).

Au bout du compte, la méthode hypersophistiquée utilisée nous a donc resservi les mêmes résultats douteux que l’analyse statistique initiale, mais avec un avantage crucial pour la pêche aux alphas : cette fois, il n’est plus possible de connaître le risque de 1ère espèce, qui nous permettrait de juger de la crédibilité des hiérarchies trouvées entre produits. En effet, la régression WQS calcule ce risque pour l’indice global (le WQSI), mais pas pour les coefficients attribués à chaque produit.

Si on fait le bilan de cette étude, on constate donc que :

  • Les auteurs sont partis de données qui présentaient quelques résultats significatifs, mais dont la distribution laissait penser (pour les 22 produits non PCB) qu’il s’agissait d’un simple effet du risque de 1ère espèce.
  • Ils ont réalisé une nouvelle analyse statistique, avec une méthode inappropriée, puisqu’elle ne pouvait normalement s’appliquer qu’à des produits ayant tous une liaison positive avec le LNH, ce qui n’était pas le cas de leur jeu de données.
  • Après ce traitement inapproprié, ils obtiennent des résultats identiques à ceux de l’analyse initiale, mais par une méthode qui ne permet plus de vérifier le risque de 1ère espèce.

Des chercheurs jeunes et naïfs pourraient penser qu’ils ont perdu leur temps, et que leurs résultats n’ont aucune chance d’être publiés. C’est oublier que les revues scientifiques ont des intérêts communs avec eux. Les chercheurs ont désespérément besoin de résultats significatifs (d’où la tentation de la pêche aux alphas). Les revues scientifiques cherchent tout aussi désespérément des articles susceptibles de faire monter leur impact factor. De ce point de vue, les pesticides sont clairement  un meilleur sujet que les PCB, dont le sort est réglé depuis longtemps. Avec un minimum d’intelligence, il est donc possible de satisfaire tout le monde. Pour cela, quelques précautions simples ont suffi pour les auteurs :

  • Employer une méthode suffisamment complexe et nouvelle pour décourager la curiosité de la majorité des lecteurs
  • Mettre en annexe (plutôt que dans le corps du texte) les résultats embarrassants
  • Glisser eux-mêmes dans le texte les objections que l’on pourrait faire à leur méthode, de façon suffisamment elliptique pour laisser croire qu’elles sont mineures.

Ce 3ème  point est essentiel : tout le succès de l’opération repose sur le doigté avec lequel les auteurs réussissent à expliquer qu’ils ont employé une méthode statistique normalement inapplicable aux données étudiées, tout en restant assez allusifs pour que l’importance de cette objection ne soit pas trop claire. Une fois ce postulat accepté par la revue, il n’y a plus aucun risque : on tient un bel article sur un sujet scientifique vendeur, sans risque de contre-attaque trop cinglante. Si par hasard un collègue grincheux envoie une lettre aux éditeurs pour rappeler que la méthode statistique est inadaptée, il suffira de répondre que cette objection était signalée par les auteurs, mais qu’il restait intéressant de vérifier que cette nouvelle méthode statistique ne donnait pas de résultats aberrants dans ce contexte. Avec un peu de chance, il est plus probable que d’autres épidémiologistes perçoivent plutôt le potentiel de cette méthode pour doper leurs résultats, et qu’elle devienne vite suffisamment employée pour devenir inattaquable.

Quand les statistiques sont plus belles que les données, publiez les statistiques

L’air de rien, cette publication est révélatrice d’une tendance de plus en plus fréquente : l’effacement des données derrière les statistiques. Les auteurs ne montrent dans l’article que les résultats de leur analyse statistique, les données de base étant reléguées dans les documents annexes.  Il est vrai que d’autres chercheurs font encore plus fort : dans un article récent sur l’effet des néonicotinoïdes sur les abeilles[7], les auteurs réussissent carrément à disserter sur 3 pages sur des surmortalités d’abeilles calculées par des redressements fort complexes…sans jamais publier les chiffres de mortalité bruts !

Autre tendance révélatrice : la complexité de la méthode statistique employée occulte toute réflexion sur la crédibilité des résultats obtenus. Passons sur le fait que la régression WQS n’aurait jamais dû être employée sur ce jeu de données. Même si on acceptait la validité de cette méthode, il devrait être clair que les coefficients obtenus n’ont aucun sens sur le plan toxicologique, puisque tous les produits ont des résultats contradictoires selon les sites d’expérimentation. Cette question n’est même pas abordée dans la discussion des résultats. Du moment que les WQS Index ont une liaison significative ou hautement significative avec le lymphôme, peu importe que ces résultats puissent avoir ou non une signification dans le monde réel : c’est digne d’être publié.

Ces tendances ne s’observent pas dans toutes les revues scientifiques, mais certaines s’illustrent particulièrement dans ce domaine : rappelons que cet article vient d’Environmental Health Perspectives (EHP), revue particulièrement ouverte à la créativité statistique. Nous l’avons déjà croisée à propos des effets supposés des organophosphorés sur le système nerveux, avec deux articles qui faisaient tout le sel d’une récente étude du CNRS sur le coût caché des perturbateurs endocriniens[8] :

  • L’une[9], qui démontrait que l’exposition prénatale aux organophosphorés faisait chuter le QI de 5 points…par rapport à une population témoin au QI de 107
  • L’autre[10], qui après moult redressements statistiques en fonction de l’origine ethnique, arrivait à la conclusion que ces mêmes organophosphorés faisaient chuter le QI des enfants noirs ou hispaniques…mais aussi augmenter celui des enfants blancs !

De tels résultats feraient simplement sourire, s’ils ne sortaient que dans des revues obscures. Mais nous avons vu qu’EHP a un impact factor tout-à-fait honorable, qui leur assure un nombre considérable de citations dans d’autres articles par la suite… et leur reprise ultérieure dans des méta-analyses comme celle du CNRS déjà citée, qui assureront définitivement le blanchiment de toutes leurs approximations statistiques.

Philippe Stoop, docteur- ingénieur en agronomie, directeur Recherche et Innovation de la société iTK

[1] Article complet pour ceux qui veulent aller plus loin.

[2] Czarnota J, Gennings C, Colt JS, De Roos AJ, Cerhan JR, Severson RK, Hartge P, Ward MH, Wheeler DC. 2015. Analysis of environmental chemical mixtures and non-Hodgkin lymphoma risk in the NCI-SEER NHL Study. Environ Health Perspect 123:965–970

http://ehp.niehs.nih.gov/1408630/#tab1

Ne pas oublier de télécharger aussi le Supplemental Material :

http://ehp.niehs.nih.gov/1408630/#tab3

C’est là que figurent tous les éléments vraiment importants… et distrayants !

[3] http://www.generations-futures.fr/exppert/analyses-poussiere/

[4] OR = Odds Ratio : indicateur mesurant la liaison entre deux variables : ici, un OR supérieur à 1 signifie que le lymphôme est plus fréquent dans les habitations ayant la concentration la plus élevée du produit considéré

[5] Colt JS, Severson RK, Lubin J, Rothman N, Camann D, Davis S, et al. 2005. Organochlorines in carpet dust and non-Hodgkin lymphoma. Epidemiology 16(4):516–525.

[6] Carrico C, Gennings C, Wheeler DC, Factor-Litvak P. 2014. Characterization of a weighted quantile sum regression for highly correlated data in a risk analysis setting. J Agric Biol Environ Stat

[7] http://rspb.royalsocietypublishing.org/content/282/1819/20152110

[8] http://press.endocrine.org/doi/full/10.1210/jc.2014-4323

[9] Bouchard MF, Chevrier J, Harley KG, et al. (2011) : Prenatal exposure to organophosphate pesticides and IQ in 7-year-old children. EnvironHealth Perspect. (119) 1189–1195

[10] Engel SM, Wetmur J, Chen J, et al., 2011 :  Prenatal exposure to organophosphates, paraoxonase 1, and cognitive development in childhood.Environ Health Perspect. (119) 1182–1188