Le problème avec la science, c'est qu'une grande partie de celle-ci ne l'est tout simplement pas. L'été dernier, l'Open Science Collaboration a annoncé qu'il avait tenté de reproduire cent expériences de psychologie publiées, échantillonnées dans trois des revues les plus prestigieuses du domaine. Les affirmations scientifiques reposent sur l’idée que des expériences répétées dans des conditions presque identiques devraient donner à peu près les mêmes résultats, mais jusqu’à très récemment, très peu s’étaient souciés de vérifier de manière systématique s’il en était réellement ainsi. La CVMO a été la plus grande tentative encore à vérifier les résultats d'un champ, et la plus choquante. Dans de nombreux cas, ils avaient utilisé des matériaux expérimentaux originaux et parfois même effectué les expériences sous la direction des chercheurs d'origine. Parmi les études qui avaient initialement rapporté des résultats positifs, un pourcentage étonnant de 65 n'a pas montré de signification statistique sur la réplication, et beaucoup des autres études ont montré une réduction significative de la taille de l'effet.
Leurs découvertes ont fait la une des journaux et sont rapidement devenues un club permettant de maîtriser les sciences sociales. Mais le problème ne concerne pas uniquement la psychologie. Il existe une règle tacite dans l’industrie pharmaceutique voulant que la moitié de toutes les recherches biomédicales universitaires se révèlent finalement fausses, et 2011 a été testé par un groupe de chercheurs de Bayer. En examinant soixante-sept projets récents de découverte de médicaments fondés sur une recherche en biologie préclinique du cancer, ils ont constaté que dans plus de 75 des cas, les données publiées ne correspondaient pas à leurs tentatives internes de réplication. Il ne s’agit pas d’études publiées dans des revues oncologiques insolites, mais de recherches à succès classées dans Science, Nature, Cell, etc. Les chercheurs de Bayer se noyaient dans de mauvaises études et c’est en partie à cela qu’ils attribuaient la baisse mystérieuse des rendements des pipelines de médicaments. Peut-être qu'un si grand nombre de ces nouveaux médicaments n'ont aucun effet, car la recherche fondamentale sur laquelle repose leur développement n'est pas valide.
Lorsqu'une étude ne se réplique pas, il existe deux interprétations possibles. La première est que, à l'insu des enquêteurs, il existait une différence réelle dans la configuration expérimentale entre l'enquête initiale et l'échec de la réplication. Celles-ci sont communément appelées «effets de papier peint», la blague étant que l'expérience a été affectée par la couleur du papier peint de la pièce. C’est l’explication la plus heureuse possible en cas d’échec de la reproduction: cela signifie que les deux expériences ont révélé des faits sur l’univers et nous avons maintenant la possibilité d’apprécier leur différence et d’incorporer une distinction nouvelle et plus subtile dans nos théories.
L'autre interprétation est que la conclusion initiale était fausse. Malheureusement, un argument statistique ingénieux montre que cette seconde interprétation est beaucoup plus probable. Formulé pour la première fois par John Ioannidis, professeur à la faculté de médecine de l’Université de Stanford, cet argument repose sur une simple application de la statistique bayésienne. Supposons qu'il y a cent une pierres dans un certain champ. L'un d'entre eux contient un diamant et, heureusement, vous disposez d'un dispositif de détection de diamant qui affiche le pourcentage de précision 99. Après environ une heure de déplacement de l'appareil, examinant chaque pierre à tour de rôle, des alarmes soudaines clignotent et des sirènes se lamentent tandis que l'appareil est dirigé vers une pierre d'aspect prometteur. Quelle est la probabilité que la pierre contienne un diamant?
La plupart des gens diraient que si le périphérique annonce le pourcentage de précision 99, il existe un pourcentage 99 de chances qu'il détecte correctement un diamant et un pourcentage 1 de donner une lecture faussement positive. Mais considérons que: sur les cent une pierres dans le champ, une seule est vraiment un diamant. Certes, notre machine a une très grande probabilité de la déclarer correctement comme un diamant. Mais il y a beaucoup plus de pierres sans diamant, et bien que la machine n'ait qu'un 1 pour cent de chances de déclarer faussement que chacune d'elles est un diamant, il y en a une centaine. Donc, si nous faisions agiter le détecteur sur chaque pierre du champ, il sonnerait en moyenne deux fois - une fois pour le vrai diamant et une fois lorsqu'une lecture erronée a été déclenchée par une pierre. Si nous savons seulement que l'alarme a sonné, ces deux possibilités sont à peu près également probables, ce qui nous donne un pourcentage approximatif de 50 sur le fait que la pierre contient réellement un diamant.
Ceci est une version simplifiée de l'argument selon lequel Ioannidis s'applique au processus scientifique lui-même. Les pierres sur le terrain sont l’ensemble de toutes les hypothèses testables possibles, le diamant est un lien hypothétique ou un effet qui se trouve être vrai, et le dispositif de détection de diamant est la méthode scientifique. Une quantité énorme dépend de la proportion d'hypothèses possibles qui se révèlent vraies et de la précision avec laquelle une expérience peut discerner le vrai du faux. Ioannidis montre que, pour une grande variété de contextes et de domaines scientifiques, les valeurs de ces deux paramètres ne sont pas du tout favorables.
Par exemple, considérons une équipe de biologistes moléculaires cherchant à déterminer si une mutation dans l’un des innombrables milliers de gènes humains est liée à un risque accru de maladie d’Alzheimer. La probabilité qu'une mutation sélectionnée de manière aléatoire dans un gène sélectionné de manière aléatoire ait précisément cet effet est assez faible, de même que, comme pour les calculs sur le terrain, une découverte positive est plus susceptible d'être fausse - à moins que l'expérience ne réussisse incroyablement bien le tri le blé de l'ivraie. En effet, Ioannidis constate que, dans de nombreux cas, approcher même le pourcentage de vrais positifs de 50 nécessite une précision inimaginable. D'où le titre accrocheur de son article: «Pourquoi la plupart des résultats de recherche publiés sont-ils faux?"