Écrit par Florent TOURNUS (Avril 2008)

 

Le poster sur les statistiques de l’OZ.

Avant-propos

Cet article est relativement long (bien plus long que ce que je prévoyais initialement !) : c’est lors de l’écriture qu’on réalise qu’une question en appelle une autre et demande des explications détaillées… Beaucoup de points différents autour de la question du hasard sont discutés : soyons réalistes, il s’agit de sujets souvent difficiles, parfois subtils, et malheureusement délicats à expliquer simplement ! En conséquence, il peut être raisonnable de ne pas lire l’article dans son intégralité d’une seule traite (ou alors c’est le mal de tête garanti !) : il vaut mieux prendre le temps d’avancer à son rythme dans sa réflexion et dans sa compréhension, et ne pas hésiter à revenir à plusieurs reprises sur un paragraphe. Malgré l’austérité du sujet abordé, j’espère que cet article pourra contribuer à rendre moins obscurs certains aspects pourtant essentiels en zététique…

Florent Tournus

Introduction


Toute personne s’intéressant à la zététique ou à la parapsychologie scientifique doit être sensibilisée à l’importance d’une bonne randomisation (c’est-à-dire un tirage au sort) lorsqu’on effectue une série d’expériences pour essayer d’observer la manifestation d’un phénomène « extraordinaire ». La randomisation, au même titre que le double aveugle, fait partie des préceptes majeurs à suivre pour mener une investigation scientifique. Ce principe a parfois été tellement rappelé et paraît si naturel pour certains, qu’on en arrive à ne plus se poser certaines questions, voire à oublier pourquoi une randomisation correcte est si importante.

Cet article, qui n’a pas la prétention d’entrer dans des considérations théoriques sur le hasard, vise à répondre à plusieurs interrogations autour de la question du hasard dans les « expériences psi » [1], telles que :

  • pourquoi faut-il faire un tirage au hasard (c’est-à-dire avoir une bonne randomisation) ?
  • le détail du tirage aléatoire peut-il modifier l’issue d’un test ?
  • peut-on conclure quelque chose d’expériences effectuées sans ou avec un « mauvais » tirage aléatoire ?

Avant d’essayer d’apporter des réponses claires à ces questions, et de présenter des exemples précis pour illustrer mon propos, je voudrais donner quelques explications préliminaires sur ce qu’est une série aléatoire et sur l’incapacité d’un être humain à générer une telle série.

 

Qu’est-ce qu’une série aléatoire ?


Par définition, le résultat d’un tirage aléatoire ne peut pas être prédit. Ainsi, pour une suite de nombres aléatoires (qu’on appelle aussi couramment une série), connaître certains ou même tous les nombres déjà tirés ne permet pas de prédire le nombre qui sortira au tirage suivant : les tirages sont complètement indépendants les uns des autres. Une véritable série aléatoire ne présente aucune périodicité, aucune structure particulière [2]. La série aléatoire la plus simple est constituée par une série d’éléments ne pouvant prendre que deux valeurs [3], de manière équiprobable à chaque tirage : 0 ou 1, « pile » ou « face », etc.

Le problème majeur est que, lorsqu’une série finie de tirages (constituée de 0 et 1) nous est donnée, il n’y a aucun moyen de savoir si elle provient d’un tirage aléatoire ou non. En effet, alors que les deux séries suivantes, 1111111111 et 0010111010 ont autant de chances d’être obtenues par un tirage aléatoire, la première ne nous semble pas aléatoire et sera certainement écartée lorsqu’on voudra se servir d’une série aléatoire. La stratégie adoptée pour décider si une série finie peut être utilisée comme « série aléatoire » est de regarder si elle possède un certain nombre de caractéristiques, qui reflètent celles vérifiées par une série aléatoire infinie. Par exemple, la fréquence de 0 et de 1 (c’est à-dire la proportion de 0 et de 1 tirés) doit être la même. Ou encore, la fréquence de 1 suivant un 0 doit être la même que celle de 0 suivant un 0 (puisque le tirage d’un 0 ne doit avoir aucune incidence sur l’issue du tirage suivant). Étant donné que la série considérée est de longueur finie, il est normal de ne pas obtenir exactement les caractéristiques d’une série aléatoire infinie et, par conséquent, on s’autorise un écart statistique autour des valeurs « idéales ».

On peut alors utiliser toute une batterie de tests statistiques [4] pour voir si la série considérée est « dans les normes » et peut constituer une série aléatoire acceptable [5]. Par exemple, la série 1111111111 pourrait se trouver rejetée car elle contient trop de 1 (alors même qu’elle peut parfaitement avoir été obtenue par hasard !). Ces « batteries de tests » servent en fait plutôt à tester la qualité du générateur aléatoire [6] : si celui-ci est réellement aléatoire, il y a très peu de chances [7] d’observer, pour un tirage particulier, une déviation significative par rapport à ce qui est attendu par hasard dans la très grande majorité des cas [8]. Lorsqu’on est certain d’avoir un bon générateur de nombres aléatoires, alors on peut choisir de lui faire confiance et ne rejeter aucun tirage, même si l’un d’eux nous semble peu satisfaisant.

En pratique, l’ordinateur est un outil de choix pour générer des séries de tirages aléatoires. Or un ordinateur est déterministe (il faut l’espérer !). Les « séries aléatoires » qu’il délivre sont le résultat d’un calcul mathématique suivant un algorithme prédéfini : elles peuvent avoir l’air d’être aléatoires (elles peuvent passer les tests de vérification mentionnés plus haut) mais elles ne le sont pas vraiment [9]. On parle alors de générateur pseudo-aléatoire. Pour la plupart des applications, ceci ne pose aucun problème. Notez qu’il est par ailleurs possible de générer des séries véritablement aléatoires en faisant appel à un système physique qui donnera des grandeurs mesurables réellement imprévisibles [10] (mais le procédé est moins efficace, c’est-à-dire que les nombres sont générés beaucoup moins rapidement, et beaucoup plus lourd !). On peut, bien sûr, penser à utiliser une simple pièce de monnaie ou un dé, mais il est difficile de s’assurer que les tirages ne seront pas biaisés [11] : utiliser du matériel censé être de bonne qualité (par exemple des dés achetés à Las Vegas, comme le précise naïvement le parapsychologue R. Sheldrake dans un article [12]…) ne dispense pas de vérifier a posteriori, mais avant de faire les expériences (dans le cas d’un tirage préliminaire), la qualité de la randomisation.

Pour l’instant, nous avons uniquement parlé des séries aléatoires que j’appellerai « sans contrainte », constituées simplement d’une suite de 0 ou 1 par exemple, chacun ayant autant de chances de sortir à chaque tirage. En fonction du protocole expérimental choisi pour étudier un phénomène, on peut avoir besoin d’autres types de tirages aléatoires. On peut par exemple vouloir mélanger un jeu de N cartes (cela revient à tirer au sort un classement parmi les factorielle N, noté N! arrangements possibles), ou encore utiliser des séries « équilibrées », c’est à dire comprenant exactement le même nombre de 0 et de 1 (ou de « pile » ou « face », de « situation 1 » ou de « situation 2 », etc.). Dans tous les cas, cela revient à tirer une série parmi un grand nombre possible qui vérifient les contraintes imposées [13]. Sauf que dans ce cas, même s’il doit exister des tests statistiques pour cela, il est délicat de vérifier a posteriori que le tirage satisfait certaines conditions souhaitées (d’autant que ces conditions sont justement moins évidentes à choisir que pour une série « sans contrainte »). Par exemple, dans le cas du tirage au sort d’une série équilibrée de 20 éléments, on peut aussi bien tomber sur la série 00000000001111111111 que sur la série 01001110100101111000 : la première nous semble moins « aléatoire », elle est moins satisfaisante que la deuxième et on pourrait donc choisir de la rejeter au motif que la plus longue série de 1 ou de 0 est trop longue (dix 0 et dix 1 successifs) ou qu’il n’y a pas assez d’alternances (c’est-à-dire de passage de 0 à 1 ou de 1 à 0). En effet, il est statistiquement très improbable d’avoir une série présentant une seule alternance [14]. L’occurrence d’une telle série est donc très peu probable avec un bon générateur aléatoire, mais parfaitement possible. Lorsqu’on souhaite utiliser des tirages comme ceux-ci pour une expérience, il faut alors décider à l’avance [15] (et le mentionner dans le compte rendu d’expérience) quels seront les critères, s’il y en a, pour garder ou au contraire rejeter une série particulière.


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[1] Cette appellation est utilisée comme raccourci pour parler des expériences intéressant particulièrement le sceptique, qui portent sur des phénomènes « extraordinaires », controversés… Mais la discussion peut s’appliquer tout aussi bien aux expériences « classiques », par exemple dans le domaine médical et pharmaceutique.

[2] Pour plus d’information sur les séries aléatoires, on pourra consulter par exemple ces sites web :
http://www.randomnumbers.info/ (et en particulier cette page)
http://www.fourmilab.ch/hotbits/ (et en particulier cette page)
http://www.random.org/

[3] Pour passer à une série aléatoire de nombres entiers compris entre 0 et 100 par exemple, il suffit de considérer qu’un groupe de plusieurs tirages de 0 ou 1 correspond à l’écriture en notation binaire de l’entier. Comme n tirages de 0 ou 1 correspondent à un tirage sur 2n nombres, il faut utiliser 7 bits (0 ou 1) pour avoir un entier entre 0 et 128 : si le nombre tiré est supérieur à 100 on refait tout simplement un tirage… [4] À ce sujet, voir par exemple ces sites :
http://csrc.nist.gov/groups/ST/toolkit/rng/stats_tests.html
http://www.fourmilab.ch/hotbits/statistical_testing/stattest.html

http://www.random.org/analysis/

[5] Ce faisant, lorsqu’on décide de rejeter une série qui ne serait pas « dans les normes » pour certains tests statistiques, on restreint finalement le nombre de séries possibles. Le sachant, cette information pourrait être mise à profit par un sujet lors d’une expérience, afin d’augmenter ses chances d’obtenir un résultat « extraordinaire » : en effet, il pourrait éviter de donner une réponse qui n’est pas « dans les normes », puisqu’ il sait qu’elle ne peut être la « bonne réponse ».[6] Mais ils peuvent aussi être appliqués à une série censée être aléatoire, lorsqu’on ne sait pas trop comment elle a été obtenue.

[7] Comme dans tout test statistique, on a alors un risque de se tromper. Par exemple, si le générateur est en fait parfaitement aléatoire, la série 1111111111 a une chance sur 1024 de se réaliser par hasard. Cette probabilité représente donc le risque qu’on a de rejeter à tort le générateur aléatoire en se basant sur le fait qu’il nous a fourni cette série particulière.

[8] J’insiste sur un point crucial : la caractéristique de la série qui sera comparée à « ce qui est attendu par hasard dans la très grande majorité des cas », doit absolument être décidée avant de faire le tirage ! En effet, dans le cas contraire, on peut toujours trouver a posteriori un caractère exceptionnel dans une série. Sur ce sujet, on pourra consulter par exemple l’article de N. Gauvrit intitulé « Tromperies Statistiques » et en particulier la section « choix du test » (cf. http://www.pseudo-sciences.org/spip.php?article792).

[9] Par exemple, connaître la « graine » utilisée dans l’algorithme de génération des nombres aléatoires permet de prédire toute la série, qui se répète d’ailleurs de manière périodique…

[10] Certains sites web, mentionnés plus haut, permettent de générer à la demande des séries réellement aléatoires à partir de différents processus physiques : voir par exemple random.org, randomnumbers.info ou www.fourmilab.ch/hotbits/

[11] Apparemment, il s’avère que les lancers de « pile ou face » sont biaisés : cf. http://www.sciencenews.org/articles/20040228/mathtrek.asp
http://www.sciencenews.org/articles/20040228/fob2.asp
.

[12] “A Filmed Experiment On Telephone Telepathy With The Nolan Sisters”, J. Soc. Psychic. Res. 68, p. 168 (2004), disponible ici : http://sheldrake.org/papers/Telepathy/Nolan.pdf

[13] Par exemple, si on veut choisir au hasard une série « équilibrée » de 20 tirages, on tire au sort une combinaison parmi les 184756 possibles. Cela revient simplement à tirer un seul entier entre 1 et 184756 (soit, avec un codage binaire sur 18 bits, tirer une série aléatoire de 0 ou 1 de 18 éléments).

[14] Il n’y a en fait que deux séries équilibrées de 20 tirages, sur les 184756, qui ne présentent qu’une seule alternance.

[15] Tout comme il faut décider à l’avance quels seront les critères qui seront utilisés pour analyser les résultats d’une expérience. Cette remarque rejoint celle de la note 8.

 

 

Nous sommes de mauvais générateurs aléatoires


Nous venons de voir, assez longuement finalement, ce qu’est une série aléatoire. Nous avons vu qu’il fallait faire appel à des tests statistiques pour vérifier la qualité d’un générateur aléatoire (en examinant une série aléatoire finie, tirée au sort par le générateur) : on ne peut en effet pas faire confiance à l’être humain pour juger tout seul si une série provient ou non d’un générateur aléatoire.

Notre perception du hasard est relativement mauvaise, comme cela a été démontré à plusieurs reprises. La réponse à la question « Est-ce qu’un être humain peut créer tout seul une liste aléatoire ? » est tout simplement « non ! ». Vous pouvez d’ailleurs vous en convaincre en faisant l’exercice intitulé « Êtes-vous capable de vous comporter au hasard ? » (“Can you behave randomly?”) élaboré par des chercheurs américains et accessible sur la page suivante : http://faculty.rhodes.edu/wetzel/random/intro.html. Ou encore, comme le propose J.-P. Delahaye dans un article publié dans la revue Pour la Science [16]], vous pouvez essayer d’écrire ce que pourrait être le résultat d’une série de 51 tirages à « pile ou face ». Même si nous arrivons plutôt bien à équilibrer la proportion de « pile » et de « face », nous avons naturellement tendance [17] à produire trop d’alternances (passage de « pile » à « face » ou vice-versa) par rapport à ce qui est attendu par hasard [18]. Pire, lorsqu’il s’agit de répondre au hasard « oui » ou « non », l’équilibre des proportions n’est pas garanti : le « oui » est préféré au « non ». Lorsqu’il y a le choix entre deux éléments, la dissymétrie risque par ailleurs de fortement dépendre de la formulation de la demande et de la situation (s’il faut choisir entre « pile » ou « face », 0 ou 1, « oui » ou « non », « X » ou « O », etc.).

À partir du moment où l’être humain est un générateur aléatoire biaisé (c’est-à-dire « mauvais », imparfait), cela le rend prévisible, dans une certaine mesure. Si l’on a une idée de la façon dont les gens vont faire leur choix, on peut en effet savoir que tel ou tel tirage sera plus ou moins probable. Pour reprendre l’exemple donné plus haut, alors que pour un véritable générateur aléatoire les séries 1111111111 et 0010111010 sont équiprobables, elles n’ont pas du tout les mêmes chances d’être choisies par un être humain quand on lui demande de donner « au hasard » une série de dix 0 ou 1. En fait, le choix d’un être humain restera imprévisible, mais avec une probabilité pour chaque série qui n’est pas celle attendu par pur hasard (c’est-à-dire où tous les tirages sont équiprobables).

Un exemple frappant nous est fourni par la distribution des réponses obtenues quand on demande à quelqu’un [19] de choisir « au hasard » un chiffre entre 0 et 9 : le 7 est choisi dans environ 30 % des cas (cf. figure ci-dessous) ! Ainsi, chaque chiffre n’a pas du tout la même probabilité d’être choisi : certains ont une probabilité supérieure à ce qu’on attend par hasard, certains une probabilité bien inférieure, comme le 0 ou le 1 par exemple (le 7 a notamment environ 9 fois plus de chances d’être choisi que le 1 !). Même dans des cas plus complexes (cf. l’article cité en note 16), par exemple pour une combinaison de cinq bits (0 ou 1), les séries choisies ne sont pas du tout distribuées de manière équiprobable (ce qui serait le cas si elles étaient réellement tirées au sort) : la série 00101 est jugée largement plus aléatoire que 00000 et possède donc une probabilité bien plus grande d’être choisie lorsqu’il s’agit de donner « au hasard » une suite de cinq tirages. Tout cela est lié à notre mauvaise représentation du hasard. Celle-ci se manifeste également lorsqu’il s’agit de faire des choix « géométriques » [20], comme choisir un emplacement pour cacher quelque chose dans une pièce carrée, et doit impérativement être prise en compte dans certaines expériences, au risque d’en fausser complètement les conclusions.

Répartition des réponses données par des personnes à qui l’on a demandé de choisir un chiffre « au hasard ». Alors qu’avec un véritable tirage aléatoire, chaque chiffre a la même probabilité d’être choisi (égale à 0,1), on observe de très fortes disparités dans le cas d’un choix humain. Cette figure, tirée de l’article « Les dés pipés du cerveau » (Pour la Science n°326, décembre 2004, p. 144) est construite d’après les données obtenues par M. Kubovy et J. Psotka auprès de 1770 personnes.

Dans tous les cas évoqués ci-dessus, le contexte peut aussi changer la façon dont les choix humains sont distribués : par exemple, comme mentionné dans l’article dont la référence est donnée dans la note 19, les gens ne choisissent pas de la même façon des points dans un carré selon qu’on leur demande simplement de choisir au hasard, ou alors, quel emplacement leur semble le plus souvent choisi par un sujet humain. Du coup, à moins de mener des études extensives sur la façon dont les gens font leur choix « au hasard », il est quasiment impossible de savoir quelle est la distribution des tirages « au pif » effectués par des êtres humains : tout ce qu’on sait c’est qu’elle a toutes les chances d’être sensiblement différente de ce que donnerait le hasard.


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[16] « Les dés pipés du cerveau », Pour la Science n°326, décembre 2004, p. 144.

[17] Avec de l’entraînement, on arrive à corriger cette tendance…

[18] On lit dans la référence donnée ci-dessus que « La majorité des gens réalisant ce test choisissent des suites ayant plus de 60 % d’alternance, c’est-à-dire ayant 31 alternances ou plus. Or la probabilité qu’en lançant 51 fois une pièce de monnaie il y ait 31 alternances ou plus est seulement de 5,94 %. Les sujets humains proposant 36 alternances ou plus ne sont pas rares, alors que de telles suites ont une probabilité inférieure à un millième (0,046 %) ».

[19] Vous pouvez le vérifier par vous-même en faisant l’expérience avec votre entourage.

[20] Voir à ce sujet « Le hasard géométrique n’existe pas ! » de J.-P. Delahaye, Pour la Science n°341, mars 2006, p. 90.

 

Le principe d’un test


Pour illustrer l’importance du hasard, et les conséquences d’un mauvais tirage au sort, dans des expériences cherchant à mettre en évidence un phénomène « extraordinaire », il me semble nécessaire de préciser certains points concernant le principe d’un test statistique. Nous invitons également le lecteur à consulter le poster grand public réalisé par l’Observatoire zététique sur ce thème [21], à l’occasion de la Fête de la science. Nous allons voir quelle est la signification de la probabilité critique [22] associée à un test statistique. Cette notion est véritablement quelque chose d’incontournable dans l’interprétation des résultats d’une expérience : j’invite donc le lecteur à s’assurer qu’il l’a bien comprise, en prenant le temps de bien réfléchir, d’éventuellement relire les explications, voire en cherchant des informations à ce sujet ailleurs [23]

Voici, dans les grandes lignes, comment peut se dérouler le test d’un phénomène ou d’une prétention « extraordinaire » [24]. La première chose à faire, qui peut s’avérer en pratique très difficile, est de mettre en place un protocole permettant de s’assurer qu’aucune méthode « normale » ne peut être utilisée. Le test consiste alors en une ou plusieurs expériences où il s’agit pour le sujet testé [25] de trouver la « bonne réponse » et éventuellement d’obtenir le meilleur « score » possible sur une série d’expériences. Même dans des conditions strictement contrôlées, il reste toujours une possibilité que le résultat de l’expérience soit positif, juste par hasard : le hasard est toujours une hypothèse concurrente de l’explication « extraordinaire ».

La question est alors : comment trancher entre l’hypothèse du hasard et celle d’un phénomène extraordinaire ? Pour cela on tient le raisonnement suivant : si l’explication du hasard est la bonne, on peut calculer quelle était la probabilité d’obtenir un score [26] aussi bon que celui observé [27]. Lorsque cette probabilité, appelée probabilité critique et notée p, est suffisamment faible (inférieure à un seuil choisi arbitrairement, de 5 % ou de 1 % par exemple), on considère que le hasard n’est pas à l’origine du résultat observé [28]. Autrement dit, on prend le risque de se tromper dans 5 % des cas (si on a choisi un seuil de 5 %) et de rejeter à tort l’hypothèse du hasard. J’insiste sur le fait qu’avec le seuil de 5 % généralement utilisé en parapsychologie, un résultat qui a moins d’une chance sur 20 de se produire est jugé « extraordinaire » : on dit alors qu’il est significativement différent du hasard, que l’expérience montre un résultat significatif en faveur de l’hypothèse « extraordinaire ». Personnellement, suivant le principe d’économie, je pense qu’il faut que la probabilité p soit bien plus faible avant de valider une hypothèse si « extraordinaire » qu’elle bouleverserait les théories physiques actuelles… Mais ceci est une opinion personnelle donnée en passant, qui n’influe en rien sur la suite de mon propos.


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[21] Cf. ../divers/Statistiques.pdf

[22] Aussi appelée « niveau de dépassement » ou « niveau de signification ».

[23] Voir par exemple les liens donnés ici : ../stats/liens.php

[24] Ceci ne concerne qu’une catégorie de phénomènes. Pour mettre en évidence la capacité d’une personne à léviter ou à déplacer des objets par la pensée on procèdera différemment. Dans ce cas pas besoin de double aveugle ni de tirage au sort !

[25] Je parle ici de « sujet testé », même si ce type d’expérience peut s’appliquer sans qu’il y ait réellement de sujet, lorsque l’on teste directement la validité d’une théorie. Ou encore, ce « sujet testé » n’est pas forcément celui qui doit trouver la « bonne réponse », par exemple avec des protocoles qui font appel à des juges… Formellement, tout cela revient au même.

[26] D’une manière plus générale, le test statistique permettant d’évaluer la pertinence de l’hypothèse du hasard porte sur une grandeur statistique, appelée variable de décision, qui n’est pas forcément le score. Selon le test statistique, cette variable est construite de manière plus ou moins complexe à partir des données (en les comparants éventuellement aux données « idéales » attendues d’après un modèle), mais l’idée maîtresse est toujours la même : lorsque l’hypothèse du hasard est vraie, on connaît (moyennant parfois quelques hypothèses supplémentaires…) la distribution statistique de la variable de décision. On peut alors chiffrer la probabilité que cette dernière avait de se trouver, par hasard, au-delà d’une certaine limite : c’est ce que l’on appelle la probabilité critique. Dans la suite, je me limiterai à prendre le score comme variable de décision, mais mon propos peut s’appliquer plus généralement à d’autres cas de tests statistiques (comparaisons de moyenne, test du chi2, etc.).

[27] Par souci de simplicité, je me restreins ici, et dans la suite, au cas d’un test dit unilatéral : seuls les scores significativement meilleurs que le hasard sont considérés comme des succès. À l’opposé, un test bilatéral s’intéresse à la fois aux scores significativement meilleurs et à ceux moins bons que le hasard.

28] Il faut bien retenir que la probabilité p n’est pas la probabilité que l’hypothèse du hasard soit vraie. C’est la probabilité, si l’hypothèse du hasard est vraie, qu’un résultat tel que celui observé soit obtenu. Évidemment, plus cette probabilité est faible, moins on estime que l’hypothèse du hasard est valide.

 

Pourquoi utiliser un tirage au sort ?


Comme vous l’avez peut-être remarqué, la stratégie qui vient juste d’être décrite repose sur un point crucial : on doit pouvoir calculer la probabilité d’obtenir un certain résultat, dans l’hypothèse où l’explication du hasard est la bonne. En effet, si on ne peut pas chiffrer la probabilité d’obtenir par hasard un certain score, alors comment pourra-t-on rejeter l’hypothèse du hasard sous prétexte qu’elle est moins « crédible » ou « probable » que l’hypothèse « extraordinaire » concurrente ?

Il se trouve, comme on vient de le voir plus haut, que nous sommes de mauvais générateurs aléatoires. Si les tirages au sort sont en fait des choix humains, le « hasard pur » (c’est-à-dire que chaque possibilité possède la même probabilité d’être tirée au sort) n’est pas un bon modèle de la réalité. Or il est indispensable de connaître la probabilité d’avoir tel ou tel tirage pour pouvoir faire une analyse statistique des résultats d’une expérience. Dans certains cas, on peut imaginer prendre en compte un modèle probabiliste du choix humain, tel que celui correspondant à l’histogramme donné plus haut, pour chiffrer la probabilité d’obtenir un résultat donné (voir plus loin, l’exemple d’expérience où il s’agit de deviner un chiffre choisi par un individu). Mais en pratique, il est quasiment impossible de disposer d’un tel modèle qui soit fiable et adapté à un protocole expérimental particulier, puisque les choix humains « au pif » peuvent fortement dépendre de la situation et des individus… En conséquence, seule l’utilisation d’un générateur réellement aléatoire garantit un calcul fiable de la probabilité d’obtenir tel ou tel résultat : dans ce cas le modèle probabiliste est parfaitement défini.

Mais attention ! Si une expérience ne comporte pas une bonne randomisation, le calcul de la probabilité critique correspondant au résultat observé, en prenant le « hasard pur » comme modèle, peut s’avérer complètement faux. Ainsi, analyser les résultats d’une expérience faisant intervenir des chiffres choisis par un être humain en considérant que tous les tirages sont équiprobables serait faire une grave erreur. Comme nous le verrons plus loin (paragraphe « Les stratégies optimales : premier exemple », ainsi que l’encadré ci-dessous), lorsque les « bonnes réponses » ne proviennent pas d’un vrai tirage au sort, alors celles-ci peuvent présenter certaines « structures » : selon la façon dont elles sont distribuées, il existe alors des stratégies de réponse qui permettent d’augmenter ses chances de faire mieux que le « hasard pur ».

Comme il a déjà été dit plus haut (mais je n’ai pas peur d’insister), le fait que l’être humain soit un mauvais générateur aléatoire le rend prévisible, dans une certaine mesure. Tirer au hasard les « bonnes réponses » (quand le protocole s’y prête), plutôt que de s’en remettre à un choix humain, présente alors un intérêt supplémentaire : de cette façon, on est sûr que la bonne réponse est la moins prévisible possible, ce qui augmente la difficulté de réussite au test (uniquement si le sujet qui passe le test n’a pas de capacité extraordinaire). Les mêmes remarques s’appliquent évidemment pour les cas où les « bonnes réponses » sont choisies par un individu qui ne cherche pas à choisir « au hasard », mais qui suit un raisonnement particulier. Il se trouve en effet que beaucoup de gens tiennent les mêmes raisonnements lorsqu’ils font face à une même situation. Nous avons par exemple remarqué, lors d’une expérience de recherche d’eau dans des verres cachés, menée sur le stand de l’Observatoire zététique à la Fête de la science [29], que le public proposait fréquemment de ne mettre que des verres vides… Le public espère ainsi pouvoir tromper l’expérimentateur, alors qu’en agissant de la sorte il est prévisible et au contraire l’aide.


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[29] Voir à ce sujet l’article suivant :
https://www.zetetique.fr/index.php/dossiers/143-animation-scientifique

 

Répondre par hasard, oui, mais comment ? Retour sur la probabilité critique…


Déterminer à partir de quel score un résultat peut-être considéré comme « extraordinaire » (ou de manière plus générale, calculer la probabilité critique p) n’est pas forcément évident. Comme je vais essayer de l’illustrer par quelques exemples, le calcul dépend de ce qu’on entend par une réponse « au hasard » et donc du modèle utilisé… Des difficultés peuvent apparaître, même lorsque les tirages au sort sont effectués par des véritables générateurs aléatoires (par opposition à un choix humain « au hasard »).

Je rappelle que la probabilité critique p est la probabilité d’obtenir par hasard un score [30] au moins aussi bon que celui effectivement obtenu. Pour la calculer, on est obligé d’utiliser un modèle (par exemple, que toutes les possibilités sont équiprobables), qui n’est pas forcément juste et qui demande à être établi avec précaution. En effet, que veut dire « obtenir par hasard » ? Est-ce que cela correspond au cas où la bonne réponse est fixée et celle donnée par le « sujet psi » (c’est-à-dire le sujet qui passe le test) est tirée au sort ? Ou alors, est-ce que cela correspond au contraire à fixer la réponse du « sujet psi » et tirer au sort la bonne réponse ? Ou encore, cela peut vouloir dire que la bonne réponse et la réponse du « sujet psi » sont tirées au sort… Vous pensez peut-être que la première façon de voir les choses est la plus pertinente. Mais, même dans ce cas, la signification de « par hasard » n’est pas forcément évidente : comment le « sujet psi » tire-t-il sa réponse au sort ? « Bêtement » ou en tenant compte de toutes les informations dont il dispose (de façon à chercher à optimiser la probabilité d’obtenir un gros score) ?

Les stratégies optimales : premier exemple


Prenons un exemple concret d’expérience (voir encadré ci-dessous) : un individu A doit essayer de deviner le chiffre (entre 0 et 9) choisi par un individu B, le test ne portant que sur un seul essai. Imaginons que A soit tombé juste. On aimerait chiffrer la probabilité critique correspondant au résultat obtenu [31] : autrement dit, quelle était la probabilité que A trouve « par hasard » le chiffre choisi par B ? Comme on l’a vu plus haut, la probabilité pour chaque chiffre d’être choisi par B n’est pas uniforme (chaque chiffre n’est pas équiprobable, le chiffre 7 en particulier ayant beaucoup plus de chances d’être choisi que les autres). Cependant, si A tire au hasard (avec un vrai générateur aléatoire) le chiffre qu’il donne comme réponse, la probabilité p qu’il tombe juste est p=10 % [32]. Mais comme A sait que B a plus de chances de choisir le chiffre 7 (il sait qu’un humain est un mauvais générateur aléatoire), alors il peut tout miser sur le 7 et ainsi augmenter [33] ses chances de réussite « par hasard ». En effet, la probabilité qu’il tombe juste est alors égale à la probabilité que B choisisse 7, soit p≈30 %. Quelle situation correspond le plus à la réalité ? Finalement, à quelle valeur estimeriez-vous la probabilité que A avait de tomber juste ? En agissant avec la deuxième stratégie, A ne fait pas mieux que le « hasard », il ne fait preuve d’aucune capacité extraordinaire [34] : il a simplement utilisé l’information dont il disposait pour optimiser ses chances de réussite [35]. Cette situation très minimaliste n’est pas si simple ! Pour une expérience plus complexe, faisant par exemple intervenir le choix par un individu d’une combinaison de cinq bits (0 ou 1, « pile » ou « face », etc.), nous avons également vu ci-dessus que le « hasard pur » (c’est-à-dire que chaque série est équiprobable) n’est pas un bon modèle de la réalité. De la même façon que dans l’exemple précédent, en « visant » une combinaison parmi les plus choisies, on peut augmenter significativement ses chances de réussite lors d’une expérience.

Dans l’exemple de l’expérience où il s’agit de deviner un chiffre, on pourrait adopter cette façon de voir : on décrète que la probabilité critique p ne doit pas être calculée en considérant la situation où A utilise une « stratégie » optimale. Effectivement, dans notre exemple, l’individu A ne répond pas au hasard mais suit une stratégie en répondant 7. Mais alors, comment trancher entre l’hypothèse du hasard et l’hypothèse d’une capacité « extraordinaire » ? S’il existe des stratégies qui optimisent la probabilité de réussite au test, l’hypothèse qu’une telle stratégie a été suivie doit être prise en compte ! Le pire, c’est que A peut très bien, par la façon d’effectuer son choix, sans même en être conscient [36] et sans faire appel à une quelconque capacité « extraordinaire », augmenter sa probabilité de réussite au test (par rapport au « hasard pur »). Comme on ne peut pas savoir si le « sujet psi » a suivi ou pas une stratégie visant à optimiser ses résultats, la démarche la plus raisonnable consiste à prendre le cas qui maximise la probabilité critique p (donc, qui correspond au résultat le moins « extraordinaire ») comme modèle de choix « au hasard ».

Jusqu’ici nous avons considéré que B avait choisi son chiffre « au pif » (cas n°1 de l’encadré ci-dessous). Notez que la difficulté apportée par la question de la signification de « obtenir tel résultat par hasard » disparaît dès lors que la « bonne réponse » (ici le chiffre choisi par B) est réellement déterminée par un tirage aléatoire (cas n°2 de l’encadré ci-dessous). Dans ce cas, il n’y a plus d’ambiguïté [37] quant au calcul de p : quelle que soit la stratégie suivie par A, si l’hypothèse du hasard est la bonne (c’est-à-dire que le choix de B n’influence pas la réponse de A), sa probabilité de réussite est la même et vaut p=1/10. Cependant, comme nous le verrons avec un autre exemple d’expérience plus complexe, il existe des situations où la question des stratégies de réponse a son importance, et ce, bien qu’il y ait une véritable randomisation. Nous verrons qu’il peut alors être très difficile d’envisager toutes les stratégies possibles, pour déterminer la plus favorable et ainsi donner une valeur de p sans risquer de la sous-estimer.

Cliquer sur l’image pour voir l’encadré

Les stratégies optimales : un autre exemple


Imaginons maintenant un protocole de test inspiré des expériences de vision à distance rapportées par Targ et Puthoff [38]. Un « sujet psi » doit faire une description de lieux qui ont été tirés au sort, et dont il ignore la localisation. On fait quatre expériences consécutives : on dispose donc à la fin du test de quatre descriptions, établies par le « sujet psi », qui, dans l’hypothèse d’une « vision à distance » devraient correspondre aux quatre lieux choisis (appelés « cibles »). Pour évaluer l’accord entre les descriptions et les cibles, on demande à un juge [39] de classer, pour chaque cible, les quatre descriptions en fonction de leur pertinence. On calcule alors un score en additionnant le rang (position dans le classement) de la description du « sujet psi » correspondant à chacune des cibles. Par exemple, si le « sujet psi » donne une description sans équivoque du lieu choisi, alors cette description sera logiquement classée en première position pour chaque cible, et le score final sera de 4.

Mais quelle est justement la probabilité d’obtenir « par hasard » un score de 4 ? Si le « sujet psi » n’a aucune capacité de vision à distance, les descriptions qu’il donnera pour chaque cible ne colleront pas spécialement. Le juge aura alors certainement du mal à déterminer laquelle est la meilleure pour chacune des cibles : on peut alors considérer que toutes les descriptions ont la même probabilité de se retrouver en première position et le score total a finalement peu de chances d’être de 4. En effet, pour avoir un score total de 4, il faut que le juge classe la « bonne [40] » description en premier pour chacune des quatre cibles, ce qui a une chance sur 44 d’arriver [41]. Ce calcul nous donne donc une probabilité critique p≈0,4 %. Avec un seuil de 1 %, ce résultat pourrait donc être considéré comme significatif, et il serait raisonnable d’invoquer une autre hypothèse que le hasard pour l’expliquer.

Le juge pourrait pourtant suivre un autre raisonnement… En effet, il sait que pour obtenir un score de 4 (le score minimal, qui est le meilleur dans ce cas), une description différente doit être placée en première position pour chaque cible [42]. Le juge peut donc choisir [43] de proposer un classement au hasard, mais qui vérifie la contrainte suivante : aucune description ne doit être classée en première position pour plusieurs cibles. En agissant de la sorte, il restreint son choix à 31104 possibilités [44] de classement au lieu de 331776 s’il ne s’impose aucune contrainte [45]. Un calcul [46] montre alors que la probabilité d’avoir un score de 4 est p≈4,2 %, ce qui signifie qu’un tel résultat reste conforme au hasard (avec un seuil de 1 %). Avec un seuil de 5 %, plus conforme à ce qui se fait en parapsychologie, on pourrait rétorquer que ce « biais » potentiel ne change pas le caractère « extraordinaire » du score de 4. Certes, mais il n’en resterait pas moins que la valeur de p calculée serait largement sous-estimée et un résultat serait considéré comme largement significatif, alors qu’il est finalement très proche du seuil. Rappelons que cet exemple n’a pas d’autre but que d’illustrer un biais potentiel dans le calcul de la probabilité critique. Il est tout de même remarquable qu’en utilisant une stratégie toute simple (ici, s’imposer de ne pas mettre plusieurs fois la même description en première position), on arrive à multiplier par 10 environ la probabilité d’obtenir un certain score ! Et ce, sans utiliser rien d’autre que le hasard, simplement en adaptant sa façon de choisir au hasard aux conditions particulières de l’expérience.

Un manque de soin dans la détermination de la probabilité critique p peut nous mener à une conclusion complètement erronée : un résultat qu’il est « normal » d’obtenir, pour peu que l’on suive une certaine stratégie, pourrait être pris comme une preuve en faveur d’un phénomène « extraordinaire ». Cette expérience fictive [47] montre qu’il faut être très prudent : le modèle imaginé pour rendre compte d’une réponse « au hasard » peut être faux. Notez que si le calcul de p est délicat, c’est parce qu’avec le protocole expérimental choisi, la « bonne réponse » vérifie certaines contraintes.

Un dernier exemple pour la route…


Je voudrais prendre encore un autre exemple d’expérience où le calcul de la probabilité critique peut poser problème, même si la « bonne réponse » à trouver a été correctement tirée au hasard. Considérons l’expérience suivante, toujours fictive, mais inspirée de celles menées par Sheldrake [48] : une personne doit essayer de détecter si elle est observée dans son dos. Je passe sur les questions pratiques de protocole, dont je ne souhaite pas discuter ici : nous supposerons que le « sujet psi » n’a aucun moyen « normal » de savoir s’il est observé ou non. Le test comporte une série de 8 essais : le score du « sujet psi » sera donc compris entre 0 et 8. Imaginons que l’on fasse exprès de n’utiliser (sans forcément le dire au « sujet psi » qui passe l’expérience), comme l’a fait Sheldrake, que des listes aléatoires « équilibrées », pour déterminer à chaque essai si la personne doit être observée ou non. Autrement dit, les 8 tirages pour la série d’expériences comporteront 4 fois la situation où le « sujet psi » est observé et 4 fois la situation où il ne l’est pas. Imaginons maintenant qu’un « sujet psi » passe le test et obtienne un score de 7 sur 8. Que peut-on dire ? Quelle est la probabilité critique p correspondant à ce résultat : c’est-à-dire, quelle est la probabilité pour le « sujet psi » d’obtenir « par hasard » un score de 7 ou 8 ?

Si l’on considère que quand le « sujet psi » répond purement par hasard, il a une chance sur deux d’avoir bon à chaque essai, alors la probabilité d’avoir un score total donné est calculable très facilement : les scores sont distribués selon la loi binomiale [49]. La probabilité d’avoir un score de 7 ou plus [50] est alors p≈3,5 % ce qui serait considéré comme extraordinaire, et donc significativement différent du hasard, par un parapsychologue (puisque le seuil habituellement utilisé est de 5 %).

Imaginons maintenant que le « sujet psi », qui n’a en fait aucune capacité « extraordinaire » (c’est-à-dire aucun sens lui permettant de « sentir » s’il est observé dans son dos), ait fait en sorte de répondre avec la contrainte suivante : sur les 8 essais, il a répondu 5 fois qu’il se sentait observé et donc 3 fois qu’il ne se sentait pas observé. Tout comme dans l’exemple précédent, s’imposer cette contrainte (ou le faire inconsciemment, ce qui revient au même), restreint le nombre de possibilités de réponse : s’il répond sans contrainte il y a 256 possibilités, alors qu’avec la contrainte mentionnée (5 réponses « oui » et 3 réponses « non »), il n’y en a que 56. Si le « sujet psi » choisit au hasard une de ces 56 possibilités, alors, bien qu’il n’augmente pas son espérance de score (c’est-à-dire le score moyen), la probabilité d’obtenir un score donné n’est pas la même que lorsqu’il répond purement au hasard à chaque essai [51]. Or, il se trouve qu’en répondant 5 fois sur 8 qu’il se sent observé, le « sujet psi » augmente sensiblement sa probabilité d’obtenir un score de 7 ou plus (qui dans ce cas est en fait égale à celle d’obtenir un score de 7 exactement, cf. note 48), par rapport à une réponse sans contrainte. En effet, on peut calculer que la probabilité critique est dans ce cas p≈7,1 %. J’insiste sur le fait que dans les deux cas envisagés, le « sujet psi » répond bien au hasard, mais suivant des modalités différentes.

Comme pour l’exemple précédent, suivre un modèle de « hasard pur » (chaque réponse est équiprobable à chaque essai), aboutit à une sous-estimation significative de la probabilité p (ici d’un facteur 2 environ). Si le score minimum considéré comme extraordinaire a été fixé à 7 sur 8 (seuil avec critère de 5 % obtenu d’après la loi binomiale), un « sujet psi » a en fait 7,1 % de chances d’avoir un score jugé « extraordinaire » alors qu’il ne fait que répondre au hasard. Si l’on fait un grand nombre de séries d’expériences, on aura deux fois plus de séries donnant un résultat « extraordinaire » que ce qui est attendu par hasard (d’après un calcul erroné). Notez que, de manière intéressante, la stratégie optimale pour obtenir un score d’au moins 7 n’est pas de reproduire la structure de la « bonne réponse » (à savoir 4 « oui » et 4 « non »). En revanche, s’imposer de répondre 4 fois « oui » et 4 fois « non » permet bien sûr de maximiser sa probabilité d’obtenir le meilleur score de 8 sur 8 : la probabilité est alors de 1,4 % au lieu de 0,4 % si on répond sans contrainte, c’est-à-dire qu’elle augmente d’environ 350 % ! En fait, puisqu’il existe des « stratégies », des schémas de réponse, qui augmentent la probabilité d’avoir un gros score simplement par hasard, il aurait fallu fixer le seuil à 8 sur 8 pour considérer que le résultat était significativement différent du hasard (et encore, si on se contente d’un seuil de 5 %).


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[30] Je parle ici de score, mais il peut s’agir d’une autre variable construite à partir des résultats de l’expérience (cf. note 25).

[31] Le score ne peut être que 1 ou 0, puisque soit A trouve le bon chiffre, soit il échoue.

[32] En effet, dans ce cas, le chiffre choisi par B est fixé et le générateur aléatoire utilisé par A fournira chacun des 10 chiffres de manière équiprobable.

[33] Avec la même expérience, on peut aussi faire exprès (ou pas) d’avoir moins de chances de succès que si le chiffre à deviner avait été tiré au sort. Pour cela, il suffit d’annoncer un chiffre généralement très peu choisi, comme le 0 ou le 1 par exemple.

[34] De toutes façons, une probabilité critique de 1/10 ne mènerait jamais à rejeter l’hypothèse du hasard… Cet exemple est juste illustratif. On peut envisager la même chose avec un choix plus vaste de nombres (ou de combinaisons), de façon à ce qu’un succès puisse être perçu comme extraordinaire. On peut aussi envisager une série d’expériences identiques : dans ce cas, la probabilité de réussir une expérience doit être connue pour analyser les résultats.

[35] Dans ce cas, ce n’est pas A qui est source de hasard, mais B.

[36] Remarquez que, comme indiqué dans l’encadré, si le sujet A répond « au pif », ce qui peut facilement arriver, sans pour autant qu’il ait l’impression de suivre une stratégie particulièrement efficace, alors sa probabilité de réussite au test est supérieur à celle qu’il aurait avec un véritable tirage aléatoire (modèle du « hasard pur »).

[37] Nous discuterons plus loin (paragraphe « Une probabilité de réussite, conditionnelle ») une autre question concernant la probabilité critique : doit-elle être calculée en prenant en compte la valeur de la « bonne réponse » ?

[38] Dans le livre « Aux confins de l’esprit » (éditions Albin Michel), dont on peut trouver un compte-rendu de lecture critique ici : https://www.zetetique.fr/index.php/dossiers/107-targ-puthoff

[39] C’est-à-dire une personne indépendante qui ne sait évidemment pas à quelle cible correspond chaque description.

[40] Notez que cette description n’est pas forcément bonne ! Cela peut simplement être la moins mauvaise. « Bonne » est ici à comprendre dans le sens où il s’agit de la description effectuée lors de l’expérience où la cible considérée avait été choisie.

[41] Chaque rang (entre 1 et 4) est équiprobable pour la « bonne » description, et ce pour chacune des quatre cibles.

[42] En effet, à chaque cible correspond une unique « bonne » description, différente des autres.

[43] Il peut aussi agir de la sorte sans en être conscient.

[44] Ce nombre correspond à 4! multiplié par (3!)4. En effet, il y a 4! arrangements possibles pour les descriptions classées en première position, puis 3! possibilités de classement des autres descriptions pour chacune des quatre cibles.

[45] Ce nombre correspond à (4!)4. Il y a en effet 4! classements possibles pour chacune des quatre cibles.

[46] Il y a (3!)4 classements qui correspondent à un score de 4 (pour chacune des 4 cibles, la description classée en premier est la bonne et les 3 restantes sont dans un ordre quelconque). La probabilité d’avoir un score de 4 est donc de 1/4! (cf. note 44), c’est-à-dire une chance sur 24.

[47] L’expérience discutée ici est fictive, mais ces remarques s’appliquent également à des expériences bien réelles de Targ et Puthoff… Voir à ce sujet la référence donnée en note 38.

[48] R. Sheldrake, chercheur en parapsychologie, a publié plusieurs articles relatant des expériences sur la « sensation d’être observé » (“The sense of being stared at”). Une liste d’articles sur ce thème est disponible sur le site de R. Sheldrake : http://www.sheldrake.org/Articles&Papers/papers/staring/index.html

[49] Cf. par exemple http://fr.wikipedia.org/wiki/Loi_binomiale

[50] On peut utiliser le programme PrOZstat développé par l’Observatoire zététique pour calculer cette probabilité et la distribution des scores attendue par hasard. En pratique, il suffit de se rendre sur le site ../stats/ et d’aller dans la rubrique « Que dire d’un résultat ? », « Une série d’expériences identiques ». Remplir ensuite « une chance sur 2 » pour la probabilité de réussite par hasard pour une expérience, « N=8 » pour le nombre d’expériences dans une série, et indiquer 7 pour le nombre de succès. Le programme indique alors (cliquer sur les « ? ») que la probabilité d’obtenir par hasard ce résultat ou plus est de 3,516 %. Si on a choisi un seuil de 5 % (en cochant 5 % dans la rubrique « critère de décision »), le programme nous indique, en toute logique, que le résultat est « extraordinaire ».

[51] En particulier, puisque la « bonne réponse » correspond à 4 situations d’observation et 4 de non-observation, le « sujet psi » ne pourra jamais avoir un score de 8 sur 8 en répondant 5 fois qu’il se sent observé et 3 fois qu’il ne se sent pas observé !

 

Tout ça pour en venir où ? Tous les tirages au sort ne se valent pas


Cet exemple, où un problème peut apparaître dans la détermination de la probabilité p, vous semble peut-être « tiré par les cheveux »… Il vous paraît peut-être peu crédible qu’un « sujet psi » applique une stratégie particulière pour optimiser sa probabilité de réussite au test. À cela on peut répondre deux choses. Tout d’abord, le principe d’économie nous impose de considérer toutes les explications « normales », compatibles avec les connaissances actuelles bien établies, avant d’envisager une explication nouvelle « extraordinaire » : dans le doute, comme on ne pourra pas prouver que le « sujet psi » n’a pas suivi une stratégie de réponse au hasard, on doit considérer la probabilité p la plus grande [52]. Ensuite, il n’est pas nécessaire d’envisager que le « sujet psi » a choisi une certaine stratégie, en connaissance de cause : les remarques exposées ci-dessus restent parfaitement valables dans le cas où, quelles qu’en soient les raisons, le « sujet psi » répond cinq fois qu’il se sent observé sur les huit essais. Le problème de la « stratégie optimale » et du calcul de la valeur de p la plus favorable se pose donc, même dans le cas où le « sujet psi » n’a pas connaissance de la structure de la « bonne réponse ».

Si vous pensez toujours que cette discussion est trop éloignée de la réalité, je vous invite à réfléchir sur les expériences de Sheldrake : des séries de 20 expériences « équilibrées » ont été utilisées (10 situations d’observation et 10 de non-observation) et il s’avère que les gens répondent systématiquement plus souvent [53] (environ 55 % des cas) qu’ils se sentent observés [54].

D’une manière générale, si la « bonne réponse » présente une structure particulière [55], il peut être difficile de calculer la probabilité critique p, sans la sous-estimer : il faut en effet imaginer toutes les structures que pourraient présenter les réponses « au hasard » des sujets testés, structures qui, comme on l’a déjà fait remarquer, ne reflètent pas forcément celles de la « bonne réponse ». L’idéal, pour éviter ce problème de détermination difficile et parfois ambiguë de p, est d’utiliser des tirages aléatoires sans contraintes, et donc sans structure particulière pour la détermination des « bonnes réponses ».

Mais vous voyez peut-être poindre là un autre problème : chaque série prise individuellement, même si elle provient d’un générateur aléatoire, peut être vue comme présentant une structure particulière ! Par exemple, que l’on choisisse consciemment de se restreindre à des séries de 8 expériences équilibrées ou que, par un vrai tirage aléatoire, on obtienne une série équilibrée, la situation est en fait inchangée. Sauf si, et c’est là un point crucial qui a apparemment échappé à Sheldrake [56] (et certainement à d’autres), on n’utilise pas le même tirage pour plusieurs expériences distinctes (c’est-à-dire qu’à chaque nouvelle expérience on refait un tirage au sort, ce qui donne une nouvelle « bonne réponse »). J’insiste sur ce point : faire plusieurs tests avec le même tirage, mais sur plusieurs sujets différents, n’est pas du tout équivalent à faire plusieurs tests avec des tirages différents (sur plusieurs sujets ou sur le même sujet). Dans le premier cas, des biais peuvent apparaître, faussant complètement l’interprétation des résultats. Le fait de changer de « sujet psi » à chaque test ne « gommera » pas les effets d’une structure particulière présente dans le tirage utilisé (même s’il a été obtenu par un bon générateur aléatoire) !


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[52] Et ce pour chaque score. C’est-à-dire que par exemple, pour le score de 7 sur 8 elle correspond au modèle de réponse au hasard avec 5 « oui » et 3 « non », tandis que pour le score de 8 sur 8 elle correspond au modèle de réponse au hasard avec 4 « oui » et 4 « non ». En pratique, cela impose de déterminer pour chaque score quelle est la stratégie de réponse au hasard optimale… C’est un travail qui, selon les conditions expérimentales, peut être très difficile.

[53] Ce biais en faveur de la réponse « oui » est certainement lié à celui plus général, mentionné dans le paragraphe « Nous sommes de mauvais générateurs aléatoires », d’une préférence pour la réponse « oui »…

[54] Pour ceux qui n’auront pas le courage de faire les calculs, voilà ce qu’on observe dans le cas de séries équilibrées de 20 expériences : avec un seuil de 5 %, un score de 15 ou plus sera considéré comme extraordinaire, si l’on se fie à la loi binomiale (et donc à un modèle de hasard pur, pour chaque essai). En effet la probabilité d’obtenir 15 ou plus est alors de 2,1 %. Or, avec une « stratégie » de réponse au hasard de 11 « oui » et 9 « non », la probabilité d’avoir un score d’au moins 15, par hasard, est de 3,5 %. Cela reste inférieur à 5 % : le but n’est pas ici de réfuter les conclusions de Sheldrake, mais de pointer du doigt un problème potentiel.

[55] Il semblerait que les grilles de tirages aléatoires utilisées par Sheldrake, dans certains cas au moins, présentent plus d’alternances que ce qu’il est « normal » d’obtenir par hasard. Or, on a vu qu’un humain répondant « au hasard » a aussi tendance à produire trop d’alternances… C’est un exemple de structure dans la « bonne réponse », qu’on peut aussi retrouver dans les réponses des sujets testés. Cette structure peut fausser une analyse effectuée avec un modèle de « hasard pur ».

[56] Toujours dans le cas de ses recherches sur la « sensation d’être observé » (voir note 45 pour les références), nous en reparlerons plus loin.

 

Une probabilité de réussite, conditionnelle


Les tests qui ne sont constitués que d’une seule expérience, et donc d’un seul tirage au sort, peuvent également poser problème. En effet, si le tirage aléatoire de la « bonne réponse » tombe sur une réponse plus souvent choisie par un être humain que ce que laisse penser le « hasard pur » (où toutes les issues de l’expérience sont équiprobables), alors on sous-estimera la probabilité que le sujet avait de tomber juste, sans faire appel à une capacité « extraordinaire ». Ainsi, pour reprendre l’exemple du tirage d’un chiffre, si on ne fait qu’un seul test et que le 7 est tiré au sort, la probabilité que le « sujet psi » dise 7 en répondant « au pif » est d’environ 30 % : elle est largement supérieure à la probabilité attendue par « hasard pur ». Le fait d’avoir tiré un 7 modifie profondément la probabilité que le sujet tombe juste.

Ceci nous entraîne à aborder un point assez subtil lié à ce qu’on appelle une probabilité conditionnelle. La probabilité de réussir une expérience comme celle décrite ci-dessus n’est pas la même selon qu’on considère que le tirage de la « bonne réponse » a déjà été fait ou reste à venir, au moment où le « sujet psi » fait sa prédiction. Si la « bonne réponse » est tirée au sort et si le « sujet psi » n’a aucune capacité « extraordinaire », la probabilité qu’il réussisse l’expérience, considérée dans sa globalité (c’est-à-dire, que le tirage au sort de la bonne réponse fait partie de l’expérience), est de 1 chance sur 10. En revanche, si le tirage au sort a été fait au préalable et que la « bonne réponse » est fixée, alors comme expliqué ci-dessus, la probabilité que le « sujet psi » tombe juste en répondant « au pif », n’est pas la même selon le chiffre tiré et peut aller jusqu’à 30 % s’il s’agit du 7. Notez que la frontière entre les deux situations est floue… Au moment où le « sujet psi » accepte de faire le test, il a bien une chance sur 10 de réussir (s’il n’a aucune capacité « extraordinaire »). Mais, dès lors que la « bonne réponse » a été tirée, la probabilité de réussite « par hasard » change [57] : elle devient égale à la probabilité que le « sujet psi » choisisse le nombre tiré (probabilité qui n’est pas la même pour chaque chiffre, comme on l’a vu plus haut). La différence entre ces deux probabilités vient de la différence mathématique entre, d’une part, la probabilité de réussir le test et d’autre part, la probabilité de réussir le test, sachant [58] que tel chiffre est la « bonne réponse » [59].

En pratique, selon le protocole, la « bonne réponse » peut effectivement être fixée avant que le « sujet psi » donne sa réponse. Si c’est le cas, quand on analyse le résultat d’un test afin de voir s’il est conforme ou non au hasard, doit-on considérer l’expérience dans sa globalité (incluant la nature aléatoire du tirage au sort) ou examiner la probabilité que le « sujet psi » a de tomber juste, sachant que telle ou telle « bonne réponse » a été tirée ? La probabilité de réussir le test par hasard doit elle être déterminée en tenant compte du fait que la « bonne réponse » est fixée ? En d’autres termes, est-ce que la probabilité critique est une probabilité conditionnelle, conditionnée par la valeur de la « bonne réponse » ? Je vous laisse y réfléchir… Mon opinion (mais je ne sais pas si elle partagée…) concernant cette question est « oui ! » : il faut tenir compte de la valeur de la « bonne réponse » dans l’analyse des résultats et pour le calcul de la probabilité critique. Il y a des situations, par exemple quand on utilise le même tirage au sort pour toute une série d’expériences, où l’on sent bien que cette option est la plus pertinente. Mais quand il n’y a qu’une seule expérience, le choix entre les deux façons de voir les choses n’est pas évident.

Notez que si le « sujet psi » fait d’abord sa prédiction, puis qu’on tire un chiffre au sort, alors le chiffre donné par le générateur aléatoire a une chance sur 10 d’être identique à celui prédit par le « sujet psi » (dans le cas « normal » où la prédiction du « sujet psi » n’influence pas le générateur aléatoire) : la probabilité que l’expérience soit un succès est alors de 1/10 et ne dépend pas de la prédiction effectuée par le « sujet psi ». De manière relativement non-intuitive, l’ordre a donc son importance dans le calcul de la probabilité de réussite : tirer le chiffre avant ou après le choix du « sujet psi » change la situation (même sans aucune capacité « extraordinaire ») ! Cela illustre le fait que la probabilité de « A sachant B » n’est pas égale à la probabilité de « B sachant A ». En effet, par exemple ici la probabilité que le sujet choisisse le 7, sachant que le 7 a été tiré est d’environ 30 %, alors que la probabilité que le 7 soit tiré, sachant que le sujet a choisi le 7 est de 10 %.

L’effet que l’on cherche à étudier permet rarement d’intervertir l’ordre du choix du « sujet psi » et du tirage au sort de la « bonne réponse » : dans la plupart des cas le tirage au sort de la « bonne réponse » précède le choix du « sujet psi ». On peut donc se retrouver à débattre autour de la question « existentielle » posée ci-dessus : la probabilité de réussite par hasard doit-elle être vue comme une probabilité conditionnelle ? Comment faire la part des choses entre le hasard du tirage au sort de la « bonne réponse » et le « hasard » de la réponse du « sujet psi » ? Dans le cas où l’on considère la probabilité de réussite de l’expérience dans son ensemble (incluant le tirage), l’issue du tirage au sort de la « bonne réponse » peut contribuer d’une certaine manière au succès du test [60]. Tandis que dans le cas où on considère uniquement la probabilité de réussite « par hasard », sachant que la « bonne réponse » est fixée (la probabilité critique est alors vue comme une probabilité conditionnelle), il n’y a plus qu’une « source » de hasard : les chances de réussite ne dépendent que du « sujet psi ». Malheureusement, dans ce cas, il est indispensable de connaître la distribution de probabilité des réponses « par hasard » du « sujet psi » pour voir si la valeur de la « bonne réponse » a eu une incidence sur la réponse du « sujet psi ».

Pour éclaircir ce point, imaginons la situation suivante, où l’on suppose qu’on ne sait pas que l’être humain est un mauvais générateur aléatoire. Un chercheur mène une campagne d’expériences sur la capacité des gens à deviner un chiffre tiré au sort et aboutit aux résultats suivants : lorsque le chiffre à deviner est un 7, le taux de réussite est bien plus grand que lorsque c’est un 1. Le chercheur met notamment en évidence un taux de réussite de 30 %, dans le cas du 7, bien supérieur au taux de 10 % attendu par hasard. Que penseriez-vous de cette étude ? Ici, la quantité comparée au taux de 10 % attendu par hasard est bien la probabilité que le « sujet psi » choisisse le 7, sachant que la bonne réponse est 7 : c’est indéniablement une probabilité conditionnelle. Pour savoir si la valeur de 30 % est « extraordinaire », c’est-à-dire qu’elle montre que le chiffre tiré a une influence sur le choix du « sujet psi », il faut connaître la valeur de cette probabilité conditionnelle dans le cas où les deux « variables aléatoires » (valeur de la « bonne réponse » et chiffre choisi par le « sujet psi ») sont parfaitement indépendantes [61]. Or, si les deux variables sont indépendantes, alors la probabilité de choisir un 7, sachant que la bonne réponse est 7, est simplement égale à la probabilité de répondre 7 (et ce, toutes valeurs de la « bonne réponse » confondues [62]). On voit là le problème : si cette dernière probabilité n’est pas connue, on ne peut en fait rien conclure. Dans cet exemple, la valeur de 30 % semble élevée, mais lorsqu’on connait la répartition des réponses « par hasard » d’un être humain, on se rend compte que le résultat n’est que le reflet d’une préférence des gens pour le 7. Ainsi, un examen critique de cette étude fictive nous aurait permis de voir que la valeur du chiffre à deviner n’a en fait aucune incidence sur la réponse des gens. Que la « bonne réponse » ait une influence sur la probabilité de succès du « sujet psi », et donc sur son taux de réussite au test, ne signifie absolument pas que la « bonne réponse » a une influence sur le choix effectué par le « sujet psi ».


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[57] Du point de vue du « sujet psi », lorsque le tirage au sort de la « bonne réponse » est effectué (avant qu’on lui demande de choisir un chiffre), ses chances de réussite restent inchangées, puisqu’il ne sait pas quel chiffre a été tiré : en réalité, sa probabilité de réussite « par hasard » a bien été modifiée par la valeur du chiffre tiré.

[58] Le « sachant » a pour sujet le statisticien et non le « sujet psi » : ce dernier ignore, bien évidemment, quelle est la « bonne réponse ».

[59] En écriture mathématique, si on note par exemple A l’événement « réussir le test » et B « la bonne réponse vaut 7 », alors la première probabilité est simplement P(A), tandis que la deuxième est P(A/B) (qui se lit probabilité de A sachant B).

[60] Le succès de l’expérience dépend en effet de deux variables aléatoires : la « bonne réponse » et le chiffre choisi par le « sujet psi ». Ainsi quand on parle de réussite « au hasard » du test, il y a finalement deux sources de hasard…

[61] Dire que le chiffre tiré a une influence sur le choix du « sujet psi » (donc, que le sujet psi possède un « pouvoir extraordinaire »…), signifie en effet que ces deux variables ne sont pas indépendantes, mais liées (lien de nature statistique, puisque le « sujet psi » n’a pas forcément 100 % de réussite). Au contraire, dans la situation « normale » (pas de pouvoir extraordinaire), les deux variables sont indépendantes l’une de l’autre : c’est cette situation qui est la situation de référence.

[62] On peut déterminer cette valeur en regardant la fréquence de la réponse « 7 », indépendamment de la « bonne réponse ». Ou mieux, on peut mesurer la fréquence de la réponse « 7 », sans qu’il y ait de « bonne réponse » : le but est simplement d’étudier la répartition des réponses « au pif » des gens.

 

Une ou plusieurs expériences ?


Dans certains cas, plusieurs expériences identiques avec un même « sujet psi » peuvent aussi être vues comme une seule expérience comprenant plusieurs essais. Par exemple 5 tirages à « pile ou face » à deviner, peuvent être vus comme plusieurs expériences où la «bonne réponse » est soit « pile » soit « face » à chaque fois, ou comme une seule expérience où la « bonne réponse » est une série de cinq « pile » ou « face » (ou de 0 et de 1, en notant 0 pour « pile » et 1 pour « face »). Comme on l’a vu plus haut, toutes les séries à cinq « bits », n’ont pas du tout la même probabilité d’être choisies (cf. paragraphe « Nous sommes de mauvais générateurs aléatoires »). Dès lors que les combinaisons 00101 et 11010 sont équiprobables [63] et représentent à elles deux 15 % des prédictions [64], si on ne fait qu’une seule expérience et que 00101 est la « bonne réponse », tirée par hasard, alors la probabilité de tomber juste est de 7 % environ. Il serait alors faux de considérer qu’il y a une chance sur 32 de tomber juste [65] si le « sujet psi » répond « par hasard [66] ». Il serait donc abusif, mais en fait quasiment inattaquable, de déclarer que le résultat est en faveur d’une hypothèse « extraordinaire » puisqu’il avait moins de 5 % de chances de se produire par hasard (1 chance sur 32 correspond à une probabilité de 3,1 % environ). À nouveau, ce problème est intimement lié au fait que, même quand un « sujet psi » répond « par hasard », « au pif », il n’agit pas réellement comme un générateur aléatoire [67].

Ainsi, le problème de l’aspect « conditionnel » de la probabilité critique peut se poser même dans le cas d’expériences multiples avec une bonne randomisation. Comment en tenir en compte ? On ne peut pas forcément savoir quelle était précisément la probabilité que le « sujet psi » donne « par hasard » telle ou telle réponse. En revanche, en augmentant le nombre d’expériences (et en prenant soin de déterminer aléatoirement la « bonne réponse » à chaque fois, comme il a déjà été discuté plus haut) on finira par s’affranchir [68] d’un effet de réponse préférentielle du « sujet psi » : on pourra réussir à « gommer » l’influence des tirages particuliers sur l’issue d’une expérience. Il peut être aussi fortement conseillé d’utiliser un « groupe de contrôle [69] », ou de faire des expériences « à blanc » : on mesure la réponse des « sujet psi » dans une situation, identique en tous points à une vraie expérience, mais où il n’y a pas de « bonne réponse », en supprimant par exemple la cause de l’effet que l’on cherche à mettre en évidence. De cette façon, on sera en mesure d’étudier la distribution des réponses « au hasard » (puisqu’il n’y a plus d’effet, les réponses sont faites « au pif » et reflètent juste la façon dont les sujets choisissent leur réponse) des « sujets psi » et de voir si l’existence d’une « bonne réponse » (et de la cause du phénomène étudié) modifie leur réponse.

D’une manière générale, le problème d’une mauvaise estimation de la probabilité critique n’est crucial que lorsque p est proche du seuil qu’on s’est fixé pour considérer qu’un résultat est significatif [70]. En effet, l’aspect « conditionnel » de la probabilité critique, ainsi que l’existence de stratégies optimales de réponse « au hasard » discutée plus haut, modifie p de manière relativement modérée : sauf cas particulier (mais il faut rester vigilant pour détecter de tels cas !) on ne peut pas vraiment se tromper d’un facteur 100 ou 1000 sur la valeur de p, calculée en utilisant un modèle de réponse « au hasard » inapproprié. Par contre, ces remarques incitent à beaucoup de prudence quand aux conclusions à tirer d’un résultat correspondant à une probabilité critique relativement élevée [71] : l’identification d’un biais « statistique » (par opposition à une faille dans le protocole expérimental) peut alors facilement rendre « conforme au hasard » un résultat jugé « extraordinaire » dans un premier temps.


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

63] Bizarrement, comme on peut le voir dans l’article « Les dés pipés du cerveau » (dont la référence est donnée en note 16), la combinaison 01011 qui est l’« inverse », pris à l’envers, de 00101 est pourtant beaucoup moins citée… en revanche 01100 et 00110 (même combinaison prise à l’envers) sont citées quasiment avec la même fréquence.

[64] Ce qui est fort possible, d’après ce que l’on peut lire dans l’article dont la référence est donnée en note 16.

[65] Il y a 25=32 possibilités.

[66] « par hasard » pour le « sujet psi » signifie « selon les probabilités de choix humain », où toutes les combinaisons n’ont pas les mêmes chances d’êtres choisies.

[67] Pour un sujet qui répondrait en tirant réellement au sort, la question de l’influence de la valeur de la « bonne réponse » ne se poserait pas (par contre, il resterait la possibilité de tirer au sort selon une stratégie optimale compte tenu de la structure de la « bonne réponse », comme on l’a vu précédemment…).

[68] Mais au bout de combien d’expériences ? Pour répondre à cette question, il faut examiner chaque situation au cas par cas. D’une manière générale il faut garder en tête que le tirage de la « bonne réponse » a son importance et peut entraîner une sous-estimation de la probabilité critique…

[69] Ce qui n’a malheureusement pas été fait dans les expériences de Sheldrake sur la sensation d’être observé, par exemple…

[70] Je rappelle que ce seuil représente la probabilité de rejeter à tort l’hypothèse du hasard. Il est généralement fixé à 5 % en psychologie et en parapsychologie.

[71] Il faut par ailleurs garder à l’esprit qu’on n’obtient pas la même valeur de probabilité critique selon le test statistique choisi pour analyser les résultats… Il ne faut donc pas avoir une confiance aveugle dans la valeur de p.

 

Martingale ? Vous avez dit martingale ?


Une martingale est, entre autres, une technique, une stratégie visant à optimiser ses chances de gain dans les jeux de hasard. La martingale est, malheureusement pour le joueur, souvent illusoire… Dans la situation qui nous intéresse, d’une expérience visant potentiellement à écarter l’hypothèse du hasard, le but d’une « martingale » n’est pas forcément d’augmenter le score moyen (appelé aussi espérance), mais d’augmenter la probabilité de réussite au test. Ainsi, comme on l’a vu avec les exemples précédents, si un seuil de réussite du test est fixé, à partir d’un calcul se basant sur un certain modèle de hasard (« hasard pur »), il existe parfois des « stratégies optimales » qui permettent, tout en répondant par hasard, d’augmenter la probabilité que le résultat du test soit considéré comme « extraordinaire » (à tort). Dans un sens, ces stratégies pourraient être considérées comme des « martingales » [72]. Elles exploitent juste le fait que les « bonnes réponses », même si elles sont tirées au sort, possèdent une certaine structure, puisqu’elles sont construites de façon à vérifier certaines contraintes. Notez par ailleurs que, du fait que l’être humain est un mauvais générateur aléatoire, il produit lui aussi des réponses possédant certaines structures (biais en faveur d’une réponse, biais d’alternance…), ce qui entraîne que des « martingales » peuvent apparaître « naturellement », sans qu’on y prenne garde.

Il existe un procédé « réciproque », qui lui aussi peut-être vu comme une « martingale ». L’expérimentateur peut en effet lui aussi, par la façon dont il va mener ses expériences (je ne parle là que des aspects statistiques, pas des « fuites sensorielles » et autres possibilités de tricheries…), augmenter la probabilité qu’un test présente un résultat qui pourra être interprété comme « extraordinaire ». L’idée est alors d’exploiter le fait que la probabilité de réussite à un test est en fait conditionnée par la valeur de la « bonne réponse », comme on vient de le voir ci-dessus. Comme pour le « sujet psi », cette « martingale » (ou ce biais), peut apparaître sans même que l’expérimentateur en soit conscient.

Revenons sur l’exemple très simple, et maintenant bien compris j’espère, de l’expérience où il s’agit de deviner un chiffre. Cette fois le protocole est le suivant : un générateur aléatoire choisit un chiffre (entre 0 et 9) et le « sujet psi » doit deviner quel chiffre a été tiré. Plutôt que de tirer un chiffre au sort à chaque nouveau test, je pourrais choisir, dans un souci de simplification de l’expérience, de tirer un chiffre au sort une fois pour toutes et de l’utiliser ensuite pour toutes les expériences. Après tout, chaque test est effectué avec un « sujet psi » différent ! Imaginons que je procède de la sorte et que le chiffre utilisé, tiré au sort une fois pour toutes, se trouve être le 7. Alors, comme on l’a vu précédemment, la proportion de bonnes réponses, lorsqu’on fait un grand nombre d’expériences, devrait être [73] d’environ 30 %, puisqu’en moyenne les êtres humains répondent 7 dans environ 30 % des cas. Je pourrais alors annoncer avoir mené une série d’expériences sur 1000 personnes et avoir obtenu un taux de réussite de 30 %, bien supérieur au taux de 10 % attendu par hasard. Cette expérience serait manifestement un succès en faveur de l’hypothèse « extraordinaire » que les gens sont capables de deviner un chiffre choisi au hasard. Effectivement, le chiffre a bien été choisi au hasard !

Certes, la situation est ici caricaturale : l’aspect « conditionnel » de la probabilité de réussite est ici pleinement exploité, et seule la « bonne réponse » qui maximise le taux de réussite au test est utilisée. Personne ne ferait cela évidemment… Mais quand on y réfléchit, c’est un peu [74] ce qu’a fait Sheldrake : il a utilisé quelques grilles de tirages aléatoires pour un grand nombre de tests distincts. Procéder de cette façon, plutôt que de tirer au sort à chaque test, peut complètement modifier les résultats obtenus. Le fait que les quelques grilles aient été déterminées par tirage au sort n’y change rien ! De la même façon, pour reprendre l’exemple donné plus haut (paragraphe « Une ou plusieurs expérience ? »), mener des séries de tests comportant 5 essais (ou il s’agit à chaque fois de répondre 0 ou 1), en utilisant toujours la même séquence, par exemple 00101, augmentera à coup sûr le nombre de fois où la « bonne réponse » est trouvée [75]. Utiliser toujours la même séquence est là aussi caricatural. Mais un biais peut également être introduit du fait qu’on utilise seulement certaines séquences [76].


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[72] En pratique, dans les deux derniers exemples présentés, la stratégie optimale n’augmente pas le score moyen, mais augmente la probabilité d’avoir un « bon » score. En conséquence, elle augmente aussi la probabilité d’avoir un « mauvais » score.

[73] En supposant que les gens n’ont aucune capacité « extraordinaire » et répondent « au pif ».

[74] Pas de manière systématique, ni forcément de manière intentionnelle, qu’on ne me fasse pas dire ce que je ne dis pas !

[75] Dans une expérience effectuée lors de la Fête de la science (cf. note 28) où le public doit trouver une combinaison de dix symboles « X » ou « O » tirés au sort, plusieurs personnes on proposé la combinaison XXXXXXXXXX : cette combinaison est prédite bien plus fréquemment que ce qu’on attend par hasard. Ainsi, en forçant cette combinaison à être la « bonne réponse », nous aurions pu nous arranger pour obtenir un résultat extraordinaire (obtenir par hasard un score de 10 sur 10, à plusieurs reprises, est en effet très peu probable, même pour une centaine d’expériences) !

[76] Dans l’exemple de l’expérience où il s’agit de deviner un chiffre, plutôt que de n’utiliser qu’un seul chiffre comme le 7, je peux choisir d’en utiliser plusieurs, mais en en évitant d’autres (comme le 0 ou le 9, sous prétexte que les gens ont plus de mal à deviner le 0 ou le 9…) : ceci biaisera également les résultats et donnera l’apparence d’un meilleur taux de réussite que le hasard. Le biais, plus pernicieux, sera plus difficile à détecter !

 

Avec un tirage aléatoire sans contrainte, toutes les stratégies sont équivalentes


Bien que, pour une expérience donnée, la stratégie optimale ne soit pas forcément d’« épouser » la contrainte, c’est-à-dire la structure de la « bonne réponse » [77], on pourrait penser qu’en reproduisant dans ses réponses la « structure » du hasard (c’est-à-dire certaines des caractéristiques rencontrées dans la plupart des cas), alors on augmente ses chances de réussite… Par exemple, on pourrait tenir le raisonnement suivant. L’issue la plus probable [78], quand on lance 10 fois une pièce de monnaie est de tomber 5 fois sur « pile » et 5 fois sur « face ». Donc, en prédisant une combinaison constituée de 5 « pile » et 5 « face », j’ai plus de chances d’obtenir un bon score (nombre de fois où je tombe juste) qu’en prédisant par exemple 10 fois « pile » (qui a bien moins de chance d’arriver par hasard). Mais ce raisonnement intuitif [79] est faux !

La façon la plus simple de le voir est de tout simplement dénombrer les différentes possibilités : en se fixant une série particulière choisie par le « sujet psi », regardons combien de séries, parmi toutes les possibilités, correspondent à un score k donné. La probabilité d’avoir un score k sera alors [80] N(k)/Ntot, en notant N(k) le nombre de séries donnant un score k et Ntot le nombre total de séries (qui vaut 210, c’est-à-dire 1024). Pour le score maximum k=10, il n’y a qu’une seule possibilité : la série tirée au sort doit être celle choisie par le « sujet psi ». La probabilité d’avoir par hasard un score de 10 est donc de 1 chance sur 1024, et ce, quelle que soit la série choisie par le « sujet psi ». Pour une autre valeur de k, le nombre de séries correspondant à ce score est égal aux nombre de façons qu’on a de prendre k éléments (ceux qui seront identiques dans la série tirée au sort et dans la série choisie) parmi 10. Là encore, la série choisie par le « sujet psi » n’a aucune influence : N(k) ne dépend pas du choix effectué [81]. Puisque la distribution des scores est la même dans tous les cas, quelle que soit la prédiction, toutes les prédictions sont équivalentes ! Il n’y en a pas qui augmente la probabilité d’avoir un certain score (ou qui augmente le score moyen), et en particulier miser sur une série comportant 5 « pile » et 5 « face » ne donne aucun avantage. Si vous n’êtes toujours pas convaincu par ce raisonnement général (l’intuition est parfois coriace !), le mieux est de calculer vous-même N(k), c’est-à-dire compter le nombre de tirages qui donnent un score k, pour une certaine prédiction, puis pour une autre. Vous vous apercevrez que chaque prédiction donne les mêmes valeurs de N(k), et donc qu’elles sont toutes équivalentes ! Forcément, faire ça à la main est assez laborieux : il faut se restreindre à une petite série, de 4 tirages par exemple… Avant de poursuivre, voici encore une autre façon très simple de voir que le choix de la série n’a en fait aucune influence. Considérons chacun des k tirages de la série, un par un : pour chaque tirage, il y a toujours une chance sur deux de tomber juste, et ce, quelle que soit la série choisie !

Retenons bien ce résultat : lorsque la « bonne réponse » n’est soumise à aucune contrainte, et qu’elle est déterminée par un tirage aléatoire, il n’existe aucune stratégie permettant d’augmenter sa probabilité d’avoir par hasard un score donné.

Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[77] Sauf si on vise le score maximum, ce qui n’est pas forcément nécessaire pour réussir un test (c’est-à-dire pour avoir un résultat jugé non conforme au hasard).

[78] Même s’il est finalement plus probable de ne pas tomber dessus : en effet, la probabilité d’avoir exactement 5 « pile » et 5 « face » est de 24,6 %, ce qui signifie que l’on a 75,4 % de chance de ne pas avoir 5 « pile » et 5 « face » !

[79] Que beaucoup doivent tenir, sans forcément s’en rendre compte… C’est sûrement lui qui fait qu’on prédira moins volontiers une série de 10 « pile ». Cela est lié par ailleurs à notre mauvaise représentation du hasard : donner une combinaison au hasard doit être équivalent, pour nous, à essayer d’obtenir le meilleur score pour une expérience de tirages à « pile ou face ». Comme on s’imagine que, pour une telle expérience, il est plus pertinent de prédire PPFPFFFPFP que PPPPPPPPPP (où P représente « pile » et F « face), on estime que la première série est plus « aléatoire » que la seconde. Ainsi, alors que ces deux séries sont en réalité équiprobables, les probabilités qu’elles soient choisies « par hasard » par un individu doivent être très différentes !

[80] Puisque, par hypothèse, chaque série parmi les Ntot possibles a autant de chance d’être tirée au sort.

[81] On retrouve finalement dans tous les cas que la distribution des scores suit la loi binomiale.

 

Est-ce qu’un tirage au sort peut empêcher d’observer un phénomène extraordinaire ?


Un tirage au sort peut donner toutes les « bonnes réponses » possibles, de manière équiprobable et imprévisible. Une « bonne réponse » tirée au sort n’a pas de signe particulier, et ne peut pas se distinguer d’une « bonne réponse » qui a été choisie de manière non-aléatoire [82]. Ainsi, si un « sujet psi » prétend avoir une capacité [83] « extraordinaire » (être capable de trouver la « bonne réponse », ou d’obtenir un gros « score »), il n’a aucune raison de s’opposer à l’utilisation d’un générateur aléatoire. La randomisation ne rend les choses plus difficiles que dans le cas où le « sujet psi » n’a en fait pas de capacité « extraordinaire ». Ou alors il faut reformuler la prétention du « sujet psi » (s’il y en a une) et définir précisément les conditions de manifestation du phénomène. Le problème est qu’il ne faut pas aboutir à une affirmation irréfutable [84] et par conséquent non scientifique. Lorsqu’une affirmation est irréfutable, on ne peut montrer qu’elle est fausse, même si c’est le cas : pourquoi considérer qu’elle est vraie [85] ?

Le fait qu’un phénomène « extraordinaire » ne se manifeste que lorsqu’il n’y a pas de tirage aléatoire doit nous mettre la puce à l’oreille : il y a sûrement un biais dans l’expérience, qui nous laisse croire que les résultats sont « extraordinaires » alors qu’ils sont conformes au hasard. Par exemple, nous avons vu plus haut (voir encadré), que lorsqu’il s’agit de deviner un chiffre, la probabilité de réussite est sensiblement plus grande [86] lorsque le chiffre est choisi par un individu que lorsqu’il est tiré au sort. On pourrait invoquer les « mauvaises ondes » du générateur aléatoire, ou bâtir une théorie de « connexion cérébrale » qui serait meilleure dans le cas où le chiffre a été choisi par un individu, alors qu’il s’agit simplement d’un effet statistique. Le fait qu’un être humain est un mauvais générateur aléatoire entraîne une augmentation du taux de réussite à l’expérience. Une bonne analyse des résultats, tenant compte de cet effet, permettrait de s’apercevoir que les résultats sont en fait conformes au hasard dans les deux cas : avec un générateur aléatoire et avec un choix humain du chiffre à deviner.


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[82] Certes, on peut effectuer un test statistique sur la « bonne réponse » pour voir si elle provient vraisemblablement d’un générateur aléatoire non biaisé. Mais même dans le cas où la « bonne réponse » choisie présente des caractéristiques qu’il est « extraordinaire » d’obtenir par hasard, elle pourrait parfaitement avoir été obtenue par hasard : il n’y a donc aucun moyen de savoir comment une « bonne réponse » particulière a été obtenue.

[83] Ou si l’on souhaite simplement étudier un phénomène « extraordinaire ».

[84] Une affirmation du type « je peux deviner à quel chiffre tu penses, mais seulement si j’ai un bon karma » est irréfutable : on n’a pas moyen de montrer qu’elle est fausse (en effet, si je me trompe, je pourrais invoquer un mauvais karma, chose non mesurable, comme cause de mon échec). On parle aussi d’affirmation non-falsifiable. Un autre type d’affirmation irréfutable est « j’ai trouvé à quel chiffre tu pensais, grâce à mon pendule », puisqu’elle concerne une expérience passée, unique : si on ne refait pas d’expériences, on ne peut pas prouver que c’est faux (même si ça l’est).

[85] C’est alors affaire de conviction personnelle. On peut parfaitement croire en quelque chose d’invérifiable.

[86] Sauf si l’individu qui doit deviner le chiffre tire réellement au sort sa réponse.

 

Est-ce qu’un mauvais tirage au sort peut diminuer la probabilité de réussir un test ?


Nous avons discuté des différentes raisons d’utiliser un tirage aléatoire lors d’une expérience où l’on cherche à mettre en évidence un phénomène « extraordinaire ». En particulier, du fait que la « bonne réponse » est imprévisible, il est plus difficile pour un « sujet psi » ne possédant en fait aucune capacité « extraordinaire » de passer le test avec succès, par hasard. Même avec un bon tirage au sort, nous avons vu que des difficultés pouvaient se présenter dans le calcul et l’interprétation de la probabilité critique p correspondant à un test statistique (qui a pour but de comparer les résultats à ceux que l’on obtiendrait par hasard). Le tirage au sort de la « bonne réponse » n’est pas la panacée : il ne garantit pas qu’on ne fait pas d’erreur dans l’estimation de la valeur de p. Même s’il est toujours préférable d’utiliser une bonne randomisation, il existe des cas où des expériences ont été menées avec un « mauvais » tirage au sort, voire sans même tirer au sort la « bonne réponse » (elle peut avoir été choisie par un individu). Que peut-on dire de telles expériences ? Les résultats sont-ils inexploitables, simplement parce que l’expérimentateur n’a pas utilisé de générateur aléatoire [87] ? Est-ce que l’absence de tirage au sort peut être une cause de l’échec du « sujet psi » (c’est-à-dire qu’il a obtenu des résultats conformes au hasard) ?

Comme nous venons de le rappeler au paragraphe précédent, on ne peut pas savoir, au vu de la « bonne réponse », de quelle façon celle-ci a été obtenue. Comme on l’a déjà noté plus haut, le fait qu’elle ait été tirée au sort ou non, ne change rien du point de vue du sujet testé. Le nombre de « bonnes réponses » possibles reste le même, qu’on utilise un générateur aléatoire ou non. En fait, nous avons vu que ne pas utiliser de générateur aléatoire implique que ces « bonnes réponses » n’ont pas toutes la même probabilité d’être choisies, ce qui peut entraîner une augmentation (mais aussi une diminution) de la probabilité de réussir le test « par hasard ». Ainsi, comme illustré précédemment par plusieurs exemples, un mauvais tirage au sort peut entraîner une interprétation faussée des résultats d’une expérience : un résultat peut paraître « extraordinaire » (et être interprété comme tel, du fait de l’utilisation d’un mauvais modèle de réussite « par hasard ») alors qu’il est « normal ». D’une manière générale, une mauvaise randomisation peut modifier la probabilité d’obtenir « par hasard » un certain résultat. Un résultat peut s’avérer significativement meilleur [88] (d’après la valeur de la probabilité critique) que ce qu’on attend par « hasard pur », simplement parce que le modèle de « hasard pur » n’était pas adapté (pour le choix de la « bonne réponse » d’une part et/ou pour le choix de la réponse donnée par le « sujet psi » d’autre part).

Si le « sujet psi » possède réellement une capacité « extraordinaire », est-ce qu’une mauvaise randomisation peut aussi modifier sa probabilité d’obtenir un certain résultat ? Un résultat peut-il être conforme au hasard (lorsque la probabilité critique est calculée avec un modèle de « hasard pur »), alors que si on avait utilisé une bonne randomisation il aurait été « extraordinaire » ? De la même façon qu’on peut augmenter la probabilité du « sujet psi » de tomber juste, en choisissant une « bonne réponse » fréquemment choisie « au pif », on peut imaginer influencer l’issue d’un test (de manière à obtenir un résultat conforme au hasard) en choisissant une « bonne réponse » difficile à trouver pour le « sujet psi ». Notez que ceci n’est envisageable que lorsque la capacité « extraordinaire » est censée dépendre de la « bonne réponse » à trouver : une théorie du phénomène en question devra donc en rendre compte. Là encore, on pourra toujours proposer une explication a posteriori, dire que l’échec est dû à la valeur particulière de la « bonne réponse », et on risque d’aboutir à une théorie irréfutable… Cerner les limites de la capacité « extraordinaire » permet aussi d’avancer et de proposer par la suite de nouvelles expériences.

Mais qu’est-ce qu’une « bonne réponse » difficile à trouver pour le « sujet psi » ? Si les résultats obtenus sont malgré tout meilleurs que le hasard, alors très bien, l’hypothèse « extraordinaire » sera privilégiée. Mais invoquer une mauvaise randomisation comme cause de l’échec d’un « sujet psi » lors d’une expérience signifie : la « bonne réponse » qui a été choisie était justement si difficile pour le « sujet psi » que ses résultats sont conformes au hasard [89] ! Finalement, une véritable capacité « extraordinaire » n’est intéressante, et ne peut être considérée comme probante, que si elle donne de meilleurs résultats que le « hasard pur ». En effet, pourquoi invoquer une hypothèse « extraordinaire » lorsqu’un résultat est conforme au « hasard pur » ? Le « sujet psi » a peut-être véritablement utilisé une capacité « extraordinaire » (on ne pourra jamais le savoir), mais il a aussi pu répondre réellement au hasard [90].

Reprenons sans plus attendre le fameux exemple où le « sujet psi » doit deviner un chiffre (entre 0 et 9). Nous avons déjà mentionné que si le chiffre à deviner était le 7, alors la probabilité de tomber juste en répondant « au pif » était supérieure à ce qu’on attend par « hasard pur » (1 chance sur 10), tandis que si le chiffre à deviner est le 1, alors celle-ci est au contraire inférieure. Imaginons qu’après avoir mené toute une série d’expériences où le chiffre à deviner était à chaque fois le 1, on obtienne un taux de réussite de 10 % pour une certaine population de « sujets psi ». Ce résultat est indéniablement conforme au hasard : des réponses au « hasard pur » (vraiment tirées au sort, et non choisies par des êtres humains), donneraient un taux de réussite comparable. Pourtant, comme on l’a vu précédemment, des individus répondant « au pif » devraient répondre moins fréquemment 1 que d’autres chiffres et ainsi avoir finalement un taux de réussite inférieur au « hasard pur ». La population de « sujets psi » testée a finalement obtenu un meilleur taux de réussite que la population moyenne [91]. Peut-être s’agit-il effectivement de personnes ayant un « don » pour deviner les 1 ! Et pourtant, leur « don » ne fait pas mieux qu’un simple tirage au sort, d’ailleurs on ne peut pas être certains qu’ils n’ont pas donné justement leur réponse au hasard… Dans ce cas, puisque le résultat est conforme au hasard, même s’il n’est pas dit que les « sujet psi » ont réellement donné des réponses aléatoires, l’hypothèse « extraordinaire » sera rejetée. Toujours avec cet exemple, on peut imaginer que les « sujets psi », apprenant que le chiffre à trouver n’avait pas été tiré au sort à chaque fois, justifient leur échec en disant que le 1 est plus difficile à détecter que d’autres chiffres… On ne peut pas répondre grand-chose à cela ! Mais l’expérience nous aura tout de même appris une chose : ces « sujets psi » ne font pas mieux que le hasard, en ce qui concerne le chiffre 1. Il restera à mettre en place un nouveau protocole expérimental en tenant compte de cette information.

J’ajoute une remarque concernant l’utilisation d’un groupe de contrôle, qui a déjà été abordée précédemment. Dans le cas où la « bonne réponse » n’est pas déterminée aléatoirement, comparer les résultats de « sujets psi » avec ceux d’un groupe de contrôle peut permettre d’obtenir des conclusions fiables. On peut ainsi essayer d’observer une différence significative entre les deux groupes, mais il faut rester vigilant quand à l’interprétation des résultats : les deux groupes peuvent avoir des résultats significativement différents, mais tous les deux conformes au hasard !

Pour résumer ce paragraphe, j’insiste sur le fait qu’une mauvaise randomisation peut aider le « sujet psi » à réussir par hasard, mais ne peut pas lui rendre la tâche plus difficile s’il a une capacité « extraordinaire » (ou alors il faut revoir sa prétention). Il n’y a aucune raison de voir un résultat conforme au hasard comme une « mauvaise performance » d’une capacité « extraordinaire ». Pour répondre à la question posée dans cet article : oui, on peut parfaitement conclure quelque chose d’une expérience effectuée avec un « mauvais » tirage aléatoire.


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[87] Auquel cas, un grand nombre de résultats de parapsychologie serait inexploitable…

[88] Ou significativement moins bon… Ce qui revient à dire qu’on peut « forcer » l’apparition de « psi-missing » !

[89] Cet argument pour expliquer un échec a posteriori peut aussi être utilisé si la « bonne réponse » a été tirée au sort. Cela ne fait que traduire le fait que la probabilité de réussite au test est conditionnée par la valeur de la « bonne réponse »

[90] Le « sujet psi » a très bien pu s’appliquer à donner des réponses « aléatoires », quitte à utiliser pour cela un générateur aléatoire… Cela rejoint la problématique des « stratégies » de réponse optimales : du moment qu’il existe une stratégie « normale » (ici un simple tirage au sort) rendant compte des résultats obtenus, il n’est pas nécessaire d’envisager une capacité « extraordinaire » du « sujet psi ».

[91] À supposer qu’on ait déterminé précisément (donc, sur une grande population) les fréquences de réponse « au pif » pour chaque chiffre…

 

Une situation dissymétrique


Comme vous l’avez certainement remarqué, il y a une dissymétrie entre l’hypothèse du hasard et l’hypothèse « extraordinaire » concurrente. Un résultat négatif (c’est-à-dire, qui conduit à rejeter l’hypothèse « extraordinaire ») lors d’un test sera toujours négatif, même avec une mauvaise randomisation [92]. En revanche, un résultat positif (c’est-à-dire, qui conduit à rejeter l’hypothèse du hasard) peut finalement s’avérer négatif, car dû à un mauvais tirage au sort ! Ceci devrait inciter les « tenants du paranormal » à être particulièrement vigilants sur la qualité des protocoles expérimentaux, y compris au niveau de la randomisation. Ceux qui veulent prouver la réalité d’un phénomène extraordinaire devraient être ceux qui mettent en place les expériences les plus rigoureuses… Comme en témoignent les nombreuses critiques venant de sceptiques, ceci n’est malheureusement pas toujours le cas.

La dissymétrie évoquée plus haut reflète la préférence accordée à l’hypothèse du hasard [93] lors d’un test statistique : dès lors qu’un résultat est conforme au hasard, l’hypothèse du hasard est conservée. Cette préférence se justifie quand à elle par le principe d’économie : on privilégie l’hypothèse « normale » du hasard, au détriment d’une hypothèse « extraordinaire » qui représente souvent un véritable bouleversement des connaissances établies. Cette démarche fait preuve d’une saine prudence et n’empêche absolument pas la science d’avancer : des théories « révolutionnaires » peuvent parfaitement s’imposer lorsqu’elles font leurs preuves. C’est aussi ce qu’exprime le principe zététique suivant : un phénomène extraordinaire nécessite une « preuve rigoureuse » [94] !


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[92] Un « mauvais » tirage au sort n’est pas suffisant pour discréditer une expérience ayant donné des résultats conformes au hasard. Plus généralement, lorsqu’un « mauvais » protocole donne un résultat conforme au hasard, la conclusion reste fiable (sauf si l’on peut expliquer en quoi les « failles » dans le protocole peuvent être à l’origine de la disparition de l’effet « extraordinaire »), tandis que lorsqu’il donne un résultat « extraordinaire », la conclusion n’est pas fiable !

[93] Appelée fréquemment « hypothèse nulle », et notée H0. L’hypothèse alternative étant notée H1.

[94] La difficulté, dans le cas de certains phénomènes « extraordinaires », provient du fait que la « preuve » ne peut se faire que de manière statistique. Dans ce cas, on peut considérer que plus la probabilité critique p est petite, plus on a une « preuve » solide en faveur du phénomène « extraordinaire ». Une « preuve rigoureuse » signifie alors qu’on ne peut se contenter d’une probabilité critique de 5 % par exemple pour rejeter l’hypothèse « normale » du hasard…

 


Pour résumer : l’essentiel à retenir


    • Avec un vrai générateur aléatoire, toutes les issues possibles ont la même probabilité d’être tirées au sort, et le résultat est imprévisible.

 

    • L’être humain ne sait pas choisir réellement au hasard (en particulier, toutes les réponses possibles ne sont pas choisies aussi fréquemment quand les individus répondent « au pif »).

 

    • Pour trancher entre l’hypothèse du hasard et une hypothèse « extraordinaire », il faut pouvoir dire quels seraient les résultats obtenus par hasard lors d’une expérience.

 

    • Utiliser une bonne randomisation (tirage au sort) permet : de disposer d’un modèle précis pour comparer les résultats d’une expérience à ceux attendus « par hasard » ; de rendre la réussite « par hasard » à un test plus difficile.

 

    • La probabilité critique, notée p, mesure à quel point il est probable (ou « extraordinaire », lorsque p est très petit) d’obtenir un résultat comme celui qui est observé lors d’une expérience. En pratique, on fixe un seuil (généralement 5 % en parapsychologie) en dessous duquel on rejette l’hypothèse du hasard pour expliquer les résultats.

 

    • Il faut être vigilant lors de la détermination de la probabilité critique p : le modèle de « réponse au hasard » n’est pas forcément adapté à la situation (un individu ne répond jamais réellement au hasard). Par ailleurs, il existe parfois des « stratégies » de réponse par hasard (qui peuvent être suivies inconsciemment) augmentant la probabilité de réussir un test.

 

    • Tous les tirages de la « bonne réponse » lors d’un test ne se valent pas : la valeur de la « bonne réponse » modifie la probabilité de réussir le test « par hasard » et la probabilité critique est une probabilité conditionnelle.

 

    • Utiliser plusieurs fois le même tirage aléatoire pour des expériences distinctes peut introduire un biais.

 

    • Lorsque la « bonne réponse » d’une expérience est déterminée par tirage au sort « sans contrainte » (par opposition à des arrangements ou des combinaisons vérifiant certaines propriétés), toutes les « stratégies » de réponse par hasard sont équivalentes. Avec une bonne randomisation, il n’y a pas de « martingale ».

 

    • La randomisation (ou l’absence de randomisation) lors d’une expérience ne change rien du point de vue d’un « sujet psi » possédant une capacité « extraordinaire » : pour une « bonne réponse » donnée, il n’est pas possible de savoir si elle provient d’un tirage au sort ou d’un choix humain.

 

    • Un « mauvais » tirage au sort peut expliquer un résultat qui semble « extraordinaire », mais ne peut être invoqué pour expliquer l’échec d’un « sujet psi » censé posséder une capacité « extraordinaire » (ou alors, il faut revoir sa prétention).

 

  • L’hypothèse du hasard et l’hypothèse « extraordinaire » concurrente ne sont pas traitées à égalité : on privilégie toujours la première lorsque les résultats sont conformes au hasard. Ceci traduit le principe d’économie en sciences.
La nécessité du hasard
Étiqueté avec :