Hygiène de la décision, Daniel Kahneman & als.

Noise, Daniel Kahneman, Olivier Sibony, Cass R. Sunstein

Odile Jacob, Septembre 2021, 452 pp

18 janvier 2023

Cette note porte sur la version française du livre, contrairement à ce que suggère le titre. Mais « Noise » était sans doute plus à même d’intriguer le lecteur curieux que « Bruit ».

Le bruit, écrivent les auteurs, est la face cachée de l’erreur et l’erreur dont il est question dans ce livre est celle qui entache les jugements, notamment les jugements professionnels et grand nombre de décisions pouvant avoir des conséquences néfastes.

« Dès qu’il y a jugement, il y a bruit et plus qu’on ne l’imagine »

Ce livre est parti des arguments du juge Marvin Frankel, fondateur du comité d’avocats Human Rights First, afin de proposer une analyse des fondements psychologiques du bruit. En 1973, Marvin Frankel publia un livre intitulé Criminal Sentences: Law Without Order, dans lequel il s’inquiétait de la variabilité des jugements en fonction des juges pour des crimes ou délits similaires. Il proposait d’établir des règles et de créer une Commission des peines. Une étude menée en 1974 montra une disparité des condamnations énorme (par exemple de 1 à 10 ans de prison pour trafic d’héroïne, juge plus clément lors de l’anniversaire du prévenu). Elle fut suivie de beaucoup d’autres allant dans le même sens. Les directives établies par la Commission des peines du Congrès, créée par Edward Kennedy en 1984, reçurent une virulente opposition des juges fédéraux qui finirent par obtenir leur reclassement en directives indicatives en 2005.

Qu’est-ce qu’un jugement ?

Les auteurs entendent par jugement « une mesure dont l’instrument est l’esprit humain » et dont le but est d’être juste et donc de minimiser l’erreur. Il désigne à la fois l’activité mentale et la conclusion de cette activité. On peut distinguer deux types de jugements, selon qu’ils sont prédictifs ou évaluatifs. Mais toute décision nécessite les deux. C’est par exemple le cas lors d’un recrutement ou lorsque un juge doit décider de mettre ou non en détention provisoire un prévenu dans l’attente du procès.

« Le bruit est la face cachée de l’erreur »

L’erreur est formée de biais et de bruit, mais nous sommes généralement plus attentifs aux biais qu’aux bruits. Des jugements sont biaisés lorsqu’ils manquent leur cible de la même manière. Par exemple, la préférence lors des recrutements pour les candidats avec qui le recruteur a quelque chose en commun. Le bruit désigne la variabilité des jugements de personnes qui devraient être d’accord mais parviennent à des conclusions différentes ou, pour une même personne, la variabilité de ses jugements dans le temps. Des études ont, par exemple, montré que les experts en empreintes digitales, pouvaient se dédire lors d’un second examen, à distance du premier. Certains jugements sont vérifiables et l’erreur peut alors être évaluée par différence avec le résultat réel. Ce sera le cas par exemple lors de jugements prédictifs. Pour d’autres, la valeur juste n’est pas connue. On peut alors choisir la moyenne comme approximation de la valeur vraie[1].

Une stratégie de réduction du bruit dans une organisation peut rendre les biais apparents et inciter à les réduire. Comme les biais sont plus facilement détectés il y a généralement plus de bruit que de biais. Les organisations qui doivent prendre des décisions sur des cas différents et déterminées à lutter contre le bruit doivent en passer par un audit de bruit.

Les différentes composantes du bruit

Les études sur la disparité des peines prononcées par les juges fédéraux aux Etats-Unis auxquels on demande de se prononcer individuellement sur les mêmes cas ont montré l’étendue du bruit et ses différentes composantes. Leur addition donne ce que les auteurs appellent le « bruit systémique ».

Le bruit de niveau

Il est lié à la sévérité plus ou moins grande des juges pour une même affaire. Cette variabilité s’explique par les traits de personnalité particuliers à chaque juge, son parcours de vie, ses opinions, ses biais… et ce qu’il pense de la finalité de la peine (réhabilitation ou mise hors d’état de nuire).

Le bruit de pattern stable

Ce bruit s’explique par la manière différente dont les juges classent implicitement les affaires par ordre de sévérité méritée, liée à leur philosophie personnelle mais aussi à des associations d’idées (par exemple, le juge trouve une ressemblance entre le prévenu et son fils). Ce bruit est présent dans toutes sortes de décisions en dehors de la Justice. D’après les données disponibles, sans toutefois généraliser, le bruit de pattern stable semble bien être la composante la plus importante du bruit systémique.

Le bruit occasionnel

Un effet de loterie se produit aussi selon le moment où le juge prend sa décision, s’il a par exemple bien ou mal dormi ou est de bonne ou de mauvaise humeur ou encore en fonction de moment de la journée ou de la météo. Ainsi, la bonne humeur rend plus crédule et les jugements sont plus sévères par temps chaud. Une autre source de bruit occasionnel peut tenir dans le séquencement des cas à examiner, les décisions précédentes servant de cadre de référence. Un banquier aura par exemple, après une série de décisions allant dans le même sens pour statuer sur un prêt, tendance à prendre une décision de sens opposé. Par exemple en accordant un prêt après une série de refus. On parle alors de biais cognitif du parieur. Le bruit occasionnel est généralement plus faible que celui entre individus, mais il est incontrôlable et ne peut être éliminé.

La cascade informationnelle

Décider à plusieurs pourrait être une manière de réduire le bruit, sauf si tous les individus d’un groupe sont sous l’influence d’une illusion partagée et ajoutent ainsi du bruit. L’influence sociale joue un rôle capital dans ce type d’illusion collective. Les opinions des premiers à s’exprimer peuvent jouer un rôle décisif, surtout s’ils sont déjà pris dans un effet de cascade ou si les suivants cherchent à faire bonne impression. Dans ces cas de figure, on surestime toujours la conviction des premiers qui parlent, accroissant ainsi la pression sociale sur les autres.

Jugements prédictifs : les humains, les modèles et les algorithmes

Par rapport à la prédiction clinique (jugement humain), la prédiction mécanique (modèles de régression) applique la même règle à tous les cas et fait généralement mieux. Et pourtant les professionnels qui sont amenés à juger de façon prédictive éprouvent une confiance dans leur jugement qu’on appelle l’illusion de validité. Celle-ci révèle la confusion entre l’étape d’évaluation en fonction de ce qui est connu et la prédiction, beaucoup plus difficile en raison de ce que les auteurs appellent l’ignorance objective. Différentes expérimentations ont montré que toute la subtilité dont on s’imagine faire preuve lors d’un jugement apporte du bruit, éliminé lorsqu’on remplace l’humain par un modèle de juge. N’importe quel modèle simple fait généralement mieuxque les humains utilisant la même information. Il faut citer ici l’étude de Robin Dawes et de Bernard Corrigan qui montrait qu’un modèle simple donnant un poids égal à chaque prédicteur était pratiquement aussi performant qu’un modèle pondéré. Ils eurent toutes les peines du monde à publier leur étude car les éditeurs de revues scientifiques ne les crurent pas. On peut expliquer leur résultat par la taille trop petite des échantillons en science sociale qui rend les modèles équipondérés moins sensibles aux accidents d’échantillonnage. Les effets de corrélation entre prédicteurs plaident pour l’usage d’un petit nombre de prédicteurs. D’ailleurs, les auteurs alertent à juste raison sur la méprise que peuvent engendrer des déclarations sur des résultats significatifs ou même hautement significatifs. On ne décrit pas alors la puissance explicative d’un résultat. On déclare simplement qu’il a peu de chances d’être le produit du hasard. Plus l’échantillon est grand, plus une corrélation dérisoire a de chances d’être significative.

Quant aux algorithmes, entraînés sur un grand nombre de données, ils sont capables de détecter des prédicteurs rares indétectables par l’humain. Une étude des décisions d’accorder ou non la liberté sous caution et de leurs suites a montré la supériorité de l’algorithme sur l’humain pour prévoir la probabilité de défaut lors de la convocation par le tribunal. Certes, les algorithmes ne sont pas parfaits et peuvent reproduire des biais humains, mais ce n’est pas une fatalité. Toutes les prédictions mécaniques ont l’avantage sur celles des humains d’être libres de bruits et, quand les données sont très riches, l’intelligence artificielle fait mieux. L’algorithme n’a pas bonne presse car il fait peur. Les hommes ont peur de devenir inutiles, survalorisent leur intuition et ont une certaine addiction à ce que les auteurs appellent le « signal intérieur », qui leur dit qu’ils sont dans le vrai, leur donne un sentiment de cohérence et les amène à sous-estimer ce qu’ils ne savent pas. Les expérimentations de Phillip Tetlock l’ont amené à conclure que le prévisionniste moyen « est à peu près aussi précis qu’un chimpanzé jouant aux fléchettes ».

Pensée causale et pensée statistique

La plupart du temps, comprendre quelque chose revient à décrire une chaine causale et céder ainsi au sentiment d’inévitabilité. C’est la pensée causale qui nous donne le sentiment de comprendre le passé, procure un excès de confiance dans nos prédictions, rend le bruit inaudible et nous fait privilégier l’explication de l’erreur par le biais. L’humain a tendance à privilégier le biais parce qu’il satisfait son désir de trouver un sens au monde mais le rend sourd au bruit. Pourtant l’évocation d’un biais n’a aucune valeur s’il n’a pu être prévu à l’avance.

Regarder dans le rétroviseur ne demande pas beaucoup d’efforts contrairement à la pensée statistique qui mobilise une réflexion lente et délibérée et nécessite des connaissances statistiques, par exemple en mobilisant la valeur moyenne lorsque c’est possible. On appelle cela la vision externe.

Les biais et le bruit

La plupart du temps, on cherche à répondre aux questions ardues par des opérations simplificatrices produites par la pensée intuitive et rapide sujette aux biais psychologiques. Quand ces biais sont très partagés ils causent des biais statistiques. Mais des biais différents causent aussi de la variabilité et donc du bruit systémique.

L’un de ces biais est le biais de substitution, par exemple lorsqu’on substitue à un jugement de fréquence une évaluation de la facilité avec laquelle un cas similaire vient à l’esprit. Un autre est le biais de conclusion qui favorise une conclusion trop rapide en sélectionnant les arguments auxquels nous croyons déjà (biais de confirmation) ou dont nous souhaitons qu’ils soient vrais (biais de désirabilité). Nous avons tendance à nous faire une idée trop vite que nous avons du mal à corriger ensuite car nous tenons à la cohérence de l’histoire qui a commencé à s’élaborer dans notre esprit. On parle d’effet de halo.

Il est plus facile de comparer des cas entre eux que de les placer sur une échelle

Par exemple, il est plus simple d’attribuer des étoiles aux restaurateurs que de les classer sur une échelle allant de 1 à 20. En effet, l’appréciation des échelles est très personnelle. Par exemple, « fréquent » ou « rare » ne disent pas la même chose à tout le monde. Nous sommes tous plus sensibles à la valeur relative des choses qu’à leur valeur absolue. Sans ancre initiale, le 1er choix, arbitraire, permet de produire par la suite des jugements cohérents. Chez les juges, l’échelle la plus sujette au bruit est celle des dommages et intérêts qui n’a pas de limite supérieure. Lorsqu’une affaire est jugée par des jurés c’est, pour ces derniers, à la fois la première et la dernière. La loi suppose donc « une capacité hors de portée des humains ».

Comment améliorer les jugements humains ?

Il est possible de contourner la solution radicale consistant à remplacer le jugement humain par l’algorithme en améliorant son processus d’élaboration.

La compétence fait évidemment partie des qualités nécessaires à un bon jugement, mais elle n’est pas toujours aisément vérifiable. On en est alors réduit à faire confiance aux « experts d’estime » parce qu’ils ont confiance en eux. L’intelligence est corrélée avec la performance et les personnes aux aptitudes mentales exceptionnelles ont une plus forte probabilité, dans leurs jugements, de se rapprocher de la valeur vraie, mais aussi d’impressionner leurs pairs qui en feront des experts d’estime.

Des différentes manières de réduire les biais, les auteurs proposent que les organisations qui souhaitent le faire se dotent d’un « observateur de la décision », une sorte de « chasseur de biais ». Ce dernier devrait être bien formé, soutenu par les dirigeants et muni d’une liste sur mesure détaillant les biais les plus fréquents.

Hygiène de la décision pour réduire le bruit

Les auteurs parlent d’hygiène de la décision en reprenant la métaphore du lavage de mains. Il s’agit d’ « adopter des techniques qui réduisent le bruit, donc l’erreur, sans jamais savoir précisément à quelle erreur cette prophylaxie permet d’échapper » (p. 254).

S’agissant des jurys, ils doivent être informés de l’existence du bruit de l’expertise, premier pas vers sa réduction.

« Conserver « l’ombre d’un doute » pour ne pas être « l’homme qui en savait trop » »

Itiel Dror, chercheur en sciences cognitives à l’University College de Londres, recommande la "divulgation séquentielle linéaire" des informations que les experts doivent documenter à chaque étape (par exemple faire un compte rendu d’une trace digitale avant de chercher une correspondance). Ces experts doivent argumenter tout changement d’avis.

Agréger les prévisions pour les améliorer

Le moyen le plus simple est de faire la moyenne de jugements indépendants. Une sélection de quelques experts sur la fiabilité de leurs jugements récents peut améliorer la qualité des prévisions. Mais un perfectionnement peut être apporté en diversifiant les compétences car la qualité du jugement s’accroît plus rapidement avec des experts non redondants.

Les bêtas perpétuels

D’après les expérimentations menées par Philip Tetlock auprès de gens ordinaires, les prévisionnistes qui se distinguent le font par leur style cognitif : ouverture d’esprit, aisance à raisonner de façon probabiliste et analytique. Ils essaient, échouent, analysent, adaptent et essaient à nouveau. Il les appelle les bêtas perpétuels. Ce qui compte chez les prévisionnistes c’est « l’ouverture d’esprit active » qui incite à chercher de manière proactive les informations qui contredisent les hypothèses actuelles.

Les six principes à respecter pour réduire le bruit

Au final, les auteurs énoncent six principes qui participent à l’hygiène de la décision.

Une fois réalisé un audit de bruit, l’organisation qui veut le réduire devrait :

Ne pas rechercher l’expression individuelle. Une solution radicale peut résider dans les algorithmes, mais il est aussi tout à fait possible d’améliorer les jugements humains, notamment par des directives ;
Adopter la vision externe et la pensée statistique. La première porte à considérer le cas examiné comme un exemplaire d’une classe de cas assez similaires et contribuer à éliminer certains biais. La pensée statistique a tendance à favoriser des prédictions plus modérées et contrarie l’excès de confiance en son propre jugement ;
Structurer le jugement en plusieurs taches indépendantes avec un protocole d’évaluation des taches intermédiaires qui limite les contaminations croisées (comme ce serait le cas avec des témoins d’un crime qui communiquent entre eux) ;
Résister aux intuitions prématurées et pour cela séquencer l’information ;
Obtenir des jugements indépendants, émanant si possible d’experts aux compétences complémentaires, avant de les agréger ;
Privilégier les jugements comparatifs et les échelles relatives.

Il en va des décisions singulières comme des décisions récurrentes. Les premières peuvent être traitées comme un sujet récurrent qui ne se produit qu’une fois et mérite la même hygiène.

Un peu de bruit est inévitable et peut avoir ses vertus

S’il faut chercher à réduire le bruit, il est inévitable et peut même être utile pour s’adapter au fil du temps. C’est le cas lorsque le bruit reflète des valeurs et objectifs en train de changer et qui méritent un débat afin de faire évoluer les pratiques et les lois. Le recours aux algorithmes, sans bruit, n’est pas la panacée car ils peuvent faire des erreurs stupides et être biaisés s’ils sont entraînés sur des données inadaptées. L’instauration de pratiques d’hygiène de la décision doit aussi veiller à ne pas bureaucratiser à l’excès les procédures ni à démoraliser le personnel. Il faut donc peser les coûts et les avantages, arbitrer par exemple entre les règles et les directives. Quelquefois les directives évitent les effets pervers de règles trop rigides, notamment leur contournement, comme ce fut le cas avec la règle dite de la troisième infraction aux États-Unis qui condamnait à la prison à perpétuité. Certains juges retenaient une qualification moindre pour que le délit n’entre pas dans le champ d’application.

Voilà donc un livre passionnant, dont la lecture n’est pas toujours facile, en raison du sujet et de sa structuration un peu désordonnée, même s’il s’appuie sur de nombreux exemples éclairants. Par ailleurs, il me semble qu’un titre tel que « Hygiène de la décision », aurait sans doute été plus adapté et plus parlant que « Noise ».

Je dois enfin faire part de mon étonnement face au recours, parfois, au féminin générique, comme l’indique l’extrait suivant, page 316 :

« Pourquoi les premières impressions finissent-elles par influencer le résultat d’un entretien qui dure bien plus longtemps ? D’abord parce que la recruteuse, dans l’entretien traditionnel, est libre d’orienter la discussion dans le sens qu’elle juge bon. Elle va donc souvent poser des questions qui tendent à confirmer son impression première. Si un candidat lui paraît timide et réservé, par exemple, la recruteuse ne manquera pas de le tester en lui posant des questions directes (et difficiles) sur son expérience du travail en équipe ou de la prise de parole en public. Une candidate qui lui a semblé sociable et enjouée ne sera pas soumise au même interrogatoire. Cela peut certes sembler logique, mais le résultat est que les éléments recueillis sur ces deux candidats ne seront pas comparables.

[1]Un moyen de mesurer le bruit est alors de prendre la valeur moyenne comme référence et de faire la somme des carrés des écarts à la moyenne (méthode des moindres carrés) divisée par le nombre de jugements. L’avantage de choisir le carré des écarts est qu’il donne le même poids aux écarts positifs et négatifs et un poids plus élevé aux grandes disparités : 1 au carré=1 mais 3 au carré=9. Cette démarche est peu pertinente dans certains cas. Que l’on rate son train d’une ou neuf minutes, le résultat est le même.