- Informations
- Introduction
- Les biais cognitifs
- Les biais principaux que l’on rencontre lorsque l’on développe un logiciel
- Les biais principaux que l’on rencontre dans les modèles de données
- Les biais principaux dans la modélisation
- Contrer les biais
- Avant la création de l’algorithme
- Après la création de l’algorithme
- Éviter ces biais
- Conclusion
- Pour approfondir le sujet
Informations
Présenté par Mélanie REVERSAT et Clémence BIC, respectivement Director of Product Operation et Product Manager à Dataiku.
Introduction
Cette conférence avait pour but ‘expliquer comment les biais se développent dans un développement de logiciel, et comment les contrer.
À ce moment-là, elles évoquent leur différence d’age comme « preuve » d’un duo hétérogène. La personne la plus âgée des deux est loin d’être dans la catégorie senior (point de vue entreprise, j’entends, lol). Toutes deux blanches, pas d’autres intersections énoncées, j’imagine donc que c’est… tout.
Les biais cognitifs
Sinon, si tu n’as pas lu l’article précédent.
Les biais cognitifs sont des déviations psychologiques de la pensée rationnelle provoquées par des distorsions formulées par notre cerveau lorsqu’il s’agit de nos jugements, nos perceptions, nos souvenirs et nos processus de décision.
Les biais principaux que l’on rencontre lorsque l’on développe un logiciel
On commence par voir les différentes étapes du développement d’un logiciel en machine learning, et les différents biais qui peuvent s’y glisser :
- Le biais de mesure, qui va favoriser ce qui favorise la personne qui diffuse les données,
- Le biais de représentativité, qui fausse un panel, s’il y a une surreprésentation ou une sous-représentation d’une catégorie d’individus.
- Le biais de l’étiquetage ou les individus se confortent aux jugements qu’on plaque sur elleux,
- Le biais algorithmique, ou le fait que le résultat d’un algorithme d’apprentissage ne soit pas neutre, loyal ou équitable.
- Le biais d’évaluation où l’on passe plus ou moins à côté de ce qu’elle prétend évaluer, ou si elle n’en prend en compte qu’une partie. Biais qu’il est parfois possible de mesurer en modifiant le mode de questionnement.
- Le biais de cadrage (NP : la définition qui arrive n’a rien à voir avec ce qui a été énoncé dans la conférence…) : désigne l’influence importante que peut avoir la formulation d’une question ou d’un problème sur la réponse qui y est apportée.
- Le biais d’encrage, qui consiste à accorder trop d’importance, lors d’une prise de décision, à de l’information préexistante ou à la première information reçue. (NP : celui-ci associé à la cascade d’engagement…),
- Le biais d’effet de groupe qui est le phénomène par lequel les positions initiales des membres individuels d’un groupe sont exagérées vers une position plus extrême, précisément parce qu’ils sont en groupe (NP : là encore rien à voir avec ce qui a été dit pendant la conférence… Les recherches Google ç’a l’air compliqué…),
- Le biais de confirmation, qui est le fait de chercher à confirmer une hypothèse plutôt que de la réfuter, et de s’efforcer de trouver des preuves qui vont dans le sens de cette hypothèse.
- Et le biais d’auto-complaisance, (cf. Erreur fondamentale d’attribution) qui est la tendance à attribuer plus de poids aux explications internes pour ses propres succès et externes pour ses échecs.
Les biais principaux que l’on rencontre dans les modèles de données
Les modèles de données vont être ensuite biaisées pour d’autres raisons :
- L’échantillon de données ne sera pas neutre initialement, et comprendra de l’échantillon de population avec des probabilités plus faibles ou élevés que les autres.
- L’échantillon de données ne comprendra pas un ensemble représentatif de la population à étudier.
- L’échantillon de données sera constitué par une personne qui choisira des sujets favorisant l’hypothèse la plus fructueuse.
- L’échantillon de données ne comprend pas les éléments
correspondant à la réalité, suite à des problématiques liées à la collecte de données pour des dates bien antérieures à la création du modèle. - L’échantillon de données est réalisé par une personne particulièrement biaisée, sans vouloir contrer et lutter contre ces biais, et qui affectera donc les données.
Les biais principaux dans la modélisation
- Lors l’entrainement en test et validation,
- Lors du choix des métriques d’évaluation pour l’optimisation des hyper-paramètres,
- Lors du choix du modèle en lui-même (ou nous devons être cohérent.e et pertinent.e).
Contrer les biais
Avant la création de l’algorithme
- Réfléchir sur la méthode de collecte de données,
- Analyser les données d’entrée,
- Analyser les biais,
- Analyser les dépendances des fonctionnalités,
- Prendre des précautions dans le choix des méthodes d’évaluation et d’optimisation du modèle,
- Privilégier des modèles interprétables.
Après la création de l’algorithme
- Analyser l’importance des variables sur les prédictions émises par le modèle,
- Réaliser une analyse d’équité,
- Analyser la partie démographique,
- Analyser l’égalité des opportunités au sein d’une « sous-population »,
- Monitorer les résultats du modèle,
- Vérifier les incohérences dans les comportements,
- Vérifier les incohérences dans les données.
Éviter ces biais
La solution apportée lors la conférence, pour éviter les biais dans le développement de logiciel, c’est qu’il nous faut construire une équipe diversifiée.
Les diversités énoncées :
- Diversité de personnalité,
- Diversité de genre (hommes VS femme),
- Diversité « géographique ».
Voilà, c’est tout.
Conclusion
- Sortir une annonce soi-disant biaisée pour tendre vers le féminin, alors que celle-ci est écrite au masculin (comme l’ensemble des slides),
- Non, diversifier seulement, une équipe n’est pas le meilleur moyen de contrer les biais, s’il n’y a pas de routine, de feedback, et de retours,
De plus, la diversité c’est un peu (beaucoup) plus vaste que ce qui a été énoncé :
- Les différents handicaps (visibles ou invisibles),
- Les différents genres et les différentes identités de genre, c’est aussi plus vaste que la binarité,
- L’orientation sexuelle,
- Les différentes cultures,
- Les différentes origines ethniques,
- Les différentes religions, etc…
Alors oui, en France, niveau statistique, on est limité, mais ne pas évoquer ces différents prismes, qui sont le minimum quand on parle de diversité, c’est grave.
De plus, parler de biais, et de recrutement, sans parler de biais dans le recrutement, c’est dommageable. (NP : Bon, vu la qualité des définitions des biais énoncées à l’oral lors la conférence, peut-être était-ce mieux ?).
Bref, je suis assez déçue d’avoir dû autant faire de recherche pour mettre à l’écrit davantage d’informations que ce qui a été énoncé pendant ce talk. Sans parler des biais sexistes, coloristes et racistes des deux oratrices.
Pour approfondir le sujet
- Welcome to the jungle nous parle de biais dans le recrutement, ici.
- Algorithmes : biais, discrimination et équité, de la fondation abeona et telecom paris tech, ici.
- Épisode « Rencontre » de welovedev qui parle de racisme, sexisme, grossophobie, validisme, etc, ici.
- Recruter des femmes, c’est bien, les retenir c’est mieux, ici.
- Inclusion des personnes LGBT+ comment passer à la vitesse supérieure, ici.
- Les biais dans Clearview AI ont facilité l’arrestation de plusieurs hommes noirs en Amérique, ici.
Devoxx 2023