La transparence de l'IA n'est pas un problème pour le ML et le phénomène de la boîte noire


Dans cet article, j'argumente à l'aide de cinq exemples concrets pourquoi cette affirmation n'est que rarement valable sans réserve. Il y a des cas où il est même inévitable, ou parfois pas si mal, que les modèles de prévision créés à l'aide de l'apprentissage automatique (ML) soient une boîte noire.
Nous parlons de boîte noire lorsque nous ne comprenons pas la logique d'un modèle. Si l'on prend l'exemple d'un modèle de prévision (analyse prédictive), cela signifie que la sortie de l'apprentissage automatique ne peut pas être facilement reproduite sur la base de certaines données d'entrée. En effet, contrairement aux analyses statistiques classiques, les règles mathématiques d'un modèle algorithmique complexe ne peuvent pas être décrites par une poignée de paramètres (linéaires).
En fait, je pense que la transparence et l'explicabilité ne sont indispensables que dans les applications à haut risque de l'intelligence artificielle (IA). Dans ce cas, on n'est toutefois pas sans défense face au problème de la boîte noire. La recherche a développé de nombreuses méthodes autour de l'Explainable Artificial Intelligence (XAI). SAP, par exemple, intègre continuellement ces nouvelles options dans ses technologies afin de rendre la logique des modèles créés plus facilement compréhensible.
Argument 1 : Le manque de transparence a aussi ses avantages. Il existe des cas d'application de l'apprentissage automatique dans lesquels le manque de traçabilité devient véritablement un atout. Imaginez qu'un acteur interne ou externe veuille délibérément manipuler un système décisionnel (partiellement) automatisé basé sur le ML. Mais comme il ne sait pas quelles données d'entrée conduisent à quelle sortie dans le modèle, cette intention devient nettement plus difficile. Les scientifiques appellent cet aspect la "gameability" (Langer et König 2021).
En outre, les scientifiques ont identifié d'autres avantages selon le cas d'application lorsqu'ils ont évalué les processus de décision assistés par algorithmes. Le résultat : dans le cas de modèles non transparents, ils conduisent à une efficacité accrue ! La raison est aussi plausible que simple. Les machines ne se laissent pas distraire par des détails parfois inutiles et un flot d'informations. De plus, le manque de transparence contribue à la protection des données, si des données personnelles devaient entrer dans le processus de formation.
Argument 2 : le trade-off entre performance et transparence. Quelle que soit la demande de transparence, il faut garder à l'esprit que la transparence se fait au détriment de la précision des modèles. L'apprentissage automatique est conçu pour découvrir des modèles détaillés et non linéaires dans les données et les mettre à disposition dans les modèles (Kellogg et al. 2020, pp. 370-371). Pour augmenter la transparence, on pourrait réduire successivement cette complexité ou utiliser des algorithmes moins complexes. Toutefois, ces deux mesures réduisent par la suite la précision des résultats des prévisions. La force de l'apprentissage automatique est donc annulée. Un aspect important qui mène directement au troisième argument.
Argument 3 : Le manque de transparence est une caractéristique essentielle de l'apprentissage automatique. Alors que les statistiques traditionnelles sont conçues pour comprendre les données, l'apprentissage automatique tente de rendre les données existantes utilisables, c'est-à-dire, par exemple, d'établir des prévisions aussi précises que possible sur la base de données historiques. Si la reconnaissance de modèles dans les données est l'objectif principal du projet (data mining), l'apprentissage automatique pourrait tout simplement ne pas être le bon outil (Rudin 2019). Dans un projet, les statistiques ou même l'analyse descriptive des données dans le style d'un tableau de bord (Slice and Dice, Drill-Down) peuvent être combinées avec l'apprentissage automatique. Chaque outil remplit alors son objectif principal et des synergies se créent. Chaque artisan utilise toute une boîte à outils. Pour compléter la métaphore : L'apprentissage automatique est un très bon outil universel comparable à une visseuse sans fil. Ce n'est pas pour autant qu'il permet de scier des planches.
Argument 4 : Hey, as long as it works ?! Permettez-moi de commencer par une brève expérience de pensée. Préférez-vous voler dans un avion que vous avez vous-même examiné en détail sur le plan technique et disséqué jusqu'au moindre boulon, ou dans un avion qui a passé avec brio toutes les normes de test et les vols d'essai prescrits ? Il est certain que presque tout le monde n'a pas les connaissances en ingénierie ou du moins pas la patience nécessaire pour la première solution. C'est pourquoi nous avons recours à la deuxième option. Cette analogie a été faite par Cassie Kozyrkov, qui est connue pour être la scientifique en chef des décisions chez Google.
Cassie Kozyrkov fait également remarquer que dans l'apprentissage automatique, on procède également à un essai. Ce test hors échantillon est en principe un examen : les jeux de données (tâches) sont différents de ceux qui ont été mis à disposition pour l'entraînement (devoirs). Dans la pratique, il vaut souvent la peine d'effectuer ces tests hors échantillon de manière détaillée et approfondie plutôt que de courir après une transparence souhaitée. Cet argument a certainement un grand poids, mais il exige de repenser la manière dont les processus décisionnels des entreprises sont justifiés. C'est pourquoi il faut du temps pour qu'il arrive à l'esprit des utilisateurs. Les data scientists sont ici appelés à expliquer en termes facilement compréhensibles les implications de leurs stratégies et résultats de test.
Argument 5 : La recherche et la technologie ne s'arrêtent pas - Explainable AI. Enfin, je voudrais souligner le fait important qu'il n'est effectivement pas toujours possible de renoncer à la transparence dans l'apprentissage automatique. La transparence est absolument nécessaire dans les applications à haut risque qui ont une influence directe sur la vie des gens. En font partie les aides à la décision par l'apprentissage automatique dans des domaines sensibles qui peuvent fermer des portes. C'est le cas, entre autres, de l'octroi de crédits, du recrutement ou des ressources humaines. Dans de tels domaines, la garantie de l'équité et de l'égalité de traitement est une priorité absolue et ne peut être créée sans une transparence et une explicabilité des modèles. Heureusement, le progrès technologique ne s'arrête pas là. SAP, par exemple, intègre continuellement depuis quelques années l'IA explicable dans ses produits d'analyse prédictive. Dans des techniques telles que SAP Analytics Cloud ou Hana Predictive Analytics Library, il est toujours possible de rendre plus transparents, dans une certaine mesure, des modèles complexes d'apprentissage automatique. Les méthodes extraient des informations telles que l'effet de facteurs d'influence individuels sur les sorties des modèles ou approchent les modèles avec des systèmes de règles compréhensibles qui reposent sur des questions fondamentales : Et si ? Et surtout, que se passerait-il si le facteur d'influence X changeait ?
Conclusion : Explainable AI
Utiliser l'apprentissage automatique simplement parce qu'il est dans l'air du temps en raison de l'engouement pour l'IA autour de ChatGPT n'est pas toujours judicieux. Si l'extraction de connaissances est un objectif, il faudrait peut-être miser sur un autre outil dès le début du projet. Toutefois, une fois qu'un cas d'application approprié de l'apprentissage automatique a été trouvé, des tests approfondis sont le facteur décisif pour la validation. La transparence peut également être créée pour les modèles complexes si nécessaire, mais il faut alors investir dans un savoir-faire supplémentaire et dans l'application de méthodes d'IA explicables. Mon opinion finale en ce qui concerne le titre de cet article : Le phénomène de la boîte noire pour l'apprentissage automatique ne devrait constituer un obstacle à l'innovation dans le domaine de l'apprentissage automatique que dans des cas exceptionnels et critiques.

1 commentaire
Ansgar Heidemann
Liebe LeserInnen,
der ursprüngliche Titel zum Text lautet: “Maschinelles Lernen und das Black Box Phänomen – Warum fehlende Transparenz nicht immer ein Problem ist “. Der aktuelle Titel stammt aus der E3-Redaktion. Künstliche Intelligenz ist ein beliebter Begriff, der sich überall gerne einmischt 😉
Ich bin mir sicher, dass es andere Meinungen gibt bezüglich der Notwendigkeit von Transparenz von ML-Modellen. Lasst uns gerne über das Thema diskutieren!