Information et éducation par et pour la communauté SAP

La transparence de l'IA n'est pas un problème pour le ML et le phénomène de la boîte noire

L'apprentissage automatique ne me fournit qu'une boîte noire, nous ne pouvons rien en faire. Cette phrase, que je rencontre souvent dans la pratique, provient généralement de futurs utilisateurs d'un projet d'IA moins formés à l'analyse des données. Mais cette affirmation est-elle vraie ?
Ansgar Heidemann, Groupe Windhoff
9 novembre 2023
avatar
Ce texte a été automatiquement traduit en français de l'allemand

In diesem Beitrag argumentiere ich anhand von fünf konkreten Beispielen, warum diese Aussage nur selten uneingeschränkt stimmt. Es gibt Fälle, in denen es sogar unumgänglich oder manchmal gar nicht so schlecht ist, dass mit maschinellem Lernen (ML) erstellte Prognosemodelle eine Blackbox sind.

Wir sprechen von einer Blackbox, wenn wir die Logik eines Modells nicht verstehen. Am Beispiel eines Prognosemodells (Predictive Analytics) bedeutet dies, dass die Ausgabe des maschinellen Lernens sich nicht ohne Weiteres auf Basis bestimmter Eingangsdaten nachvollziehen lässt. Im Gegensatz zu klassischen statistischen Analysen lassen sich nämlich die mathematischen Regeln eines komplexen algorithmischen Modells nicht mit einer Handvoll von (linearen) Parametern beschreiben.

Tatsächlich sind meines Erachtens nur in High-Risk-Anwendungen von künstlicher Intelligenz (KI) Transparenz und Erklärbarkeit unumgänglich. Hier steht man dem Blackbox- Problem allerdings nicht hilflos gegenüber. Die Forschung hat zahlreiche Methoden rund um Explainable Artificial Intelligence (XAI) entwickelt. So baut SAP beispielsweise diese neuen Optionen kontinuierlich in ihre Technologien ein, um die Logik der erstellten Modelle leichter nachvollziehbar zu machen.

Argument 1: Fehlende Transparenz hat auch Vorteile. Es gibt Anwendungsfälle für maschinelles Lernen, bei denen die fehlende Nachvollziehbarkeit regelrecht zu einer Stärke wird. Stellen Sie sich vor, dass ein interner oder externer Akteur ein (teil-)automatisiertes Entscheidungssystem basierend auf ML bewusst manipulieren möchte. Da ihm allerdings die Kenntnis davon fehlt, welche Eingangsdaten zu welchem Output im Modell führen, wird dieses Vorhaben deutlich schwieriger. Wissenschaftler nennen diesen Aspekt „Gameability“ (Langer und König 2021).

Zudem identifizierten die Wissenschaftler je nach Anwendungsfall weitere Vorteile, als sie algorithmisch unterstützte Entscheidungsprozesse evaluierten. Das Ergebnis: Bei intransparenten Modellen führen sie zu einer erhöhten Effizienz! Der Grund ist so plausibel wie einfach. Maschinen lassen sich nicht von teilweise unnötigen Details und einer Informationsflut ablenken. Darüber hinaus trägt Intransparenz zum Datenschutz bei, sollten personenbezogene Daten im Trainingsprozess eingehen.

Argument 2: der Trade-off zwischen Performance und Transparenz. Bei jeder Forderung nach Transparenz ist zu bedenken, dass die Transparenz auf Kosten der Genauigkeit der Modelle geht. Maschinelles Lernen ist darauf ausgelegt, auch detaillierte und nicht lineare Muster in Daten zu entdecken und diese in den Modellen zur Verfügung zu stellen (Kellogg et al. 2020, pp. 370–371). Um die Transparenz zu erhöhen, könnte man diese Komplexität sukzessive zurückbauen oder weniger komplexe Algorithmen verwenden. Beide Maßnahmen verringern im Nachgang allerdings die Genauigkeit der Prognoseergebnisse. Die Stärke von maschinellem Lernen wird also ausgehebelt. Ein wichtiger Aspekt, der direkt zum dritten Argument führt.

Argument 3: Intransparenz ist ein wesentliches Kennzeichen von maschinellem Lernen. Während die traditionelle Statistik darauf ausgelegt ist, die Daten zu verstehen, versucht das maschinelle Lernen vorhandene Daten nutzbar zu machen, also zum Beispiel möglichst genaue Prognosen auf Basis von historischen Daten zu erstellen. Wenn die Mustererkennung in Daten das Hauptziel des Projektes ist (Data Mining), dann könnte maschinelles Lernen schlicht das falsche Tool sein (Rudin 2019). In einem Projekt lassen sich Statistik oder auch deskriptive Datenanalyse im Stile eines Dashboards (Slice and Dice, Drill-Down) mit maschinellem Lernen kombinieren. Dann erfüllt jedes Werkzeug seinen Hauptzweck und Synergien entstehen. Jeder Handwerker nutzt einen ganzen Werkzeugkoffer. Um die Metapher abzurunden: Maschinelles Lernen ist ein sehr gutes Universalwerkzeug vergleichbar mit einem Akkuschrauber. Deswegen lassen sich damit noch lange keine Bretter zersägen.

Argument 4: Hey, as long as it works?! Lassen Sie mich mit einem kurzen Gedankenexperiment beginnen. Würden Sie lieber in einem Flugzeug fliegen, das Sie selbst ausführlich technisch begutachtet und bis auf jede Schraube seziert haben, oder in einem, das sämtliche vorgeschriebene Teststandards und Probeflüge mit Bravour absolviert hat? Sicher fehlt fast jedem Menschen das ingenieurtechnische Wissen oder zumindest die Geduld für den ersten Weg. Deswegen greifen wir zu der zweiten Option. Diese Analogie stammt von Cassie Kozyrkov, die bekanntermaßen als Chief Decision Scientist bei Google tätig ist.

Cassie Kozyrkov verweist weiterhin darauf, dass im maschinellen Lernen ebenfalls ein Probelauf durchgeführt wird. Bei diesem sogenannten Out-of-Sample-Test handelt es sich im Prinzip um eine Klausur: Die Datensätze (Aufgaben) sind andere als diejenigen, die zum Trainieren (Hausaufgaben) bereitgestellt wurden. In der Praxis lohnt es sich oft, diese Out-of-Sample-Tests ausführlich und gründlich durchzuführen, anstatt einer gewünschten Transparenz hinterherzurennen. Dieses Argument hat sicherlich großes Gewicht, erfordert aber ein Umdenken in der Art und Weise, wie betriebliche Entscheidungsprozesse begründet sind. Deswegen dauert es, bis es in den Köpfen von Anwendern ankommt. Data Scientists sind hier gefordert, mit leicht verständlichen Worten die Implikationen aus ihren Teststrategien und -ergebnissen zu erläutern.

Argument 5: Forschung und Technologie stehen nicht still – Explainable AI. Zuletzt möchte ich auf den wichtigen Umstand hinweisen, dass auf Transparenz im maschinellen Lernen tatsächlich nicht immer verzichtet werden kann. Absolut notwendig ist Transparenz in High-Risk-Anwendungen, die einen direkten Einfluss auf die unmittelbare Lebenswelt von Menschen haben. Dazu gehören Entscheidungsunterstützungen durch maschinelles Lernen in sensiblen Bereichen, die Türen verschließen können. Das gilt unter anderem für die Kreditvergabe, das Recruiting oder das Personalwesen. In solchen Bereichen haben die Sicherung von Fairness und Gleichbehandlung absolute Priorität und können nicht ohne eine Transparenz und Erklärbarkeit der Modelle geschaffen werden. Zum Glück steht hierbei der technologische Fortschritt nicht still. SAP baut zum Beispiel Explainable AI kontinuierlich seit einigen Jahren in ihre Predictive-Analytics-Produkte ein. In Techniken wie SAP Analytics Cloud oder Hana Predictive Analytics Library lassen sich weiterhin komplexe Modelle des maschinellen Lernens bis zu einem bestimmten Grad transparenter machen. Die Methoden extrahieren Informationen wie die Wirkung von einzelnen Einflussfaktoren auf die Outputs von Modellen oder approximieren die Modelle mit nachvollziehbaren Regelsystemen, die auf grundlegenden Fragen beruhen: Was ist, wenn? Und vor allem, was wäre, wenn sich Einflussfaktor X ändert?

Fazit: Explainable AI


Maschinelles Lernen zu verwenden, nur weil es gerade im KI-Hype um ChatGPT gut in die Zeit passt, ist nicht immer sinnvoll. Wenn Wissensextraktion ein Ziel ist, sollte vielleicht früh im Projekt auf ein anderes Tool gesetzt werden. Ist ein geeigneter Anwendungsfall von maschinellem Lernen allerdings gefunden, so ist ausführliches Testen der entscheidende Faktor zum Validieren. Transparenz kann zudem für komplexe Modelle bei Bedarf geschaffen werden, dann ist allerdings in zusätzliches Know-how und die Anwendung von Explainable-AI-Methoden zu investieren. Meine abschließende Meinung mit Blick auf die Überschrift dieses Artikels: Das Blackbox-Phänomen für maschinelles Lernen sollte nur in kritischen Ausnahmefällen einen Show-Stopper für innovative ML-Projekte darstellen.

avatar
Ansgar Heidemann, Groupe Windhoff

Ansgar Heidemann est consultant en Business Intelligence au sein du groupe Windhoff et doctorant externe à l'université technique de Dortmund.


1 commentaire

  • Liebe LeserInnen,

    der ursprüngliche Titel zum Text lautet: “Maschinelles Lernen und das Black Box Phänomen – Warum fehlende Transparenz nicht immer ein Problem ist “. Der aktuelle Titel stammt aus der E3-Redaktion. Künstliche Intelligenz ist ein beliebter Begriff, der sich überall gerne einmischt 😉

    Ich bin mir sicher, dass es andere Meinungen gibt bezüglich der Notwendigkeit von Transparenz von ML-Modellen. Lasst uns gerne über das Thema diskutieren!

Écrire un commentaire

Le travail sur la base SAP est essentiel pour réussir la conversion S/4. 

Ce que l'on appelle le centre de compétences prend ainsi une importance stratégique chez les clients existants de SAP. Indépendamment du modèle d'exploitation d'un S/4 Hana, les thèmes tels que Automatisation, Suivi, Sécurité, Gestion du cycle de vie des applications et Gestion des données la base de l'exploitation opérationnelle de S/4.

Pour la deuxième fois déjà, le magazine E3 organise à Salzbourg un sommet pour la communauté SAP afin de s'informer en détail sur tous les aspects du travail de base de S/4-Hana.

Lieu de la manifestation

FourSide Hôtel Salzbourg,
Trademark Collection by Wyndham
Am Messezentrum 2, 5020 Salzbourg, Autriche
+43-66-24355460

Date de l'événement

mercredi 10 juin, et
Jeudi 11 juin 2026

Billet d'entrée anticipé

Billet régulier

EUR 390 hors TVA
disponible jusqu'au 1.10.2025
EUR 590 hors TVA

Lieu de la manifestation

Hôtel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Date de l'événement

mercredi 22 avril et
Jeudi 23 avril 2026

Billets

Billet régulier
EUR 590 hors TVA
Abonnés au magazine E3
à prix réduit avec le Promocode STAbo26
EUR 390 hors TVA
Étudiants*
à prix réduit avec le Promocode STStud26.
Veuillez envoyer votre certificat d'études par e-mail à office@b4bmedia.net.
EUR 290 hors TVA
*Les 10 premiers billets sont gratuits pour les étudiants. Tentez votre chance ! 🍀
L'organisateur est le magazine E3 de la maison d'édition B4Bmedia.net AG. Les conférences seront accompagnées d'une exposition de partenaires SAP sélectionnés. Le prix du billet comprend la participation à toutes les conférences du Steampunk and BTP Summit 2026, la visite de l'espace d'exposition, la participation à la soirée et les repas pendant le programme officiel. Le programme des conférences et la liste des exposants et des sponsors (partenaires SAP) seront publiés en temps utile sur ce site.