AI Hallucinations and Autonomous Enterprise


Large Language Model Hallucinations
Aktuell wird den SAP-Bestandskunden suggeriert, dass die fehlerhaften Ausgaben von Large Language Models (LLMs), die sogenannten Halluzinationen, lediglich temporäre Kinderkrankheiten seien, die man mit immer größeren Datenmengen, feineren Architekturen oder rigorosem Fact-Checking bald in den Griff bekäme. Erkenntnisse aus der theoretischen Informatik strafen dieses Narrativ jedoch lügen und offenbaren, dass SAP und andere KI-Unternehmen einem gefährlichen Irrglauben aufsitzen.
Unabhängige Forschungsgruppen, allen voran Sourav Banerjee, Ayushi Agarwal und Saloni Singla in ihrer vielbeachteten Publikation aus dem Jahr 2024, haben zweifelsfrei nachgewiesen, dass Halluzinationen kein behebbares Problem aus der theoretischen Informatik oder ein ERP-Datenproblem darstellen. Halluzinationen sind vielmehr eine unausweichliche mathematische und logische Eigenschaft der Large Language Modelle. Die Forscher prägten für dieses Informatik-Problem den treffenden Begriff der „strukturellen Halluzination“.
Kurt Gödel und Alan Turing
Für den IT-Entscheider im SAP-Umfeld erfordert dies einen Blick in die Geschichte der Mathematik, konkret auf Kurt Gödels ersten Unvollständigkeitssatz und Alan Turings Halteproblem aus den 1930er-Jahren. Diese Theoreme beweisen unumstößlich, dass eine perfekte „Wahrheitsmaschine“ mathematisch schlichtweg unmöglich ist.
Auf den Maschinenraum moderner LLMs übertragen bedeutet dies, dass auf jeder einzelnen Stufe des Verarbeitungsprozesses – von der Zusammenstellung der Trainingsdaten über die Klassifizierung der Absicht (Intent Classification) und die Faktenwiederherstellung bis hin zur eigentlichen Textgenerierung – eine von Null verschiedene Fehlerwahrscheinlichkeit existiert, die sich nicht wegoptimieren lässt.
Die KI-Forscher und Informatiker belegen mathematisch, dass keine Trainingsdatenbank jemals zu einhundert Prozent vollständig sein kann. Selbst wenn das Wissen im System vorhanden wäre, kann das LLM aufgrund seiner probabilistischen Natur nicht garantieren, dass es die korrekten Fakten treffsicher aus einer gigantischen Datafabric extrahiert.
Halteproblem von Sprachmodellen: das Ontologie-Versagen
Noch brisanter wird die Lage durch die Unentscheidbarkeit des Halteproblems, das auf LLMs voll durchschlägt. Ein Sprachmodell kann a priori niemals vorhersagen, wie viele Token es generieren wird oder an welchem Punkt seine Berechnung exakt zum Stillstand kommt. Weil das Modell das Ende seiner eigenen Textgenerierung nicht kennt, ist die Sequenz der generierten Token vorab unvorhersehbar, was das System zwingend anfällig für die Erzeugung in sich widersprüchlicher, paradoxer oder schlichtweg falscher Fakten macht.
SAP-Bestandskunden müssen zudem verstehen, dass auch nachgelagerte Kontrollmechanismen, wie das oft als Allheilmittel gepriesene Fact-Checking oder Retrieval-Augmented Generation (RAG), strukturelle Halluzinationen niemals zu einhundert Prozent eliminieren können, da auch diese Überprüfungsschritte in endlich vielen Schritten nicht fehlerfrei arbeiten.
Transformationsstrategie: SAP Autonomous Enterprise mit Fehlerquote größer Null
Die Konsequenzen dieser Erkenntnisse für SAP-Bestandskunden sind dramatisch und werfen ein Licht auf die Risiken der aktuellen SAP-Transformationsstrategie. Wenn SAP plant, mit Agentic AI hunderte autonome KI-Agenten tief in die geschäftskritischen Prozesse von S/4 Hana oder der Business Technology Platform (SAP BTP) zu integrieren, dann werden rein statistische, probabilistische Wahrscheinlichkeitsmaschinen auf hochsensible, deterministische ERP-Aufgaben losgelassen.
Wenn eine solche KI autonom über Lieferketten, Gehaltsüberweisungen oder den Jahresabschluss entscheidet, ist eine Fehlerquote größer Null kein hinnehmbarer Kompromiss, sondern ein geschäftskritisches Risiko. Ein Fehler in einem SAP-Produktivsystem zieht unmittelbar betriebswirtschaftliche, finanzielle und rechtliche Konsequenzen nach sich. Die IT-Entscheider dürfen sich daher nicht von der Rhetorik blenden lassen, dass immer mehr Rechenleistung und immer größere Sprachmodelle die Lösung seien.
SAP-Leistungsgrenzen und ERP-Naturgesetze
Skalierung verschiebt lediglich die Leistungsgrenzen, sie hebt aber mathematische Naturgesetze nicht auf. Der Mensch als kontrollierende Instanz, der oft belächelte „Human in the Loop“, ist folglich keine lästige, vorübergehende Übergangslösung auf dem Weg zur perfekten künstlichen Intelligenz, sondern eine dauerhafte, mathematische Notwendigkeit zur Sicherung der unternehmerischen Souveränität. Wer sein ERP-System völlig ungesichert diesen halluzinierenden Algorithmen anvertraut, ignoriert fast ein Jahrhundert fundamentaler Informatikforschung.
Für den SAP-Entscheider lautet die Schlussfolgerung folglich, dass der Einsatz generativer LLMs für geschäftskritische, streng deterministische Aufgaben hochgradig fahrlässig ist. Wenn die Wahrscheinlichkeitsrechnung eines LLM darüber entscheiden soll, ob eine Gehaltsüberweisung am Monatsende getätigt wird oder nicht, wird die architektonische Dysfunktionalität dieses rein statistischen Ansatzes offensichtlich.
LLMs versus Energy-Based Models
KI-Pioniere fordern daher intensiv die Erforschung alternativer Architekturen, wie etwa energiebasierte Modelle (Energy-Based Models), die nach logischer Konsistenz und physikalisch machbaren Zuständen suchen, anstatt lediglich Wörter aneinanderzureihen. Auch SAP selbst musste auf diese Limitierungen klassischer LLMs reagieren und positionierte spezialisierte Foundation Models wie RPT-1, das gezielt auf tabellarische Relationen trainiert ist und das fehleranfällige Sprach-Token-Paradigma bei Unternehmensdaten umgeht.
Solange jedoch klassische LLMs den Kern der neuen Business-AI-Strategie bilden, muss jeder SAP Bestandskunde in der konzeptionellen Bildungsarbeit erkennen, dass technische Fortschritte und Rechenleistung mathematische Grenzen nicht aufheben können; eine strikte, deterministische Governance außerhalb des KI-Modells als Kontrollinstanz für diese probabilistischen Blackboxen bleibt somit unverzichtbar.
Human in the Loop
Der „Human in the Loop“ ist alternativlos. Mathematisch betrachtet entlarven sich alle technischen Minderungsstrategien – von RAG bis RPT-1 – als reines Risikomanagement, das die Fehlerwahrscheinlichkeit senkt, aber niemals auf null reduziert. Da Halluzinationen auf den gleichen theoretischen Unmöglichkeiten basieren, die Kurt Gödel (Unvollständigkeitssatz) und Alan Turing (Halteproblem) bereits in den 1930er-Jahren für formale Systeme bewiesen haben, gibt es keinen vollautonomen Ausweg.
Für geschäftskritische SAP-Prozesse, in denen Agentic AI künftig eigenmächtig Bestellungen auslösen oder Finanztransaktionen anstoßen soll, ist der Mensch als finale Kontrollinstanz (Human in the Loop) folglich keine lästige Übergangslösung auf dem Weg zur perfekten Maschine. Wer im SAP-Umfeld Entscheidungen fällt, für die das Unternehmen juristisch und finanziell haftet, muss erkennen, dass die Validierung von probabilistischen KI-Ergebnissen durch deterministische Regeln und menschliche Expertise eine unausweichliche, dauerhafte und mathematische Notwendigkeit bleibt.





