Alucinaciones de la IA y la empresa autónoma


Alucinaciones de los modelos de lenguaje a gran escala
Actualmente, se sugiere a los clientes actuales de SAP que los resultados erróneos de los modelos de lenguaje a gran escala (LLM), las llamadas «alucinaciones», no son más que problemas iniciales temporales que pronto se podrán controlar con volúmenes de datos cada vez mayores, arquitecturas más sofisticadas o una verificación rigurosa de los hechos. Sin embargo, los hallazgos de la informática teórica desmienten esta narrativa y revelan que SAP y otras empresas de IA están cayendo en una peligrosa creencia errónea.
Grupos de investigación independientes, entre los que destacan Sourav Banerjee, Ayushi Agarwal y Saloni Singla en su aclamada publicación de 2024, han demostrado sin lugar a dudas que las alucinaciones no constituyen un problema solucionable de la informática teórica ni un problema de datos del ERP. Las alucinaciones son, más bien, una propiedad matemática y lógica inevitable de los modelos de lenguaje a gran escala. Los investigadores acuñaron para este problema informático el acertado término de „alucinación estructural“.
Kurt Gödel y Alan Turing
Para los responsables de TI en el ámbito de SAP, esto requiere echar un vistazo a la historia de las matemáticas, concretamente al primer teorema de incompletitud de Kurt Gödel y al problema de la detención de Alan Turing, ambos de la década de 1930. Estos teoremas demuestran de forma irrefutable que una „máquina de la verdad“ perfecta es, desde el punto de vista matemático, sencillamente imposible.
Aplicado al «motor» de los LLM modernos, esto significa que en cada una de las etapas del proceso de procesamiento —desde la recopilación de los datos de entrenamiento, pasando por la clasificación de la intención (Intent Classification) y la reconstrucción de los hechos, hasta la generación del texto propiamente dicha— —, existe una probabilidad de error distinta de cero que no se puede eliminar mediante optimización.
Los investigadores en inteligencia artificial y los informáticos demuestran matemáticamente que ninguna base de datos de entrenamiento puede estar completa al cien por cien. Incluso si el conocimiento estuviera presente en el sistema, el LLM, debido a su naturaleza probabilística, no puede garantizar que extraiga con precisión los datos correctos de una gigantesca estructura de datos.
El problema de la coherencia de los modelos de lenguaje: el fallo ontológico
La situación se vuelve aún más delicada debido a la indecidibilidad del «problema de la detención», que afecta de lleno a los modelos de lenguaje grandes (LLM). Un modelo de lenguaje nunca puede predecir a priori cuántos tokens generará ni en qué momento exacto se detendrá su cálculo. Dado que el modelo desconoce el final de su propia generación de texto, la secuencia de tokens generados es imprevisible de antemano, lo que hace que el sistema sea inevitablemente propenso a generar datos contradictorios, paradójicos o, sencillamente, falsos.
Los clientes actuales de SAP deben comprender, además, que los mecanismos de control posteriores, como la verificación de datos —a menudo alabada como panacea— o la generación aumentada por recuperación (RAG), nunca podrán eliminar al cien por cien las alucinaciones estructurales, ya que tampoco estos pasos de verificación, que constan de un número finito de etapas, funcionan sin errores.
Estrategia de transformación: SAP Autonomous Enterprise con una tasa de error superior a cero
Las consecuencias de estas conclusiones para los clientes actuales de SAP son dramáticas y ponen de manifiesto los riesgos de la estrategia de transformación actual de SAP. Si SAP tiene previsto integrar, mediante Agentic AI, cientos de agentes de IA autónomos en lo más profundo de los procesos críticos para el negocio de S/4 Hana o de la Business Technology Platform (SAP BTP), se estarán aplicando máquinas de probabilidad puramente estadísticas y probabilísticas a tareas de ERP altamente sensibles y deterministas.
Si una IA de este tipo toma decisiones de forma autónoma sobre las cadenas de suministro, las transferencias salariales o el cierre del ejercicio, una tasa de error superior a cero no es un compromiso aceptable, sino un riesgo crítico para el negocio. Un error en un sistema SAP en producción conlleva consecuencias inmediatas a nivel empresarial, financiero y jurídico. Por lo tanto, los responsables de TI no deben dejarse deslumbrar por la retórica de que una potencia de cálculo cada vez mayor y modelos de lenguaje cada vez más grandes son la solución.
Límites de rendimiento de SAP y leyes fundamentales del ERP
La escalabilidad solo amplía los límites del rendimiento, pero no anula las leyes matemáticas de la naturaleza. El ser humano como instancia de control —el a menudo ridiculizado „Human in the Loop“— no es, por lo tanto, una solución molesta y transitoria en el camino hacia la inteligencia artificial perfecta, sino una necesidad matemática permanente para garantizar la soberanía empresarial. Quien confíe su sistema ERP a estos algoritmos alucinantes sin ningún tipo de protección, está ignorando casi un siglo de investigación fundamental en informática.
Por lo tanto, para los responsables de la toma de decisiones en SAP, la conclusión es que el uso de modelos de lenguaje generativos (LLM) para tareas críticas para el negocio y estrictamente deterministas constituye una negligencia grave. Si el cálculo de probabilidades de un LLM debe decidir si se realiza o no una transferencia salarial a final de mes, queda patente la disfuncionalidad arquitectónica de este enfoque puramente estadístico.
Los modelos de lenguaje grande (LLM) frente a los modelos basados en energía
Por ello, los pioneros de la IA abogan con vehemencia por la investigación de arquitecturas alternativas, como los modelos basados en la energía (Energy-Based Models), que buscan la coherencia lógica y los estados físicamente viables, en lugar de limitarse a encadenar palabras. La propia SAP también ha tenido que reaccionar ante estas limitaciones de los LLM clásicos y ha apostado por modelos base especializados como el RPT-1, que está entrenado específicamente para relaciones tabulares y evita el paradigma de los tokens de lenguaje, propenso a errores, en el caso de los datos empresariales.
Sin embargo, mientras los LLM clásicos sigan constituyendo el núcleo de la nueva estrategia de IA empresarial, cada cliente actual de SAP debe comprender, en el marco de la formación conceptual, que los avances técnicos y la potencia de cálculo no pueden eliminar los límites matemáticos; por lo que sigue siendo imprescindible contar con una gobernanza estricta y determinista fuera del modelo de IA como instancia de control de estas «cajas negras» probabilísticas.
El factor humano en el proceso
El „Human in the Loop“ no tiene alternativa. Desde un punto de vista matemático, todas las estrategias técnicas de mitigación —desde RAG hasta RPT-1— se revelan como una mera gestión de riesgos que reduce la probabilidad de error, pero nunca la reduce a cero. Dado que las alucinaciones se basan en las mismas imposibilidades teóricas que Kurt Gödel (teorema de incompletitud) y Alan Turing (problema de la parada) ya demostraron en la década de 1930 para los sistemas formales, no existe una solución totalmente autónoma.
Por lo tanto, en los procesos SAP críticos para el negocio, en los que Agentic AI deberá en el futuro generar pedidos o iniciar transacciones financieras de forma autónoma, el ser humano, como instancia de control final («Human in the Loop»), no es una solución provisional molesta en el camino hacia la máquina perfecta. Quien tome decisiones en el entorno SAP por las que la empresa sea responsable jurídica y financieramente debe reconocer que la validación de los resultados probabilísticos de la IA mediante reglas deterministas y la experiencia humana sigue siendo una necesidad matemática, ineludible y permanente.




