La plataforma global e independiente para la comunidad SAP.

Euclides y Hana

La agrupación, es decir, la búsqueda de similitudes, puede a menudo crear momentos muy esclarecedores cuando uno trabaja con grandes cantidades de datos. El truco se basa en el cálculo de la distancia euclidiana y también puede hacerse sin Hana como un simple cálculo mental.
Peter M. Färbinger, E3 Magazine
2 noviembre 2023
avatar
Este texto ha sido traducido automáticamente del alemán al español.

SAP TechEd 2023, Bangalore, India

Al inicio de TechEd 2023, el Director de Tecnología de SAP, Jürgen Müller, dijo que estaba feliz de anunciar ahora una mejora importante, si no la más significativa, para la plataforma de base de datos Hana. El suspense estaba servido: en TechEd, una sensación de Hana más allá de los Large Language Models (LLM), que se limitan a utilizar algoritmos de aprendizaje profundo para resumir, ordenar o generar predicciones a partir de grandes cantidades de datos.

Jürgen Müller argumentó en TechEd 2023 en Bangalore, no incorrectamente: Los grandes modelos lingüísticos en su mayoría sólo pueden capturar el pasado. Se entrenan utilizando datos existentes, en su mayoría extraídos de Internet. Una respuesta inmediata en tiempo real basada en datos operativos es difícil. La base de datos Hana de SAP ha sido responsable de los resultados en tiempo real durante muchos años, ¡ahora con vectores!

Vectores

La supuesta sensación de Hana es ahora, según el Director de Tecnología de SAP, Jürgen Müller, la posibilidad de utilizar vectores como objetos en la plataforma de base de datos. Ahora bien, en las matemáticas euclidianas tradicionales, los vectores no son realmente ninguna sensación. Con las herramientas informáticas existentes de la plataforma de base de datos Hana, cualquier estudiante de primer semestre de informática puede implementar unas cuantas funciones vectoriales sencillas. Lo que Jürgen Müller puede haber querido decir es una extensión del lenguaje SQL DB con unos pocos comandos vectoriales.

¿Qué es un vector? En un sistema de coordenadas con un eje x y un eje y, se pueden elegir dos puntos cualesquiera. Si estos puntos se conectan mediante la línea recta más corta posible y se añade una flecha al final, entonces se tiene delante en el papel un gráfico dirigido o un vector en el espacio bidimensional. También es fácil imaginar un vector en un espacio tridimensional (ejes x, y y z), por ejemplo, un lápiz sobre una mesa. El extremo del lápiz y la punta pueden determinarse con precisión como puntos en el espacio. Por tanto, el lápiz sería el vector.

Ahora nos movemos hacia dimensiones superiores que son difíciles de imaginar visualmente (un cubo de cuatro dimensiones tendría una sombra tridimensional, por ejemplo), pero las dimensiones superiores siguen siendo fáciles de calcular, incluso como aritmética mental, que es, al fin y al cabo, lo que este blog del redactor jefe pretende demostrar.

Muchos parámetros, muchas dimensiones

Tarea: Agrupar un millón de ofertas en función de los grupos de clientes, la utilización de las máquinas, el volumen de negocio, etc., es decir, agruparlas en grupos que tengan similitudes. Cada oferta tiene parámetros específicos que pueden identificarse fácilmente. El estado del cliente puede deducirse del nombre del cliente. Los malos clientes reciben el valor cero, los buenos clientes reciben el valor nueve. Las ofertas pequeñas de menos de 1.000 euros obtienen el valor uno, las grandes ofertas de más de un millón de euros obtienen el valor 25 y todas las demás obtienen una gradación fija entre uno y 25. El procedimiento es similar con las mercancías ofertadas: Bienes en stock, producción única, etc. Y así sucesivamente: al final de este proceso hay diez categorías y cada oferta tiene un valor por categoría. Estos diez valores también pueden interpretarse como un vector (el punto de partida es el cero) en un espacio de diez dimensiones y escribirse de la siguiente manera: (5, 9, 3, 7, 11, 2, 42, 15, 6, 102).

Distancia euclidiana

Para cada oferta existe ahora un vector en el espacio de diez dimensiones. Ahora hay que agrupar estas ofertas para posibles medidas de marketing, ventas previstas o para pedir materias primas por adelantado. El truco de la agrupación, es decir, el proceso de formación de grupos, consiste en determinar las distancias de los distintos vectores en el espacio de diez dimensiones.

Las distancias entre lápices colocados sobre la mesa de una oficina en un espacio tridimensional son fáciles de determinar. Se mide la distancia con una regla. Todos los lápices que están a menos de diez centímetros de distancia pertenecen a un grupo, todos los demás al siguiente. (Oigo una oposición justificada: la agrupación es un poco más compleja, pero el principio vectorial, tal como lo presenta el Director de Tecnología de SAP, Jürgen Müller, sigue siendo muy sencillo).

Cada vector de oferta tiene como extremo un punto de datos en un espacio de diez dimensiones (véanse los diez números anteriores). Las distancias euclídeas se utilizan, entre otras cosas, como medidas de distancia o similitud para medir lo parecidos o distintos que son estos puntos de datos. Pero, ¿cómo calculamos la distancia de los dos puntos de datos entre el vector de ejemplo mencionado anteriormente (5, 9, 3, 7, 11, 2, 42, 15, 6, 102) y una segunda oferta con aproximadamente el vector (7, 2, 5, 13, 25, 9, 1, 132, 55, 8)?

El primer paso consiste en calcular la diferencia respectiva de los puntos de datos: Primer valor del primer vector de suministro menos el primer valor del segundo vector, es decir: 5 menos 7, 9 menos 2, 3 menos 5, etc. Estos resultados se elevan al cuadrado y se suman: -2 al cuadrado es 4, 7 al cuadrado es 49, etc. De la suma de los diez números elevados al cuadrado (4 más 49 más 4 más 36, etc.) se saca la raíz, ¡este resultado es la distancia euclídea! ¡Eureka!

Esto significa que existen relaciones matemáticas claramente definidas entre el millón de ofertas. Estas distancias euclidianas pueden utilizarse ahora como medidas de similitud para la agrupación. Esto permite crear excelentes mapas cuyas áreas (clusters) proporcionan información directa sobre preferencias, similitudes y tendencias. Hace unos diez años, E3-Verlag, junto con el profesor Alfred Taudes de la Universidad de Economía y Negocios de Viena, creó un mapa Hana de este tipo basado en una encuesta realizada en la comunidad SAP. (Los resultados de la encuesta de entonces son el millón de ofertas de este ejemplo).

Los mapas no son IA

Lo que el Director de Tecnología de SAP, Jürgen Müller, presentó en Bangalore en TechEd 2023 tiene una gran importancia práctica. Muchos clientes actuales de Hana apreciarán mucho la ampliación del lenguaje a dimensiones superiores. Sin embargo, lo que se presentó es matemática muy tradicional y muy familiar. Presentar la distancia euclidiana como un hito en el desarrollo de Hana es extraño.

Suplemento: Además de la distancia euclidiana, existe una segunda unidad de medida. La métrica de Manhattan es una medida de proximidad, que también es una medida de proximidad o distancia para variables métricas como la altura, la edad o el peso. La métrica de Manhattan mide las distancias como distancias perpendiculares; como caminar por un sistema de calles o salir en taxi. En cambio, la distancia euclidiana mide la distancia directa, más corta y diagonal (a vuelo de pájaro). Ambos métodos pueden utilizarse para generar clusters para un mapa de abastecimiento. ‎ (Fuente)

avatar
Peter M. Färbinger, E3 Magazine

Peter M. Färbinger, editor y redactor jefe de E3 Magazine DE, US y ES (e3mag.com), B4Bmedia.net AG, Freilassing (DE), E-Mail: pmf@b4bmedia.net y Tel. +49(0)8654/77130-21


Escriba un comentario

Trabajar sobre la base de SAP es crucial para el éxito de la conversión a S/4. 

Esto confiere al centro de competencia una importancia estratégica para los clientes actuales de SAP. Independientemente del modelo operativo de S/4 Hana, temas como Automatización, Supervisión, Seguridad, Application Lifecycle Management y Gestión de datos la base de las operaciones S/4.

Por segunda vez, E3 Magazine organiza una cumbre para la comunidad SAP en Salzburgo con el fin de ofrecer información exhaustiva sobre todos los aspectos del trabajo preliminar de S/4 Hana.

Lugar de celebración

En breve recibirá más información.

Fecha del acontecimiento

Miércoles 21 de mayo y
Jueves, 22 de mayo de 2025

Entrada anticipada

Disponible hasta el viernes 24 de enero de 2025
390 EUROS sin IVA

Entrada normal

590 EUROS sin IVA

Lugar de celebración

Hotel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Fecha del acontecimiento

Miércoles, 5 de marzo, y
Jueves, 6 de marzo de 2025

Entradas

Entrada normal
590 EUR sin IVA
Entrada anticipada

Disponible hasta el 24 de diciembre de 2024

390 EUR sin IVA
El acto está organizado por la revista E3, publicada por B4Bmedia.net AG. Las presentaciones irán acompañadas de una exposición de socios seleccionados de SAP. El precio de la entrada incluye la asistencia a todas las ponencias de la Cumbre Steampunk y BTP 2025, una visita a la zona de exposición, la participación en el acto nocturno y el catering durante el programa oficial. El programa de ponencias y la lista de expositores y patrocinadores (socios de SAP) se publicarán en este sitio web a su debido tiempo.