Euclides y Hana
SAP TechEd 2023, Bangalore, India
Al inicio de TechEd 2023, el Director de Tecnología de SAP, Jürgen Müller, dijo que estaba feliz de anunciar ahora una mejora importante, si no la más significativa, para la plataforma de base de datos Hana. El suspense estaba servido: en TechEd, una sensación de Hana más allá de los Large Language Models (LLM), que se limitan a utilizar algoritmos de aprendizaje profundo para resumir, ordenar o generar predicciones a partir de grandes cantidades de datos.
Jürgen Müller argumentó en TechEd 2023 en Bangalore, no incorrectamente: Los grandes modelos lingüísticos en su mayoría sólo pueden capturar el pasado. Se entrenan utilizando datos existentes, en su mayoría extraídos de Internet. Una respuesta inmediata en tiempo real basada en datos operativos es difícil. La base de datos Hana de SAP ha sido responsable de los resultados en tiempo real durante muchos años, ¡ahora con vectores!
Vectores
La supuesta sensación de Hana es ahora, según el Director de Tecnología de SAP, Jürgen Müller, la posibilidad de utilizar vectores como objetos en la plataforma de base de datos. Ahora bien, en las matemáticas euclidianas tradicionales, los vectores no son realmente ninguna sensación. Con las herramientas informáticas existentes de la plataforma de base de datos Hana, cualquier estudiante de primer semestre de informática puede implementar unas cuantas funciones vectoriales sencillas. Lo que Jürgen Müller puede haber querido decir es una extensión del lenguaje SQL DB con unos pocos comandos vectoriales.
¿Qué es un vector? En un sistema de coordenadas con un eje x y un eje y, se pueden elegir dos puntos cualesquiera. Si estos puntos se conectan mediante la línea recta más corta posible y se añade una flecha al final, entonces se tiene delante en el papel un gráfico dirigido o un vector en el espacio bidimensional. También es fácil imaginar un vector en un espacio tridimensional (ejes x, y y z), por ejemplo, un lápiz sobre una mesa. El extremo del lápiz y la punta pueden determinarse con precisión como puntos en el espacio. Por tanto, el lápiz sería el vector.
Ahora nos movemos hacia dimensiones superiores que son difíciles de imaginar visualmente (un cubo de cuatro dimensiones tendría una sombra tridimensional, por ejemplo), pero las dimensiones superiores siguen siendo fáciles de calcular, incluso como aritmética mental, que es, al fin y al cabo, lo que este blog del redactor jefe pretende demostrar.
Muchos parámetros, muchas dimensiones
Tarea: Agrupar un millón de ofertas en función de los grupos de clientes, la utilización de las máquinas, el volumen de negocio, etc., es decir, agruparlas en grupos que tengan similitudes. Cada oferta tiene parámetros específicos que pueden identificarse fácilmente. El estado del cliente puede deducirse del nombre del cliente. Los malos clientes reciben el valor cero, los buenos clientes reciben el valor nueve. Las ofertas pequeñas de menos de 1.000 euros obtienen el valor uno, las grandes ofertas de más de un millón de euros obtienen el valor 25 y todas las demás obtienen una gradación fija entre uno y 25. El procedimiento es similar con las mercancías ofertadas: Bienes en stock, producción única, etc. Y así sucesivamente: al final de este proceso hay diez categorías y cada oferta tiene un valor por categoría. Estos diez valores también pueden interpretarse como un vector (el punto de partida es el cero) en un espacio de diez dimensiones y escribirse de la siguiente manera: (5, 9, 3, 7, 11, 2, 42, 15, 6, 102).
Distancia euclidiana
Para cada oferta existe ahora un vector en el espacio de diez dimensiones. Ahora hay que agrupar estas ofertas para posibles medidas de marketing, ventas previstas o para pedir materias primas por adelantado. El truco de la agrupación, es decir, el proceso de formación de grupos, consiste en determinar las distancias de los distintos vectores en el espacio de diez dimensiones.
Las distancias entre lápices colocados sobre la mesa de una oficina en un espacio tridimensional son fáciles de determinar. Se mide la distancia con una regla. Todos los lápices que están a menos de diez centímetros de distancia pertenecen a un grupo, todos los demás al siguiente. (Oigo una oposición justificada: la agrupación es un poco más compleja, pero el principio vectorial, tal como lo presenta el Director de Tecnología de SAP, Jürgen Müller, sigue siendo muy sencillo).
Cada vector de oferta tiene como extremo un punto de datos en un espacio de diez dimensiones (véanse los diez números anteriores). Las distancias euclídeas se utilizan, entre otras cosas, como medidas de distancia o similitud para medir lo parecidos o distintos que son estos puntos de datos. Pero, ¿cómo calculamos la distancia de los dos puntos de datos entre el vector de ejemplo mencionado anteriormente (5, 9, 3, 7, 11, 2, 42, 15, 6, 102) y una segunda oferta con aproximadamente el vector (7, 2, 5, 13, 25, 9, 1, 132, 55, 8)?
El primer paso consiste en calcular la diferencia respectiva de los puntos de datos: Primer valor del primer vector de suministro menos el primer valor del segundo vector, es decir: 5 menos 7, 9 menos 2, 3 menos 5, etc. Estos resultados se elevan al cuadrado y se suman: -2 al cuadrado es 4, 7 al cuadrado es 49, etc. De la suma de los diez números elevados al cuadrado (4 más 49 más 4 más 36, etc.) se saca la raíz, ¡este resultado es la distancia euclídea! ¡Eureka!
Esto significa que existen relaciones matemáticas claramente definidas entre el millón de ofertas. Estas distancias euclidianas pueden utilizarse ahora como medidas de similitud para la agrupación. Esto permite crear excelentes mapas cuyas áreas (clusters) proporcionan información directa sobre preferencias, similitudes y tendencias. Hace unos diez años, E3-Verlag, junto con el profesor Alfred Taudes de la Universidad de Economía y Negocios de Viena, creó un mapa Hana de este tipo basado en una encuesta realizada en la comunidad SAP. (Los resultados de la encuesta de entonces son el millón de ofertas de este ejemplo).
Los mapas no son IA
Lo que el Director de Tecnología de SAP, Jürgen Müller, presentó en Bangalore en TechEd 2023 tiene una gran importancia práctica. Muchos clientes actuales de Hana apreciarán mucho la ampliación del lenguaje a dimensiones superiores. Sin embargo, lo que se presentó es matemática muy tradicional y muy familiar. Presentar la distancia euclidiana como un hito en el desarrollo de Hana es extraño.
Suplemento: Además de la distancia euclidiana, existe una segunda unidad de medida. La métrica de Manhattan es una medida de proximidad, que también es una medida de proximidad o distancia para variables métricas como la altura, la edad o el peso. La métrica de Manhattan mide las distancias como distancias perpendiculares; como caminar por un sistema de calles o salir en taxi. En cambio, la distancia euclidiana mide la distancia directa, más corta y diagonal (a vuelo de pájaro). Ambos métodos pueden utilizarse para generar clusters para un mapa de abastecimiento. (Fuente)