La opinión de la comunidad SAP, MAG 19-11, Integración de macrodatos e inteligente

SAP Big Data - ¿Qué es Big Data?

¿Qué significa exactamente el término Big Data? ¿Significa Big Data simplemente datos masivos, es decir, "muchos datos" en el almacén de datos? ¿O es Big Data un sustituto del almacén de datos?

Werner Dähn, rtdi.io

28 de noviembre de 2019

Contenido:

A los comentarios (0)

Este texto ha sido traducido automáticamente del alemán al español.

Con los datos masivos de traducción directa, sólo se da con un aspecto. Todos los datos normales del sistema ERP y de otras bases de datos son también datos masivos.

En cuanto al volumen de datos, hay que hablar de cantidades demasiado grandes para las bases de datos, demasiado grandes en sentido absoluto o en el sentido de coste/beneficio.

El aspecto más interesante es el grado de estructuración de los datos. El sistema ERP contiene un 99% de datos bien estructurados, como el campo MATART (tipo de material) de la tabla MARA (maestro de materiales).

El uno por ciento es texto libre, como un albarán. Con Big Data, es el otro extremo y la información apasionante está en las áreas de datos no estructurados. Cuándo y dónde se tomó una foto es interesante, pero lo que muestra la imagen es mucho más importante.

Esto también va acompañado del tipo de preparación de los datos. Mientras que con las bases de datos se trata de una consulta del tipo "facturación total al mes", en el ejemplo anterior hablamos de repente de análisis de imágenes.

Incluso en casos no tan extremos, como los archivos de registro, no se realizan sumas ni recuentos sencillos. Las bases de datos son, por tanto, la peor opción para este tipo de datos.

Sin embargo, la definición más importante de Big Data es "todos los datos que no se utilizan hoy para aumentar los beneficios de la empresa". La creatividad está a la orden del día. Uno de mis últimos proyectos tenía que ver con la utilización de servidores en el centro de datos, con el objetivo de reducir el número de servidores.

Un ejemplo: las ventas deben vincularse con información sobre la intensidad con que los clientes han visto el producto correspondiente en el sitio web. Por ejemplo, un producto se anuncia en los medios de comunicación.

¿Se nota esta publicidad? Si es así, debería aumentar el número de visitas a las páginas de producto correspondientes. ¿Los interesados leen brevemente la página del producto, se convencen inmediatamente y compran?

El servidor web ya escribe todos los accesos a las páginas en archivos de registro, pero al cabo de una semana se borran. Por tanto, los datos para ello estarían disponibles, sólo que aún no se utilizan.

El objetivo es la máxima eficacia y flexibilidad. Hace unos años, Map Reduce en Hadoop era lo máximo, luego llegó Apache Spark. Podía hacer más, con mejor rendimiento y mayor potencia.

Durante mucho tiempo Apache Hive fue el camino a seguir, hoy es Parquet Files. En un entorno tan dinámico, no quiero gastar muchos recursos en una solución potencialmente a corto plazo y también tener la apertura para cambiar a algo nuevo en cualquier momento.

Apache Spark es actualmente una solución tan potente como abierta. Con ella, los archivos de registro del servidor web se descomponen en filas y columnas con una sola línea de código. Es más complejo desarrollar la lógica para deducir el tiempo de lectura por página a partir del historial de páginas vistas.

Si finalmente añado estas y otras cifras clave al almacén de datos, permite realizar análisis combinados, por ejemplo, para visualizar las cifras clave de facturación, tiempo de lectura y páginas vistas a lo largo del tiempo para un producto.

Hasta hace poco, almacenar y procesar datos secundarios no tenía un precio atractivo. El volumen de datos era demasiado grande, la densidad de información demasiado baja y la única forma de procesarlos eficazmente era con herramientas relacionadas con las bases de datos.

Con Apache Hadoop Filesystem (HDFS), se pueden formar grandes sistemas de archivos a partir de componentes baratos de PC en lugar de comprar una costosa matriz de discos. Apache Spark puede procesar estos grandes conjuntos de datos, con los complejos algoritmos asociados que incluyen métodos estadísticos y de aprendizaje automático.

Las herramientas de almacén de datos, incluidas las de SAP, se han adaptado a esta situación y ofrecen acceso directo a archivos Hadoop o envían tareas de transformación a un clúster Spark conectado. Una forma muy sencilla de leer datos de Hana es a través de SAP Hana Spark Connector.

Werner Dähn, rtdi.io

Werner Dähn es especialista en integración de datos y director general de rtdi.io.

Todos los artículos del autor

SAP Big Data - ¿Qué es Big Data?

Escriba un comentario (cancelar respuesta)

Más de 30.000 unidades, un sistema

EE.UU. domina la carrera de la IA

Los recursos a bordo de SAP llegan a su límite

Lugar de celebración

Fecha del acontecimiento

Entrada normal

Entrada para los suscriptores de la revista E3

Estudiantes

Lugar de celebración

Fecha del acontecimiento

SAP Big Data - ¿Qué es Big Data?

Escriba un comentario (cancelar respuesta)

Más de 30.000 unidades, un sistema

EE.UU. domina la carrera de la IA

Los recursos a bordo de SAP llegan a su límite

Lugar de celebración

Fecha del acontecimiento

Entrada normal

Entrada para los suscriptores de la revista E3

Estudiantes

Lugar de celebración

Fecha del acontecimiento

Entradas