La plataforma global e independiente para la comunidad SAP.

Arquitectura de Big Data

Big Data es un gran tema, pero la multitud de posibilidades es abrumadora. Cada proveedor de software presenta productos diferentes y objetivos distintos. Me gustaría aportar algo de estructura a esta jungla y facilitar la puesta en marcha.
Werner Dähn, rtdi.io
2 de octubre de 2019
Integración de Smart y Big Data
avatar
Este texto ha sido traducido automáticamente del alemán al español.

Como arquitecto de software, mi objetivo es realizar tareas complicadas mediante soluciones sencillas. Cada uno de los componentes de una solución tiene ventajas e inconvenientes; el arte consiste en combinarlos de tal manera que en suma las ventajas se mantengan y los inconvenientes se anulen mutuamente.

Para muchos usuarios de SAP, el primer paso será habilitar la analítica con big data, es decir, encontrar información interesante en estas enormes cantidades de datos.

Pero en lugar de construir una infraestructura completamente nueva para los usuarios, combino el sistema de Big Data con el almacén de datos existente.

El científico de datos obtiene el lago de datos, un área de datos en la que están disponibles todos los datos en bruto, y una potente herramienta con la que también puede procesar estos datos en bruto. El resultado de su trabajo son nuevos ratios que añado al almacén de datos. Esto tiene varias ventajas:

  • El usuario empresarial sigue utilizando sus herramientas habituales de análisis, sólo que ahora dispone de más ratios.
  • El científico de datos tiene acceso a todos los datos, Big Data y datos ERP.
  • Para TI, el esfuerzo es asumible.

Esta solución también es atractiva en el contexto de costes vs. beneficios vs. probabilidades de éxito: al acoplarme a lo existente, tengo un ámbito de proyecto reducido, por tanto un riesgo de proyecto minimizado y una implantación más barata, pero sigo aprovechando al máximo los beneficios potenciales.

Así, una solución de Big Data consta únicamente de dos componentes: el lago de datos con los datos en bruto y un clúster de servidores donde tiene lugar la preparación de los datos.

Lago de datos o SAP Vora

En el pasado, SAP ofrecía SAP Vora como lago de datos y vende la solución Altiscale con el nombre de Big Data Services. Básicamente, sin embargo, el lago de datos no es más que un gran sistema de archivos. Si, a pesar de todo, los comerciales de SAP proponen Vora, Altiscale o DataHub, habrá que cuestionarse muy críticamente el precio y el rendimiento.

¿Por qué no empezar con un disco duro local o el servidor central de archivos en la primera fase del proyecto? Mientras haya espacio suficiente y los costes del espacio de almacenamiento no sean demasiado elevados, esto es válido en todas partes. Copiar los archivos es posible en cualquier momento y sin problemas, así que no bloqueo nada para el futuro.

Preparación con Apache Spark

Para procesar estos datos, la mayoría de los proyectos actuales utilizan el marco de código abierto Apache Spark. Permite escribir programas para el tratamiento de datos con solo unas pocas líneas de código y ejecutarlos en paralelo en un clúster de servidores.

No hay razón para que reinvente la rueda aquí, sobre todo porque una instalación de este tipo es muy sencilla y puede hacerse en diez minutos: descargar el paquete en un pequeño ordenador Linux, extraerlo e iniciar un maestro y un primer trabajador mediante el comando start-all.

Reto: Algoritmo

La tecnología es manejable con el planteamiento anterior. Desarrollar los algoritmos para los nuevos ratios es la parte difícil: ¿cómo extraer información de los datos masivos que, en última instancia, se reflejará en los beneficios de la empresa?

Aquí es exactamente donde se decide el éxito de un proyecto de Big Data. Aquí es exactamente donde creo que tiene sentido invertir, por ejemplo, en la formación de un científico de datos.

En las siguientes columnas responderé, entre otras, a las siguientes preguntas: ¿Por qué usar Apache Spark y no una herramienta ETL? ¿Por qué necesitas un lago de datos si los datos ya están en el almacén de datos? Etc.

avatar
Werner Dähn, rtdi.io

Werner Dähn es especialista en integración de datos y director general de rtdi.io.


Escriba un comentario

Trabajar sobre la base de SAP es crucial para el éxito de la conversión a S/4. 

Esto confiere al centro de competencia una importancia estratégica para los clientes actuales de SAP. Independientemente del modelo operativo de S/4 Hana, temas como Automatización, Supervisión, Seguridad, Application Lifecycle Management y Gestión de datos la base de las operaciones S/4.

Por segunda vez, E3 Magazine organiza una cumbre para la comunidad SAP en Salzburgo con el fin de ofrecer información exhaustiva sobre todos los aspectos del trabajo preliminar de S/4 Hana.

Lugar de celebración

En breve recibirá más información.

Fecha del acontecimiento

Miércoles 21 de mayo y
Jueves, 22 de mayo de 2025

Entrada anticipada

Disponible hasta el viernes 24 de enero de 2025
390 EUROS sin IVA

Entrada normal

590 EUROS sin IVA

Lugar de celebración

Hotel Hilton Heidelberg
Kurfürstenanlage 1
D-69115 Heidelberg

Fecha del acontecimiento

Miércoles, 5 de marzo, y
Jueves, 6 de marzo de 2025

Entradas

Entrada normal
590 EUR sin IVA
Entrada anticipada

Disponible hasta el 24 de diciembre de 2024

390 EUR sin IVA
El acto está organizado por la revista E3, publicada por B4Bmedia.net AG. Las presentaciones irán acompañadas de una exposición de socios seleccionados de SAP. El precio de la entrada incluye la asistencia a todas las ponencias de la Cumbre Steampunk y BTP 2025, una visita a la zona de exposición, la participación en el acto nocturno y el catering durante el programa oficial. El programa de ponencias y la lista de expositores y patrocinadores (socios de SAP) se publicarán en este sitio web a su debido tiempo.