Ciudadanos científicos de datos
Los analistas de negocio se mueven a través de los modelos de datos estructurados de un almacén de datos. Suelen conocer bien los modelos de datos y entienden cómo crear consultas en los modelos de datos mediante herramientas front-end (Excel, Tableau, SAP BO) para satisfacer sus necesidades de información.
La complejidad de las estructuras de las bases de datos queda oculta por las herramientas modernas, que generan automáticamente el código de programación necesario para las consultas y permiten así cierta independencia de los profesionales informáticos.
Los analistas empresariales suelen haber estudiado administración de empresas, economía o informática empresarial y trabajan en los departamentos especializados o en la interfaz entre el departamento especializado y el de informática.
Lagos de datos en lugar de almacenes
"Los datos son el nuevo petróleo". Este eslogan, que se utiliza a menudo en la práctica, describe la importancia de los datos para el avance de la digitalización en todos los ámbitos de la vida.
Los datos se recogen en todas partes, desde el uso de nuestro smartphone hasta los sensores de nuestro coche, pasando por la aplicación de nuestra cafetera que reordena automáticamente las cápsulas.
En lugar de fluir hacia las estructuras ordenadas de un almacén de datos, los datos fluyen ahora hacia lo que se denomina un lago de datos. Un lago de datos es un almacén de datos que conserva grandes cantidades de datos en su formato original hasta que se necesitan en algún momento.
Como no hay un esquema de datos predefinido, se almacenan muchos metadatos sobre los datos hasta que se define una petición de datos en algún momento.
Por ejemplo, cuando surge un problema empresarial, se pueden buscar datos relevantes en el lago de datos y analizar el conjunto de datos resultante de forma específica para ayudar a resolver el problema empresarial.
En la literatura, la "información" se define a menudo como conocimiento relevante para la toma de decisiones o para la acción. Así, los datos se convierten en "información" cuando ayudan a resolver un problema o a tomar una decisión.
Conocimiento interdisciplinar e IA
Para eso sirve exactamente el almacén de datos. En él, los datos se estructuran y preparan profesionalmente de forma que el usuario pueda cubrir sus necesidades de información de forma autónoma.
En el lago de datos, las estructuras de información son inicialmente inexistentes y primero deben ser descubiertas y procesadas por expertos. Descubrir estas estructuras y relaciones requiere conocimientos informáticos especiales, que muy a menudo exigen métodos matemáticos y estadísticos que también deben integrarse en lenguajes de programación como R o Python.
El aprendizaje automático con métodos de la disciplina de la "inteligencia artificial" proporciona ayuda. Es obvio que para ello se necesitan matemáticos, informáticos, científicos naturales o técnicos (MINT) con una buena base teórica.
No sólo es muy difícil conseguir licenciados en STEM, sino que el hecho de que además tengan pocos conocimientos empresariales hace que descubrir nuevas relaciones en los datos del Data Lake sea un gran problema.
Por lo tanto, es obvio seguir formando al analista de negocio bien formado y experimentado con métodos seleccionados del campo de la Ciencia de Datos y adquirir herramientas especializadas que apoyen estos métodos con una interfaz de usuario fácil de usar.
La empresa de estudios de mercado Gartner acuñó el término Citizen Data Scientist1 en un artículo de 2015. Gartner habla de una convergencia de la analítica empresarial y la analítica predictiva, que puede ayudar a las organizaciones a cerrar la brecha entre las complejas funciones de análisis matemático y los métodos de "inteligencia artificial".
También permitirá a las empresas avanzar significativamente en la senda de la madurez de la analítica empresarial. La convergencia ayudará a que la analítica predictiva llegue a un público más amplio de analistas empresariales y, por tanto, de científicos de datos ciudadanos.
Un ciudadano científico de datos (Citizen Data Scientist, CDS) es algo más que un usuario experimentado de Excel que sabe explorar tablas dinámicas. Un CDS es capaz de asignar metódicamente la pregunta de negocio al proceso de ciencia de datos, comprender la importancia crítica de la calidad de los datos para el aprendizaje automático, evaluar y utilizar diferentes herramientas.
No debe tener ningún miedo a un lenguaje de programación. No se trata tanto de programar aplicaciones complejas como de guionizar pequeñas partes de programas y utilizar y parametrizar algoritmos ya existentes.
Nuevo tipo de indexación de datos
El proceso de apertura de los nuevos conocimientos para el científico de datos cambia por completo. En el data warehousing clásico, primero se crea un modelo multidimensional en colaboración entre la empresa y TI y a partir de él se desarrolla un esquema para un data mart.
El esquema consta básicamente de ratios y atributos relacionados con los ratios. Las dimensiones y jerarquías son otras características estructurales que ayudan a estructurar los requisitos de los usuarios empresariales.
A continuación, las estructuras se rellenan mediante un proceso de extracción, transformación y carga. Si se rellena un esquema de SAP Hana o un infoproveedor de SAP BW es, en realidad, solo una cuestión técnica.
Se centra en un esquema coordinado con el departamento y lleno de datos. Un científico de datos, en cambio, adopta un enfoque completamente distinto. Los datos de sus fuentes de datos no suelen tener una estructura predefinida u obvia.
Por ejemplo, en el sistema de archivos de un lago de datos se almacenan archivos CSV con datos de sensores, textos de redes sociales o geodatos de una aplicación de smartphone. Si un usuario empresarial se pone en contacto con el científico de datos para exponerle sus necesidades de información, se inicia un proceso de desarrollo de datos, al final del cual se dispone de una estructura de datos apta para las herramientas de análisis.
Que se trate de una aplicación de minería de datos o de mantenimiento predictivo es importante en este momento, pero no decisivo.
En el proceso de desarrollo de datos, primero se construye un conjunto de datos que es "probablemente" adecuado para el análisis de datos. A partir de este momento, empiezan los problemas. En primer lugar, este conjunto de datos debe ser representativo, es decir, contener características y datos que representen lo mejor posible el escenario de aplicación.
"Todos los datos" no suelen ser adecuados para las aplicaciones de análisis, ya que demasiados valores atípicos y peculiaridades distorsionarían los resultados. Después, los datos se transforman para que "se ajusten" a las necesidades de las herramientas de análisis.
La calidad de los datos desempeña un papel decisivo. La herramienta de análisis de un científico de datos "aprende" en función de los datos que tiene que examinar. La herramienta es básicamente indiferente a la calidad de los datos. Por ejemplo, "aprende" que un número superior a la media de suscriptores de un boletín procede de "Afganistán".
La razón es, obviamente, que "Afganistán" ocupa el primer lugar en la lista de países de la pantalla de inicio de sesión de un sitio web. Por desgracia, estas constelaciones de datos no suelen ser tan evidentes como en este ejemplo.
La calidad de los datos es crucial
Un proyecto de investigación realizado en el marco de una colaboración entre la Universidad de Medios de Comunicación de Stuttgart y Uniserv demostró la facilidad con que el valor de medición de la calidad de una herramienta de análisis puede verse afectado por la mala calidad de los datos.
Para ello, una asociación creó escenarios que realizaban el "aprendizaje" tanto con datos de alta calidad como con datos de baja calidad. El proceso que produce datos de alta calidad se denomina "verdad sobre el terreno".
Este término fue acuñado originalmente por el MIT y desarrollado en el proyecto de investigación. En el proceso, los datos maestros de los clientes se enriquecieron con datos de transacciones que previamente habían pasado por un conjunto de reglas de calidad de datos.
De este modo se crea un conjunto de datos que contiene tanto datos maestros como datos de transacciones, creando así un perfil preciso de un cliente. Al final del proceso de desarrollo de datos, hay una estructura de datos que se pasa a la herramienta de análisis.
A menudo se producen resultados que no son satisfactorios al principio. Entonces hay que añadir más atributos u otros datos al conjunto de datos para su análisis.
Por lo tanto, el proceso de desarrollo de datos para crear la verdad sobre el terreno empieza desde cero. Por lo tanto, los componentes de software para el proceso de inferencia de datos desempeñan un papel crucial para el científico de datos. Sin una calidad de datos adecuada, no es posible un análisis predictivo fiable.
Debido a la urgencia y a la imperiosa necesidad de entender los datos como un activo empresarial y de aprovechar el potencial que encierran, cada vez son más las universidades públicas y las empresas que ofrecen formación en Citizen Data Scientist.
Cabe destacar que existe una mezcla equilibrada entre teoría y escenarios de aplicación práctica con manos a la obra. El intercambio en el equipo con analistas de negocio de otras empresas debería ser tan natural como el uso de sistemas informáticos de distintos fabricantes.
La Universidad de Medios de Comunicación de Stuttgart (Hochschule der Medien Stuttgart) ofrece un programa de formación continua profesional orientado a la aplicación para convertirse en Científico Ciudadano de Datos.
[1] Predicts 2015: A Step Change in the Industrialization of Advanced Analytics, https://www.gartner.com/doc/2930917/predicts-step-change-industrialization, consultado el
26 de febrero de 2018