V² para Big Data
Hay que reconocer que el término "V2" es mío y que mi profesor de matemáticas me reprendería por ello. La primera V de V2 corresponde al número romano 5 y la segunda V a cada uno de los cinco términos de los que hablaremos a continuación y que sirven de base al big data. El término no está protegido y suele utilizarse como etiqueta en marketing.
En primer lugar, "V" de volumen. En realidad, se refiere a las cantidades de datos de grandes a enormes que pueden darse en cada uno de nosotros y en las empresas hoy en día.
Según diversas fuentes, la cantidad de datos almacenados en todo el mundo en 2018 fue de 33 ZB (zettabytes). 1 ZB corresponde a 1000 EB (exabytes) o mil millones de TB (terabytes).
Suponiendo un crecimiento anual de alrededor del 27%, esto corresponde a una duplicación cada tres años (¡!). Curiosamente, el mayor productor de datos es la industria manufacturera, seguida del comercio, los servicios financieros, las infraestructuras y los medios de comunicación y entretenimiento.
Le siguen la sanidad y el transporte, donde sí veo una fuerte tendencia al alza. Sobre todo si aumenta la velocidad de transmisión de datos (por ejemplo, 5G).
También se trata de la velocidad con la que se pueden procesar grandes cantidades de datos y algoritmos a veces complejos. Esta velocidad es la segunda "V".
Cuanto más actualizados estén los datos, más valiosos serán. Un ejemplo es cuando visita un sitio web con anuncios y se le muestran los anuncios adecuados que un proveedor ha comprado para usted en ese momento basándose en las cookies.
Esto nos lleva a la tercera "V" como Variedad: no sólo los datos recogidos vienen en formatos de archivo muy diferentes, sino que la mayoría de ellos (alrededor del 80 por ciento) también están desestructurados, como texto, audio, vídeo, chats, perfiles de movimiento, etc.
Una de las expectativas de los big data es hacer que estos datos sean analizables y, por tanto, utilizables. Algunos ejemplos son las predicciones sobre el comportamiento, donde los datos no estructurados ya se utilizan hoy para predecir próximas catástrofes a partir de la comunicación en las zonas afectadas combinada con datos meteorológicos, históricos y geodatos.
Independientemente de la cantidad de datos, éstos deben ser válidos. De ahí la cuarta "V" de validez. ¿Es representativo lo que estoy midiendo y cuál es la correlación con el comportamiento que quiero predecir?
Aunque existe una correlación entre la tasa de natalidad de los seres humanos y la población de cigüeñas, no hay ninguna relación causal. Por el contrario, se dice que Walmart descubrió hace 20 años que los pañales y la cerveza se venden bien juntos (sobre todo los viernes).
El trasfondo de esto es que (supuestamente) se enviaba a los padres jóvenes a comprar pañales y luego se llevaban cerveza para ellos. Debido a la estructura de costes y a la rapidez de los sistemas SAP, la recogida y el tratamiento según la "V" mencionada tienden a realizarse en sistemas ajenos a SAP y los resultados se transfieren a continuación.
La quinta "V" significa "Valor", es decir, el valor de los datos obtenidos mediante big data. Esto abarca desde el marketing selectivo y la optimización de procesos empresariales o cadenas de valor hasta nuevos modelos de negocio. Aunque los macrodatos ofrecen muchas oportunidades, no son gratuitos y los beneficios deben ser proporcionalmente altos.
No quiero ocultarle que hay otras "V" en la discusión actual que también merecen atención. Por ejemplo, hay una "V" como "Veracidad": A mayor calidad, mayor beneficio informativo. O la "volatilidad", es decir, la volatilidad en relación con la disponibilidad de datos.
O "viabilidad" como la selección correcta de los datos disponibles. Como puede ver, son muchas las palancas que conforman los beneficios de los macrodatos. Si ha leído esta columna hasta el final y su cabeza aún no zumba por todas estas palabras con "V", puede hacer con confianza una "V" de "Victoria".