Actualmente las empresas viven en una continua competencia, bajo la presión de una guerra cibernética. Se encuentran sometidas diariamente a una constante adaptación, por ejemplo: la nube, los dispositivos móviles, el aprendizaje automático y el Internet de las cosas (IoT), entre otras muchas novedades.

Para avanzar rápidamente, las empresas están luchando para implementar la innovación dentro de su fuerza de trabajo. Han logrado grandes avances en su transformación ágil, han comenzado su viaje a la nube, han implementado nuevas prácticas de DevOps, han contratado a las mejores y más brillantes personas para aprovechar la tecnología y los procesos más novedosos. Sin embargo, siguen decepcionados por los resultados. De hecho, el 84% de las empresas aún no logran la transformación digital, en parte porque no abordan uno de los aspectos más críticos de la nueva economía digital: los datos.

Y es que cada empresa es ahora una compañía de software, este cambio de mercado, donde los productos son más complejos y requieren más funciones para satisfacer la demanda de experiencias personalizas, exige una estrategia de datos sofisticada. Los datos y el acceso a ellos son una ventaja competitiva: aquellos que puedan aprovechar los datos para impulsar la innovación, ganarán.

Los datos, situación actual

El problema principal no son los datos en sí, sino el concepto conocido como data-friction, que ocurre cuando las restricciones sobre los datos impiden que las personas satisfagan las crecientes demandas del negocio.

Por un lado, hay una explosión en las necesidades de datos, usuarios y entornos que exige que los datos estén donde sea que se necesiten, para cualquiera que lo necesite, en la forma que sea más adecuada para la tarea en cuestión.

Por otro lado, los datos han crecido exponencialmente en tamaño, complejidad y coste con crecientes preocupaciones con respecto a la seguridad y la privacidad, lo que significa que los expertos en TI deben limitar y proteger el acceso a los datos y la disponibilidad.

Como resultado, las compañías están metidas en una batalla entre el data-friction y las personas, los procesos y la tecnología. Durante un tiempo las empresas han avanzado utilizando la nube y las DevOps. La entrega de entornos informáticos ha pasado de semanas a minutos, con una infraestructura automatizada, elástica y bajo demanda. Pero los datos no se parecen a los cálculos. El manejo de datos es, costoso de mantener, está lleno de información sensible, es difícil de copiar, difícil de rastrear con el tiempo y lento para entregar a los equipos que lo necesitan.

Aunque la nube y DevOps han ayudado, en última instancia, son insuficientes. A medida que las DevOps y la nube derribaron las barreras entre las personas y la infraestructura, la aparición de más entornos, más automatización y más velocidad significaron una mayor demanda de datos. Los expertos en TI todavía luchan por administrar, asegurar y entregar los entornos de datos que demanda el negocio. Y los usuarios todavía tienen dificultades para acceder, manipular y compartir la información que necesitan.

Según la investigación “Strength in Numbers: How Does Data-Driven Decision making Affect Firm Performance?” realizada por Erik Brynjolfsson y Heekyung Kim de MIT, junto con Lorin M. Hitt de la Universidad de Pensilvania, las empresas que se autodenominaron basadas en datos fueron un 5% más productivas y un 6% más rentables que sus competidores.

DataOps

Cuando el data-friction se convierte en el bloqueador de la innovación, los clientes se van, los competidores ganan, y las empresas pasan más tiempo reaccionando en lugar de liderar.

Pero no es necesario que sea así, las empresas pueden ganar. TI puede superar el coste, la complejidad y el riesgo para convertirse en un habilitador para el negocio. Los usuarios pueden obtener los datos que necesitan para liberar su capacidad de innovación. Y todos pueden trabajar como un solo equipo para generar resultados masivos para el negocio. Para afrontar todo esto se necesita un nuevo enfoque, uno que hace para los datos lo que DevOps hizo por la infraestructura, DataOps.

Según Gartner, DataOps es el centro para la recopilación y distribución de datos, con el mandato de proporcionar acceso controlado a los sistemas de registro para clientes y datos de rendimiento de marketing, a la vez que protege la privacidad, las restricciones de uso y la integridad de los datos. Su objetivo es mejorar los resultados al reunir a aquellos que necesitan datos con los que lo proporcionan, eliminando el data-friction a lo largo del ciclo de vida de los datos.

¿Cómo funciona?

Dominar DataOps requiere superar las barreras organizacionales y culturales que separan a las personas de los datos. Comienza con unir a dos audiencias clave como un solo equipo:

  • Operadores de datos: responsables de la infraestructura, la seguridad y el mantenimiento. Incluye DBA, seguridad y cumplimiento, administradores del sistema y más.
  • Consumidores de datos: responsables de utilizar datos para impulsar nuevos proyectos e innovación. Incluye desarrolladores, testeadores, científicos de datos, analistas y más.

Pero toda la transformación cultural en el mundo no ayudará si su infraestructura no puede soportar las nuevas demandas que se le plantean. DataOps también exige un enfoque tecnológico integral que elimine los puntos clave de fricción en:

  • Gobernanza: seguridad, calidad e integridad de los datos, incluidos los controles de auditoría y acceso.
  • Operación: Escalabilidad, disponibilidad, monitoreo, recuperación y confiabilidad de los sistemas de datos.
  • Entrega: Distribución y aprovisionamiento de entornos de datos.
  • Transformación: modificación de los datos, incluido el enmascaramiento y la migración de la plataforma.
  • Control de versiones: captura de datos a medida que cambia con el tiempo, con la capacidad de acceder, publicar y compartir estados entre usuarios y entornos.

Para hacer que los datos funcionen, se requiere el mandato de la administración ejecutiva para el acceso a datos democratizado, una infraestructura de datos centralizada, analistas de datos/científicos y equipo de datos.

DataOps habilita las empresas basadas en datos

Ashish Thusoo, ofreció una definición más pragmática:

“DataOps es una nueva forma de administrar datos que promueve la comunicación e integración de datos, equipos y sistemas anteriormente aislados, aprovecha el cambio de proceso, la realineación organizacional y la tecnología para facilitar las relaciones entre todos los que manejan los datos, ya sea, desarrolladores, ingenieros de datos, científicos de datos, analistas y/o usuarios de negocios. DataOps conecta estrechamente a las personas que recopilan y preparan los datos, los que analizan los datos y los que utilizan los hallazgos de esos análisis para un buen uso comercial “.

El enfoque de Thusoo para los datos y una cultura basada en datos consiste en un equipo el cual publica datos y administra la infraestructura utilizada para publicar esta información, y los encargados de tomar decisiones de negocio que normalmente tienen científicos de datos o analistas en sus equipos, en los que respaldarse.

En el modelo de Thusoo, los científicos de datos o analistas de datos están integrados en las unidades de negocio tales como finanzas, ventas, marketing, etc. Trabajan con los responsables del negocio para identificar preguntas, identificar los conjuntos de datos que deben analizarse y luego traducirlos a SQL (lenguaje de consulta estructurado) o a un lenguaje más sofisticado. El trabajo luego se entrega al equipo de datos.

Otros modelos de DataOps, como el que ofrecen Ellen Friedman y Ted Dunning, giran alrededor de “organizar equipos en torno a objetivos relacionados con los datos para lograr un tiempo más rápido”. Sugieren que los miembros del equipo de DataOps pueden provenir de operaciones de productos, ingeniería de software, arquitectura y planificación, ciencia de datos, ingeniería de datos y gestión de productos.

A diferencia de Thusoo, Dunning y Friedman observaron que las capacidades de infraestructura en torno a la plataforma y red de datos (necesidades que afectan a todos los proyectos) tienden a recibir el respaldo de los equipos de DataOps por parte de las organizaciones de soporte.

Posibles fallos

El resultado que se busca tras adoptar DataOps es la disminución en silos de información dentro de una organización. Estos silos son causados cuando los analistas confían en las soluciones de autoservicio, pero no se comunican con el resto de los departamentos que pueden tener unas necesidades similares.

Esta falta de comunicación puede generar errores de datos. Ya que un grupo o departamento puede examinar los datos e interpretarlos de manera diferente a otro, basándose en criterios distintos. Según una investigación realizada por el MIT, estos errores de comunicación pueden reflejarse entre un 15 y un 25% en los ingresos de una compañía.

Los especialistas en análisis de datos y los profesionales del marketing deben tener en cuenta que tanto los desarrollos de DevOps como DataOps incluyen auditorias, a través de las cuales se garantiza que el contenido y las tareas que van asociadas cumplen con el nivel requerido.

El control de versiones mejora la calidad

Las plataformas como GitHub la cual asegura que los equipos utilicen la versión correcta de DevOps, ayudando a mantener la calidad. Estas medidas se han extendido a la ciencia de datos, y es que los profesionales deben de aprender a compartir proyectos de calidad. Ya que trabajar con la mejor versión, ofrece mejores condiciones para elevar la calidad de los datos y el rendimiento de las empresas.

La administración de datos a través del control de versiones también ayuda a mejorar la seguridad del algoritmo. Según un estudio realizado por Forrester, se espera que, a lo largo del 2018, las herramientas DevOps y DataOps proliferen distintos dispositivos e industrias.

Algunos ejemplos de este tipo de herramientas para DataOps serían: MapR proporcionar soluciones empresariales útiles, en lugar de proyectos de ciencias de la computación. Tamr llama a su estrategia DataOps “Enterprise Data Unification”. Delphix habla sobre su “Plataforma de Datos Dinámicos”. Switchboard Software ofrece su propia plataforma DataOps.