El registro fósil es a veces muy misterioso. Uno de los misterios más grandes, es la aparición de muchos grupos de diversos organismos durante relativamente cortos períodos de tiempo. El más famoso de estos es la “Explosión Cámbrica”, hace 550 millones de años, durante el cual casi todos los planos de diseño de cuerpos animales que hoy conocemos llegaron a existir. Adicionalmente, hubieron muchas formas extrañas que rápidamente fueron extintas. Durante el siguiente medio billón de años, relativamente poco cambió en términos de planos de diseño de cuerpos de grupos supervivientes, aunque ciertas variaciones de estos planos de cuerpos llevaron a una enorme diversidad dentro de las restricciones establecidas por su arquitectura original.

Fósil de trilobite, un animal de la Explosión Cámbrica sin Contrapartes Modernas Conocidas (Burgess Shale de Canada)

¿Es posible que estemos viendo una Explosión Cámbrica de Catálogos de Datos en la actualidad? Hay una buena razón para pensar que este puede ser el caso.

Los Catálogos de Datos son una nueva clase de herramienta para metadatos. Por lo general, su objetivo es desbloquear el valor de los recursos de datos de la empresa para cualquiera que necesite trabajar con datos. Son definitivamente un tipo de herramienta de clase empresarial, más que una clase de herramienta diseñada para brindar soporte a una unidad de negocios de un tipo específico. Al tener un alcance empresarial, son por naturaleza extremadamente importantes y estratégicas. Esto también significa que el mercado para ellas es enorme.

Antes del 2019, una época equivalente al período Precámbrico en esta historia, las herramientas que se parecían a los Catálogos de Datos habitaron nichos en entornos favorables, como las unidades de Gobierno de Datos o equipos de BI. Pero en el 2019, y continuando al 2020, una colección desconcertante de productos llegó al mercado, en muchos casos sin provenir de ningún lado en particular. Recientemente hemos contado 42 de estos, y el número parece seguir creciendo.

Ahora, si todos estos Catálogos de Datos fueran clones entre ellos, o si tuvieran una funcionalidad similar, sería más fácil de entenderlos. Pero su funcionalidad varía, y es esta diversidad lo que hace a la Explosión Cámbrica una analogía particularmente buena para lo que está pasando. Como buenos paleontólogos, debemos empezar por clasificar los tipos fundamentales de las formas que estamos viendo. Esto es complicado, y se puede demostrar ser incorrecto fácilmente en fechas posteriores, pero intentemos igualmente.

Si vemos los paradigmas fundamentales de los Catálogos de Datos, parece que estos tienen 3 grandes orientaciones que pueden probablemente ser caminos para su futura evolución, como lo mostramos en la siguiente ilustración:

Ilustración de Paradigmas Fundamentales y Caminos Probables de Futura Evolución de Catálogos de Datos

Exploremos los 3 paradigmas fundamentales mostrados en la Figura 2:

Factores Humanos en los Datos.  Esto cubre toda la metadata a nivel del entendimiento del negocio, y que guía al comportamiento humano alrededor de los datos. Una gran parte de esto se le ha llamado “Glosario de Negocio”, pero hoy cubre mucho más que términos y definiciones. La capacidad para colaborar y poder compartir también están incluidas, así como reglas, roles y responsabilidades al maneja datos.

Inventario de Metadata Técnica.  Esto cubre toda la metadata técnica que está relacionada a los datos. Diccionario de Datos que proveen un entendimiento de bases de datos y otros almacenes de datos son un ejemplo. Metadatos de reportería, linaje de datos, data discovery y clasificación automatizada de datos son ejemplos de otras áreas de metadata cubierta por esta funcionalidad.

Administración Activa de Metadatos.  Esto cubre habilitar a las personas a trabajar directamente con datos a través del Catálogo de Datos. Esto no es solamente proveer información útil, sino proveer un ambiente en el cual pueda actualmente ocurrir la manipulación de datos. Esto incluye ingeniería de metadatos, el cual es el uso de metadatos para directamente manipular datos.

Cada producto de Catálogo de Datos tiene una combinación de todas estas 3 orientaciones fundamentales, pero cada producto hace énfasis típicamente en uno de ellos. Lo más probable es que cada Catálogo de Datos va a continuar enfocándose en su orientación y construir más y más funcionalidad para apoyarla. Por su puesto, esto es una predicción, así que veremos cómo realmente va a resultar.

Otra característica a tener en cuenta, es que podemos ver una distinción entre Catálogos de Datos “Activos” y “Pasivos”. Catálogos de Datos Activos ayudan a usuarios a crear productos de datos, usualmente orientados a algún tipo de analítica. Catálogos de Datos Pasivos, guardan información que es usada para entender, gobernar, administrar y utilizar el recurso de datos empresariales. Todos los Catálogos de Datos tienen un grado de mezcla entre ambos activos y pasivos.

A partir de esta discusión podemos ver que los Catálogos de Datos pertenecen a grupos basados en tres diferentes paradigmas, y qué productos van posiblemente a evolucionar en maneras en que se distingan aún más, basados en los paradigmas que estos han adoptado. Sin duda van a continuar existiendo nuevos integrantes, pero si la analogía de Explosión Cámbrica se mantiene, el número de nuevos integrantes va a decaer rápidamente en el futuro cercano, seguido de un período largo de extinciones y variaciones en los temas ya establecidos.

El tiempo lo dirá.

Malcolm Chisholm Ph.D.
CEO at Data Millennium
Winner of DAMA International Professional Achievement Award

https://www.linkedin.com/pulse/cambrian-explosion-data-catalogs-malcolm-chisholm/