Big Data: ISO 8000 y la calidad de los datos

¿Cuáles son las normas, estándares y marcos que nos ayudan a gestionar la calidad de los datos en entornos Big data?

Palabras claves: big data, ISO 8000, calidad de los datos.

Tabla de contenidos:

Un mundo de datos

  • En 2025, cada persona conectada en el mundo interactuará dejando su huella digital unas 4900 veces por día - eso significa una interacción cada 18 segundos(1).

    “El mundo guiado por los datos va a estar siempre activo, siempre haciendo el seguimiento de todo, siempre monitoreando, siempre escuchando y siempre viendo - porque va a estar siempre aprendiendo.”

    Fuente: The Digitization of the World – From Edge to Core. IDC White Paper. Doc# US44413318. Noviembre 2018.

  • Con base en estadísticas del mercado, se cree que los datos generados en el mundo aumentan a un ritmo del 40% anualmente. Para 2025 se crearán más de 180 zetabytes según la plataforma global de datos y business intelligence Statista https://www.statista.com/statistics/871513/worldwide-data-created/.

  • Statista aumentó estos valores luego de la pandemia de COVID-19 ya que hubo un enorme cambio de costumbres en el mercado laboral y social al llevar varias de las interacciones humanas al ámbito virtual; aumentando en consecuencia la cantidad de datos disponibles.

  • Por su parte IDC predijo en 2018 que la Global Datasphere crecerá desde los 33 Zettabytes en aquel año hasta los 175 Zettabytes en 2025.

    Fuente: The Digitization of the World – From Edge to Core. IDC White Paper. Doc# US44413318. Noviembre 2018.

  • En este contexto, hablamos de Big data y nos encontramos con la problemática de gestionar la calidad de estos datos en nuestras organizaciones.

¿Qué es Big data?

  • Según la norma ISO/IEC DIS 20546(en) Information technology — Big data — Overview and vocabulary, la definición de Big data es la siguiente:

    "conjuntos de datos extensos, principalmente en las características de los datos de volumen, variedad, velocidad y/o variabilidad, que requieren una tecnología escalable para un almacenamiento, manipulación, gestión y análisis eficientes."

  • Aunque agrega una nota a la entrada especificando que este término "se usa comúnmente de muchas maneras diferentes, por ejemplo, como el nombre de la tecnología escalable utilizada para manejar conjuntos de datos extensos de big data".

    Fuente: https://www.iso.org/obp/ui/#iso:std:iso-iec:20546:dis:ed-1:v1:en.

  • De forma similar la consultora Gartner lo define como:

    "activos de datos de gran volumen, alta velocidad y/o gran variedad que exigen formas innovadoras y rentables de procesamiento de la información que permiten una mejor comprensión, toma de decisiones y automatización de procesos."

    Fuente: Gartner’s Glossary. https://www.gartner.com/en/information-technology/glossary/big-data.

  • Entre los beneficios aportados por Big data se encuentran:

    • Reducción de costes.
    • Descubrir maneras más eficientes de hacer negocios.
    • Mejor toma de decisiones.
    • Crear nuevos productos y servicios que el cliente quiere y necesita.

    Fuente: What is Big Data?. Oracle. https://www.oracle.com/big-data/what-is-big-data.html.
    big data stack

Serie de normas ISO/IEC 20547

  • La serie ISO/IEC 20547 está destinada a proporcionar a los usuarios un enfoque estandarizado para desarrollar e implementar arquitecturas de Big data y proporcionar referencias para enfoques.

  • El vocabulario y los conceptos comunes están descritos en la ISO/IEC 20546.

    Fuente: Getting big on data https://www.iso.org/news/ref2578.html.

  • Por su parte, para avanzar en el progreso de Big Data, el Grupo de Trabajo Público de Big Data del NIST (NBD-PWG) https://www.nist.gov/itl/big-data-nist trabaja para desarrollar un consenso sobre conceptos importantes y fundamentales relacionados con Big Data.

  • Con este objetivo, ha puesto a disposición del público el NIST Big Data Interoperability Framework que consta de 9 documentos que van desde el NIST Big Data Interoperability Framework: Volume 1, Definitions. Version 3.0 (https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1r2.pdf) hasta el Volume 9: Modernization and Adoption (https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-10r1.pdf).

  • Otras normas que se pueden considerar a la hora de implementar una solución de Big data son:

    • ISO/IEC 55000 | Asset Management
    • ISO/IEC 9001 | Quality Management
    • ISO/IEC 20000 | IT Service Management
    • ISO/IEC 31000 | Risk Management
    • ISO/IEC 27000 | Security Management

Gobierno de datos / Data governance

  • El gobierno de datos es una serie de principios, estándares y prácticas que se aplican de punta a punta en el ciclo de vida de los datos (recolección, almacenamiento, uso, protección, archivo y eliminación) para asegurar que los mismos sean confiables y consistentes.
  • Para ello establece estructuras organizacionales, confirma responsables de datos, Hace cumplir reglas y políticas, documenta procesos y registra métricas y términos de negocio comunes.

    Fuente: https://www.informatica.com/blogs/data-governance-vs-data-management-whats-the-difference.html.

Gestión de la calidad de los datos

  • En este escenario, la Organización Internacional de Normalización o Estandarización (ISO) ha desarrollado una serie de normas técnicas que se centran en el Gobierno de Datos, Gestión de Calidad de Datos, y la Calidad de productos de software (Datos) teniendo también en cuenta los aspectos de Seguridad y Privacidad de los Datos.

  • Las normas relacionadas con la gestión y calidad de los datos son:

    • ISO/IEC 8000 | Data Quality Management
    • ISO/IEC 33000 | SPICE – Software Process Improvement and Capability dEtermination
    • ISO/IEC 38505 | Governance of IT — Governance of data
    • ISO/IEC 25012 | Data quality model*
    • ISO/IEC 11179 | metadata management

*La Norma ISO/IEC 25012 enumera las características de la calidad de los datos de la siguiente manera: exactitud, completitud, consistencia, credibilidad, actualidad, accesibilidad, conformidad, confidencialidad, eficiencia, precisión, trazabilidad, comprensibilidad, disponibilidad, portabilidad y recuperabilidad.

  • En el portal Datos.gob.es https://datos.gob.es/es/documentacion/normas-tecnicas-para-un-correcto-gobierno-del-dato se encuentra valiosa información sobre el tema:
    • Un artículo sobre las distintas normas técnicas a considerar a la hora de desarrollar un gobierno del dato efectivo.
    • El informe "Estándares para la economía del dato"(2)
    • Una infografía con las normas técnicas para un correcto gobierno del dato publicados por la Asociación Española de Normalización (UNE).

La norma ISO/IEC 8000

  • La Norma ISO/IEC 8000(2) establece un "...estándar internacional para la calidad de los datos de transacción, los datos de producto y los datos maestros empresariales."

    Fuente: https://datos.gob.es/es/blog/normas-tecnicas-para-alcanzar-la-calidad-del-dato

  • Se divide en 4 partes:

    • Conceptos generales de la calidad de los datos (ISO/IEC 8000-1, ISO/IEC 8000-2 e ISO/IEC 8000-8)
    • Procesos de gestión de la calidad de los datos (ISO/IEC 8000-6x)
    • Intercambio de datos maestros entre organizaciones (partes 100 a 150)
    • Aplicación de la calidad de los datos de producto (ISO/IEC 8000-311)
  • Según la UNE (2), la norma fomenta la portabilidad de los datos de un sistema a otro:

"La sintaxis y la codificación semántica determinan si los datos son portables de forma fiable. La norma ISO 8000 especifica los requisitos para la declaración de la sintaxis y la codificación semántica. Esto permite al usuario determinar las limitaciones de la portabilidad de los datos. Al solicitar datos que se ajusten a la norma ISO 8000, un usuario puede gestionar la portabilidad de los datos y proteger sus activos de propiedad intelectual." (UNE - Estándares para la economía del dato, 2022, p. 25)

  • Para la puesta en práctica del estándar en una organización la obra "Managing Data Quality A practical guide", de los autores Tim King, Julian Schwarzenbach recomienda focalizar en tres áreas:
    • La naturaleza de los datos
    • El propósito y objetivo de la gestión de la calidad de los datos
    • La implementación de un sistema de gestión de calidad de los datos siguiendo la norma ISO/IEC 8000-61(4).

Calidad de los datos: Otros frameworks y estándares

  • Además de la serie del estándar ISO/IEC 8000 podemos mencionar otros frameworks utilizados en el mercado para asegurar la calidad de los datos:

  • En definitiva, el uso de la serie del estándar ISO/IEC 8000 para la gestión de la calidad de los datos en ambientes Big data es una alternativa viable y recomendable para ser más eficientes y eficaces en la obtención de valiosa información de los mismos.

Bibliografía

  1. Fortino, M. H. (n.d.). Curso Introducción a big data. Fortinux.com. Retrieved March 2, 2022, from https://fortinux.github.io/bigdata-book/BigData-es001.html.
  2. UNE. Asociación Española de Normalización (n.d.). Retrieved September 8, 2023, from https://www.une.org/normalizacion_documentos/Estandares_economia_del_dato.pdf.
  3. ISO. (n.d.). ISO - International Organization for Standardization. Retrieved September 8, 2023, from https://www.iso.org/obp/ui/#iso:std:iso:8000:-1:ed-1:v1:en.
  4. King, T., & Schwarzenbach, J. (2020). Managing data quality: A practical guide. BCS, The Chartered Institute for IT.

Si buscas un formador para realizar este curso u otra actividad formativa (webinar, workshops, bootcamps, etc.) en tu organización, me puedes ubicar a través de la página de contacto. Muchas gracias.

Si te ha gustado el artículo puedes ayudarme haciendo una donación con criptomonedas. Gracias!!!