seguridad de la información

¿Cuáles son las normas, estándares y marcos que nos ayudan a gestionar la calidad de los datos en entornos Big data?

Palabras claves: big data, ISO 8000, calidad de los datos.

Tabla de contenidos:

Un mundo de datos

  • En 2025, cada persona conectada en el mundo interactuará dejando su huella digital unas 4900 veces por día – eso significa una interacción cada 18 segundos(1).

    “El mundo guiado por los datos va a estar siempre activo, siempre haciendo el seguimiento de todo, siempre monitoreando, siempre escuchando y siempre viendo – porque va a estar siempre aprendiendo.”

    Fuente: The Digitization of the World – From Edge to Core. IDC White Paper. Doc# US44413318. Noviembre 2018.

  • Con base en estadísticas del mercado, se cree que los datos generados en el mundo aumentan a un ritmo del 40% anualmente. Para 2025 se crearán más de 180 zetabytes según la plataforma global de datos y business intelligence Statista https://www.statista.com/statistics/871513/worldwide-data-created/.

  • Statista aumentó estos valores luego de la pandemia de COVID-19 ya que hubo un enorme cambio de costumbres en el mercado laboral y social al llevar varias de las interacciones humanas al ámbito virtual; aumentando en consecuencia la cantidad de datos disponibles.

  • Por su parte IDC predijo en 2018 que la Global Datasphere crecerá desde los 33 Zettabytes en aquel año hasta los 175 Zettabytes en 2025.

    Fuente: The Digitization of the World – From Edge to Core. IDC White Paper. Doc# US44413318. Noviembre 2018.

  • En este contexto, hablamos de Big data y nos encontramos con la problemática de gestionar la calidad de estos datos en nuestras organizaciones.

¿Qué es Big data?

  • Según la norma ISO/IEC DIS 20546(en) Information technology — Big data — Overview and vocabulary, la definición de Big data es la siguiente:

    «conjuntos de datos extensos, principalmente en las características de los datos de volumen, variedad, velocidad y/o variabilidad, que requieren una tecnología escalable para un almacenamiento, manipulación, gestión y análisis eficientes.»

  • Aunque agrega una nota a la entrada especificando que este término «se usa comúnmente de muchas maneras diferentes, por ejemplo, como el nombre de la tecnología escalable utilizada para manejar conjuntos de datos extensos de big data».

    Fuente: https://www.iso.org/obp/ui/#iso:std:iso-iec:20546:dis:ed-1:v1:en.

  • De forma similar la consultora Gartner lo define como:

    «activos de datos de gran volumen, alta velocidad y/o gran variedad que exigen formas innovadoras y rentables de procesamiento de la información que permiten una mejor comprensión, toma de decisiones y automatización de procesos.»

    Fuente: Gartner’s Glossary. https://www.gartner.com/en/information-technology/glossary/big-data.

  • Entre los beneficios aportados por Big data se encuentran:

    • Reducción de costes.
    • Descubrir maneras más eficientes de hacer negocios.
    • Mejor toma de decisiones.
    • Crear nuevos productos y servicios que el cliente quiere y necesita.

    Fuente: What is Big Data?. Oracle. https://www.oracle.com/big-data/what-is-big-data.html.

    big data stack

Serie de normas ISO/IEC 20547

  • La serie ISO/IEC 20547 está destinada a proporcionar a los usuarios un enfoque estandarizado para desarrollar e implementar arquitecturas de Big data y proporcionar referencias para enfoques.

  • El vocabulario y los conceptos comunes están descritos en la ISO/IEC 20546.

    Fuente: Getting big on data https://www.iso.org/news/ref2578.html.

  • Por su parte, para avanzar en el progreso de Big Data, el Grupo de Trabajo Público de Big Data del NIST (NBD-PWG) https://www.nist.gov/itl/big-data-nist trabaja para desarrollar un consenso sobre conceptos importantes y fundamentales relacionados con Big Data.

  • Con este objetivo, ha puesto a disposición del público el NIST Big Data Interoperability Framework que consta de 9 documentos que van desde el NIST Big Data Interoperability Framework: Volume 1, Definitions. Version 3.0 (https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-1r2.pdf) hasta el Volume 9: Modernization and Adoption (https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-10r1.pdf).

  • Otras normas que se pueden considerar a la hora de implementar una solución de Big data son:

    • ISO/IEC 55000 | Asset Management
    • ISO/IEC 9001 | Quality Management
    • ISO/IEC 20000 | IT Service Management
    • ISO/IEC 31000 | Risk Management
    • ISO/IEC 27000 | Security Management

Gobierno de datos / Data governance

  • El gobierno de datos es una serie de principios, estándares y prácticas que se aplican de punta a punta en el ciclo de vida de los datos (recolección, almacenamiento, uso, protección, archivo y eliminación) para asegurar que los mismos sean confiables y consistentes.
  • Para ello establece estructuras organizacionales, confirma responsables de datos, Hace cumplir reglas y políticas, documenta procesos y registra métricas y términos de negocio comunes.

    Fuente: https://www.informatica.com/blogs/data-governance-vs-data-management-whats-the-difference.html.

Gestión de la calidad de los datos

  • En este escenario, la Organización Internacional de Normalización o Estandarización (ISO) ha desarrollado una serie de normas técnicas que se centran en el Gobierno de Datos, Gestión de Calidad de Datos, y la Calidad de productos de software (Datos) teniendo también en cuenta los aspectos de Seguridad y Privacidad de los Datos.

  • Las normas relacionadas con la gestión y calidad de los datos son:

    • ISO/IEC 8000 | Data Quality Management
    • ISO/IEC 33000 | SPICE – Software Process Improvement and Capability dEtermination
    • ISO/IEC 38505 | Governance of IT — Governance of data
    • ISO/IEC 25012 | Data quality model*
    • ISO/IEC 11179 | metadata management

*La Norma ISO/IEC 25012 enumera las características de la calidad de los datos de la siguiente manera: exactitud, completitud, consistencia, credibilidad, actualidad, accesibilidad, conformidad, confidencialidad, eficiencia, precisión, trazabilidad, comprensibilidad, disponibilidad, portabilidad y recuperabilidad.

  • En el portal Datos.gob.es https://datos.gob.es/es/documentacion/normas-tecnicas-para-un-correcto-gobierno-del-dato se encuentra valiosa información sobre el tema:
    • Un artículo sobre las distintas normas técnicas a considerar a la hora de desarrollar un gobierno del dato efectivo.
    • El informe «Estándares para la economía del dato»(2)
    • Una infografía con las normas técnicas para un correcto gobierno del dato publicados por la Asociación Española de Normalización (UNE).