RECOLECCIÓN DE LOS DATOS
FASE DE RECOLECCIÓN DE LOS DATOS
En esta fase se recolectan los datos desde los sistemas fuentes para realizar
sobre ellos una descripción cualitativa y cuantitativa, posteriormente se
procede a determinar sus propiedades y verificar la calidad de los mismos.
Esta fase consta de las siguientes etapas:
1. Identificación de las fuentes de los datos: se identifican los
sistemas fuentes que contienen los datos y se extraen para posteriormente
adecuarlos, es importante tener en cuenta que los datos pueden residir en
diversos tipos de sistemas, a continuación mencionamos algunos de los
más típicos dentro de las organizaciones:
• Hojas de cálculo
• Bases de datos
• Archivos estadísticos
• Sistemas de información empresarial (ERP, ERP, FRM, HRM, MRP,
SCM)
• Archivos documentales físicos y digitales.
Luego de extraer los datos se elabora un informe que se denomina “reporte
de recolección de datos” el cual contiene la lista de los datos extraídos,
su localización, las técnicas utilizadas para su recolección y los problemas
que se presentaron durante este proceso, así como la forma en que fueron
resueltos.
2. Descripción de los datos: se realiza la descripción de los
datos extraídos desde los sistemas fuentes con el fin de establecer sus
características y métricas de la siguiente forma:
• Descripción cualitativa: se refiere a las cualidades relevantes de
los datos que pueden ser descritas utilizando: Significado de la tabla
que contiene los datos, descripción de la campo que contiene el dato y
descripción del tipo de campo.
• Descripción cuantitativa: se refiere a las métricas que pueden ser
calculadas u obtenidas del volumen de datos, como: Número de campos
por tabla, número de registros por tabla y número de relaciones.
• La información recolectada de los datos se consigna en un informe
denominado “reporte de la descripción de datos”
3. Exploración de los datos: Se procede a explorar los datos que
han sido extraídos desde los sistemas fuentes, con el fin de encontrar
una estructura general para los datos “homogeneidad” y de identificar
problemas “datos paralizantes” que puedan ocurrir durante las fases
siguientes. Las novedades encontradas en esta fase se registran en un
documento denominado “Reporte de exploración de datos”.
4. Verificación de la calidad y consistencia de los datos: Se
efectúan verificaciones sobre los datos, que permitan asegurar la
consistencia de los valores individuales de los campos, la cantidad y
distribución de los valores nulos y la corrección de valores fuera de rango
que puedan constituirse en elementos que alteren el resultado del proceso.
Los resultados de esta fase se consignan en un documento que lleva por
nombre “Reporte de calidad de datos”




Comentarios
Publicar un comentario