“Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud

  • Amezquita Tovar J
  • Eslava Blanco H
N/ACitations
Citations of this article
13Readers
Mendeley users who have this article in their library.

Abstract

La información se ha convertido en un activo para las compañías debido a que la mayoría de las decisiones estratégicas de los negocios están basadas en el análisis de los datos, sin embargo, no siempre se obtienen los mejores resultados en estos análisis debido a la baja calidad de la información.  La calidad de la información tiene varias dimensiones de evaluación, lo cual hace compleja la tarea de lograr un nivel adecuado de calidad. Una de las principales actividades antes de proceder con cualquier tipo de análisis es el preprocesamiento de los datos. Esta actividad es una de las más demandantes en tiempo y no siempre se obtienen los niveles esperados de calidad o se cubren las dimensiones de evaluación de mayor impacto. Este trabajo propone el uso de machine learning como herramienta para realizar limpieza de datos en la dimensión de completitud y coherencia, su validación se hace sobre un conjunto de datos suministrado por una entidad estatal encargada de la protección de los derechos de los niños a nivel nacional. El trabajo de investigación inicia con la selección de las herramientas de procesamiento la información, el análisis descriptivo de los datos, la identificación puntual de los problemas a los cuales se aplicarán las técnicas de machine learning para mejorar la calidad de los datos, experimentación y evaluación de los diferentes modelos y finalmente la implementación del modelo de mejor desempeño. Dentro de los resultados de este trabajo se tiene una mejora en la dimensión de completitud disminuyendo en un 4.9% los datos nulos y en la dimensión de coherencia un 2.6% de los registros con contradicciones, validando de esta forma el uso de machine learning para la limpieza de datos.

Cite

CITATION STYLE

APA

Amezquita Tovar, J. C., & Eslava Blanco, H. J. (2022). “Supervised Learning” para limpieza de datos en las dimensiones de consistencia y completitud. INGENIERÍA Y COMPETITIVIDAD, 24(02), 19. https://doi.org/10.25100/iyc.v24i02.11361

Register to see more suggestions

Mendeley helps you to discover research relevant for your work.

Already have an account?

Save time finding and organizing research with Mendeley

Sign up for free