BigDataPedia: Data Cleansing. Todo lo que debes saber sobre la ‘limpieza de datos’

13 noviembre, 2020
6 Compartido 995 Visualizaciones

Se trata de uno de los pasos más importantes para poder organizar toda la información y poder procesarla correctamente.

Al utilizar datos, la mayoría de las personas están de acuerdo en que sus conocimientos y análisis son tan buenos como los datos que están utilizando. No obstante, el llamado Data Cleansing, o limpieza de datos, es uno de los pasos más importantes para la organización de esta información si se desea crear una cultura en torno a la toma de decisiones de datos de calidad.

¿Qué es la limpieza de datos?

La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, corruptos, formateados incorrectamente, duplicados o incompletos dentro de un conjunto de datos.

Cuando se combinan varias fuentes de datos, se dan muchas circunstancias para que los datos se dupliquen o se etiqueten incorrectamente. Si los datos son incorrectos, los resultados y los algoritmos no son fiables, aunque parezcan correctos.

No existe una forma absoluta de prescribir los pasos exactos en el proceso de limpieza de datos porque los procesos variarán de un conjunto de datos a otro. Pero es fundamental establecer una plantilla para el proceso de limpieza de datos para que sepas que lo estás haciendo de la manera correcta en todo momento.

Limpieza de datos vs Transformación de datos

La limpieza de datos es el proceso que elimina los datos que no pertenecen a su conjunto de datos. La transformación de datos es el proceso de convertir datos de un formato o estructura a otro.

¿Cómo se limpian los datos?

Lo primero que hay que hacer es eliminar las observaciones no deseadas de el conjunto de datos, incluidas las observaciones duplicadas o las irrelevantes.

Las observaciones irrelevantes se dan cuando nota observaciones que no encajan en el problema específico que estás tratando de analizar. Por ejemplo, si deseas analizar datos sobre los clientes millennials, pero tu conjunto de datos incluye generaciones anteriores, puedes eliminar esas observaciones irrelevantes.

Los errores estructurales ocurren cuando mide o transfiere datos y observas convenciones de nomenclatura extrañas, errores tipográficos o mayúsculas incorrectas. Estas inconsistencias pueden causar categorías o clases mal etiquetadas. Por ejemplo, es posible que aparezcan «N / A» y «No aplicable», pero deben analizarse como la misma categoría.

A menudo, habrá observaciones únicas en las que, de un vistazo, no parecen encajar dentro de los datos que estás analizando. Si tienes una razón legítima para eliminar un valor atípico, como una entrada de datos incorrecta, hacerlo ayudará al rendimiento de los datos con los que estás trabajando.

Recuerda: el hecho de que exista un valor atípico no significa que sea incorrecto. Este paso es necesario para determinar la validez de ese número. Si un valor atípico resulta ser irrelevante para el análisis o es un error, considera eliminarlo.

Te podría interesar

SA3200D maximiza la disponibilidad y protección de los datos de las empresas
Actualidad
7 compartido1,049 visualizaciones
Actualidad
7 compartido1,049 visualizaciones

SA3200D maximiza la disponibilidad y protección de los datos de las empresas

Redacción BDM - 5 febrero, 2020

Esta diseñado no solo para almacenar datos, sino que también tiene entre sus características un sistema de seguridad para proteger la información y evitar las perdidas de…

Seis tendencias que determinarán el crecimiento del machine learning en 2019
Actualidad
28 compartido4,709 visualizaciones
Actualidad
28 compartido4,709 visualizaciones

Seis tendencias que determinarán el crecimiento del machine learning en 2019

José Luis Arcángel - 11 enero, 2019

El principal reto de la Inteligencia Artificial es dar el salto de un entorno de “laboratorio” a uno de negocio real. Las compañías españolas apuestan por el…

Nuestros datos personales mueven millones de euros sin que nos demos cuenta
BD Network
19 compartido2,988 visualizaciones
BD Network
19 compartido2,988 visualizaciones

Nuestros datos personales mueven millones de euros sin que nos demos cuenta

Mónica Gallego - 12 agosto, 2019

Los datos de los usuarios se han convertido en el recurso más valioso en la actualidad, generando ingresos millonarios, unos 730MM solo en la UE, de los que sus dueños no perciben…

Dejar comentario

Su email no será publicado

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.