BigDataPedia: Data Cleansing. Todo lo que debes saber sobre la ‘limpieza de datos’

13 noviembre, 2020
6 Compartido 1,640 Visualizaciones

Se trata de uno de los pasos más importantes para poder organizar toda la información y poder procesarla correctamente.

Al utilizar datos, la mayoría de las personas están de acuerdo en que sus conocimientos y análisis son tan buenos como los datos que están utilizando. No obstante, el llamado Data Cleansing, o limpieza de datos, es uno de los pasos más importantes para la organización de esta información si se desea crear una cultura en torno a la toma de decisiones de datos de calidad.

¿Qué es la limpieza de datos?

La limpieza de datos es el proceso de corregir o eliminar datos incorrectos, corruptos, formateados incorrectamente, duplicados o incompletos dentro de un conjunto de datos.

Cuando se combinan varias fuentes de datos, se dan muchas circunstancias para que los datos se dupliquen o se etiqueten incorrectamente. Si los datos son incorrectos, los resultados y los algoritmos no son fiables, aunque parezcan correctos.

No existe una forma absoluta de prescribir los pasos exactos en el proceso de limpieza de datos porque los procesos variarán de un conjunto de datos a otro. Pero es fundamental establecer una plantilla para el proceso de limpieza de datos para que sepas que lo estás haciendo de la manera correcta en todo momento.

Limpieza de datos vs Transformación de datos

La limpieza de datos es el proceso que elimina los datos que no pertenecen a su conjunto de datos. La transformación de datos es el proceso de convertir datos de un formato o estructura a otro.

¿Cómo se limpian los datos?

Lo primero que hay que hacer es eliminar las observaciones no deseadas de el conjunto de datos, incluidas las observaciones duplicadas o las irrelevantes.

Las observaciones irrelevantes se dan cuando nota observaciones que no encajan en el problema específico que estás tratando de analizar. Por ejemplo, si deseas analizar datos sobre los clientes millennials, pero tu conjunto de datos incluye generaciones anteriores, puedes eliminar esas observaciones irrelevantes.

Los errores estructurales ocurren cuando mide o transfiere datos y observas convenciones de nomenclatura extrañas, errores tipográficos o mayúsculas incorrectas. Estas inconsistencias pueden causar categorías o clases mal etiquetadas. Por ejemplo, es posible que aparezcan «N / A» y «No aplicable», pero deben analizarse como la misma categoría.

A menudo, habrá observaciones únicas en las que, de un vistazo, no parecen encajar dentro de los datos que estás analizando. Si tienes una razón legítima para eliminar un valor atípico, como una entrada de datos incorrecta, hacerlo ayudará al rendimiento de los datos con los que estás trabajando.

Recuerda: el hecho de que exista un valor atípico no significa que sea incorrecto. Este paso es necesario para determinar la validez de ese número. Si un valor atípico resulta ser irrelevante para el análisis o es un error, considera eliminarlo.

Te podría interesar

El Big Data y su influencia en el fútbol
Actualidad
6 compartido1,130 visualizaciones
Actualidad
6 compartido1,130 visualizaciones

El Big Data y su influencia en el fútbol

Redacción BDM - 25 enero, 2021

A lo largo de estas últimas dos décadas, el desarrollo de Internet y las nuevas tecnologías han impulsado enormemente al Big Data, otorgándole una importancia fundamental en…

Grupo CMC muestra la potencia de Big Data y analytics aplicada a la identificación y evaluación de riesgos
BD Network
17 compartido2,532 visualizaciones
BD Network
17 compartido2,532 visualizaciones

Grupo CMC muestra la potencia de Big Data y analytics aplicada a la identificación y evaluación de riesgos

Mónica Gallego - 29 octubre, 2018

La consultora integra la primera solución automatizada de escucha social en el análisis de riesgo financiero, lo que permite aumentar hasta en un 30% su eficacia frente…

«El rebrote, según el análisis de datos que he hecho no va a existir, al menos en España»
Entrevistas
8 compartido2,227 visualizaciones
Entrevistas
8 compartido2,227 visualizaciones

«El rebrote, según el análisis de datos que he hecho no va a existir, al menos en España»

Redacción BDM - 29 junio, 2020

Una entrevista cargada de opiniones contudentes que nos ofrece un doctor cum laude en Machine Learning, y que tiene claro que las cosas tienen que cambiar mucho en la…

Dejar comentario

Su email no será publicado

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.