La fase 0 de cualquier estrategia de datos: El data cleansing

Artículo de Jorge González, Marketing Specialist en  Deyde DataCentric.

Los datos se han convertido en uno de los activos más valiosos de las empresas. Gracias a ellos, la toma de decisiones es más efectiva y, como consecuencia, aumenta la rentabilidad del negocio. No obstante, es crucial que se apliquen técnicas de data cleansing o limpieza de datos para aumentar la calidad de la información y, por ende, de los análisis y acciones que derivan de esta. Aquí nos referimos a procesos de validación, deduplicación, normalización y estandarización de datos. ¿Quieres conocerlos más a fondo?

En este artículo abordamos algunas de las técnicas y metodologías más recomendables para mejorar la calidad de la información del big data.

¿Qué es el data cleansing?

La limpieza de datos, también conocida en inglés como data cleansing, es un conjunto de técnicas y metodologías que buscan depurar la información que posee una empresa. Evidentemente, esto tiene efectos positivos en la calidad de los datos y un claro impacto en la toma de decisiones.

En esencia, la limpieza de datos es posible gracias a la localización de información irrelevante, incorrecta o parcial. Una vez se han identificado los valores tóxicos, se establecen las modificaciones oportunas o, simplemente, se eliminan por completo. Cuando una base de datos se mantiene limpia, la información resultante es más precisa y valiosa para el equipo directivo y los distintos departamentos.

¿Es importante la limpieza de datos?

Si bien es cierto que hemos dado algunas pinceladas sobre la importancia del data cleansing en el anterior apartado, es necesario que ahondemos un poco más en esta cuestión. ¿De verdad es tan indispensable aplicar limpieza de datos? Sí, y lo es por los siguientes motivos.

El big data se ha convertido poco a poco en una herramienta básica en el mundo empresarial. Con todo, manejar grandes cantidades de datos puede volverse en contra y arrojar información incorrecta. Tomar decisiones basadas en datos poco exactos puede tener resultados desastrosos. Es ahí, precisamente, donde entra la limpieza de datos, que se encarga de pulir la base de datos, manteniendo en ella únicamente aquella información fundamental.

El data cleansing ayuda a que los datos sean precisos y se asegura de que provengan de fuentes confiables. También favorece la coherencia y la validez de la información. Finalmente, dota a la base de datos de uniformidad, haciendo que todos los valores se rijan por los mismos patrones.

Un claro ejemplo de las consecuencias de la mala calidad de datos sucede en los formularios online que vuelcan datos a los sistemas de información de una empresa. Si por ejemplo queremos hacer un pedido a cualquier ecommerce, podemos introducir la dirección postal de muchas maneras:

Una mala asimilación de la información puede provocar errores en la entrega que suponen mayores costes y mala experiencia de cliente. Por otro lado, realizar un formulario demasiado largo o detallado impacta negativamente en la conversión online y en las cifras de negocio ¿Solución? Aplicar automatismos de calidad en la entrada de datos.

Podemos ver otro claro ejemplo con la validación de datos, supongamos que somos una empresa financiera de crédito. Tendremos que disponer de sistemas de control para identificar posibles fraudes de peticiones de crédito con un ID falso o que suponga un riesgo para la compañía como aquellas personas con historial de deudas impagadas. Un sistema de control manual puede suponer un coste demasiado elevado, ya no solo a nivel monetario si no también como coste de oportunidad al disponer de menos tiempo para procesar peticiones con mayor potencial o valor. ¿Solución? Efectivamente, instalar sistemas de control automáticos de calidad de datos

Estos ejemplos que parecen algo del pasado siguen suponiendo quebraderos de cabeza para las compañías. Según el último estudio “El Estado de la Calidad de los Datos del CRM”, realizado por Validity, el 44% de los entrevistados estima que su empresa pierde más del 10% de los ingresos anuales debido a la mala calidad de los datos.

Técnicas de limpieza de datos

La limpieza de datos no se corresponde con una única técnica. De hecho, como hemos comentado en los ejemplos anteriores, hay varias acciones que favorecen el data cleansing y que aumentan la calidad de la información. Hacemos un repaso por algunas de las metodologías más relevantes.

Validación de datos nuevos

La validación de datos nuevos es uno de los primeros pasos en el data cleansing. Evitar desde un principio la introducción de información de poco valor o incoherente ayuda a que las tareas de limpieza no sean tan complejas a posteriori y a reducir pérdida de tiempo en datos ineficientes. Por consiguiente, hay que asegurarse de que se introducen nuevos registros siguiendo unos estándares de calidad preestablecidos por nosotros y adaptados a las necesidades de nuestro negocio.

Búsqueda de datos duplicados

El big data no puede alimentarse de datos duplicados. No es extraño que en los grandes conjuntos de información aparezcan valores idénticos registrados dos o más veces. Esto sucede porque varias fuentes están enviando la misma información a la base de datos o porque existe más de un sistema de información que no están relacionados entre sí y que cuentan con el mismo registro. ¿Quién no ha recibido la clásica llamada de oferta de un servicio que ya hemos rechazado anteriormente?

Actualización de la información

Los datos desactualizados no sirven para mucho. Algunos estudios indican que la mayoría de la información que almacenan las empresas se queda obsoleta en un corto espacio de tiempo. En ocasiones, los datos tienen una vida útil inferior a un año. Por eso, aplicar técnicas de data cleansing también pasa por mantener al día los datos que se guardan. ¿Cómo lograrlo? Existen algunas sugerencias útiles:

  • Detectar los datos de cliente erróneos. Los correos electrónicos y otras credenciales cambian constantemente. Por ejemplo, en una base de datos quizá se mantengan direcciones de email que ya no están activas. Eliminarlas es una buena manera de mantener limpia la base de datos y de no dedicar esfuerzos a contactos que han dejado de estar disponibles.
  • Alimentando el big data con información reciente. La introducción de datos en la base de datos debe incluir información actualizada, ya que permite tomar decisiones de un modo rápido y preciso en caso de que sea necesario.
  • Gobernanza del dato. Establecer procesos y metodologías de actualización del dato es muy importante ¿Cuándo consideramos que un dato está desactualizado? ¿1 año? ¿2 años? ¿Cómo validamos nuestra información? ¿a través del usuario? ¿a través de fuentes externas? Todas estas preguntas deben estar contempladas en la estrategia de calidad de datos.

Normalización y estandarización de datos

En este sentido, al normalizar lo que hacemos es separar la información de origen en diferentes campos, y por ello hablamos también de términos como campificar o parsear la información.

En ocasiones a la labor de normalizar también se le denomina estandarizar, que se trata de aplicar un estándar. Ciertos datos, una vez normalizados, son susceptibles de ser estandarizados y de asignar un código único al elemento tratado.

Esta normalización también la realizamos cuando existen varias formas de escribir una palabra como Avenida: avda, avd., av., avenida,…, y la convertimos en una sola, como por ejemplo ‘AVDA’. Lo mismo sucede al hablar de las formas de escribir Izquierda: izq, izda IZQDA, que pasamos a convertir en ‘IZDA’.

En todos los casos, establecemos normas y vemos también que la normalización permite a su vez la corrección de los datos. Por ejemplo, si nos llega un nombre como “FANCISCO VTE” el proceso de normalización, además de separar en nombre y apellido, lo corregiría como “FRANCISCO VICENTE”, gracias a tablas de conocimiento que relacionan palabras con su corrección.

Jorge González

Un tipo de datos a normalizar y estandarizar de tipo numérico son los teléfonos, con acciones como la de asignar siempre el prefijo, separar el prefijo del número de teléfono en diferentes campos, eliminar los caracteres no numéricos del teléfono… En el caso de los documentos de identidad, también podemos normalizarlo eliminando caracteres no alfanuméricos (puntos, guiones, comas, …).

Establecimiento de una visión única del dato

Debido a la omnicanalidad cada vez se generan más puntos de contacto con los clientes, y esto genera muchos datos por el camino. Por otro lado, en las empresas hemos aumentado el uso de diversos aplicativos y plataformas que suelen generar una base de datos. Esto hace que en las empresas se multipliquen las bases de datos y dificulta automatizar procesos o establecer estrategias de marketing o comerciales efectivas. De modo, que debo ser capaz de relacionar registros y si tengo a “Sebastián Rodríguez” que tiene una tarjeta de fidelización, debo ser capaza de relacionar que es el mismo que “Sebastián Rodríguez” que nos compra a través del ecommerce. A medida que avanzamos en querer automatizar y agilizar procesos, en algunos casos en real time, se requerirá con más urgencia de datos estandarizados, limpios y relacionados.

En definitiva, mejorar la precisión y la efectividad de las decisiones que se toman en una compañía requiere un proceso de calidad de datos exhaustivo que puede suponer un coste muy alto para la compañía si no se establecen políticas adecuadas. Una problemática que se acentúa con las tendencias actuales de apostar por proyectos de analítica y Big Data. Por eso la fase 0 de cualquier estrategia de datos es el data cleansing.

Expertos en limpieza de datos

Si necesitas ayuda de profesionales del data cleansing. En Deyde DataCentric llevamos varias décadas trabajando con empresas para mejorar la calidad de sus datos. Sé nuestro próximo caso de éxito.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio