Actualidad, Data

Las 4 ‘uves’ sin las que el Big Data estaría perdido

El big data suelen diferenciarse por las cuatro V: velocidad, veracidad, volumen y variedad. Los investigadores asignan diversas medidas de importancia a cada una de las métricas, a veces tratándolas por igual, y a veces separando una del resto.

Hoy haremos esto último. La velocidad se ha visto afectada por un margen tan grande desde el desarrollo de la definición de «big data» que la adquisición en tiempo real se ha hecho posible. En otras palabras, la velocidad se está acercando a su capacidad máxima, lo que creo que indica no sólo un cambio cuantitativo, sino también cualitativo.

Varias iteraciones de Big Data

Durante algún tiempo, los big data han sido tratados como una palabra de moda sin ningún significado. Esta opinión podría estar influenciada por la complejidad inherente del fenómeno, ya que los big data se componen de cuatro piezas distintas, cada una de las cuales puede tener diferentes combinaciones.

Así, puede parecer que hay muchas empresas de «big data», ya que algunas podrían haberse centrado en el volumen, otras en la variedad y una tercera en la variedad o la velocidad. Al igual que la antigua teoría del humorismo, diferentes combinaciones de las cuatro V podrían haber conducido a diferentes procesos y resultados, todos ellos englobados bajo el paraguas de los grandes datos.

Sin embargo, hay una advertencia importante. Potenciar un aspecto de las cuatro V significa renunciar a otro. Siempre hay un coste de oportunidad asociado a los procesos, y lo mismo ocurre con el big data. Si una empresa se centra en la variedad de datos, por ejemplo, el volumen o la velocidad pueden perderse.

Podemos ver mucho de esto en la práctica con el web scraping (es decir, la recopilación automatizada de datos públicos en línea). En la actualidad, no existe una solución de raspado web que se adapte a todos los casos, ya que es necesario realizar pequeños ajustes en función del sitio web en cuestión. Aunque se han producido algunos avances prometedores en materia de aprendizaje automático e inteligencia artificial, aún no hemos llegado a ese punto.

Jugando con las aplicaciones de raspado de la web conseguimos una mayor variedad de datos. Sin embargo, cada minuto que pasamos trabajando en eso es un minuto que no dedicamos a otra cosa. Además, es poco probable que una aplicación específica también se esté ejecutando mientras se trabaja en ella, lo que significa que estamos perdiendo eficiencia para esa aplicación específica.

Sin embargo, la velocidad y la veracidad son algo diferente del volumen y la variedad. Las dos primeras no dependen de terceros, al menos en el mismo sentido que las otras dos.

Volumen y variedad infinitos

Aunque se ha calculado el número de petabytes de contenidos que se producen en línea cada día, podríamos considerar que el volumen total de big data es infinito. Gran parte de lo que constituye el big data incluye otras fuentes, como datos de sensores, señales de GPS e incluso fotografías.

Así, la producción de datos se produce a todas horas, y sigue creciendo exponencialmente. Hoy en día, incluso las aplicaciones de recopilación de datos dejan alrededor varios puntos de datos y hacen que algunos de ellos cambien con el tiempo (como los diseños de los sitios web). Así que hay una producción y aceleración constante de datos.

En otras palabras, el volumen de datos es infinito, ya que supera las posibilidades de cualquier iteración actual de métodos de recogida y análisis. Es probable que el volumen siga superando nuestras capacidades en el futuro inmediato, si no para siempre.

La variedad es muy parecida. Aunque no se inventan nuevos tipos de datos, al menos a gran escala, siempre existe la posibilidad de ser más granular con la variedad. Podemos tratar todos los datos basados en texto como si fueran iguales, pero la mayoría estaría de acuerdo en que hay alguna diferencia entre un artículo de formato largo y un solo comentario. Aunque ambos son de la misma variedad, pueden ejercer diferentes efectos en el mundo real.

Al fin y al cabo, si no fuera así, la variedad no sería una categoría importante, ya que podríamos separar todos los datos en estructurados o no estructurados y acabar con ellos. Hay mucha granularidad en juego, y se inventarán nuevos tipos por el camino.

Velocidad y veracidad finitas

Por otro lado, la velocidad y la veracidad son finitas e independientes de terceros. El flujo de datos ha alcanzado su punto álgido: hay muchas formas de adquirir datos en tiempo real. Desde las API proporcionadas por las empresas, como la API de Twitter, hasta las soluciones de raspado de la web, todas ellas han permitido la adquisición de datos en tiempo real.

Incluso en este último caso, en el que los datos se adquieren sin tener acceso directo a las fuentes internas de una empresa (más bien, se adquieren a través de fuentes públicas externas) se ha alcanzado la capacidad de tiempo real. Por lo tanto, la velocidad, en el sentido del flujo de datos desde la fuente hasta el destino, ha alcanzado su punto álgido.

Aunque seguramente veremos muchas optimizaciones en el camino que reducirán los costes de adquisición en tiempo real, el crecimiento de la velocidad es algo limitado. Aunque aparezca un nuevo tipo que requiera nuevos métodos de adquisición, el tiempo real es el fin de la velocidad.

La veracidad sigue la misma tendencia. Al estar definida por la exactitud de los datos, la veracidad tiene un límite. Las cosas se complican un poco más que con la velocidad, ya que verificar y medir la veracidad se acerca más a una empresa teórica. Aunque el límite de la veracidad existe en alguna parte, es poco probable que se pueda maximizar en la práctica.

Samuel Rodríguez

Periodista a cargo de Ecommerce News desde 2012. Inquieto. En el camino, creé otros medios, como @BigDataMagazine y @CybersecurityNews. Organizador de cientos de eventos profesionales. Ahora con un pie en Portugal y otro en México... Muy del @GetafeCF

TE PUEDE GUSTAR

Inteligencia artificial vs inteligencia emocional: así se reequilibra el modelo asegurador

Aldana Balmaceda
03/07/2025

La transformación digital en el sector asegurador avanza a una velocidad sin precedentes. Tecnologías como la inteligencia artificial, el aprendizaje automático o la automatización

La IA generativa tendrá un papel crítico en la ciberseguridad en 2030

Aldana Balmaceda
03/07/2025

Hoy en día, la relación directa entre la adopción de nuevas tecnologías y la ciberseguridad en las organizaciones es incuestionable. A medida que las

Cuatro lecciones para crear una empresa nativa de IA

Aldana Balmaceda
02/07/2025

La IA generativa ha redefinido lo que es posible, pero para los líderes empresariales, el reto va más allá de la mera adopción de

Canva integra la generación de videos con voz con IA

Aldana Balmaceda
02/07/2025

Canva acaba de anunciar que ha incorporado generación de video con audio mediante IA, impulsada por el modelo Veo 3 de Google. De hecho,

Solo el 9% usa IA

Aldana Balmaceda
01/07/2025

Semrush, plataforma de gestión de visibilidad online y marketing de contenidos, ha publicado su último informe titulado The Rise of the Full-Stack Marketer, un

Bosch apuesta fuertemente por la IA como motor de crecimiento

Aldana Balmaceda
01/07/2025

Hoy en día, la inteligencia artificial (IA) está presente en todas partes. Bosch reconoció desde muy temprano las oportunidades que ofrecía esta tecnología e

EVENTOS

Bosch apuesta fuertemente por la IA como motor de crecimiento

Eventos, Inteligencia Artificial

Málaga se proyecta con la IA y computación cuántica a nivel mundial con DES2025

AI, Eventos

Sin inversión en tecnología, Europa será una esclava digital de otras potencias

Eventos, Machine Learning

El turismo se reinventa con IA, realidad aumentada e influencers virtuales

AI, Eventos

El ministro destaca el liderazgo tecnológico de España y pide más inversión y una IA con valores

AI, Eventos

El impacto de la IA en los ciberseguros

Eventos

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
Acepto recibir la newsletter y comunicaciones de BigData Magazine conforme a la Política de Privacidad

Acepto recibir comunicaciones comerciales de terceros relacionados con el sector del BigData e IA

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

SÍGUENOS EN FACEBOOK

SÍGUENOS EN TWITTER

SÍGUENOS EN LINKEDIN

SÍGUENOS EN YOUTUBE

MÁS COMENTADOS

Cómo la analítica avanzada puede mejorar las operaciones en el sector retail

Actualidad, Business Intelligence, Inteligencia Artificial, Retail

«El Big Data en el entorno de la industria logística va a ser imprescindible y SEUR lo vimos hace años»

Actualidad, Entrevistas

Utilización de Big Data y Machine Learning en la Industria 4.0

Inteligencia Artificial, Internet of Things

El uso de la inteligencia artificial en el diagnóstico precoz del cáncer de piel

Actualidad, Business Intelligence, Cases Studies, Data, Machine Learning, Salud

Detectado el robo de datos a gamers desde la Deep Web

Actualidad

Iluminación IoT gracias a la alianza IoT-Ready

Internet of Things