El big data suelen diferenciarse por las cuatro V: velocidad, veracidad, volumen y variedad. Los investigadores asignan diversas medidas de importancia a cada una de las métricas, a veces tratándolas por igual, y a veces separando una del resto.
Hoy haremos esto último. La velocidad se ha visto afectada por un margen tan grande desde el desarrollo de la definición de «big data» que la adquisición en tiempo real se ha hecho posible. En otras palabras, la velocidad se está acercando a su capacidad máxima, lo que creo que indica no sólo un cambio cuantitativo, sino también cualitativo.
Varias iteraciones de Big Data
Durante algún tiempo, los big data han sido tratados como una palabra de moda sin ningún significado. Esta opinión podría estar influenciada por la complejidad inherente del fenómeno, ya que los big data se componen de cuatro piezas distintas, cada una de las cuales puede tener diferentes combinaciones.
Así, puede parecer que hay muchas empresas de «big data», ya que algunas podrían haberse centrado en el volumen, otras en la variedad y una tercera en la variedad o la velocidad. Al igual que la antigua teoría del humorismo, diferentes combinaciones de las cuatro V podrían haber conducido a diferentes procesos y resultados, todos ellos englobados bajo el paraguas de los grandes datos.
Sin embargo, hay una advertencia importante. Potenciar un aspecto de las cuatro V significa renunciar a otro. Siempre hay un coste de oportunidad asociado a los procesos, y lo mismo ocurre con el big data. Si una empresa se centra en la variedad de datos, por ejemplo, el volumen o la velocidad pueden perderse.
Podemos ver mucho de esto en la práctica con el web scraping (es decir, la recopilación automatizada de datos públicos en línea). En la actualidad, no existe una solución de raspado web que se adapte a todos los casos, ya que es necesario realizar pequeños ajustes en función del sitio web en cuestión. Aunque se han producido algunos avances prometedores en materia de aprendizaje automático e inteligencia artificial, aún no hemos llegado a ese punto.
Jugando con las aplicaciones de raspado de la web conseguimos una mayor variedad de datos. Sin embargo, cada minuto que pasamos trabajando en eso es un minuto que no dedicamos a otra cosa. Además, es poco probable que una aplicación específica también se esté ejecutando mientras se trabaja en ella, lo que significa que estamos perdiendo eficiencia para esa aplicación específica.
Sin embargo, la velocidad y la veracidad son algo diferente del volumen y la variedad. Las dos primeras no dependen de terceros, al menos en el mismo sentido que las otras dos.
Volumen y variedad infinitos
Aunque se ha calculado el número de petabytes de contenidos que se producen en línea cada día, podríamos considerar que el volumen total de big data es infinito. Gran parte de lo que constituye el big data incluye otras fuentes, como datos de sensores, señales de GPS e incluso fotografías.
Así, la producción de datos se produce a todas horas, y sigue creciendo exponencialmente. Hoy en día, incluso las aplicaciones de recopilación de datos dejan alrededor varios puntos de datos y hacen que algunos de ellos cambien con el tiempo (como los diseños de los sitios web). Así que hay una producción y aceleración constante de datos.
En otras palabras, el volumen de datos es infinito, ya que supera las posibilidades de cualquier iteración actual de métodos de recogida y análisis. Es probable que el volumen siga superando nuestras capacidades en el futuro inmediato, si no para siempre.
La variedad es muy parecida. Aunque no se inventan nuevos tipos de datos, al menos a gran escala, siempre existe la posibilidad de ser más granular con la variedad. Podemos tratar todos los datos basados en texto como si fueran iguales, pero la mayoría estaría de acuerdo en que hay alguna diferencia entre un artículo de formato largo y un solo comentario. Aunque ambos son de la misma variedad, pueden ejercer diferentes efectos en el mundo real.
Al fin y al cabo, si no fuera así, la variedad no sería una categoría importante, ya que podríamos separar todos los datos en estructurados o no estructurados y acabar con ellos. Hay mucha granularidad en juego, y se inventarán nuevos tipos por el camino.
Velocidad y veracidad finitas
Por otro lado, la velocidad y la veracidad son finitas e independientes de terceros. El flujo de datos ha alcanzado su punto álgido: hay muchas formas de adquirir datos en tiempo real. Desde las API proporcionadas por las empresas, como la API de Twitter, hasta las soluciones de raspado de la web, todas ellas han permitido la adquisición de datos en tiempo real.
Incluso en este último caso, en el que los datos se adquieren sin tener acceso directo a las fuentes internas de una empresa (más bien, se adquieren a través de fuentes públicas externas) se ha alcanzado la capacidad de tiempo real. Por lo tanto, la velocidad, en el sentido del flujo de datos desde la fuente hasta el destino, ha alcanzado su punto álgido.
Aunque seguramente veremos muchas optimizaciones en el camino que reducirán los costes de adquisición en tiempo real, el crecimiento de la velocidad es algo limitado. Aunque aparezca un nuevo tipo que requiera nuevos métodos de adquisición, el tiempo real es el fin de la velocidad.
La veracidad sigue la misma tendencia. Al estar definida por la exactitud de los datos, la veracidad tiene un límite. Las cosas se complican un poco más que con la velocidad, ya que verificar y medir la veracidad se acerca más a una empresa teórica. Aunque el límite de la veracidad existe en alguna parte, es poco probable que se pueda maximizar en la práctica.