Ya sea que se trate de un paciente que espera ansiosamente su resonancia magnética, de un millennial jugando en Internet o de la policía revisando videos de vigilancia para atrapar a un ladrón, el futuro de los datos es no estructurado.
El 80% de todos los datos del mundo es no estructurado, típicamente ficheros y objetos. Y esta proporción está creciendo. IDC estima una tasa de crecimiento anual compuesta adicional del 28,7% (hasta 2025) con la expansión de los datos fluyendo desde el Internet de las Cosas (IoT).
Por este motivo, los desafíos también crecen. Para satisfacer el apetito voraz del consumo de datos, se espera de las Tecnologías de la Información que sirvan estos datos a los usuarios a una velocidad de gran escala mientras mantienen los datos seguros y los costes bajos. El almacenamiento en bloque tradicional no es capaz de seguir el ritmo y el almacenamiento en la nube pública puede suponer otras dificultades. El almacenamiento flash local puede ser rápido, pero es caro y ¿cómo podemos optimizar entonces los costes del almacenamiento de esos datos más antiguos?
Debemos pensar en la escala. A principios del milenio, una base de datos considerable podía comprender 100 gigabytes de almacenamiento, y la idea de administrar un terabyte de datos era casi inaudita. Ahora, una sola tomografía computarizada de cuerpo completo (que se realizan cada día en los servicios de radiodiagnóstico de los hospitales) supone 40 gigabytes de datos de archivo. Multipliquémoslo por miles de pacientes y luego nuevamente por varios años, y nos estaremos moviendo hacia los zettabytes (para hacernos una idea, un zettabyte equivale a 250.000 millones de películas en HD). Los anteriores sistemas de almacenamiento en bloques, e incluso los sistemas de ficheros, simplemente no se diseñaron para este nivel de escala.
Hace más de una década, los proveedores de nube pública (AWS, Azure, Google) desarrollaron servicios de almacenamiento en la nube basados en el modelo de objetos para abordar los requisitos de escalabilidad, alcance geográfico y economía de un vasto almacenamiento de datos no estructurados. Esto fue seguido pronto por los proveedores de software de almacenamiento que diseñaron soluciones basadas en principios tecnológicos similares para los centros de datos locales. Las características clave de estas soluciones de almacenamiento de objetos incluyen:
- Un espacio de nombres plano: esto garantiza la capacidad de escalar más allá de la estructura de directorios jerárquica de los sistemas de ficheros, al mantener un espacio de nombres de claves (identificadores de objetos) mucho más simple y escalable que se asignan a las cargas útiles de datos (objetos).
- API RESTful: en lugar de protocolos de sistema de fichero con estado (basados en sesión) como SMB y NFS, el modelo de nube exige protocolos que estén basados en «solicitud / respuesta» sin estado y que funcionen con el lenguaje y el mecanismo de transporte de Internet: HTTP. Esto significa que el almacenamiento de objetos en la nube es efectivo a escala de Internet, soportando latencias más altas, y para servicios que están mucho más distribuidos que era el caso de las aplicaciones basadas en bloque o fichero.
- Metadatos enriquecidos: la capacidad de «etiquetar» datos (objetos) con atributos adicionales que describen los datos del objeto. Esto extiende el valor y la semántica de los datos más allá de los atributos simples capturados en un sistema de ficheros (por ejemplo, tamaño del archivo, propietario, permisos).
Si bien el almacenamiento de objetos comenzó como una solución de almacenamiento ideal para aplicaciones de archivado activo y datos a los que se accede con menos frecuencia, ahora ha evolucionado mucho más allá de eso. Las soluciones de almacenamiento de objetos actuales brindan un rendimiento scale-out muy adecuado para la entrega de contenido multimedia de gran tamaño, servicios en la nube en línea con miles de solicitudes de acceso simultáneo y también para aplicaciones big data. El uso de dispositivos flash será ampliamente aceptado por los proveedores para expandir aún más el rendimiento del almacenamiento de objetos y aumentar los tipos de aplicaciones que puedan aprovecharlo.
Durante muchos años, una barrera importante para la aceptación generalizada del almacenamiento de objetos en la nube fue la falta de una API RESTful estándar o predeterminada, de la manera en que NFS y SMB se convirtieron en los protocolos de facto para los sistemas de almacenamiento en red basados en ficheros. Aunque surgieron varios estándares de protocolo de objetos, hoy en día la mayoría de los proveedores de software independientes (ISV) han adoptado la API de AWS S3 como su API predeterminada para acceder al almacenamiento de objetos basado en la nube, así como también a las soluciones de almacenamiento de objetos locales. Esto ha simplificado en gran medida la adopción de aplicaciones empresariales del almacenamiento de objetos en la nube.
Cuando las organizaciones revisan su estrategia de gestión de datos la revisión da como resultado que la flexibilidad, escalabilidad y facilidad de administración convierten al almacenamiento de objetos en la nube en una solución atractiva para la mayoría de los datos no estructurados que posee cualquier organización. El primer paso es evaluar cuidadosamente las necesidades de acceso y retención de datos a largo plazo, incluido cómo cambiarán los requisitos de almacenamiento y uso de datos a medida que el negocio evolucione para satisfacer las demandas nuevas y emergentes. Por ejemplo, una capacidad considerable será requerirá para los datos de IoT.
Otras consideraciones pueden incluir cómo construir la presencia en cada nube y administrar entornos en múltiples nubes, y su estrategia en el borde. El aumento del núcleo empresarial (privado) y las nubes públicas, y el surgimiento de la computación perimetral en miles de millones de dispositivos están creando nuevos desafíos importantes en la gestión de los datos. Se generarán y consumirán exabytes de datos en el borde, con infraestructuras de nube locales dedicadas implementadas para servir a grandes comunidades de usuarios y dispositivos en el borde, como oficinas remotas y sucursales, estadios deportivos, hospitales y más. Esta avalancha de datos resultante requerirá soluciones comprobadas para almacenar, gobernar y orquestar volúmenes significativos de datos en el núcleo y en el borde.
En última instancia, todo se reduce al acceso a los datos: ubicar los datos donde se puedan aprovechar al máximo, permitir el acceso a esos datos a quienes deberían tenerlos y excluir a quienes no deban. Las prioridades en la economía de datos actual giran en torno a la agilidad, la seguridad de los datos, la multitenencia, y la compatibilidad tanto con aplicaciones heredadas como nativas de la nube. Todas estas prioridades comparten la misma importancia ya que las organizaciones están implementando una combinación de centros de datos tanto tradicionales como perimetrales; nubes privadas locales como AWS Outpost, Azure Stack y Google GKE; y nube pública. Al explorar el almacenamiento de objetos en la nube, conviene buscar un proveedor que comparta las mismas prioridades y pueda asociarse y evolucionar a medida que la organización avance.