Data Augmentation frente a la limitación de datos para entrenar modelos Machine Learning

Artículo de Ángela García y Adriana A. Bogdan, Data Scientists en Keepler Data Tech.

Uno de los problemas más comunes en Computer Vision es la falta de imágenes a la hora de entrenar los modelos. En deep learning se requiere un gran número de datos para que las redes neuronales aprendan las características relevantes de los inputs y después puedan realizar el proceso de inferencia de forma correcta; ya que cuando los modelos se entrenan con ejemplos limitados no son capaces de generalizar a los datos no vistos. Incluso si se utilizan modelos pre-entrenados (transfer learning), muchas veces las imágenes para casos particulares siguen siendo insuficientes y el modelo no se entrena correctamente.

Este problema no se limita únicamente al contexto de imágenes, sino que se puede encontrar en cualquier proyecto de machine learning, lo cual ha llevado a la creación de diferentes técnicas de generación de datos. Por ejemplo, en conjuntos de datos de texto, donde nombres y los verbos pueden sustituirse por sus sinónimos; o en datos de audio, donde los ejemplos de entrenamiento pueden modificarse añadiendo ruido o cambiando la velocidad de reproducción.

En Keepler nos hemos encontrado con este reto, sobre todo en casos de detección de objetos en imágenes, más concretamente en detección de anomalías. En este tipo de proyectos, hemos visto la necesidad de buscar métodos para generar imágenes sintéticas (data augmentation) con el objetivo de hacerlos viables incluso con un dataset reducido. En concreto hemos investigado dos técnicas:

  • Generación de imágenes mediante procedimientos clásicos de data augmentation: distorsiones, rotaciones, cambios de color etc. de las imágenes originales.
  • Generación de imágenes a partir de GANs (Generative Adversarial Networks); concretamente uso de Cycle GANs para realizar un cambio de contexto (style transfer) a las imágenes originales y así generar nuevas.

El análisis en detalle de las técnicas mencionadas se puede encontrar en el informe “Cómo utilizar el aumento de datos cuando se tiene datos limitados”. A pesar de sus numerosas ventajas cabe mencionar que, por un lado, las herramientas clásicas de data augmentation no suelen ser suficientes para crear datos sintéticos independientes de los originales. Por otro lado, las técnicas de GANs tienden a ser bastante complejas y muy particulares para cada caso de uso, requiriendo largos procesos de estudio y construcción del algoritmo; además de necesitar máquinas con gran capacidad de cómputo.

En conclusión, la generación de datos sintéticos en datasets limitados constituye un campo de estudio muy amplio que ha dado lugar a numerosas técnicas, como las detalladas en el informe adjunto, y que trataremos de continuar estudiando en Keepler.

TE PUEDE GUSTAR

EVENTOS

RECIBE NUESTRA NEWSLETTER

*Email:

*Nombre:

*Empresa:

Cargo:

Sector:
     

Please don't insert text in the box below!

ESCUCHA NUESTRO PODCAST

SÍGUENOS EN RRSS

MÁS COMENTADOS

Scroll al inicio