Los investigadores están buscando una nuevo enfoque para la arquitectura neuronal (NAS), una técnica que implica la evaluación de cientos de miles de modelos de IA para identificar a los mejores.
La técnica que han desarrollado se llama Synthetic Petri Dish, acelera los pasos NAS más intensivos computacionalmente mientras predice el rendimiento del modelo con mayor precisión que los métodos anteriores.
Las redes neuronales profundas han sido testigos del éxito y son capaces de mitigar varios desafíos empresariales como el reconocimiento de voz, el reconocimiento de imágenes, la traducción automática, entre otros desde hace unos años.
Según los investigadores, Neural Architecture Search (NAS) explora un espacio de motivos arquitectónicos y es un proceso de computación intensiva que a menudo implica la evaluación de la verdad terrestre de cada motivo mediante la creación de instancias dentro de una gran red, y la formación y evaluación de la red con miles o más muestras de datos. Por estos motivos, los investigadores se referían al diseño de una célula recurrente repetitiva o función de activación que se repite a menudo en un blueprint de red neuronal más grande.
Detrás de Synthetic Petri Dish
Para este trabajo, los investigadores se han inspiraron en una idea de biología y materializaron esta idea con el aprendizaje automático, se crea la aplicación de un plato petri sintético que tiene como objetivo identificar motivos arquitectónicos de alto rendimiento. Por lo tanto, el enfoque propuesto en esta investigación intentó recrear algorítmicamente este tipo de proceso científico con el propósito de encontrar mejores motivos de redes neuronales.
El experimentos se ejecutó en un PC con 20 tarjetas gráficas Nvidia 1080 Ti (para entrenamiento y evaluación de la verdad en tierra) y un MacBook (para inferencia), los investigadores trataron de determinar cómo funciona Synthetic Petri Dish en el conjunto de datos Penn Tree Bank (PTB), un modelado de lenguaje popular y un punto de referencia NAS. A partir de un modelo de verdad sobre el suelo que contiene 27 millones de parámetros (variables), Synthetic Petri Dish generó 100 nuevas arquitecturas y evaluó las 20 arquitecturas principales.
El objetivo del Synthetic Petri Dish es crear un entorno de entrenamiento de microcosmos de tal manera que el rendimiento de un motivo a pequeña escala entrenado dentro de él predice bien el rendimiento del motivo completamente expandido en la evaluación de la verdad del suelo.
¿En qué se diferencia de otros modelos netos
A diferencia de otros modelos de predicción basados en redes neuronales que analizan estructuras para estimar su rendimiento, el Dish Petri sintético predice el rendimiento del motivo entrenando el motivo real en un entorno artificial, derivando así predicciones de sus verdaderas propiedades intrínsecas.
Los investigadores compararon Synthetic Petri Dish con el control del entrenamiento de un modelo suplente de la red neuronal para predecir el rendimiento en función de la pendiente sigmoidea. Este control suplente basado en NN es una red de alimentación de 2 capas y 10 neuronas de ancho que toma el valor sigmoide como entrada y predice la precisión de validación de red MNIST correspondiente como salida.
A diferencia de este modelo basado en la red neuronalque predice el rendimiento de nuevos motivos basados en su valor escalar, el Petri Dish sintético entrena y evalúa cada nuevo motivo de forma independiente con datos sintéticos, lo que significa que en realidad utiliza un NN con una pendiente sigmoidal particular en un pequeño experimento y por lo tanto debe tener mejor información sobre el rendimiento de esta pendiente.