¿Cuál es la solución para entrenar de forma más rápida redes neuronales profundas? ¿Construir procesadores rápidos? Esta sería una manera, sino fuera porque ahora tenemos GPU y TDU. Si la velocidad no es suficiente, ¿Deberíamos desarrollar procesadores que sean aún más rápidos?
Estas son algunas de las preguntas que surgen cuándo comienzas un proyecto y los investigadores de Google IA tienen clara la respuesta para todas ellas, no. Según sus investigadores, en la actualidad ya se han visto casos en los que los aceleradores están inactivos la mayor parte del tiempo mientras esperan la entrada. Por lo tanto, en lugar de ajustar el hardware, introdujeron un concepto más simple a nivel algorítmico, que llaman data Echoing. Hablan de él en el nuevo artículo publicado en su blog, «Faster Neural Network Training with Data Echoing«.
El Data Echoing, como su nombre indica, es una técnica que reutiliza los datos de salida de los pasos anteriores en lugar de mantener los procesadores esperando datos nuevos.
¿Cómo funciona Data Echoing?
Con Data Echoing lo que ocurre es que una vez que se ha optimiza el lote, este se reutiliza y se realiza un segundo paso antes de que el siguiente lote este listo. En el mejor de los casos, los datos repetidos son tan útiles como los datos nuevos. Pero en realidad, los investigadores han admitido que esta técnica proporciona una aceleración ligeramente menor porque los datos repetidos no son tan útiles como los datos nuevos, pero todavía puede proporcionar una aceleración significativa en comparación con dejar el acelerador inactivo.
Para probar el funcionamiento de la técnica realizaron varios experimentos. Los investigadores probaron los datos que se hacen eco en cinco canalizaciones de entrenamiento de redes neuronales que abarcan 3 tareas diferentes (clasificación de imágenes, modelado de lenguaje y detección de objetos) y midieron el número de nuevos ejemplos necesarios para alcanzar un objetivo de rendimiento determinado.
Encontraron que la Data Echoing puede ayudar a alcanzar el rendimiento de destino con menos ejemplos nuevos, lo que demuestra que la reutilización de datos es útil para reducir la E/S de disco en una variedad de tareas. En algunos casos, los datos repetidos son casi tan útiles como los datos nuevos como los ecos antes del aumento reduce el número de nuevos ejemplos requeridos casi por el factor de repetición ‘e’.