Stability AI ha lanzado Stable Audio, una herramienta que es la primera capaz de crear música de «alta calidad» a 44.1 kHz para uso comercial a través de la inteligencia artificial.
Stable Audio es una herramienta desarrollada por Stability que afirma ser la primera en crear música de «alta calidad» a 44.1 kHz para uso comercial mediante una técnica llamada difusión latente. Se ha entrenado utilizando metadatos de audio, así como información sobre la duración de los archivos de audio y las horas de inicio.
Ed Newton-Rex, vicepresidente de audio de Stability AI, mencionó en una entrevista que «Stability AI tiene como objetivo desbloquear el potencial humano construyendo modelos de IA fundamentales en una variedad de tipos de contenido o ‘modalidades'». Comenzaron con Stable Diffusion y han ampliado sus capacidades para incluir idiomas, código y ahora música, creyendo en el futuro de la IA generativa es multimodal.
Es relevante destacar que Stable Audio no fue desarrollado solo por Harmonai; el equipo de audio de Stability creó un nuevo modelo inspirado en Dance Diffusion para respaldar Stable Audio, el cual luego fue entrenado por Harmonai.
En comparación con Dance Diffusion, que generaba clips de audio cortos y aleatorios a partir de una paleta de sonidos limitada, Stable Audio puede generar audio más extenso. Los usuarios pueden guiar la generación de audio mediante una descripción de texto y configurar la duración deseada. Algunas descripciones funcionan particularmente bien para música EDM y música ambiental, mientras que otras pueden generar resultados más «inusuales», como música melódica, clásica o de jazz.
Stability proporcionó muestras que demuestran lo que el modelo puede lograr en una variedad de géneros musicales, principalmente EDM, con descripciones breves. Estas muestras suenan más coherentes, melódicas y musicales en comparación con muchas de las «canciones» generadas por otros modelos de generación de audio. Aunque no son perfectas y carecen de cierta creatividad, suenan más naturales.
Crear una descripción específica
Similar a las herramientas generadoras de imágenes, habla y video generativas, para obtener los mejores resultados con Stable Audio, es necesario crear una descripción que capture las sutilezas de la canción que se desea generar, incluyendo género, tempo, instrumentos destacados y emociones que se quieren transmitir en la música.
Las muestras proporcionadas por Stability incluyen descripciones detalladas como «Techno ambiental, meditación, bosque escandinavo, máquina de batería 808, bombo 808, palmadas, sonaja, sintetizador, bajo sintetizado, drones sintetizados, hermoso, pacífico, etéreo, natural, 122 BPM, instrumental» y «Trance, Ibiza, playa, sol, 4 AM, progresivo, sintetizador, 909, acordes dramáticos, coro, eufórico, nostálgico, dinámico, fluido».
En comparación, al ejecutar la misma descripción en MusicLM a través de la aplicación AI Test Kitchen de Google en la web, el resultado fue menos satisfactorio, con interpretaciones repetitivas y simplificadas.
Una característica notable de las canciones generadas por Stable Audio es su longitud, que puede llegar hasta unos 90 segundos. Esto contrasta con otros modelos de IA que a menudo producen fragmentos más cortos antes de volverse ruidosos y discordantes.