A Meta lançou um recurso de áudio vindo dos seus investimentos em Inteligência Artificial. Chamado de AudioCraft, trata-se de uma base de código de parada única para todas as suas necessidades de áudio generativo: música, efeitos sonoros e compressão após o treinamento em sinais de áudio brutos. Confira aqui os detalhes do anúncio.
Com o AudioCraft, a empresa promete simplificar o design geral de modelos generativos para áudio em comparação com trabalhos anteriores. A Meta trabalha em três categorias: MusicGen, focada somente na música; AudioGen, voltada para a geração de efeitos sonoros e criação de cenários audiovisuais; e uma versão aprimorada do decodificador EnCodec, que permite a geração de música de maior qualidade com menos artefatos.
Tanto o MusicGen quanto o AudioGen consistem em um único Modelo de Linguagem autorregressivo (LM) que opera sobre fluxos de representação de música discreta comprimida, ou seja, tokens.
“Aprendemos tokens de áudio discretos do sinal bruto usando o codec de áudio Encodec, que nos fornece um novo ‘vocabulário’ fixo para amostras de música. Podemos então treinar modelos de linguagem autorregressiva sobre esses tokens de áudio discretos para gerar novos tokens e novos sons e música ao converter os tokens de volta para o espaço de áudio com o decodificador do EnCodec”, explica a Meta.