Stability AI lança modelo de código aberto para gerar áudio • é Livre e Aberto!

Bos últimos tempos, as ferramentas alimentadas por IA conseguiram invadir o espaço de produção de áudio, com muitas opções oferecendo algo que a diferencia de sua concorrência.

Stability AI é uma dessas empresas populares de IA generativa que oferece uma gama de ferramentas de IA para criar imagens, áudio e vídeos com facilidade. Eles anunciaram recentemente um modelo de texto para áudio de IA de código aberto sob o apelido "Stable Audio Open", que é voltado para criadores.

Vamos descobrir o que ele pode fazer.

Stable Audio Open: o que esperar?

Uma ilustração com uma cabeça humanoide cinza com som de design com IA escrita acima e um logotipo semicircular com áudio estável aberto escrito abaixo

Quando implementado, os usuários podem gerar até 47 segundos de dados de áudio de alta qualidade a partir de um prompt de texto. É especializada na criação de riffs de instrumentos, sons ambientes, batidas de bateria, gravações de Foley e muito mais.

Ele foi lançado como código aberto sob a Licença Stability AI Non-Commercial Research Community que proíbe qualquer forma de uso comercial, e os usuários são obrigados a aceitar a política de privacidade da Stability AI também.

Os usuários também têm a liberdade de ajustar o modelo usando seus dados de áudio personalizados. A Stability AI deu um exemplo interessante:

Um baterista poderia afinar amostras de suas próprias gravações de bateria para gerar novas batidas.

Quanto ao funcionamento interno do modelo, ele apresenta 1,21 bilhão de parâmetros com três componentes-chave, um autoencoder, uma incorporação de texto baseada em T5 e um modelo de difusão baseado em transformador (DiT).

Para os conjuntos de dados, ele usa um total de 486492 gravações de áudio, das quais 472.618 são do Freesound e 13.874 do Free Music Archive (FMA). Todos eles são licenciados sob CC0, CC BY ou CC Sampling+.

Para garantir que não havia nenhum áudio protegido por direitos autorais nos conjuntos de dados, eles enviaram amostras de música identificadas do Freesound para Audible Magic para verificar a presença de músicas protegidas por direitos autorais.

Eles encontraram alguns, mas esses foram removidos antes do início do treinamento. No caso do subconjunto FMA, eles usaram um método diferente para verificar se há conteúdo protegido por direitos autorais realizando uma pesquisa de metadados em um grande banco de dados de música protegida por direitos autorais.

A Stability AI também apontou que Stable Audio Open é diferente de seu produto comercial, Stable Audio, que permite aos assinantes gerar 3 minutos de faixas de alta qualidade com uma estrutura musical coerente e alguns outros recursos avançados.

Então, para finalizar, podemos dizer o seguinte: Stable Audio Open é uma ótima opção para usuários individuais que estão em produção de áudio, ou apenas querem mexer e ver que tipo de saída interessante eles podem gerar.

Você pode saber mais sobre isso acessando o blog de anúncio.

Acessando o Stable Audio Open

A Stability AI carregou os pesos do modelo Stable Audio Open no Hugging Face, e está incentivando os profissionais a explorá-lo, bem como fornecer feedback.

Stable Audio Open (Hugging Face)

Em um mar de modelos de IA, este tenta oferecer algo distinto. Você já se deparou com outros tão interessantes? Deixe-nos saber!