Stable Cascade promete gerar imagem por IA melhor que Stable Diffusion

Em fase preview, Stable Cascade gera imagens a partir de texto; sistema foi anunciado pela Stability AI, que também responde pelo Stable Diffusion

Por Emerson Alecrim

há 2 meses

Stable Cascade promete gerar imagens com mais precisão e eficiência que o Stable Diffusion (imagem: reprodução/Stability AI)

Stable Cascade é o nome do novo modelo de inteligência artificial (IA) para criação de imagens a partir de textos da Stability AI. De acordo com a companhia, a novidade tem tecnologia que promete tornar a geração de conteúdo visual mais eficiente que as atuais versões do Stable Diffusion, também de sua responsabilidade.

O Stable Diffusion foi lançado em agosto de 2022 e, em poucas semanas, se tornou popular. Até certo ponto, a ferramenta lembra o funcionamento do ChatGPT. A diferença é que, em vez de gerar resposta em texto, o Stable Diffusion apresenta uma imagem seguindo as instruções digitadas pelo usuário.

Se é assim, por que não lançar uma nova versão do Stable Diffusion? Na verdade, esse sistema vem recebendo atualizações. Lançado em novembro de 2023, a versão SDXL Turbo é a mais recente, sendo capaz de gerar imagens em apenas uma etapa contra algumas dezenas de passos das versões anteriores.

Porém, o Stable Cascade é baseado na arquitetura Würstchen, que é diferente daquela que é a base do SDXL Turbo. Daí a decisão da Stability AI de trabalhar em um sistema novo.

Imagens geradas pelo Stable Cascade (imagem: reprodução/Stability AI)

O que o Stable Cascade tem de diferente?

A Stability AI explica que a arquitetura Würstchen foi projetada com base em uma série de técnicas novas para melhorar o desempenho e a precisão dos resultados.

Uma dessas técnicas consiste em fazer o Würstchen funcionar como uma arquitetura modular de três estágios, ao contrário da arquitetura do Stable Diffusion, que funciona como um único modelo grande e, portanto, mais “pesado”.

O primeiro estágio é o C, que transforma os prompts de texto em imagens de 24×24 pixels. Na sequência, os estágios B e A tratam de decodificar esse resultado introdutório em imagens completas, de alta resolução.

Stable Cascade tem arquitetura modular de três estágios (imagem: reprodução/Stability AI)

A separação da geração de texto para imagem da fase de decodificação de imagem já é suficiente para aumentar a eficiência do sistema. Isso significa que as imagens são geradas mais rapidamente e com custos menores.

Entre os demais atributos que favorecem o desempenho do Stable Cascade estão o Direct Preference Optimization (DPO), que otimiza a qualidade da imagem, e tempos menores de inferência (realização completa de uma tarefa de IA), mesmo com o novo sistema contando com 1,4 bilhão de parâmetros a mais que o SDXL.

Por enquanto, só para uso não comercial

O Stable Cascade está em fase “preview” para pesquisa, portanto, será lançado oficialmente só depois de passar pelos devidos aprimoramentos. Por ora, é possível testar o sistema obtendo-o no GitHub do Stable Cascade, desde que ele não seja empregado em uso comercial.