Sora: OpenAI anuncia IA que transforma texto em vídeo de até 1 minuto

Criadora do ChatGPT apresenta primeiro modelo neste formato. OpenAI vai testar segurança e pedir feedback de artistas para melhorar ferramenta.

Giovanni Santa Rosa

A OpenAI anunciou sua primeira ferramenta para criação de vídeos de até um minuto de duração a partir de texto, chamada Sora. Segundo a empresa, esta inteligência artificial é capaz de gerar “cenas complexas com vários personagens” e “detalhes precisos do sujeito e do plano de fundo”.

A Sora deverá concorrer com modelos similares de Google (Lumiere) e Meta (Make-A-Video). Todos eles estão em fase de testes e não foram liberadas para os usuários.

A OpenAI promete que sua IA conseguirá criar personagens convincentes, que expressam emoções vibrantes — se a Sora realmente conseguir fazer isso, ela já está melhor que vários atores.

Na página do modelo, a OpenAI diz que a Sora tem a habilidade de entender o que o usuário pediu e compreende como as coisas mencionadas no texto “existem no mundo físico”. Além disso, ela cria várias cenas em um único vídeo, mantendo os personagens e o estilo visual.

Imagens com qualidade reduzida

Os vídeos da OpenAI foram convertidos para GIF e otimizados. Eles estão neste texto apenas para fins ilustrativos. Se você quiser ver com a qualidade original, acesse a página do modelo.

Tomada aérea de vilarejo durante Corrida do Ouro, nos Estados Unidos
Modelo da OpenAI cria vídeo no estilo desejado pelo usuário (Imagem: Reprodução/OpenAI)

O site da OpenAI traz alguns vídeos de demonstração. Os resultados são bastante detalhados, visualmente satisfatórios e, quando exigido, realísticos.

Os prompts altamente específicos chamam a atenção. Um dos vídeos foi feito a partir do pedido de um zoom no olho de uma mulher de 24 anos, filmado em 70 mm, com cores vivas, durante a golden hour em Marrakech (Marrocos).

Em outro, o texto descrevia uma cena com um homem de 60 anos ponderando a história do Universo em um café de Paris (França), com o sujeito dando um sorriso discreto ao achar uma resposta para o mistério da vida.

Homem de 60 anos, com óculos, barba branca e boina
Sora é capaz de seguir prompts bastante detalhados (Imagem: Reprodução/OpenAI)

Sora tem problemas típicos de IA

Nem tudo está funcionando perfeitamente, porém. A OpenAI admite que a Sora tem dificuldades em simular a parte física de uma cena complexa e nem sempre entende corretamente causas e efeitos. “Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois disso, o biscoito pode estar sem uma marca de mordida”, diz a página.

Outros problemas conhecidos são confusões espaciais, como trocar esquerda e direita, e entender eventos que ocorrem no decorrer do tempo, como seguir a trajetória de uma câmera.

GIF de lobos surgindo e desaparecendo enquanto brincam
Sora faz lobos surgirem e desaparecerem enquanto brincam (Imagem: Reprodução/OpenAI)

A OpenAI colocou em seu site alguns exemplos dos problemas. Há movimentos fisicamente implausíveis, animais e pessoas surgindo espontaneamente, uma bola de basquete atravessando o aro e furando a rede da cesta, uma cadeira de plástico excessivamente flexível e uma senhora que não consegue apagar as velas de seu bolo de aniversário.

A Sora ainda não vai funcionar em nenhum produto da OpenAI. Por enquanto, ela estará disponível apenas aos red teamers da empresa, que vão testar riscos e perigos. Artistas visuais, cineastas e designers também terão acesso à ferramenta para fazer comentários.

Com informações: OpenAI, Axios

Relacionados

Escrito por

Giovanni Santa Rosa

Giovanni Santa Rosa

Repórter

Giovanni Santa Rosa é formado em jornalismo pela ECA-USP e cobre ciência e tecnologia desde 2012. Foi editor-assistente do Gizmodo Brasil e escreveu para o UOL Tilt e para o Jornal da USP. Cobriu o Snapdragon Tech Summit, em Maui (EUA), o Fórum Internacional de Software Livre, em Porto Alegre (RS), e a Campus Party, em São Paulo (SP). Atualmente, é autor no Tecnoblog.