DALL-E: o que é e como usar a ferramenta de IA para criar imagens

DALL-E é uma rede neural baseada em inteligência artificial que cria imagens e ilustrações do zero a partir de descrições de texto

Igor Shimabukuro Victor Toledo
• Atualizado há 1 mês
Como usar a aplicação DALL-E, da OpenAI
Você pode usar o DALL-E para criar imagens a partir de descrições em texto (Imagem: Igor Shimabukuro/Tecnoblog)

O DALL-E é uma rede neural desenvolvida pela OpenAI que tem capacidade de gerar ou regenerar imagens a partir de descrições de texto. De forma resumida, trata-se de uma inteligência artificial que faz imagens do zero com base em prompts de entrada feitos pelo usuário.

Você pode usar o DALL-E de forma gratuita via ChatGPT, Microsoft Bing Image Creator ou outras aplicações de IA generativa. Basta descrever detalhadamente um cenário, objeto ou arte em uma das plataformas, e aguardar pela criação das imagens.

A seguir, entenda o que é como funciona o DALL-E, e saiba como usar o gerador de imagens da OpenAI.

O que é o DALL-E?

O DALL-E é uma rede neural de IA generativa desenvolvida pela OpenAI (criadora do ChatGPT). Sua nomenclatura é uma combinação das palavras “WALL-E” (filme de animação da Pixar) e de “Dalí” (em referência ao pintor surrealista Salvador Dalí).

Segundo a própria desenvolvedora, o DALL-E usa o modelo de linguagem do tipo Transformer para gerar imagens a partir de descrições de texto. Basta digitar detalhadamente um cenário, objeto ou paisagem e aguardar para que a rede neural gere resultados com base nas informações descritas.

A primeira versão do DALL-E surgiu em 2021, mas a rede neural sofreu algumas atualizações ao longo dos anos para gerar resultados melhores e mais realistas. O modelo é visto como um das principais tecnologias de geração de imagem a partir de texto.

Para que serve o DALL-E?

O principal objetivo do DALL-E consiste em gerar imagens a partir de descrições em texto. Logo, a ferramenta pode dar luz a artes e ilustrações para fins profissionais, designs para uma rede social ou protótipos para exemplificar uma ideia ou imaginação.

Mas o DALL-E também apresenta recursos para outras finalidades, como modificar partes de uma imagem já existente, combinar elementos diferentes para a geração de uma nova arte ou aplicar estilos artísticos em determinada imagem.

Como usar o DALL-E?

1. Faça login na plataforma do ChatGPT para navegador

Acesse chatgpt.com pelo navegador e clique na opção “Entrar”, localizada no canto superior direito. Em seguida, faça login com um dos serviços disponibilizados ou cadastre-se com seu e-mail.

Fazendo login no ChatGPT para acessar o DALL-E
Fazendo login no ChatGPT para acessar o DALL-E (Imagem: Reprodução/ChatGPT)

2. Vá em “Explorar GPTs” e inicie um chat com o DALL-E

Feito o login, vá em “Explorar GPTs” pela barra lateral da plataforma. Depois, role a tela e toque em “DALL-E”, e escolha “Iniciar chat” na tela seguinte para usar o DALL-E.

Usando o DALL-E via ChatGPT
Usando o DALL-E via ChatGPT (Imagem: Reprodução/ChatGPT)

3. Envie a descrição para gerar imagens com o DALL-E

Use o campo de texto para descrever um cenário, objeto ou qualquer outra criação, e toque no ícone de envio. Aguarde pelas criações do DALL-E baseadas em suas descrições e salve as imagens, caso queira.

Criando uma imagem a partir de texto com o DALL-E
Criando uma imagem a partir de texto com o DALL-E (Imagem: Reprodução/DALL-E)

É preciso pagar para usar o DALL-E?

Você pode usar o DALL-E gratuitamente pela plataforma do ChatGPT, mas a funcionalidade da aplicação será limitada à quantidade de créditos em sua conta. E pode ser necessário assinar o plano ChatGPT Plus para conseguir mais créditos.

A boa notícia é que o DALL-E consiste em uma rede neural que foi incorporada a outras aplicações de uso gratuito. Logo, você pode usar o DALL-E integrado ao gerador de imagens do Bing de graça, e com menos limitações do que no ChatGPT.

Como funciona o DALL-E?

Inicialmente, a rede neural DALL-E foi submetida a treinamentos com uma grande quantidade de pares de texto-imagem para que o modelo fosse capaz de aprender e associar palavras e elementos visuais, com base no deep learning (ou “aprendizado de máquina”, em tradução livre).

A arquitetura Transformer então permitiu que o DALL-E compreendesse descrições em texto (prompt de entrada) e as convertesse em imagens (prompts de saída), por meio do processamento e mapeamento de tokens de palavras e elementos visuais.

Os processos de treinamento permitiram que o DALL-E seja capaz de gerar uma imagem do zero ou de regenerar partes retangulares de uma imagem existente, de modo a condizer com os prompts de entrada.

Quais são as versões do DALL-E?

A OpenAI tem se esforçado para otimizar o DALL-E ao longo dos últimos anos. Até o momento, o modelo de linguagem capaz de gerar imagens a partir de texto conta com três versões, incluindo:

  • DALL-E: primeira versão da rede neural da OpenAI lançada em 2021, treinada para gerar imagens a partir de descrições de texto;
  • DALL-E 2: versão sucessora e otimizada do DALL-E que surgiu no mercado em 2022, com capacidade para gerar imagens mais realistas e precisas, e com resolução quatro vezes maior;
  • DALL-E 3: versão do DALL-E lançada em 2023. Caracterizada pela integração ao ChatGPT e pela maior compreensão de nuances e detalhes descritos nos prompts de entrada.
Imagem de astronauta em um cavalo gerada pelo Dall-E (imagem: reprodução/OpenAI)
Imagem de astronauta em um cavalo gerada pelo Dall-E (Imagem: reprodução/OpenAI)

Quais são as vantagens do DALL-E?

O DALL-E tornou-se um dos principais modelos de IA Generativa capaz de criar imagens a partir de descrições de texto. E o destaque deu-se por vantagens de uso que a rede neural apresenta, como:

  • Criação de conteúdo personalizado: o DALL-E é capaz de gerar conteúdos específicos de acordo com as descrições de texto fornecidas;
  • Integração com aplicações: a rede neural pode ser integrada a diferentes aplicações, como ChatGPT, Canva, e Microsoft Bing Image Creator, por exemplo;
  • Uso gratuito: o DALL-E conta com versões gratuitas, sem obrigatoriedades de planos pagos para uso do gerador de imagens;
  • Rapidez na geração: a geração de imagens é simplificada e rápida, com capacidade de criar novos conteúdos em questão de segundos.

Quais são as desvantagens do DALL-E?

Naturalmente que o DALL-E também possui limitações, apesar da grande capacidade de gerar novas imagens a partir de prompts de texto. Algumas das principais desvantagens da rede neural envolvem:

  • Uso gratuito limitado: o uso gratuito do DALL-E no ChatGPT exige créditos de uso, concedidos pela plataforma de tempos em tempos;
  • Restrições de capacidade: a geração de imagens depende de dados usados no treinamento, e pode apresentar resultados pouco precisos caso não encontre informações de referência;
  • Dependência das descrições: você terá que detalhar ao máximo suas descrições de texto no prompt de entrada para que o DALL-E seja capaz de apresentar resultados com boa qualidade e precisão;
  • Limitações de realismo: apesar das otimizações do DALL-E 3, a rede neural pode gerar imagens menos realistas quando comparada a outros modelos como o Midjourney.

Qual é a diferença entre DALL-E e Midjourney?

DALL-E é uma rede neural que pode ser acessada por diversas aplicações, graças a APIs. O gerador de imagens a partir de descrições em texto talvez crie resultados menos realistas do que o Midjourney, mas pode ser usado de forma gratuita.

Já o Midjourney é uma rede neural paga, e que não oferece mais testes gratuitos para criar imagens a partir de textos. O modelo tem um website próprio e é comumente usado no Discord via API, além de geralmente produzir imagens mais realistas do que o DALL-E.

Relacionados

Escrito por

Igor Shimabukuro

Igor Shimabukuro

Redator

Igor Shimabukuro é jornalista graduado e com especialização em Mídias Digitais pela Universidade Metodista de São Paulo. Apaixonado por games, cobre tecnologia desde 2020. Com passagens por Olhar Digital e TecMasters, acumula mais de cinco mil conteúdos (hard news, reportagens, reviews, tutoriais, entrevistas, especiais, publieditoriais) publicados na internet.

Victor Toledo

Victor Toledo

Analista de conteúdo

Victor Toledo é jornalista formado pela Unesp, com ensino técnico em informática. Antes de entrar para o time do Tecnoblog, em 2021, escreveu sobre informática, eletrônicos e videogames no TechTudo (Editora Globo) e no Zoom. Atua na estratégia de conteúdo e SEO do Tecnoblog. É apaixonado por esportes e passa boa parte do tempo livre em simuladores de corrida e assistindo todo e qualquer tipo de esporte na TV.