DALL-E: o que é e como usar a ferramenta de IA para criar imagens
DALL-E é uma rede neural baseada em inteligência artificial que cria imagens e ilustrações do zero a partir de descrições de texto
DALL-E é uma rede neural baseada em inteligência artificial que cria imagens e ilustrações do zero a partir de descrições de texto
O DALL-E é uma rede neural desenvolvida pela OpenAI que tem capacidade de gerar ou regenerar imagens a partir de descrições de texto. De forma resumida, trata-se de uma inteligência artificial que faz imagens do zero com base em prompts de entrada feitos pelo usuário.
Você pode usar o DALL-E de forma gratuita via ChatGPT, Microsoft Bing Image Creator ou outras aplicações de IA generativa. Basta descrever detalhadamente um cenário, objeto ou arte em uma das plataformas, e aguardar pela criação das imagens.
A seguir, entenda o que é como funciona o DALL-E, e saiba como usar o gerador de imagens da OpenAI.
O DALL-E é uma rede neural de IA generativa desenvolvida pela OpenAI (criadora do ChatGPT). Sua nomenclatura é uma combinação das palavras “WALL-E” (filme de animação da Pixar) e de “Dalí” (em referência ao pintor surrealista Salvador Dalí).
Segundo a própria desenvolvedora, o DALL-E usa o modelo de linguagem do tipo Transformer para gerar imagens a partir de descrições de texto. Basta digitar detalhadamente um cenário, objeto ou paisagem e aguardar para que a rede neural gere resultados com base nas informações descritas.
A primeira versão do DALL-E surgiu em 2021, mas a rede neural sofreu algumas atualizações ao longo dos anos para gerar resultados melhores e mais realistas. O modelo é visto como um das principais tecnologias de geração de imagem a partir de texto.
O principal objetivo do DALL-E consiste em gerar imagens a partir de descrições em texto. Logo, a ferramenta pode dar luz a artes e ilustrações para fins profissionais, designs para uma rede social ou protótipos para exemplificar uma ideia ou imaginação.
Mas o DALL-E também apresenta recursos para outras finalidades, como modificar partes de uma imagem já existente, combinar elementos diferentes para a geração de uma nova arte ou aplicar estilos artísticos em determinada imagem.
Acesse chatgpt.com pelo navegador e clique na opção “Entrar”, localizada no canto superior direito. Em seguida, faça login com um dos serviços disponibilizados ou cadastre-se com seu e-mail.
Feito o login, vá em “Explorar GPTs” pela barra lateral da plataforma. Depois, role a tela e toque em “DALL-E”, e escolha “Iniciar chat” na tela seguinte para usar o DALL-E.
Use o campo de texto para descrever um cenário, objeto ou qualquer outra criação, e toque no ícone de envio. Aguarde pelas criações do DALL-E baseadas em suas descrições e salve as imagens, caso queira.
Você pode usar o DALL-E gratuitamente pela plataforma do ChatGPT, mas a funcionalidade da aplicação será limitada à quantidade de créditos em sua conta. E pode ser necessário assinar o plano ChatGPT Plus para conseguir mais créditos.
A boa notícia é que o DALL-E consiste em uma rede neural que foi incorporada a outras aplicações de uso gratuito. Logo, você pode usar o DALL-E integrado ao gerador de imagens do Bing de graça, e com menos limitações do que no ChatGPT.
Inicialmente, a rede neural DALL-E foi submetida a treinamentos com uma grande quantidade de pares de texto-imagem para que o modelo fosse capaz de aprender e associar palavras e elementos visuais, com base no deep learning (ou “aprendizado de máquina”, em tradução livre).
A arquitetura Transformer então permitiu que o DALL-E compreendesse descrições em texto (prompt de entrada) e as convertesse em imagens (prompts de saída), por meio do processamento e mapeamento de tokens de palavras e elementos visuais.
Os processos de treinamento permitiram que o DALL-E seja capaz de gerar uma imagem do zero ou de regenerar partes retangulares de uma imagem existente, de modo a condizer com os prompts de entrada.
A OpenAI tem se esforçado para otimizar o DALL-E ao longo dos últimos anos. Até o momento, o modelo de linguagem capaz de gerar imagens a partir de texto conta com três versões, incluindo:
O DALL-E tornou-se um dos principais modelos de IA Generativa capaz de criar imagens a partir de descrições de texto. E o destaque deu-se por vantagens de uso que a rede neural apresenta, como:
Naturalmente que o DALL-E também possui limitações, apesar da grande capacidade de gerar novas imagens a partir de prompts de texto. Algumas das principais desvantagens da rede neural envolvem:
DALL-E é uma rede neural que pode ser acessada por diversas aplicações, graças a APIs. O gerador de imagens a partir de descrições em texto talvez crie resultados menos realistas do que o Midjourney, mas pode ser usado de forma gratuita.
Já o Midjourney é uma rede neural paga, e que não oferece mais testes gratuitos para criar imagens a partir de textos. O modelo tem um website próprio e é comumente usado no Discord via API, além de geralmente produzir imagens mais realistas do que o DALL-E.