DALL-E 2 revoluciona a geração de imagens e conteúdo visual

Por: Sara Café | Em: 23 de setembro de 2022

Tags:Criação, Design, Inteligência Artificial

O DALL-E 2 tem seu nome formulado a partir da junção dos nomes do artista Salvador Dalí e do personagem da Pixar WALL-E. (Foto: Envato Elements)

Um algoritmo de aprendizado de máquina que usa descrições de linguagem natural para produzir visuais artísticos e realistas. Essas imagens podem ser bobas, estranhas ou até lembrarem arte clássica, e estão sendo amplamente compartilhadas nas mídias sociais, inclusive por figuras influentes da comunidade de tecnologia.

Quer receber os conteúdos da TrendsCE no seu smartphone?
Acesse o nosso Whatsapp e dê um oi para a gente.

Não é coisa de filme de ficção científica, já é uma realidade. Em abril deste ano, a OpenAI lançou a versão beta de DALL-E 2, inteligência artificial capaz de criar imagens a partir de descrições textuais com precisão, realismo e resolução, além de fazer recriações com uma breve descrição do resultado desejado.

“O DALL-E 2 aprendeu a relação entre as imagens e o texto usado para descrevê-las. Ele usa um processo chamado ‘difusão’, que começa com um padrão de pontos aleatórios e gradualmente altera esse padrão para uma imagem quando reconhece aspectos específicos dessa imagem”.
OpenAI

Como funciona o DALL-E 2?

O DALL-E 2 é a segunda versão dessa IA, e está sendo desenvolvido a partir da primeira versão DALL-E, lançada em janeiro de 2021. O modelo tem seu nome formulado da junção dos nomes do artista Salvador Dalí e do personagem da Pixar WALL-E.

Sendo disruptiva, mas ainda com diversas limitações e necessidades de treinamentos, a função do sistema é gerar imagens a partir de descrições de texto.

De acordo com o professor da Escola Politécnica da PUCRS, Rodrigo Coelho Barros, em sua pesquisa intitulada Adaptação de domínio não supervisionado para segmentação de imagens médicas com autoconjunto, o modelo é uma rede neural baseada na tecnologia de Modelos de Difusão (diffusion models) e que se utiliza de aprendizado multimodal para permitir a conexão semântica entre textos e imagens.

“Um modelo deste tipo é absolutamente revolucionário. A tarefa de geração de imagens realistas a partir de texto irá impactar e mudar para sempre diversas áreas, como o design de produtos e a geração de conteúdo visual para os mais diversos fins: reportagens, livros, storyboards, campanhas de marketing, etc. Isso tudo sem mencionar o impacto nas artes”.

Na interface disponibilizada, o usuário digita qualquer texto, em língua inglesa, descrevendo o que gostaria de gerar, e o modelo cria diversas imagens com semântica compatível a do texto digitado. O modelo é não-determinístico, o que significa que consegue gerar imagens diferentes para o mesmo texto toda vez que for requisitado.

Imagem criada a partir de Inteligência Artificial (Foto: Dall-E 2)

Além disso, o sistema também permite que sejam apagadas partes de uma imagem com uma borracha, e que as partes apagadas sejam substituídas com aquilo que o usuário digitar em termos de descrição textual, tarefa conhecida como text-based image inpainting.

“Estamos diante de algo fantástico, estou chamando isso de ‘a materialização das ideias’. Conseguir gerar imagens de qualquer coisa que nos venha à cabeça é algo sem precedentes”.

Preconceito velado e conteúdo indevido

A inteligência artificial tornou-se comum na vida cotidiana nos últimos anos, mas só recentemente o público tomou conhecimento de quantos preconceitos podem se infiltrar na tecnologia. Os sistemas de reconhecimento facial têm sido cada vez mais examinados por preocupações sobre sua precisão e preconceito racial.

A OpenAI, cuja missão é construir a chamada inteligência artificial geral, que beneficie todas as pessoas, incluiu em um documento online intitulado “riscos e limitações” imagens que ilustram como esses problemas podem acontecer.

A empresa também realizou um estudo com usuários, incluindo pesquisadores, artistas, engenheiros e outros profissionais, antes de lançar a versão beta. Segundo a startup, o acesso mais amplo foi possibilitado por novas abordagens para mitigar o viés e a toxicidade nas gerações do DALL-E 2, bem como evoluções na política de imagens criadas pelo sistema.

De um modo geral, o OpenAI não permite que o DALL-E 2 seja usado para criar imagens que possam “causar danos” (por exemplo, imagens de automutilação, símbolos de ódio ou atividade ilegal) e implantou uma técnica que incentiva o DALL-E 2 a gerar imagens de pessoas que “refletem com mais precisão a diversidade da população mundial” quando recebem uma solicitação descrevendo uma pessoa com raça ou gênero não especificado.

Embora a versão hospedada pelo OpenAI do DALL-E 2 tenha sido treinada em um conjunto de dados filtrado para remover imagens que contenham conteúdo violento, sexual ou de ódio óbvio, a filtragem tem seus limites.

Para impedir com mais eficácia que as fotos desobedeçam às diretrizes de conteúdo, eles melhoraram a precisão de seus filtros de conteúdo enquanto protegem a liberdade de expressão. Isso torna ilegal que as pessoas criem conteúdo que seja, entre outras coisas, violento.

A equipe continuará usando técnicas de monitoramento automatizadas e manuais para impedir o abuso. “Expandir o acesso é uma parte importante de nossa implantação de sistemas de IA com responsabilidade, porque nos permite aprender mais sobre o uso no mundo real e continuar a iterar em nossos sistemas de segurança.”

“Continuamos pesquisando como os sistemas de IA, como o DALL-E, podem refletir vieses em seus dados de treinamento e diferentes maneiras de abordá-los”, escreveu a OpenAI em uma postagem no blog.

IA nas artes visuais e no design

Para além dos memes, a IA há algum tempo é aliada do setor criativo, seja no cinema, na música ou na animação, como conta Márcio Aguiar, diretor de Enterprise da NVIDIA, que produz sistemas de IA para usos criativos.

“A indústria do cinema é a mais habituada a usar esse tipo de ferramenta. A Pixar é um exemplo, faz tempo que usa IA para criar animações cada vez mais realistas”, diz o executivo, em entrevista ao NegNews. “A partir da inteligência artificial é que se torna possível criar esse movimento tão perfeito do vento, da chuva, das árvores, dos rios.”

Segundo a Aquarela Analytics, pioneira e referência nacional na aplicação de Inteligência Artificial na indústria e em grandes empresas, o uso dessa IA nas aplicações em Design irá trazer inúmeras possibilidades de aplicação. Ele tem o intuito de auxiliar e capacitar as pessoas a expressarem a criatividade, afetando assim diversas áreas do Design.

Banco de imagens em design gráfico: isso ocorre devido à capacidade extraordinária do sistema de replicar, transformar e sintetizar imagens, assim como incluir e excluir elementos de acordo com as necessidades apresentadas pela pessoa usuária.
Design de produtos e ambientes: a utilização por parte de profissionais para a criação de MoodBoards e geração de novas ideias pode ser uma alternativa de otimização de processos.
Políticas e licenças de usos: como um sistema capaz de gerar uma enorme diversidade de imagens realistas, a OpenAI reforça o seu compromisso de criar uma IA para o bem da sociedade, limitando para que não gere conteúdos adultos, de ódio ou violência, entre outras categorias.

No cinema, a IA facilita processos que levariam anos, como a correção de cores e a criação de cenários virtuais. Na indústria musical, ela já é capaz de criar músicas inteiras, com melodia e letra. Com as artes plásticas, pode ser utilizada para gerar universos imersivos dentro de um trabalho, entre outras aplicações.

Assim como o Imagen, do Google, e outros projetos semelhantes, o objetivo da IA que cria imagens é servir como objeto de estudo para pesquisadores. Mas vendo os resultados impressionantes que essa tecnologia produz, é difícil não pensar nos riscos que ela traz para profissionais humanos.

Para Jaime Vega, professor de design gráfico do Centro Universitário Belas Artes, em São Paulo, ainda não é dessa vez que a inteligência artificial vai acabar com os empregos de designers. “A inteligência artificial já está presente na produção de design, seja de games, gráficos, arquitetura, ou produtos, há muito tempo.”

O professor afirma que essas ferramentas permitem que designers tirem inspiração ou tenham parte de seu trabalho facilitado, mas não substituído. As limitações da IA garantem que um ser humano sempre será necessário para completar o trabalho.

“As pessoas querem saber se a IA vai substituir o trabalho humano do artista. Muito pelo contrário. Qualquer técnica que está à disposição hoje para artistas veio para complementar”.
Márcio Aguiar, diretor de Enterprise da NVIDIA

Saiba mais:

Marco legal da Inteligência Artificial: o que se discute no Brasil

Pandemia estimula adoção de Inteligência Artificial pelas empresas

CONECTANDO NEGÓCIOS
A INVESTIMENTOS

DALL-E 2 revoluciona a geração de imagens e conteúdo visual

Como funciona o DALL-E 2?

Preconceito velado e conteúdo indevido

IA nas artes visuais e no design

Saiba mais:

Top 5: Mais lidas