Verbete Draft

Verbete Draft: o que é IA Generativa

Dani Rosolen - 23 nov 2022

Arte criada por Jason M Allen usando o Midjourney e que ganhou a Colorado State Art Fair em agosto de 2022.

Dani Rosolen - 23 nov 2022

Continuamos a série que explica as principais palavras do vocabulário dos empreendedores da nova economia. São termos e expressões que você precisa saber: seja para conhecer as novas ferramentas que vão impulsionar seus negócios ou para te ajudar a falar a mesma língua de mentores e investidores. O verbete de hoje é…

IA GENERATIVA

O que é: IA Generativa (Inteligência Artificial Generativa) ou, em inglês, Generative Artificial Intelligence, é um subcampo da inteligência artificial. Anderson da Silva Soares, coordenador científico do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás, explica:

“Inteligência artificial é um termo utilizado para se referir à capacidade da máquina de fazer algumas tarefas ditas ‘inteligentes’ ou mais complexas, que envolvem um certo raciocínio em cima de informações. Até poucos anos atrás, a gente só conseguia fazer a IA classificar ou rotular um dado, por exemplo ‘essa foto é o rosto do Anderson, sim ou não?’” . Ele complementa:

“Já as IAs generativas constroem conteúdos e dados e não apenas os rotulam. Ou seja, eu peço para a IA construir a imagem de um rosto para mim”

Na prática, a IA generativa consegue fazer isso por meio de algoritmos e machine learning ao ser “alimentada” com milhões de fragmentos de imagens de rostos coletados na web, produzindo algo totalmente novo e gerando ainda variações dessa criação. Mas a IA generativa não se limita a imagens digitais – ela é capaz de produzir textos, áudios, vídeos ou códigos.

Embora ainda seja uma tecnologia em estágio inicial, de acordo com a Sequoia Capital tem potencial de gerar 3 milhões de dólares para a economia.

Para que serve: A IA generativa pode ser usada, por exemplo, para produzir conteúdos de alta qualidade (imagens estáticas, modelos 3D, vídeos, áudios e textos), desenvolver código de software, diminuir riscos financeiros e de reputação, facilitar o desenvolvimento de marketing direcionado e até aplicada ser no setor de saúde, para detecção precoce de doenças malignas e descoberta de novos medicamentos.

A origem, IAs escritoras: De acordo com Silva Soares, é difícil estabelecer um marco para a IA generativa.

“Claro que na ciência se estuda este assunto há muito tempo, mas os resultados não eram competitivos ou animadores. Os grandes resultados apareceram por volta de 2019, com uma IA chamada GPT-3, que produz textos”

A GPT-3 é um algoritmo criado pela OpenAI (empresa que tem Elon Musk entre seus patrocinadores). O algoritmo usa deep learning treinado por milhões de livros e conteúdos da internet para gerar textos. Sua primeira versão, a GPT-2 foi lançada em 2019 e aprimorada como GPT-3, em 2020.

“As IAs escritoras realmente assustaram todo mundo, pois produzir um texto é uma arte que envolve um esforço intelectual muito grande, mesmo para um ser humano. Veja aí como a redação na prova do ENEM é uma das partes que mais tem peso na avaliação. Então, quando começaram a aparecer textos produzidos por IAs, isso impactou até quem está imerso neste meio”, diz o especialista. “Em tese, é muito mais difícil fazer uma IA escrever, pois além de não estar errado gramaticalmente, o texto precisa estar coerente.”

Ainda no tópico IA escritoras, o Google tem um protótipo funcional chamado Wordcraft Writers Workshop que ajuda autores a criar e editar histórias ficcionais. Os usuários podem pedir ao sistema, por exemplo, para reescrever frases, criar uma sentença mais engraçada, descrever objetos etc.

O recurso usado, o LaMDA (Language Model for Dialogue Applications, ou modelo de linguagem para aplicativos de diálogo), gera textos com base em prompts fornecidos pelo usuário. Neste artigo do The Verge, Victoria Song conta que forneceu um prompt assim: “pinguins nadando” e a partir daí recebeu do Wordcraft ideias de histórias diferentes.

“Como adoro filhotes de animais, fui com a de uma mãe pinguim sentada em seus ovos”, diz ela no artigo. E continua: “Os resultados foram meio surreais — um descreveu os ovos como tendo uma textura de couro, mas optei pela opção em que eles eram do tamanho de toranjas e cobertos por penas felpudas. (Não importa o fato de que ovos cobertos de penas não são realmente reais.)”

Victoria chega a relatar que a história muitas vezes se torna contraditória e que não seria possível escrever um texto inteiro usando a ferramenta; é mais um recurso para gerar ideias, como já havia relatado Douglas Eck, diretor sênior de pesquisa do Google Research, no evento AI@, quando disse que o Wordcraft serve para “dar um tempero” ao texto.

Se não é algo deste ano, por que estamos ouvindo falar disso com maior ênfase agora? De acordo com um mapeamento da Sequoia Capital, isso se deve a melhores modelos, mais dados e mais computação disponíveis hoje.

Segundo o documento, de 2015 a 2020 a computação usada para treinar esses modelos aumentou em seis ordens de magnitude e seus resultados superam os benchmarks de desempenho humano em caligrafia, reconhecimento de fala e imagem, compreensão de leitura e de linguagem.

Apesar disso, a tecnologia por trás desses modelos ainda era muito cara. Porém, a partir de 2022 novas técnicas reduziram os custos para desenvolver algoritmos melhores e criar aplicativos. E assim surgiu, neste ano, uma série de plataformas — muitas delas gratuitas ou com uso beta gratuito limitado.

A onda da geração de fotos e vídeos: Embora a produção de textos tenha marcado o início da IA generativa, o que tem popularizado a tecnologia é seu uso para gerar imagens. Segundo Silva Soares, isso tem uma explicação simples:

“A quantidade de pessoas que leem é muito menor do que a de pessoas que param para apreciar uma imagem… Você bate o olho e, em cinco segundos, isso causa impacto. A informação visual acaba sendo mais apreciada pelo público”

Esse recurso amplia a possibilidade de empresas e profissionais aplicarem a produção audiovisual em diversos tipos de negócios, em especial, no mercado de entretenimento. Muitas vezes, isso não é feito pelos custos envolvidos.

Já surgiram inúmeras plataformas de IA generativa que produzem imagens a partir de textos. Entre elas, o DALL-E (trocadilho com o pintor Salvador Dalí), que já está em sua segunda versão, lançada em abril deste ano pela OpenAI (a primeira, de 2021, fez menos sucesso do que a atual). Outras plataformas são Canva, Dream, Midjourney, Picsart, Stable Diffusion— além de Imagen e Parti (ambas do Google).

Existe ainda o DALL-E Mini, criado pelo programador Boris Daymaque como parte de uma competição Google e Hugging Face para ser uma plataforma de código similar ao DALL-E original, mas com menos recursos. A plataforma acabou rebatizada como Craiyon devido a questões de direitos autorais.

Na maioria dessas ferramentas, basta inserir uma descrição em texto para que a IA gere uma imagem correspondente. Em muitos casos, o resultado segue um estilo fotorrealista; em outros, se assemelha mais a uma ilustração.

O Make-A-Scene, da Meta, permite a geração de imagens a partir da combinação de textos e esboços à mão livre, para garantir que a IA seja mais certeira em sua criação. O software ainda não está disponível para o público, mas é possível ver uma demo aqui.

Plataformas como DreamFusion, do Google, permitem também gerar imagens 3D, que podem ser vistas de qualquer ângulo (com a possibilidade adicional de se fazer ajustes na iluminação).

Indo além, agora também é possível criar vídeos a partir de textos, com direito a movimentos, paisagens e personagens. A Meta foi uma das primeiras empresas a anunciar esse recurso no final de setembro passado, com a plataforma Make-a-Video. Veja aqui algumas demonstrações e o post de Mark Zuckerberg apresentando a novidade e alguns exemplos de uso.

Já existem concorrentes no páreo de Zuck, como Imagen Vídeo, do Google, e o Phenaki, que gera vídeos a partir de imagens estáticas e descrições de texto. Outro diferencial é produzir clipes mais longos.

Solta um som aí, ou melhor, IA: Mais do que gerar fotos e vídeos, a IA generativa é usada para criar áudios, como faz o modelo AudioLM, do Google, criando música e fala. A OpenAI, mesma empresa que criou a GPT-3 e o DALL-E, também lançou em 2020 o Jukebox, um algoritmo que gera uma nova música usando como entrada apenas a especificação de gênero, artista e um pequeno trecho de letra. Por exemplo, você pode pedir para a AI uma canção no estilo Ella Fitzgerald.

O Dance Diffusion é outro algoritmo capaz de fazer isso usando um banco com dados de músicas existentes. A Meta também desenvolveu uma IA geradora de sons a partir de descrições de textos, o AudioGen, mas a solução não foi lançada publicamente.

Como fica o direito autoral: Para gerar uma imagem, a IA generativa busca pedaços de imagens ou vídeos na internet, mas muitas vezes os direitos autorais são ignorados. Para Silva Soares, especialista da Universidade de Goiás, esse é um problema em aberto:

“Só não estão usando mais massivamente a geração de imagens sintetizadas por conta dessa discussão dos direitos autorais. Um ser humano também se baseia em outras informações visuais para fazer suas artes, isso é um fato. A distinção é que ele consegue ser mais original. Teremos que começar a debater essas questões, porque são limiares subjetivos”

Como alternativa a esta questão, a Shutterstock, banco de venda de imagens, decidiu criar um fundo para reembolsar artistas que tenham seus trabalhos usados para treinar modelos de IA; na outra ponta, a empresa passou a vender imagens geradas por IA, integrando o DALL-E 2 ao seu site. Já a concorrente Getty Images preferiu – por enquanto — não seguir essa onda, com receio de problemas legais.

Rivalidade com humanos e o impacto na criatividade: Depois de ver o que a IA generativa é capaz e criar, vem aquela velha pergunta: seremos substituídos pelas máquinas?

Para dar uma “apavorada”, vale citar uma competição de arte digital nos Estados Unidos, a Colorado State Art Fair, realizada em agosto passado, em que uma IA levou a melhor. Na verdade, não foi uma IA, mas Jason M Allen que usou o Midjourney para criar uma arte, intitulada “Théâtre D’opéra Spatial” (a imagem ilustra este verbete).

Ele ganhou o prêmio, no valor de 262 libras (pouco se comparado ao barulho e incômodo que o fato causou). A premiação deixou concorrentes indignados. Jason, por sua vez, chegou a declarar: “Acabou. A IA venceu. Os humanos perderam”. (Veja a repercussão do caso no New York Times).

Mas não é bem assim. “Tenho 39 anos e ouvi essa mesma história de substituição com a popularização dos computadores”, como comenta o especialista da Universidade de Goiás. E completa:

“Neste concurso dos EUA, foi uma pessoa que usou IA para fazer uma obra melhor, então por que os outros também não podem passar a utilizar esse recurso de agora em diante? A IA é uma ferramenta que precisa de alguém pilotando. Visualizo a mesma situação dos computadores. Não consigo imaginar os profissionais sem usar IA daqui para frente — mas não sendo substituídos por ela, e sim em parceria para criar melhor”

O mapeamento da Sequoia Capital aponta que a inteligência artificial generativa está “a caminho de se tornar não apenas mais rápida e barata, mas melhor em alguns casos do que o que os humanos criam à mão […] Certas funções podem ser completamente substituídas por IA generativa, enquanto outras são mais propensas a prosperar a partir de um ciclo criativo iterativo apertado entre humano e máquina – mas a IA generativa deve desbloquear uma criação melhor, mais rápida e mais barata em uma ampla gama de mercados finais. O sonho é que a IA generativa reduza o custo marginal de criação e trabalho de conhecimento para zero, gerando grande produtividade de trabalho e valor econômico – e valor de mercado proporcional.”

Ainda de acordo com o documento, a IA generativa pode tornar o profissionais criativos pelo menos 10% mais eficientes e/ou criativos. É nisso que aposta o especialista da Universidade de Goiás: “Assim como todas as outras transformações tecnológicas e revoluções industriais pelas quais a humanidade já passou, a tendência é de que a IA generativa nos desafie a ser melhores”.

Para além da geração de conteúdo: Mais do que gerar áudios, imagens, textos e vídeos, a IA generativa pode ser usada a fim de evitar fraudes — ou mesmo no setor de saúde, no desenvolvimento de novos medicamentos.

“Vamos pensar na biometria por face. Vou conseguir agora gerar uma face de uma pessoa sem que ela esteja lá e aí vai virar um jogo de gato e rato. Vai ter gente tentando usar isso para cometer fraudes e, do outro lado, a IA tentando discernir não só se é a pessoa certa, mas se não é uma imagem generativa”, afirma Silva Soares.

Sobre os fármacos, o especialista crê que essa é uma das áreas com maior potencial de impacto. Ele afirma que quando se está desenvolvendo um remédio, é necessário pensar como ligar os átomos em uma molécula para matar determinada bactéria ou vírus. E que, às vezes, o próprio ângulo de ligação altera o comportamento do fármaco.

“A descoberta de remédios, na prática, é um generativo, só que manual. Os cientistas ficam testando: ‘se eu ligar esse átomo com esse aqui, como vai se comportar essa molécula?’. Então, hoje não se usa IA para gerar a molécula inteira, mas para se buscar moléculas candidatas, o que já é um baita avanço, porque se reduz o espectro de busca a um nicho mais limitado para tentar atacar determinado problema na relação farmoquímica”, explica.

Na Folha de S.Paulo, a reprodução da reportagem da AFP “Inteligência Artificial se torna ferramenta para fabricar medicamentas” mostra algumas startups que atuam nesta área, entre elas as francesas Aqemia e Iktos, a britânica BenevolentAI e a escocesa Exscientia.

Prós e contras: A principal vantagem da IA generativa, na visão de Silva Soares, é o volume de dados sintéticos que ela gera, o que possibilita que empresas consigam desenvolver soluções com abundância de informações. Fora isso, outros especialistas apontam como vantagem ou utilidade o tipo de conteúdo realista que ela produz para as áreas de marketing e publicidade.

No quesito desvantagens, Silva Soares diz que existe um paradoxo. “A IA generativa ainda precisa de dados reais para criar. Imagine um mundo em que 95% dos dados são sintéticos, gerados por IA… teremos um problema de diversificação enorme lá na frente.”

Outro grande problema relacionado à IA generativa são as deepfakes criadas com essa tecnologia. Se as pessoas já caem em armadilhas de textos falsos, imagine com imagens e vídeos super realistas… O receio é que fique cada vez mais difícil combater as informações falsas online e a pornografia não consensual ou a pedofilia. De acordo com o especialista:

“Aqui no Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás, a gente consegue clonar a voz das pessoas com uma precisão assustadora. Costumamos fazer uma brincadeira nas nossas apresentações e mostramos o Lula dizendo que o Bolsonaro é o melhor presidente que o Brasil já teve. Isso tem como objetivo educar as pessoas para mostrar que se a gente já está tendo fake news de texto, imagine de voz”

Ele complementa: “É preciso que haja formas de punir as pessoas que façam mal uso desta tecnologia, pois isso não é novidade na história da humanidade. Uma faca ajuda você a cortar um alimentos, mas também pode ser usada para matar… É questão de tempo e educação para que a gente mitigue esse problema”.

Para saber mais:
1) Leia na Harvard Business Review: “How Generative AI Is Changing Creative Work”;
2) Confira na CNBC: “Why Silicon Valley is so excited about awkward drawings done by artificial intelligence”;
3) Assista ao clipe da faixa “Raio“, do álbum O Que Acontece no Escuro, de Lã (nome artístico de Guilherme Rech); a produção foi feita usando mil imagens geradas pelo Midjourney;
4) No Uol, acesse: “DALL-E virou febre nas redes. Mas como uma IA cria imagens tão perfeitas?”;
5) Acesse na BBC o texto: “‘Art is dead Dude’ – the rise of the AI artists stirs debate”.

Verbete Draft: o que é IA Generativa

Confira Também:

Verbete Draft: o que é vibe coding

Verbete Draft: o que são IAs de companhia

Verbete Draft: o que é Economia da Intenção