Verbete Draft

Verbete Draft: o que são Dados Sintéticos

Dani Rosolen - 14 set 2022

Foto de ThisIsEngineering (via pexels.com).

Dani Rosolen - 14 set 2022

Continuamos a série que explica as principais palavras do vocabulário dos empreendedores da nova economia. São termos e expressões que você precisa saber: seja para conhecer as novas ferramentas que vão impulsionar seus negócios ou para te ajudar a falar a mesma língua de mentores e investidores. O verbete de hoje é…

DADOS SINTÉTICOS:

O que são: Synthetic data ou dados sintéticos, em português, são dados gerados artificialmente, sob demanda e no volume desejado, sem que haja uma coleta de fenômenos ou eventos do mundo real.

Eles são sintetizados — por meio de simulações de computador, algoritmos, modelagem estatística, regras simples e outras técnicas — a partir de uma pequena amostra de dados reais e devem refletir o comportamento dos dados originais em termos estatísticos e matemáticos.

Dados sintéticos podem ser números (registros de compra, transações financeiras etc.), imagens (rostos, retratos gerados por inteligência artificial) ou mesmo vídeos (simulações em 3D).

Citados como uma das 10 tecnologias mais inovadoras de 2022 pela MIT Technology Review, os dados sintéticos prometem acelerar processos de inovação nas organizações. Ainda de acordo com a publicação, o sucesso no uso dos dados sintéticos foi impulsionado pelas redes adversariais generativas — GANs (já falamos sobre isso aqui) –, um tipo de IA capaz de gerar exemplos realistas, mas falsos.

Para que servem: Segundo Thoran Rodrigues, fundador e CEO da BigDataCorp., existem várias razões para o uso de dados sintéticos.

“Geralmente, são usados para a validação de novos produtos e ferramentas, para pesquisas ou para o treinamento de inteligência artificial, quando não há uma base de dados sobre o assunto ou a que existe não tem variedade, qualidade ou o volume necessário”

Uma das aplicações mais comuns para o último exemplo citado, diz ele, é no treinamento de sistemas de reconhecimento facial. “Os dados sintéticos têm sido muito utilizados neste contexto para eliminar os vieses que existem dentro dos modelos de biometria facial. Nos EUA, por exemplo, os bancos de dados só vão ter rostos de norte-americanos brancos; na China, só rostos de chineses. E tudo isso gera distorções”, afirma o especialista.

“Então, os pesquisadores criam, com algoritmos, um monte de outras imagens sintéticas de rostos, com variações de cor de olho, de pele, de características faciais, para que o modelo de IA aprenda a reconhecê-las e não fique restrito apenas àquela base padrão.”

Os dados sintéticos também podem ser utilizados quando há questões relacionadas à privacidade, que impedem a utilização de dados reais.

Origem: O conceito de dados sintéticos não é algo novo. Foi usado pela primeira vez pelo professor de estatística de Harvard, Donald Rubin, durante o censo de 1993 dos Estados Unidos. Mas segundo uma reportagem da Forbes (link em “Para saber mais”), só a partir de meados de 2010 o setor de veículos autônomos deu a essa tecnologia uma aplicação mais comercial. Thoran explica:

“Como treinar a inteligência do veículo autônomo para reconhecer diferentes situações sem ter o carro na rua andando e eventualmente batendo nas pessoas, em placas, avançando sinal vermelho? É complicado fazer isso na vida real, por isso as empresas passaram a usar dados sintéticos para criar simulações [vídeos] de todos os cenários possíveis”

O objetivo com isso é construir um veículo autônomo que seja o mais seguro possível. O artigo cita como exemplos de empresa que investiram nesta tecnologia Aurora, Cruise, Waymo e Zoox.

Vantagens: Os dados sintéticos prometem transformar a economia dos dados nos próximos anos. Primeiro porque seu uso elimina um grande problema para quem trabalha com dados: sua escassez. Afinal, para a realização de pesquisas e, principalmente, para alimentar uma inteligência artificial a ponto de ela ser realmente eficaz (ou “inteligente”), é preciso um volume gigante de dados. Segundo Thoran:

“Não depender de dados reais é uma das principais vantagens. Pegando o exemplo dos carros autônomos, você não precisa estar na rua, causando uma série de acidentes para que a inteligência do veículo aprenda”

Além disso, sai muito mais barato – e rápido — produzir dados sintéticos do que coletar os dados reais, limpá-los e depois trabalhar em cima deles. Para se ter uma ideia, uma imagem “real” para pesquisas pode valer até 6 dólares, enquanto um registro criado artificialmente sai por cerca de 6 centavos de dólar.

Uma terceira vantagem é a privacidade, pois os dados sintéticos não envolvem informações pessoais de clientes, permitindo que empresas criem soluções e produtos sem violar a LGPD.

Um caso legal para entender essa questão da privacidade é a participação da Microsoft no Tech Against Trafficking (TAT), uma coligação de empresas de tecnologia que trabalham no combate ao tráfico. A big tech trabalhou junto com o CTDC (Counter Trafficking Data Collaborative) para criar o maior banco de dados do mundo sobre vítimas de tráfico identificadas.

A ideia era que essa base pudesse ser consultada pelos criadores de políticas. Mas como fazer isso preservando a privacidade desse grupo? A solução foi desenvolver uma demonstração de dados sintéticos de código aberto a partir daquela base, conservando a utilidade da original.

Outra vantagem super importante, já mencionada no item “Para que servem”, é o fato de os dados sintéticos teoricamente serem menos enviesados, por serem gerados por softwares em vez de humanos, que mesmo inconscientemente carregam preconceitos. Especialistas, porém, fazem a ressalva de que os dados sintéticos só serão menos tendenciosos a depender da fonte que tiverem para serem gerados.

Por fim, essa tecnologia ainda ajuda a democratizar o acesso a dados, permitindo que outras empresas se desenvolvam e concorram com big techs, como Amazon, Google e Meta, que hoje detêm os dados de praticamente 100% da população — e, justamente por isso, dominam o mercado.

Quem usa: Empresas de diferentes setores fazem uso de dados sintéticos – desde negócios da área saúde, passando por finanças, telecomunicações, manufatura, varejo, detecção de crimes, entre outros.

A Amazon utiliza os dados sintéticos para treinar a sua assistente de voz Alexa. A empresa de Jeff Bezos também usa imagens sintéticas para treinar os sistemas de reconhecimento de visão dos mercados inteligentes da Amazon Go.

O Google aplica essa tecnologia na empresa de veículos autônomos Waymo para simular o comportamento de motoristas agressivos, ambiente e objetos ao redor do carro, condições climáticas etc.

A American Express e o JP Morgan, por sua vez, se valem de dados financeiros sintéticos para melhorar e prevenir a detecção de fraudes. Enquanto isso, na área da saúde, em que os dados dos pacientes não podem ser facilmente compartilhados, a farmacêutica Roche aposta nos dados sintéticos para poiar pesquisas clínicas.

Segundo Thoran, a própria BigDataCorp usa dados sintéticos para identificar se documentos foram manipulados digitalmente.

Desvantagens ou riscos: Não há como usar dados sintéticos para tudo, eles têm suas limitações, explica Thoran. E se não conseguirem refletir a realidade, podem acabar gerando uma inteligência artificial pior do que a produzida com dados reais.

Segundo o fundador da BigDataCorp., outro risco – mais do que uma desvantagem — dos dados sintéticos é mapear situações que estão fora da realidade e assim, de alguma forma, gerar distorções dentro do modelo de aprendizagem.

“Vamos pegar o exemplo do treinamento de um carro autônomo. Ele precisa aprender a identificar se o sinal está verde, amarelo ou vermelho para tomar uma decisão. Mas você manda para ele um input de que o sinal está roxo e ele aprende que quando está desta cor é para continuar andando”, diz. “Isso pode criar uma situação em que lá na frente, por alguma razão, ele vê o sinal vermelho e acha que está roxo, por conta de um reflexo, e acaba causando um acidente.”

Um mercado de mais de 1 bilhão de dólares: Segundo uma pesquisa da Gartner, em 2024 mais de 60% de todos os dados utilizados para treinamentos de IAs serão sintéticos.

De empresas que criam dados sintéticos às que gerenciam essas informações, há muitas oportunidades (confira aqui uma lista de 2021 de companhias do setor). Este mercado, porém, ainda deve levar um tempinho para amadurecer. Algo entre três a cinco anos, pelo menos, segundo reportagem do Tech Brew (link no final do texto).

A previsão bate mais ou menos com a da empresa Cognilytica, que indicou que, em 2027, os dados sintéticos devem integrar uma indústria avaliada em 1,15 bilhão de dólares (em 2021, valia 110 milhões de dólares).

E dá para ver que há interesse dos gigantes e dos fundos de investimento neste setor. Em outubro de 2021, o Facebook adquiriu a startup de dados sintéticos AI. Reverie, sem revelar quanto pagou na transação. Mais recentemente, já em 2022, as startups Mostly.ai, Synthetaic e Datagen levantaram 25 milhões, 17 milhões e 50 milhões de dólares, respectivamente.

As possibilidades desse mercado são amplas. A Mostly.ai, por exemplo, atua com companhias financeiras, de telecomunicações e de seguros, fornecendo planilhas de dados sintéticos de clientes, o que permite às empresas compartilhar seu banco de dados de consumidores com fornecedores externos de uma forma legalmente compatível. Já a Datagen vende, entre outras soluções, representações 3D de seres humanos.

Para saber mais:
1) Leia na Forbes: “Dados sintéticos estão prestes a transformar a inteligência artificial”;
2) Na Fast Company: Dados tendenciosos podem fazer muita diferença para pessoas negras;
3) No MIT Technology Review: “Esses falsos e assustadores humanos anunciam uma nova era na Inteligência Artificial”;
4) No Tech Brew: “A primer on synthetic data, which is gaining steam for AI”;
5) No IT Forum: O que são dados sintéticos? Dados gerados para ajudar sua estratégia de IA.

Verbete Draft: o que são Dados Sintéticos

Confira Também:

Verbete Draft: o que são PFYTs

Verbete Draft: o que é parassocial

Verbete Draft: o que é code-switching