Verbete Draft: o que é Machine Unlearning

Dani Rosolen - 27 set 2023
Foto de Miguel Á. Padriñán: https://www.pexels.com/pt-br/foto/botoes-teclado-mensagem-palavra-2882553/
Dani Rosolen - 27 set 2023
COMPARTILHE

Continuamos a série que explica as principais palavras do vocabulário dos empreendedores da nova economia. São termos e expressões que você precisa saber: seja para conhecer as novas ferramentas que vão impulsionar seus negócios ou para te ajudar a falar a mesma língua de mentores e investidores. O verbete deste mês é…

MACHINE UNLEARNING (DESAPRENDIZADO DE MÁQUINA)

O que é e para o que serve: Machine unlearning (ou, em português, desaprendizado de máquina) é um subcampo do aprendizado de máquina (machine learning).

É usado para se referir a técnicas que fazem algoritmos de um modelo pré-treinado de aprendizado de máquina — seja de sites, aplicativos, redes sociais e demais softwares — “esquecerem” ou “desaprenderem” informações específicas, promovendo uma espécie de “amnésia seletiva”.

Mas por que as máquinas deveriam esquecer ou desaprender? Um dos motivos é evitar violações à privacidade dos dados dos usuários e a comercialização dessas informações.

“Essa questão da privacidade de dados chega com a Lei Geral de Proteção de Dados (LGPD), segundo a qual você só pode usar dados com o consentimento da pessoa que é dona deles para aquela determinada finalidade pré-estabelecida”, diz Jhonata Emerick, doutor em IA e cofundador da DataRisk.

E mesmo se o uso for autorizado para estudos científicos ou pesquisas de mercado, segundo o especialista, os dados precisam ser anonimizados, para que os algoritmos não consigam fazer a hiperpersonalização, ou seja, identificar aquele indivíduo.

O site All Tech Magazine traz um exemplo bem elucidativo da utilidade do desaprendizado nestes casos de dados pessoais e informações sensíveis: imagine que uma pessoa confidenciou a um terapeuta virtual de IA um problema pelo qual estava passando… Ela tem o direito de pedir que esse relato seja apagado do sistema.

Outro uso dos algoritmos de desaprendizado de máquina seria corrigir erros e desatualizações de informações. Ou ainda readequar o aprendizado de máquina a um novo contexto. Jonatha exemplifica:

“No caso de concessão de crédito, existe um modelo de algoritmo que indica a probabilidade de o cliente ficar inadimplente. Esse modelo aprendeu com um conjunto de dados, como idade, salário e outras variáveis, levando em conta pessoas físicas”, diz. E prossegue:

“Neste caso, o que seria o desaprender? Pode ser que esse algoritmo que funciona para uma pessoa física não se aplique a empresas, então o algoritmo terá que ser retreinado para esse novo contexto”

O desaprendizado pela qual a IA passa não é total. Para apagar dados privados ou errôneos, a base de treinamento do sistema passa por uma “amnésia seletiva” de um conjunto de dados, ou o peso atribuído a eles no modelo é reduzido.

Mas como saber se é hora de desaprender para reaprender? “No caso do exemplo do cartão de crédito, [é] na hora que sua inadimplência estiver maior do que a esperada ou que o modelo não estiver dando a resposta que você aguardava”, afirma o especialista.

Origem: O machine unlearning é uma área nascente da Ciência da Computação, mas não se trata exatamente de um conceito novo. Em 2007, ainda de acordo com o All Tech Magazine, os pesquisadores Alexander Strehl e Joydeep Ghosh usaram o desaprendizado automático para aprimorar a precisão dos classificadores de machine learning a fim de melhorar a acurácia dos resultados. O primeiro artigo sobre o termo, porém, só foi publicado anos mais tarde, em 2015 por Yinzhi Cao e Junfeng Yang.

O termo começou a ficar em maior evidência com a legislação do Direito ao Esquecimento, uma disposição do Regulamento Geral de Proteção de Dados (GDPR) da União Europeia e, aqui no Brasil, com a LGPD, que concede às pessoas o direito de eliminar seus dados armazenados digitalmente. E, nos últimos anos, o debate sobre desaprendizado de máquina acabou ampliado com o surgimento das IAs generativas, já que algumas empresas da área foram acusadas de usar obras de artistas e escritores — sem consentimento — para treinar seus modelos.

Para Jhonata, no entanto, quando empresas usam dados privados de usuários — sem sua autorização — para o treinamento de modelos e depois precisam apagá-los, nesse caso não se trata de um desaprendizado. “Nestes casos, é simplesmente estar no-compliance mesmo”, diz.

Vale lembrar que, quando o desrespeito à LGPD é constatado, a empresa fica passível de penalidades, que vão desde advertências a pagamentos iguais a 2% do faturamento (até um limite de 50 milhões de reais).

Até o momento, em três anos de LGPD recém-completados em setembro de 2023, isso aconteceu com apenas uma companhia brasileira, a Telekall Infoservice, que recebeu duas multas, de 7,2 mil reais cada uma, por ter usado dados de eleitores em uma campanha política municipal. Mas outros 16 processos de fiscalização estão em andamento. A informação foi noticiada em julho passado.

Vantagens: Dar aos usuários controle sobre suas informações e sobre a monetização delas pelas empresas, em especial, as big techs. Mas não é só isso.

De acordo com o artigo da All Tech Magazine, o desaprendizado de máquina libera recursos de memória dos modelos, antes sobrecarregada; evita que assumam padrões de generalização (o que poderia gerar resultados imprecisos e tomadas de decisão ruins); permite o que se chama de “evolução de conceito” (esquecendo dados antigos e menos relevantes para assumir informações mais atualizadas sobre determinado tema); reduz preconceitos, vieses e ruídos; permite que os modelos tenham mais eficiência cognitiva e priorizem o que realmente é importante.

Além disso, supostamente, o desaprendizado (com o retreinamento) acarretaria menos recursos financeiros do que o treinamento (hoje isso pode custar, em média, cerca de 4 milhões de dólares por ano).

Desafios ou desvantagens: Apesar de parecer uma alternativa promissora remover pontos de dados confidenciais e retreinar o modelo, esse processo ainda está dando os primeiros passos. Na opinião de Jhonata, quando se fala em desaprender para reaprender, ele não vê desvantagens:

“Se você está retreinando um modelo, é para que ele seja melhor”

Já o site VentureBeat cita alguns desafios a serem superados quando se trata do apagamento de dados. Entre eles, a eficiência, pois o desaprendizado, que pressupõe o retreinamento, precisaria usar menos recursos computacionais e de tempo do que o treinamento.

Outros desafios são a padronização (não existem métricas universais para constatar a eficiência da prática); a eficácia (como garantir que realmente os dados foram esquecidos sem mecanismos de validação sólidos?); a privacidade (há possibilidade de, no processo de desaprendizagem, sobrarem vestígios de dados privados); e dilemas éticos (quem decide o que deve ser esquecido?).

Perspectivas futuras: As empresas de tecnologia estão começando a se empenhar nesta questão. O Facebook já utiliza essa técnica (vale lembrar da dor de cabeça do escândalo Cambridge Analytica) e o Google criou neste ano o seu primeiro desafio de desaprendizado de máquinas, para buscar novas soluções e métodos neste sentido. A competição começou em julho e estava prevista para acabar em meados de setembro.

Segundo Jhonata, essas empresas sabem que possuem dados sensíveis dos usuários e, por isso, precisam se precaver. No caso do Google, ele cita o tipo de solução que imagina que possa ser apresentada no desafio proposto pela big tech:

“Vamos supor que uma empresa grave todas as reuniões que realiza pelo Google Meet; essas informações só podem ser usadas dentro deste contexto. Posso então criar uma solução em que o Google só tenha acesso ao vídeo borrado e a voz das pessoas ‘maquinizadas’ [distorcidas digitalmente]”

Apesar de desafiador, garantir que os modelos sejam capazes de esquecer e desaprender é essencial tanto em termos de proteção da privacidade do usuário quanto para a evolução desse sistema. O desafio agora é justamente aprender como fazer isso da melhor maneira.

Para saber mais:
1) Na Fortune, acesse: “A.I.’s un-learning problem: Researchers say it’s virtually impossible to make an A.I. model ‘forget’ the things it learns from private user data”;
2) Leia na The Shift: “Máquinas também precisam desaprender”;
3) Confira na Wired: “Now That Machines Can Learn, Can They Unlearn?”;
4) No site QZ, mais detalhes sobre o desafio lançado pelo Google: “Forget machine learning. Google now wants to crack machine unlearning”.

COMPARTILHE

Confira Também: