Um chatbot versado nas coisas e na língua do Brasil: conheça a inteligência artificial criada por pesquisadores da Unicamp

Leonardo Neiva - 21 ago 2023
Ramon Pires, pesquisador da Maritaca AI (foto: Fabiano Prates Ferreira Dos Reis) https://www.instagram.com/fabianopratesferreira/)
Leonardo Neiva - 21 ago 2023
COMPARTILHE

Se você já conversou em bom português com o ChatGPT, sabe que ele raramente faz feio na gramática da nossa língua. Mas o sistema também nos lembra de sua origem estrangeira assim que fazemos uma pergunta mais difícil ou específica sobre a cultura, tradições e personalidades brasileiras.

Para lidar com essas questões, cujos significados muitas vezes se perdem na tradução, quatro pesquisadores da Unicamp se uniram para desenvolver um projeto ambicioso: criar um modelo de inteligência artificial (IA) de geração de texto que seja 100% brasileira.

Fundada pelo doutor em computação e hoje professor da universidade, Rodrigo Nogueira, a startup Maritaca nasceu como um ambiente de especialização e implantação de modelos de linguagem em IA. 

“O primeiro ponto que queremos resolver na Maritaca é ter esse modelo capaz de solucionar tarefas variadas em português do Brasil”, afirma Ramon Pires, 34, também doutor em ciência da computação. Hugo Abonizio e Thales Almeida completam o quarteto de pesquisadores da empresa.

Em julho, eles lançaram a MariTalk, modelo de IA (hoje disponível gratuitamente no site da startup) treinado com tarefas que vão desde resolver a prova do Enem até uma maior compreensão da legislação brasileira.

Mesmo antes de o projeto vir à tona, os colaboradores já atuavam juntos na NeuralMind, empresa de desenvolvimento de sistemas IA para soluções em buscas corporativas. 

Ramon, por sua vez, também tem experiência com inteligência artificial na área da saúde. Sua tese de doutorado sobre o uso da tecnologia para o diagnóstico por imagens da retinopatia diabética (uma das principais causas de cegueira no mundo) rendeu o prêmio de melhor tese pela Sociedade Brasileira de Computação em 2019.

Nascido no município de Tanhaçu, no interior da Bahia, Ramon hoje lidera os esforços para manter a MariTalk constantemente atualizada, evitando a obsolescência do sistema. Em breve, a equipe deve começar a trabalhar em modelos de IA com treinamentos específicos, visando atuar em setores como o jurídico e o da saúde. 

A ideia é vender o sistema como uma solução para empresas dessas e de outras áreas —objetivo que requer um intenso processo de alimentação da IA com dados e documentos.

“Tem todo um trabalho de preparação de dados”, diz Ramon. “O modelo só fica bom e consistente se receber informações de boa qualidade.”

Em entrevista ao Draft, ele fala sobre os riscos e oportunidades da IA generativa e como o Brasil vem se posicionando num mercado cada vez mais aquecido:


Como foi que você começou a trabalhar com IA?
Comecei em 2011 a partir da minha pós-graduação. Terminei a pós em 2018, mas continuei trabalhando com IA relacionada a imagens. Até 2020, trabalhei apenas com imagens, visão computacional, e em 2021 comecei a atuar com geração de textos também.

Durante toda minha pesquisa acadêmica trabalhei com auxílio ao diagnóstico, então era IA aplicada na saúde. 

Nossa meta era desenvolver meios de uma IA ajudar a diagnosticar a retinopatia diabética, doença que era a maior causa de cegueira na população ativa mundial. Uma consequência do diabetes, de forma resumida. 

O objetivo não era substituir o ser humano. Tem gente com muito medo que a IA vá tomar nosso lugar, mas no caso da minha pesquisa queria criar uma ferramenta para auxiliar os médicos no processo de triagem

A ideia era impedir que os especialistas ficassem sobrecarregados e providenciar o atendimento para quem tem menos acesso, encaminhando para os médicos disponíveis apenas os pacientes em áreas remotas que precisassem de fato de consultas presenciais, com quadros moderados ou severos da doença.

Como surgiu a ideia de criar um chatbot 100% brasileiro? Foi a partir desse projeto que nasceu a Maritaca?
Antes da Maritaca, os quatro integrantes da empresa já trabalhavam juntos numa outra startup de IA. Só que a gente queria criar um ambiente que fosse bem dividido, 50% dedicado à pesquisa e 50% ao desenvolvimento, que acabou sendo a Maritaca.

Pela experiência que tivemos anteriormente, vimos que, ao especializar esses modelos de linguagem em domínios ou idiomas específicos, em vez de um programa multilingual que atende todos os idiomas [caso do ChatGPT], há um ganho bem significativo em eficiência.

Então o primeiro ponto que queremos resolver na Maritaca é ter esse modelo capaz de solucionar tarefas variadas em português do Brasil

Mais para frente, também pretendemos lidar com domínios específicos. Por enquanto, nosso modelo, a MariTalk, é especializado num domínio geral.

Ele pode até ser usado em vários domínios, desde que para tarefas não tão complexas. Futuramente, queremos lidar com aquelas que requerem um conhecimento mais amplo sobre uma área específica.

Como foi o processo de criação da tecnologia da MariTalk?
A MariTalk, nosso chatbot, é um modelo de linguagem treinado com muitos textos da língua portuguesa. Conseguimos fazer esse treinamento entrando em contato com o Google, que nos concedeu um conjunto de TPUs [circuitos integrados criados pelo Google para o aprendizado de modelos de IA].

Além disso, tem todo um trabalho de preparação de dados. O modelo só fica bom e consistente se receber informações de boa qualidade. Então desenvolvemos todo um processo de curadoria e treinamos diferentes modelos como base para a MariTalk.

Depois de especializar a IA na língua portuguesa, ainda fizemos um treinamento adicional para dar uma personalidade a ela, mostrar que é uma assistente de IA e que deve fornecer respostas úteis, precisas e educadas para os usuários.

Por que um sistema específico em português do Brasil? Muita gente vem usando o ChatGPT no dia a dia, o que um modelo como a MariTalk traz de diferente?
Existem algumas diferenças entre a MariTalk e o ChatGPT. Primeiro, em relação ao tipo de resposta que ela vai dar.

Quando a gente treina um modelo mais profunda e amplamente com conteúdos na língua portuguesa, ele vai ser cada vez mais capaz de entender as diferenças culturais, as nuances linguísticas e os contextos brasileiros do que um modelo que não é treinado com textos do nosso país.

Em questão de cultura, a MariTalk tem uma probabilidade maior de conhecer nossas tradições, as comidas típicas de cada região, os biomas etc. Até no direito, as leis do Brasil são diferentes das estrangeiras. E o modelo da MariTalk traz um conhecimento bem mais amplo disso

A comunicação informal é outra coisa que varia de um país para o outro — e que esse modelo vai conhecer melhor. 

Em termos de infraestrutura ou quão útil isso é para empresas no Brasil, um diferencial é que a gente preza bastante pela privacidade. Daqui a algumas semanas, vamos lançar um produto que vai permitir que nossos clientes rodem a MariTalk a partir de seus próprios servidores.

Estamos criando uma versão baixável para rodar em servidores individuais, então não vai haver preocupação nenhuma em relação à segurança de dados. Essa é uma diferença bem importante na comparação com o ChatGPT.

Por que, como você mesmo apontou, um modelo como a MariTalk não está pronto para ser usado em tarefas mais específicas de áreas como saúde e direito?
Ele até pode ser utilizado em vários mercados, como varejo, finanças e medicina, mas em tarefas não tão complexas, como fazer paráfrases, sumários, reconhecer determinadas entidades, formatar um documento e gerar descrições de termos. Já em tarefas mais complexas, ele não vai tão bem.

O ChatGPT e a MariTalk até conseguem traçar um peça processual na área de direito, por exemplo, necessário no exame da OAB. Só que o resultado final não vai ser muito bom porque esses sistemas não têm todo o conhecimento necessário para isso.

À medida que formos treinando o modelo nesse domínio jurídico, aí sim ele vai conseguir auxiliar o especialista na área, desenvolvendo um peça processual bem melhor

É como fazer um ajuste fino do modelo que temos. Ainda não aplicamos nenhum treinamento em domínios específicos, mas pretendemos fazer isso na área jurídica, financeira, médica, e por aí vai.

Hoje o Brasil já tem especializações e profissionais com conhecimento suficiente para atuar nessa área? Como essa formação tem se desenvolvido?
A educação aqui no Brasil está avançando em direção à IA. Existem cada vez mais alunos interessados no assunto. Para atuar na área, as pessoas costumam fazer cursos como ciência da computação, engenharia, matemática ou estatística.

Só que também é um setor multidisciplinar. Então, se você atua em psicologia, medicina ou direito, esse conhecimento vai ser necessário para projetos específicos de IA dentro desses setores

Em outras palavras, mesmo quem fez cursos que não sejam de exatas, mas se interessa pelo assunto, pode buscar entender melhor como funciona a rede neural através de cursos online ou de extensão. Sua presença vai ser superimportante para validar modelos e verificar o quão próximo as respostas dadas pela IA estão do esperado, melhorando seu nível de assertividade.

Dentro dos cursos de computação e engenharia, já existem disciplinas específicas para lidar com modelos de IA generativa. Quando eu estava na graduação, poucos faziam. Hoje vejo que os jovens estão mais interessados em conhecer a fundo essa área.

Há uma preocupação grande em várias áreas sobre a possibilidade de a IA tirar empregos inclusive criativos. Embora você tenha falado na tecnologia como uma ferramenta, modelos direcionados não vão tornar obsoletas certas atividades feitas por humanos?
A preocupação em relação à IA no sentido de tirar empregos é válida até um certo ponto, porque historicamente isso já aconteceu outras vezes. Quando tivemos avanços tecnológicos de alto nível lá atrás, houve perda de empregos.

Só que prefiro ver por outro lado:

A IA generativa não deve ameaçar atividades criativas, que exigem algum tipo de empatia ou ética. Ela existe mais como uma ferramenta para lidar com tarefas muito repetitivas, através do reconhecimento de padrões. Mas nunca vai ser criativa o suficiente para tomar o emprego dos seres humanos

Além disso, ela não apenas facilita o trabalho dos seres humanos, mas também cria novas oportunidades. Por isso se fala bastante no trabalho de engenheiro de prompt, aquele que consegue entender como a rede neural da IA responde a um determinado comando, e que diferenças é possível alcançar com determinadas variações.

São colaboradores capazes de aproveitar melhor o que a IA é capaz de gerar. Então há uma adaptação, à medida que alguns empregos são ameaçados, outros surgem. Historicamente, é isso que acontece.

Estima-se que o Brasil invista cerca de 5 bilhões de reais na área de IA em 2023. Considerando os fortes investimentos feitos lá fora, esse valor é suficiente para avançarmos?
Em relação a essa estimativa de investimento, quanto maior melhor. Por um lado, é bem positivo, porque aumentou cerca de 33% em relação ao ano passado.

Por outro, esse valor, que equivale a 1 bilhão de dólares, é apenas um décimo do que a Microsoft deve investir na OpenAI.

Óbvio que a gente ainda não está no nível de se comparar à Open AI. Mas, se pensarmos que é apenas o total investido por uma empresa comparado ao investimento de todo o território nacional, há espaço para muito mais

Outro exemplo é a startup Antrophic AI, que tem um total de investimento esperado de 5 bilhões de dólares.

Mas essa estimativa brasileira foi feita no começo do ano. Com o passar dos meses, vão surgindo outras empresas interessadas no assunto.

Como é tudo bem dinâmico, espero que o total investido no final seja bem maior que o estimado. Comparado com o que existe lá fora, é pouco. Há espaço para mais investimento.

Você enxerga um futuro com uma variedade de modelos de IA geracionais alinhada com a proposta da Maritaca? Ou seja, programas muito mais focados em áreas determinadas? Estão percebendo que a IA é uma ferramenta que auxilia a automatizar muitas tarefas. Então, outras empresas devem cada vez mais se interessar em novos modelos de linguagem de chatbot.

Aos poucos, isso deve inclusive ir tomando o lugar dos mecanismos de busca.

Hoje, isso ainda não é possível porque os modelos de IA são desenvolvidos com um período de validade. Em pouco tempo, ficam obsoletos

Se ele lida com dados factuais, por exemplo, você pode perguntar a um modelo mais antigo quem é o presidente do Brasil ou onde joga o Cristiano Ronaldo. As respostas já são outras. Então muitos foram treinados com dados que tinham data de validade.

Atualmente, estamos planejando e buscando fundos para um modelo que devemos desenvolver nos próximos meses, com o objetivo de manter uma IA atualizada, constantemente aprendendo.

Entre os vários desafios, está o que chamamos de “esquecimento catastrófico”. O modelo, à medida que absorve coisas novas, acaba esquecendo pontos essenciais que aprendeu anteriormente, um dos maiores desafios desse formato de aprendizado continuado

Precisamos criar benchmarks para que isso não aconteça.

Que diferença esses modelos especializados em alguns setores deve fazer na rotina dos trabalhadores e gestores?
Um médico que quer estar a par das descobertas recentes mais importantes da medicina vai precisar ter um modelo de IA que esteja atualizado com informações como artigos recentes da Nature, revistas científicas de medicina etc.

Trabalhadores de diferentes áreas vão precisar de modelos cada vez mais especializados de inteligência artificial. Não vai ficar concentrado numa coisa única.

Fora que, daqui a um tempo, vai ser bastante comum usarmos modelos que utilizam não apenas texto, mas também imagens, o que chamamos de multimodais

Por exemplo, uma IA que consiga não apenas ler um texto, mas interpretar toda a informação contida numa imagem e gerar uma resposta em texto ou imagem, de acordo com a solicitação do usuário.

E quais os próximos passos da Maritaca dentro desse universo, que vem avançando e mudando tão rapidamente?
O primeiro modelo da MariTalk está disponível gratuitamente em API [interface de programação de aplicações], diferentemente do ChatGPT, que cobra um valor por isso.

No momento, o modelo roda com dois mil tokens [fragmentos de texto]. Daqui a alguns dias, vamos liberar para 8 mil para poder lidar com textos maiores, algo de que muitos usuários precisam.

Também a curto prazo, estamos perto de lançar nosso primeiro produto. O nome ainda não está definido, mas deve ser MariTalk em Casa.

Os usuários ou clientes interessados em utilizar vão obter uma licença para baixar e usar localmente, em sua própria máquina. Com isso, eles podem rodar a IA com toda a privacidade de que precisam

A longo prazo, estamos desenvolvendo esse projeto de aprendizado contínuo. Nesse caso, o mais importante é mantê-lo atualizado, evitando que fique obsoleto.

Na parte de especialização do modelo, vamos lidar primeiro com o foco em documentos jurídicos. Depois, devem entrar documentos da área financeira e clínica, entre outros.

E, para bem longo prazo, temos o objetivo de ajudar a construir um Brasil mais forte nas pesquisas em IA, criando um instituto de pesquisa, a exemplo do Deep Mind e Open IA

Esse é um sonho futuro que a gente tem na Maritaca.

 

COMPARTILHE

Confira Também: