Um estudo realizado por pesquisadores da Unidade de Negócios Data61, especializada em inteligência artificial, robótica e segurança cibernética da Agência Nacional de Ciência da Austrália, analisou as implicações do crescente uso de large language models (LLMs) e serviços baseados em chatbots para o direito a ser esquecido (RTBF). Os resultados revelaram que a tecnologia ultrapassou os limites estabelecidos pelo atual quadro legal.
O direito a ser esquecido não se limita apenas ao Regulamento Geral de Proteção de Dados (GDPR) da Europa, pois leis semelhantes podem ser invocadas por cidadãos do Canadá (CCPA), Japão (APPI) e outros países. Os procedimentos do RTBF foram inicialmente projetados com motores de busca da Internet em mente, o que tornava relativamente simples para empresas como Google, Microsoft e outras identificar e excluir dados específicos de seus índices da web proprietários.
No entanto, quando se trata de LLMs, as coisas se tornam significativamente mais complexas. De acordo com os pesquisadores australianos, algoritmos baseados em machine learning não são tão diretos quanto os motores de busca. Além disso, determinar quais dados pessoais foram utilizados para treinar os modelos de IA e estabelecer a atribuição desses dados a indivíduos específicos se torna extremamente desafiador.
Segundo os pesquisadores, os usuários só podem obter informações sobre seus dados pessoais dentro desses modelos de LLM “por meio da inspeção do conjunto de dados de treinamento original ou talvez solicitando ao modelo”. No entanto, as empresas por trás dos serviços de chatbot podem optar por não divulgar seu conjunto de dados de treinamento, e interagir com um chatbot não garante que a saída textual fornecerá as informações precisas buscadas pelos usuários interessados em um procedimento do RTBF.
Leia também: A importância da educação em tempos de Inteligência Artificial (IA)
Além disso, os chatbots conseguem gerar respostas fictícias, conhecidas como “alucinações”, tornando as interações baseadas em prompts um meio não confiável para acessar os dados subjacentes ao chatbot. Os pesquisadores ressaltam que os LLMs armazenam e processam informações “de maneira completamente diferente” em comparação com a abordagem de indexação empregada pelos motores de busca.
Esses serviços de IA emergentes e cada vez mais populares apresentam novos desafios para o direito a ser esquecido. No entanto, é importante observar que os LLMs não estão isentos do cumprimento dos direitos de privacidade. Para lidar com isso, os pesquisadores propõem várias soluções para remover dados dos modelos de treinamento de IA, como a técnica de “machine unlearning” SISA, Inductive Graph Unlearning e Approximate Data Deletion, entre outras.
Grandes empresas que atuam atualmente na indústria de LLMs também estão buscando soluções para cumprir o RTBF. A OpenAI, provavelmente o ator mais proeminente nos serviços modernos de IA generativa, oferece um formulário para os usuários solicitarem a remoção de seus dados pessoais das saídas do ChatGPT. No entanto, o tratamento específico dessas solicitações ainda não está claro.