IA Generativa para Negócios: dados privados em plataformas abertas

Adriano Moala
Porto
Published in
2 min readJun 24, 2024

Isso não combina, você entende o impacto?

Escrito por: Adriano Moala e Fernanda Ribeiro.

Gerado com ideogram.ai

Você já deve ter ouvido que não devemos colocar dados pessoais nas plataformas abertas de IA Generativa. Vale o lembrete de sempre, o uso inadequado dos dados pode comprometer a privacidade, a proteção das informações e trazer prejuízos às instituições e pessoas.

Quando você interage com esses serviços, se não for você mesmo quem qualifica a resposta como boa ou não, outros times também terão acesso ao conteúdo para qualificar a resposta. A finalidade disso é obter bons dados para reforçar o aprendizado da IA.

Para o processamento das informações, a IA Generativa compreende o texto em tokens. Definição rápida de tokens: pode ser um caractere, um conjunto deles, uma palavra ou uma junção de palavras.

No site da OpenAI é possível visualizar os tokens pelos segmentos de cores. Acesso: https://platform.openai.com/tokenizer

Então, uma sequência de tokens que antes tinha probabilidade zero, agora pode ter probabilidade maior que zero. Seu nome, endereço, telefone, e-mail, CPF, placa do seu carro ou normas internas podem não ser tão improváveis em uma próxima geração de tokens.

Uma vez que a IA é treinada com aqueles dados privados e algum usuário faz uma pergunta, então as informações que você forneceu podem aparecer como resposta. Por exemplo, imagine que você enviou uma lista de dados pessoais para tratamento dos dados. Um novo usuário solicita um exemplo similar ao dado que você enviou. Nesse caso, há maior chance que o resultado fornecido para o usuário contenha dados enviados por você anteriormente como exemplo. Lembre-se que agora a sequência de tokens tem probabilidade maior que zero, basta muita gente usar o serviço que a sequência terá grande chance de aparecer para alguém.

Por mais que as empresas criem mecanismos para evitar que dados sensíveis sejam retornados como respostas, é aconselhável evitar o uso dessas informações, pensando que sistemas podem falhar.

Por isso, quando precisar usar dados privados, utilize os serviços pagos e certifique-se que a empresa não usará os dados para treinamento. Para serviços abertos, anonimize os dados.

--

--