Pesquisa da Mozilla: os históricos de navegação são únicos o suficiente para identificar os usuários de forma confiável

Os anunciantes online não precisam de listas enormes dos sites que acessamos. Apenas 50-150 de nossos sites favoritos são suficientes.

Um estudo publicado recentemente, conduzido por três funcionários da Mozilla, analisou a privacidade fornecida pelos históricos de navegação.

Suas descobertas mostram que a maioria dos usuários tem hábitos exclusivos de navegação na web que permitem aos anunciantes online criar perfis precisos.

Esses perfis podem então ser usados ​​para rastrear e reidentificar usuários em diferentes conjuntos de dados de usuário que contêm até mesmo pequenas amostras do histórico de navegação de um usuário.

Efetivamente, o estudo vem dissipar um mito online de que o histórico de navegação, mesmo o anônimo, não é útil para anunciantes online. Na realidade, o estudo mostra que mesmo uma pequena lista de 50 a 150 dos domínios favoritos e mais acessados ​​do usuário pode permitir que os anunciantes criem um perfil de rastreamento exclusivo.

Confirmando um estudo semelhante de 2012

O documento de pesquisa da Mozilla se chama ” Replicação: Por que ainda não podemos navegar em paz: Sobre a singularidade e a reidentificabilidade das histórias de navegação na web ” [ PDF ].

O documento foi apresentado no início deste mês na conferência de segurança USENIX e é uma continuação de outro estudo acadêmico publicado em 2012 [ PDF ].

Este primeiro estudo foi um dos maiores projetos de análise da privacidade do usuário na época, e um grande empreendimento para a equipe de pesquisa, que estava envolvida na coleta de dados do histórico do navegador de mais de 380.000 usuários da Internet.

Entre janeiro de 2009 e maio de 2011, os pesquisadores pediram aos usuários que acessassem um site de teste online, onde usaram algum código CSS inteligente para determinar quais sites de uma lista predefinida de 6.000 domínios os usuários haviam visitado.

O estudo de 2012 descobriu que 97% dos usuários que acessaram este site de teste tinham uma lista exclusiva de sites em seu histórico de navegação, tornando o histórico do navegador um vetor sólido de impressão digital.

Além disso, quando os usuários foram solicitados a acessar o site de teste novamente, os pesquisadores disseram que foram capazes de reidentificar os usuários com base em seus perfis de histórico de navegação da primeira visita.

As taxas de precisão foram de 38% quando os pesquisadores analisaram conjuntos de dados de histórico de navegação de 50 dos domínios mais populares do usuário e 70% quando analisaram conjuntos de dados com 500 domínios.

O jornal Mozilla 2020

Mas no ano passado, os pesquisadores da Mozilla queriam reavaliar se o histórico de navegação ainda era um vetor de impressão digital válido e se o estudo de 2012 ainda era válido.

O novo experimento começou entre 16 de julho e 13 de agosto de 2019, quando o Mozilla solicitou aos usuários do Firefox que participassem dele.

Pesquisadores da Mozilla disseram que mais de 52.000 usuários concordaram em participar e fornecer dados de navegação anônimos.

No entanto, desta vez, como os dados foram coletados do próprio Firefox e não por meio de uma página da web executando um teste CSS demorado, os dados eram muito mais precisos e confiáveis. Além disso, os dados coletados pelos pesquisadores da Mozilla também se referem ao mesmo tipo de dados que as empresas de análise online de hoje também coletam sobre os usuários – seja por meio de parcerias de dados, aplicativos móveis, anúncios online ou outros mecanismos.

Assim como antes, a coleta de dados ocorreu em dois estágios, em duas semanas, com os usuários compartilhando o histórico de navegação na primeira semana e depois novamente na segunda, para que os pesquisadores da Mozilla pudessem ver se podiam reidentificar os usuários.

No total, a equipe da Mozilla disse ter coletado dados de cerca de 35 milhões de visitas a sites de 660.000 domínios exclusivos. E esse acesso a dados de melhor qualidade foi imediatamente refletido nas conclusões do estudo.

A Mozilla disse que 99% dos perfis de navegação coletados para o estudo eram exclusivos de cada usuário.

Esta singularidade permitiu aos pesquisadores da Mozilla re-identificar facilmente os usuários durante a segunda semana do estudo.

A precisão também foi superior ao estudo de 2012, com a Mozilla alegando que tinha uma taxa de reidentificabilidade de quase 50% para conjuntos de dados contendo 50 domínios do histórico de navegação de um usuário. Essa taxa de reidentificabilidade cresceu para mais de 80% quando os pesquisadores da Mozilla expandiram o conjunto de dados do histórico de navegação para 150 domínios.

Esta última descoberta sugere que as empresas de análise e os anunciantes online não precisam de grandes listas de dados de histórico de navegação para rastrear os usuários e que as peculiaridades de navegação de cada usuário e seus sites favoritos acabam revelando-os, mesmo quando os dados são anônimos e URLs truncado para remover nomes de usuário e deixar apenas os domínios principais.

Um vídeo da apresentação da equipe Mozilla está disponível aqui .

Fonte: https://www.zdnet.com/article/mozilla-research-browsing-histories-are-unique-enough-to-reliably-identify-users/
Imagem: ZDNet