Pesquisadores publicam 2 bilhões de mensagens transmitidas via Discord
Estudo da UFMG disponibilizou mensagens do Discord com o objetivo de fomentar pesquisas sobre comportamento online. Material levantou questões sobre privacidade.
Estudo da UFMG disponibilizou mensagens do Discord com o objetivo de fomentar pesquisas sobre comportamento online. Material levantou questões sobre privacidade.
Uma equipe de pesquisadores da Universidade Federal de Minas Gerais (UFMG) disponibilizou um gigantesco banco de dados com mais de 2 bilhões de mensagens trocadas via plataforma Discord. Os dados, extraídos de servidores considerados públicos, abrangem quase uma década de interações, entre 2015 e 2024.
O material foi divulgado no artigo “Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)”, disponível no arXiv — repositório de pré-publicações científicas em que pesquisadores do mundo todo podem publicar versões preliminares de seus estudos.
O objetivo é criar o “mais extenso conjunto de dados do Discord disponível” para apoiar pesquisas sobre saúde mental, análise de discurso político, desinformação e desenvolvimento de moderação e treinamento de chatbots. No entanto, a atuação do grupo fere os termos de uso da plataforma, além de levantar dúvidas sobre a privacidade das pessoas.
Para desenvolver o banco de dados, a equipe coletou 2 bilhões de mensagens trocadas por mais de 4 milhões de usuários. A pesquisa mapeou todos os 31.673 servidores públicos da plataforma, listados na aba “Discovery” do aplicativo até novembro de 2024, mas selecionou apenas 10% deles para a extração de mensagens.
A coleta foi realizada utilizando a própria API (Interface de Programação de Aplicação) pública do Discord, e o banco de dados foi disponibilizado online em uma série de arquivos JSON, formato usado para armazenar dados de forma organizada e legível por máquinas. O conjunto completo de dados ocupa 118 GB comprimidos.
Segundo o portal 404 Media, a publicação acendeu um alerta entre usuários e moderadores de comunidades no Discord, preocupados com a exposição de suas conversas, mesmo que os pesquisadores aleguem ter anonimizado as informações. A plataforma de comunicação é uma das mais populares entre gamers e comunidades de streamers, inclusive no Brasil.
Os pesquisadores da UFMG afirmam, no artigo, que seguiram padrões éticos durante todo o processo. Antes de publicar os dados, substituíram nomes reais por apelidos, embaralharam códigos de identificação de usuários e mensagens e removeram qualquer outra informação que pudesse revelar a identidade dos participantes.
Além disso, o artigo também ressalta que todos os dados foram coletados de grupos explicitamente classificados como públicos segundo os termos de uso do Discord.
Mesmo assim, a publicação parece ter gerado desconforto. Segundo o 404, embora possua servidores públicos, muitos usuários veem o Discord como uma coleção de salas de bate-papo com um grau de privacidade maior em relação a redes como X/Twitter e fóruns como o Reddit.
De acordo com o 404, muitos desses usuários — incluindo crianças e adolescentes, que compõem a base do Discord — podem não ter plena consciência de que suas conversas, embora tecnicamente públicas, poderiam ser coletadas e analisadas.
O site também reforça que a ação parece contrariar os Termos de Serviço e a Política de Desenvolvedor da API, que proíbe a mineração ou coleta de quaisquer dados, conteúdos ou informações disponíveis nos serviços do Discord.
Vale lembrar que as angústias dos usuários com a própria privacidade entra em conflito com uma outra preocupação generalizada, relacionada ao conteúdo propagado e consumido na plataforma. O Discord tem sido alvo de controvérsias recentes pela falta de moderação eficaz contra atividades criminosas, muitas vezes envolvendo menores de idade.
A situação levou o Discord a firmar um acordo com o Ministério da Justiça e Segurança Pública para treinar profissionais no combate a crimes virtuais na própria plataforma.
E pode estar dando certo: no primeiro trimestre de 2025, as denúncias de conteúdo criminoso no Discord aumentaram 272% em relação ao mesmo período do ano passado, segundo o Fantástico. Entre os crimes relatados, estão chantagem com fotos íntimas, indução à automutilação, estupro virtual e incitação a delitos.
Em São Paulo, por exemplo, a plataforma é alvo de investigação por apologia à violência digital. A apuração foi motivada por uma live transmitida em janeiro, na qual um adolescente de 15 anos se mutilava diante de cerca de 50 espectadores. O Discord respondeu com uma investigação interna, banindo usuários e desativando servidores.
Obviamente, muitos desses casos ocorrem em canais fechados dentro da plataforma, fora do escopo da pesquisa da UFMG, que não menciona o uso dos dados para investigações criminais — embora cite estudos sobre a propagação de discursos de ódio no Discord.
O Discord explicou em nota ao Tecnoblog que a extração de dados sem consentimento constitui uma violação dos Termos de Serviço e Diretrizes da Comunidade. A plataforma também disse que está investigando a atividade e que tomará as medidas cabíveis. “Esse é um assunto sério e estamos comprometidos com a proteção da privacidade e dos dados dos nossos usuários.” A investigação inicial confirmou o acesso aos servidores que eram detectáveis e amplamente acessíveis.
De acordo com a empresa, é possível que os pesquisadores tenham adotado medidas para proteger as identidades dos usuários, mas “isso ainda viola nossas políticas”.
Com informações do 404 Media, Fantástico e CNN Brasil
{{ excerpt | truncatewords: 35 }}
{% endif %}