Big data e privacidade

Marko Grujic

Por: Marko Grujic Tempo de leitura: 16 minutos Publicados: 01-10-2021

Nas últimas décadas, o mundo mudou tremendamente em muitos aspectos, especialmente quando se trata de TI. O número de pessoas com quem podemos nos comunicar diariamente tem crescido enormemente, assim como a quantidade de informações a que temos acesso. No entanto, o mesmo se aplica à quantidade de informações que as grandes empresas coletam sobre nós. Termos como big data são usados com mais frequência com o passar do tempo. Mas o que isso significa exatamente? O que é big data? É perigoso? Como isso afeta nossa privacidade, se é que afeta? Essas são algumas das questões que abordaremos neste artigo.

O que é big data?

List with magnifying glass

O termo “big data” descreve as enormes quantidades de dados (pessoais) que são continuamente coletados por diferentes atores. Um exemplo seria todas as informações que o Google coleta sobre as consultas de pesquisa de seus usuários. O fenômeno do big data é um desenvolvimento relativamente recente que começou porque (grandes) empresas e organizações, como Facebook, Google e a maioria dos governos, começaram a coletar cada vez mais dados sobre seus usuários, clientes e cidadãos do que antes. Novas tecnologias, um mundo digitalizado e a Internet ajudaram imensamente nesse desenvolvimento.

As coleções de big data costumam ser tão vastas que é impossível analisá-las usando a análise de dados tradicional. No entanto, se alguém analisar big data da maneira certa, padrões e conclusões interessantes podem ser induzidos. Por exemplo, big data é frequentemente usado para pesquisas de mercado em grande escala: quais produtos são mais prováveis de serem comprados? Que tipo de publicidade é mais eficaz quando você deseja alcançar e persuadir os clientes?

Para que um conjunto de dados seja considerado big data, ele geralmente deve atender aos três critérios a seguir, também conhecidos como os 3 v’s:

Volume: Big data é tudo menos uma pequena amostra. Envolve uma vasta coleção de dados, resultante de uma observação longa e contínua.
Velocidade: tem a ver com as velocidades impressionantes em que o big data é coletado. Além disso, o big data é frequentemente acessível em tempo real (à medida que está sendo coletado).
Variedade: grandes conjuntos de dados geralmente contêm muitos tipos diferentes de informações. Os dados em grandes conjuntos de dados podem até mesmo ser combinados para preencher quaisquer lacunas e tornar o conjunto de dados ainda mais completo.

Além desses 3 v’s, o big data tem algumas outras características. Por exemplo, big data é ótimo para aprendizado de máquina. Isso significa que pode ser usado com eficácia para ensinar certas tarefas a computadores e máquinas. Além disso, como já mencionamos brevemente, o big data pode ser usado para detectar padrões. Isso acontece principalmente de forma muito eficaz, por meio de computadores que trabalham com os dados. Finalmente, o big data é o reflexo das impressões digitais dos usuários. Isso significa que é um subproduto das atividades digitais e online das pessoas e pode ser usado para criar perfis pessoais individuais.

Diferentes tipos de big data

Existem diferentes maneiras de classificar o big data. A primeira forma, que é usada com mais frequência, diferencia o big data com base no tipo de dado que está sendo coletado. As três categorias possíveis usadas para esse tipo de classificação são: big data estruturado, big data não estruturado e big data semiestruturado.

Estruturado: quando o big data é estruturado, ele pode ser salvo e apresentado de forma organizada e lógica, tornando os dados mais acessíveis e fáceis de compreender. Um exemplo seria uma lista de endereços de clientes criada por uma empresa. Nessa lista, é provável que se encontrem os nomes, endereços e talvez outros detalhes dos clientes, como números de telefone, todos estruturados de forma clara, por exemplo, em um gráfico ou tabela.
Não estruturado: o big data não estruturado não é organizado de forma alguma. Falta uma apresentação lógica que faria sentido para o ser humano médio. O big data não estruturado não possui a estrutura de, por exemplo, uma tabela que denota uma certa coerência entre os diferentes elementos do conjunto de dados. Portanto, este tipo de dados é bastante difícil de navegar e compreender. Muitos conjuntos de dados começam inicialmente como big data não estruturados.
Semiestruturado: Big data semiestruturado, como você já deve ter adivinhado, tem características de big data estruturados e não estruturados. A natureza e a representação desse tipo de dados não são completamente arbitrárias. No entanto, também não está estruturado e organizado o suficiente para ser usado para uma análise significativa. Um exemplo seria uma página da web que contém meta tags de dados específicos (informações extras que não são diretamente visíveis no texto), por exemplo, porque contém certas palavras-chave. Essas tags mostram efetivamente bits específicos de informação, como o autor de uma página ou o momento em que ela foi colocada online. O texto em si é essencialmente não estruturado, mas as palavras-chave e outros metadados que ele contém ajudam a torná-lo uma base adequada para análise.

Classificação baseada na origem do big data

Outra maneira comum de distinguir entre diferentes tipos de big data é observar a origem dos dados. Quem ou o que gerou as informações? Como a divisão anterior, este método de classificação também consiste em 3 categorias diferentes.

Pessoas: esta categoria diz respeito a big data gerados por pessoas. Os exemplos seriam livros, fotos, vídeos, bem como informações e dados (pessoais) em sites e mídias sociais, como Facebook, Twitter, Instagram e assim por diante.
Registro de processos: esta categoria inclui o tipo mais tradicional de big data, que é coletado e analisado por (grandes) empresas para melhorar determinados processos em um negócio.
Máquinas: esse tipo de big data resulta do número cada vez maior de sensores colocados nas máquinas. Um exemplo seria o sensor de calor que geralmente é embutido em processadores de computador. Os dados gerados por máquinas muitas vezes podem ser muito complexos, mas pelo menos esse tipo de big data é geralmente bem estruturado e completo.

Para que pode ser usado o big data?

Facebook logo

Tudo o que foi discutido até agora pode soar um tanto abstrato. Vamos tornar as coisas um pouco mais concretas e discutir algumas aplicações de big data da vida real. Afinal, existem muitas maneiras pelas quais as empresas e organizações usam o big data. Uma das primeiras coisas que vêm à mente são as enormes quantidades de dados que as empresas reúnem sobre nós. O Facebook coleta dados sobre todos os seus usuários e os analisa para decidir o que mostrar a você em sua linha do tempo. Claro, isso é feito para atender aos seus desejos e interesses pessoais. O Facebook espera que isso faça com que você permaneça no site deles por mais tempo. Por sua vez, a Amazon reúne informações sobre seus clientes e os produtos que eles compram. Dessa forma, a Amazon pode recomendar produtos que eles acham que você terá interesse e aumentar seus ganhos dessa forma.

No entanto, o big data também é usado de maneiras completamente diferentes das estratégias comerciais descritas acima. Por exemplo, as empresas de transporte público podem coletar dados sobre o quão ocupadas certas rotas são. Posteriormente, eles poderiam analisar esses dados para decidir, por exemplo, quais rotas exigem ônibus ou trens adicionais. Outro caso bem conhecido de uso eficaz de big data diz respeito à gigante de entregas internacionais, UPS . A UPS usa um software especial que foi desenvolvido após a análise de big data. Este software ajuda os motoristas da UPS a evitar curvas para a esquerda, que são mais caras, mais dispendiosas e mais perigosas do que curvas para a direita. Supostamente, esse sistema já economizou milhões de litros de combustível para a UPS, tudo graças ao big data.

Outro exemplo interessante de coleta de big data são os testes de DNA e sites como o MyHeritage DNA. Este site afirma que pode ajudá-lo a “descobrir suas origens étnicas e encontrar novos parentes” com um simples teste de DNA. Não é preciso dizer que esse processo envolve muita coleta de dados e referências cruzadas, tornando-se outro player importante na coleta e uso de big data. Os testes físicos de DNA “tradicionais” também envolvem uma grande quantidade de big data, uma vez que as empresas que conduzem esses testes ganharão conjuntos de dados extremamente grandes sobre muitas pessoas. Claro, é importante estar ciente dos possíveis riscos que vêm com esses processos de coleta de big data. Esses riscos serão destacados na próxima parte deste artigo.

Big data é perigoso?

Conforme mostrado acima, o big data pode ser extremamente útil em muitos casos. Ele nos fornece toneladas de informações que podemos usar para agilizar processos e tornar as empresas mais eficientes e lucrativas. No entanto, isso não significa que a coleta e o uso de big data sejam totalmente isentos de riscos. Existem cinco riscos importantes que acompanham o big data. Estaremos discutindo todos os cinco aqui.

Hackers e ladrões

Com tudo o que fazemos online, existe um risco inerente de que nossos dados pessoais e informações sobre nossas atividades na Internet possam ser roubados. Todo usuário da Internet deve estar ciente disso. O número de vazamentos e roubos de dados aumentou drasticamente nos últimos anos. Freqüentemente, há histórias nas notícias sobre criminosos que vendem conjuntos de dados contendo senhas e outras informações sobre lugares como a dark web. Freqüentemente, esses conjuntos de dados são roubados de sites, empresas e organizações oficiais. Quanto maiores são esses conjuntos de dados, mais interessante se torna para os ladrões tentarem obtê-los. Se eles colocarem as mãos nesses conjuntos de dados, eles podem causar muitos problemas. Nem é preciso dizer que isso também pode comprometer muito a sua privacidade.

Privacidade

A prática de coleta de dados pessoais está se tornando cada vez mais difundida. No entanto, as regulamentações de privacidade atuais não conseguem acompanhar os rápidos desenvolvimentos tecnológicos que tornam essa prática possível. Isso deixa espaço para áreas cinzentas e incertezas que não podem ser resolvidas olhando para a lei. As preocupações de privacidade importantes que surgem incluem: Que tipo de dados podem ser coletados? Sobre quem? Quem deve ter acesso a esses dados?

Ao coletar grandes quantidades de dados, as chances de que informações pessoais confidenciais sejam incluídas nesses conjuntos de dados são altas. Isso é problemático, mesmo quando hackers e ladrões não estão em ação. Afinal, dados sensíveis à privacidade podem ser abusados por qualquer pessoa com más intenções. Isso inclui empresas e organizações (mal-intencionadas).

Análise de dados pobre

Muitas empresas e organizações coletam big data, porque podem usá-los para análises interessantes. Isso pode dar a eles novos insights importantes sobre tudo o que estão pesquisando (como, por exemplo, hábitos de consumo). Por sua vez, esses insights e conclusões podem se traduzir em mudanças dentro da empresa que resultam em margens mais altas e mais lucro. No entanto, assim como com qualquer outro conjunto de dados normal, uma análise incorreta de big data pode ter consequências graves. Afinal, uma análise inadequada pode facilmente levar a conclusões erradas. Isso, por sua vez, pode se traduzir em medidas ineficazes ou mesmo contraproducentes.

Coletando dados “errados”

O big data está se tornando cada vez mais popular e as organizações estão cada vez mais dispostas a coletar todos os tipos de dados. Isso significa que quantidades gigantescas de dados estão sendo coletadas sem que haja um motivo claro para analisá-los. Em outras palavras, ele cria um enorme banco de dados de informações brutas que foram apenas reunidas. As empresas provavelmente estão pensando que é fácil coletar todos esses dados, então é melhor fazer isso. Desnecessário dizer que isso não é bom para a privacidade de ninguém. Pode até mesmo levar à coleta e análise de dados irrelevantes ou “errados”. Se as conclusões extraídas desta análise forem utilizadas na gestão, podem conduzir às mesmas medidas ineficazes mencionadas no parágrafo anterior.

Coletando e salvando big data com más intenções

A coleta de big data é usada cada vez com mais frequência por empresas, organizações e governos para que eles possam fazer perfis individuais precisos sobre as pessoas. Os usuários ou cidadãos dificilmente são notificados sobre quais dados pessoais estão sendo registrados, muito menos por que e como. Não é preciso dizer que isso tem sérias implicações para sua privacidade online. Tudo o que eles fazem online pode ser salvo e visualizado mais tarde. Além disso, os coletores de big data podem facilmente influenciar e manipular a tomada de decisão das pessoas, analisando e usando os dados coletados.

Big data e privacidade

Smartphone with picture of ear Como você provavelmente já deve entender, o big data apresenta muitas desvantagens e riscos. No entanto, muitas empresas e organizações ainda coletam dados em grande escala, principalmente porque isso pode ajudá-las a crescer e avançar. Coletar big data é mais fácil do que nunca. Isso tem consequências enormes para nossa privacidade. Já discutimos brevemente os possíveis perigos à privacidade de partes mal-intencionadas que coletam dados incorretos. Como nossa privacidade está intimamente ligada à coleta em massa de dados pessoais, queremos usar esta seção para discutir as diferentes questões de privacidade que acompanham o big data.

Coleta de dados em grande escala

Muitas empresas, incluindo Google, Facebook e Twitter, dependem fortemente de anúncios para se sustentar e ter lucro. Para tornar esses anúncios o mais eficazes possível, essas empresas fazem perfis detalhados de seus usuários, especialmente levando em consideração seus gostos e interesses. Esta é uma forma de big data. Da mesma forma, governos e serviços secretos também dependem de big data. Eles usam essa vasta quantidade de informações para rastrear e investigar pessoas que consideram suspeitas. Claro, isso também significa que há muitos big data para os criminosos cibernéticos colocarem as mãos e talvez até manipular e abusar. Isso pode criar todos os tipos de problemas relacionados à privacidade e à identidade. Um que vem à mente é o roubo de identidade.

Ainda assim, as possibilidades que vêm com a coleção em bancos de dados são muito mais amplas do que isso. Atualmente, a tecnologia se tornou tão avançada e “inteligente” que pode combinar conjuntos de dados. Isso pode ser feito de forma tão inteligente e astuta, que grandes corporações e organizações provavelmente sabem mais sobre você do que você mesmo! Quem você é, onde mora, quais são seus hobbies, quem são seus amigos: nenhuma dessas informações será privada por mais tempo. Você pode pensar que isso não é um pensamento muito reconfortante. Felizmente, existem algumas maneiras de se proteger da violação de privacidade em grande escala que o big data pode causar.

Leis de privacidade

Cookies on screen

Leis e regulamentos de privacidade podem nos proteger contra violação de privacidade, mas apenas até certo ponto. Para complicar ainda mais as coisas, as leis de privacidade geralmente variam muito entre os diferentes países e regiões. Por exemplo, na Europa, está em vigor uma lei de privacidade do consumidor relativamente estrita, denominada Regulamento Geral de Proteção de Dados (GDPR). Esta lei se aplica a todos os estados membros da UE, embora os detalhes possam diferir por país. Muitas empresas internacionais decidiram submeter todos os seus negócios ao GDPR. É por isso que o Google, por exemplo, agora permite que os usuários solicitem a exclusão de informações pessoais. No entanto, as leis de privacidade nos Estados Unidos variam de estado para estado e não protegem os consumidores tão bem quanto a UE. Infelizmente, isso é verdade até para a lei de privacidade mais rígida dos Estados Unidos, a Lei de Privacidade do Consumidor da Califórnia.

Resumindo, não existe uma lei de privacidade “global” forte que se aplique a todos os coletores de big data e proteja todos os usuários. Isso significa que nossa privacidade não é apenas prejudicada por grandes coletores de dados de forma ilegal, mas também de maneiras perfeitamente legais, por mais paradoxal que isso possa parecer. Felizmente, as violações de privacidade em grande escala expostas por delatores como Edward Snowden e Chelsea Manning aumentaram muito a conscientização sobre os riscos do big data. Claro, este é apenas o primeiro passo para melhorar as leis de privacidade atuais.

Muitos usuários da Internet não estão dispostos a esperar uma melhoria nas leis de privacidade – e com razão. Em vez disso, eles querem agir por conta própria, fazendo tudo o que puderem para proteger sua privacidade. Você deseja evitar se tornar parte de inúmeros conjuntos de big data também? Existem várias dicas e truques para ajudá-lo em seu caminho.

Como evitar que seus dados sejam salvos em grandes conjuntos de dados

Grandes conjuntos de dados afetam seriamente sua privacidade e segurança. Esses conjuntos de dados podem conter todos os tipos de informações (pessoais), que podem ser abusadas por grandes empresas ou mesmo por criminosos cibernéticos. É por isso que você deve sempre certificar-se de deixar o mínimo possível de rastreamento online. As dicas a seguir podem ajudá-lo a fazer isso:

Tente minimizar o uso de suas informações pessoais ao criar senhas ou em uso geral na web. Por exemplo: evite usar seu nome, endereço, número de telefone, data de nascimento e assim por diante.
Lembre-se sempre do seguinte: tudo que você publicar na internet, ficará lá para sempre. Isso pode nem sempre ser totalmente verdadeiro, mas esse nível de cuidado ajuda a proteger sua privacidade. Você lidará automaticamente com seus dados privados com mais cuidado quando estiver ciente desse fato.
Certifique-se de que sua conexão com a Internet seja segura e anônima, por exemplo, usando o navegador Tor ou uma VPN, por exemplo.
Use um ou vários bloqueadores de anúncios em seu navegador.
Use um ou mais plug-ins de navegador que bloqueiam rastreadores e cookies.
Limpe regularmente seu cache e exclua seu histórico de navegação e cookies.
Saia de sites quando não os estiver usando ativamente.

Seguir essas etapas é um bom começo quando se trata de proteger sua privacidade e segurança online. Lembre-se, no entanto, de que o big data é coletado de muitas maneiras diferentes – não apenas online. Em suma, onde quer que esteja e o que quer que esteja fazendo, você deve estar sempre vigilante e tentar proteger seus dados (pessoais) de grandes coletores de dados.

Marko Grujic Autor

International security coordinator

Marko has a Bachelor's degree in Computer and Information Sciences. He coordinates and manages VPNOverview.com's team of international VPN researchers and writers.

Envie um comentário