O scraping ou raspagem web é uma técnica que automatiza a coleta de dados em um site ou aplicativo web. Embora seja uma prática comum desde o surgimento da internet nos anos 90, ela ganhou repercussão recentemente após ter sido supostamente utilizada para copiar dados mais de 235 milhões de perfis do Instagram, TikTok e YouTube pela agência de marketing Deep Social.

O caso expôs como uma ferramenta muito utilizada de forma legítima por pesquisadores e jornalistas pode ser explorada para violar a privacidade dos usuários de redes sociais. Entenda, a seguir, o que é o scraping, para que serve e quais são os riscos envolvidos.

Quer comprar celular, TV e outros produtos com desconto? Conheça o Compare TechTudo

1. O que é scraping?

O scraping ou raspagem web é uma técnica de coleta de informações automatizada, em que é possível obter dados disponibilizados publicamente em determinadas bases de websites. O recurso costuma ser utilizado para agilizar a consulta e coleta em base públicas.

Embora as informações obtidas sejam abertas, recolher esses dados de forma manual não teria tanta eficiência quanto por meio de scraping. A técnica permite utilizar linguagem de programação, aplicativos e scripts para coletar dados em larga escala, simplificando o trabalho de extração e classificação destas informações.

2. Para que o scraping é o usado?

O scraping web pode ser uma importante ferramenta para pesquisadores, cientistas de dados e jornalistas, entre outros profissionais. A técnica permite automatizar, por exemplo, a coleta de dados de uma base pública do Governo Federal para utilizar em uma reportagem ou alimentar um estudo. Quem investiga nas áreas de comunicação, política, entre outras, também pode lançar mão de raspagem para obter dados abertos de personalidade em redes sociais, como o Twitter.

Profissionais e agências de marketing também podem usar a técnica. Nesses casos, os dados costumam ser utilizados para segmentar campanhas e tornar determinada propaganda mais eficiente para atingir o público-alvo.

3. Riscos do scraping

O risco do scraping envolve o destino e o propósito de uso dos dados coletados. Além de profissionais legítimos, a técnica de raspagem pode ser utilizada por agentes maliciosos para possibilitar golpes, atividades fraudulentas ou até para hipersegmentação de campanhas publicitárias e políticas para além do anuído pelo usuário.

Um dos casos célebres de hipersegmentação ocorreu com o escândalo da Cambridge Analytica, em que ex-funcionários da empresa alegam ter usado dados de perfis do Facebook para criar mapas comportamentais de eleitores americanos. Parlamentares dos EUA e até um executivo da própria rede social alegam que a ação da empresa teria influenciado o resultado das eleições presidenciais de 2016.

4. Scraping é ilegal?

A obtenção de dados por scraping não é, necessariamente, considerada ilegal. A coleta de dados costuma se dar com informações disponibilizadas abertamente nas plataformas e que, portanto, seriam acessíveis a qualquer pessoa na rede. Dessa maneira, assim como um usuário é livre para abrir um perfil de rede social e anotar os dados de uma pessoa, tampouco é crime fazer o mesmo com diversas páginas por meio de um sistema automatizado.

A prática, no entanto, constitui violação aos termos de uso da maioria das redes sociais como Facebook, Instagram, TikTok e YouTube. Todas elas proíbem a cópia de dados armazenados em suas plataformas por meio de mecanismos automatizados.

5. Quais dados pessoas desconhecidas e empresas podem ter acesso?

Com o uso do web scraping em uma rede social, é

... possível acessar dados públicos de perfis, como fotos de perfil, e-mails, números de telefone, idade e sexo, assim como informações sobre número de seguidores e engajamento em postagens de uma determinada conta.

Além disso, é possível coletar postagens, links compartilhados e qualquer outro material aberto ao público, desde que a plataforma ofereça o acesso devido. Em geral, isso se dá por meio de API, um código que faz a ponte entre o software de scraping e o site de onde os dados serão coletados. As principais redes sociais também pedem ao usuário para que decida se determinado software pode ou não ter acesso aos dados solicitados.

6. Como evitar problemas com scraping

Embora a maioria das redes sociais possam bloquear a atividade de coleta de dados de suas plataformas por robôs, é possível que alguns bots consigam driblar os filtros e tenham acesso a contas públicas de usuários.

Na investigação sobre o caso Cambridge Analytica, por exemplo, veio à tona que a empresa teria se apoderado de milhões de dados aos quais não poderia ter tido acesso. Eles incluíam, por exemplo, informações de amigos das pessoas que haviam dado anuência para a coleta. Desde então, o Facebook disse ter corrigido a falha e impedido o uso da mesma vulnerabilidade.

Sendo assim, a forma mais eficaz de defesa contra a raspagem web é manter o perfil com o máximo de informações reservadas, configurando a privacidade das publicações e dados pessoais apenas para seguidores ou amigos, dependendo da rede.

Além disso, as redes sociais precisam oferecer níveis aceitáveis de proteção de dados. Sobretudo após a entrada em vigor da Lei Geral de Proteção de Dados, que é expressa no sentido de obrigação de transparência, eliminação de dados desnecessários e da aplicação do princípio de privacy by design, que preza pela prevenção de invasão de privacidade antes que falhas aconteçam.

Como baixar os dados da minha conta no Instagram? Descubra no Fórum do TechTudo



>>> Veja o artigo completo no TechTudo