O que é raspagem de dados e como você pode usá-lo?
Publicados: 2017-09-13O que é raspagem de dados?
A raspagem de dados, também conhecida como raspagem da web, é o processo de importação de informações de um site para uma planilha ou arquivo local salvo em seu computador. É uma das maneiras mais eficientes de obter dados da web e, em alguns casos, canalizar esses dados para outro site. Os usos populares de raspagem de dados incluem:
- Pesquisa de conteúdo web/inteligência de negócios
- Preços para sites de reservas de viagens/sites de comparação de preços
- Encontrar leads de vendas/realizar pesquisas de mercado rastreando fontes de dados públicas (por exemplo, Yell e Twitter)
- Envio de dados de produtos de um site de comércio eletrônico para outro fornecedor on-line (por exemplo, Google Shopping)
E essa lista está apenas arranhando a superfície. A raspagem de dados tem um grande número de aplicativos – é útil em praticamente todos os casos em que os dados precisam ser movidos de um lugar para outro.
Os conceitos básicos de raspagem de dados são relativamente fáceis de dominar. Vamos ver como configurar uma ação simples de raspagem de dados usando o Excel.
Raspagem de dados com consultas dinâmicas da Web no Microsoft Excel
A configuração de uma consulta dinâmica na Web no Microsoft Excel é um método de extração de dados fácil e versátil que permite configurar um feed de dados de um site externo (ou vários sites) em uma planilha.
Assista a este excelente vídeo tutorial para saber como importar dados da web para o Excel – ou, se preferir, use as instruções escritas abaixo:
- Abra uma nova pasta de trabalho no Excel
- Clique na célula para a qual você deseja importar dados
- Clique na guia "Dados"
- Clique em 'Obter dados externos'
- Clique no símbolo 'Da web'
- Observe as pequenas setas amarelas que aparecem no canto superior esquerdo da página da Web e ao lado de determinado conteúdo
- Cole o URL da página da web da qual você deseja importar dados na barra de endereço (recomendamos escolher um site onde os dados sejam mostrados em tabelas)
- Clique em 'Ir'
- Clique na seta amarela ao lado dos dados que você deseja importar
- Clique em 'Importar'
- Uma caixa de diálogo 'Importar dados' aparece
- Clique em 'OK' (ou altere a seleção de células, se desejar)
Se você seguiu essas etapas, agora poderá ver os dados do site definidos em sua planilha.
O melhor das consultas dinâmicas na Web é que elas não importam apenas dados para sua planilha como uma operação única - elas os alimentam, o que significa que a planilha é atualizada regularmente com a versão mais recente dos dados, conforme aparecem no site de origem. É por isso que os chamamos de dinâmicos.
Para configurar com que regularidade sua consulta dinâmica da Web atualiza os dados que importa, vá para 'Dados', depois 'Propriedades' e selecione uma frequência (“Atualizar a cada X minutos”).
Raspagem de dados automatizada com ferramentas
Conhecer o uso de consultas dinâmicas da Web no Excel é uma maneira útil de entender a extração de dados. No entanto, se você pretende usar a extração de dados regularmente em seu trabalho, poderá achar uma ferramenta de extração de dados dedicada mais eficaz.
Aqui estão nossos pensamentos sobre algumas das ferramentas de raspagem de dados mais populares do mercado:
Raspador de dados (plug-in do Chrome)
O Data Scraper se encaixa diretamente nas extensões do navegador Chrome, permitindo que você escolha entre uma variedade de “receitas” de raspagem de dados prontas para extrair dados de qualquer página da Web carregada em seu navegador.
Essa ferramenta funciona especialmente bem com fontes populares de coleta de dados, como Twitter e Wikipedia, pois o plug-in inclui uma variedade maior de opções de receita para esses sites.
Experimentamos o Data Scraper extraindo uma hashtag do Twitter, “#jourorequest”, para oportunidades de relações públicas, usando uma das receitas públicas da ferramenta. Aqui está uma amostra dos dados que recebemos de volta:

Como você pode ver, a ferramenta forneceu uma tabela com o nome de usuário de todas as contas que postaram recentemente na hashtag, além de seu tweet e sua URL
Ter esses dados nesse formato seria mais útil para um representante de relações públicas do que simplesmente ver os dados na visualização do navegador do Twitter por vários motivos:
- Poderia ser usado para ajudar a criar um banco de dados de contatos da imprensa
- Você pode continuar consultando esta lista e encontrar facilmente o que está procurando, enquanto o Twitter atualiza continuamente
- A lista é classificável e editável
- Dá a você a propriedade dos dados - que podem ser colocados offline ou alterados a qualquer momento
Estamos impressionados com o Data Scraper, mesmo que suas receitas públicas às vezes sejam um pouco ásperas. Tente instalar a versão gratuita no Chrome e brinque com a extração de dados. Certifique-se de assistir ao filme de introdução que eles fornecem para ter uma ideia de como a ferramenta funciona e algumas maneiras simples de extrair os dados desejados.
WebHarvy
WebHarvy é um raspador de dados de apontar e clicar com uma versão de avaliação gratuita. Seu maior ponto de venda é a flexibilidade - você pode usar o navegador da Web integrado da ferramenta para navegar até os dados que deseja importar e, em seguida, criar suas próprias especificações de mineração para extrair exatamente o que você precisa do site de origem.
import.io
Import.io é um conjunto de ferramentas de mineração de dados rico em recursos que faz grande parte do trabalho duro para você. Tem alguns recursos interessantes, incluindo "O que mudou?" relatórios que podem notificá-lo sobre atualizações de sites específicos – ideal para uma análise aprofundada da concorrência.
Como os profissionais de marketing estão usando a raspagem de dados?
Como você já deve ter percebido até este ponto, a raspagem de dados pode ser útil em qualquer lugar onde a informação é usada. Aqui estão alguns exemplos importantes de como a tecnologia está sendo usada pelos profissionais de marketing:
Reunindo dados díspares
Uma das grandes vantagens da raspagem de dados, diz Marcin Rosinski, CEO da FeedOptimise, é que ela pode ajudá-lo a reunir dados diferentes em um só lugar. “O rastreamento nos permite pegar dados não estruturados e dispersos de várias fontes e coletá-los em um só lugar e torná-los estruturados”, diz Marcin. “Se você tem vários sites controlados por diferentes entidades, pode combinar tudo em um feed.

“O espectro de casos de uso para isso é infinito.”
O FeedOptimise oferece uma ampla variedade de serviços de extração de dados e alimentação de dados, que você pode descobrir em seu site.
Agilizando a pesquisa
O uso mais simples para raspagem de dados é recuperar dados de uma única fonte. Se houver uma página da Web que contenha muitos dados que possam ser úteis para você, a maneira mais fácil de obter essas informações em seu computador em um formato ordenado provavelmente será a extração de dados.
Tente encontrar uma lista de contatos úteis no Twitter e importe os dados usando a extração de dados. Isso lhe dará um gostinho de como o processo pode se encaixar no seu trabalho diário.
Saída de um feed XML para sites de terceiros
A alimentação de dados de produtos do seu site para o Google Shopping e outros vendedores terceirizados é uma aplicação importante de extração de dados para comércio eletrônico. Ele permite que você automatize o processo potencialmente trabalhoso de atualizar os detalhes do seu produto – o que é crucial se seu estoque mudar com frequência.
“A extração de dados pode gerar seu feed XML para o Google Shopping”, diz o diretor de marketing da Target Internet, Ciaran Rogers. “ Trabalhei com vários varejistas on-line que adicionavam continuamente novos SKUs ao site à medida que os produtos entravam em estoque. Se sua solução de comércio eletrônico não gerar um feed XML adequado, você pode conectar ao Google Merchant Center para anunciar seus melhores produtos, isso pode ser um problema. Muitas vezes, seus produtos mais recentes são potencialmente os mais vendidos, então você deseja publicá-los assim que forem lançados. Usei a extração de dados para produzir listagens atualizadas para alimentar o Google Merchant Center. É uma ótima solução e, na verdade, há muito que você pode fazer com os dados depois de tê-los. Usando o feed, você pode marcar os melhores produtos de conversão diariamente para compartilhar essas informações com o Google Adwords e garantir lances mais competitivos nesses produtos. Depois de configurá-lo, tudo é bastante automatizado. A flexibilidade de um bom feed que você controla dessa maneira é ótima e pode levar a algumas melhorias muito definitivas nas campanhas que os clientes adoram.”
É possível configurar um feed de dados simples no Google Merchant Center para você mesmo. Veja como é feito:
Como configurar um feed de dados para o Google Merchant Center
Usando uma das técnicas ou ferramentas descritas anteriormente, crie um arquivo que use uma consulta dinâmica ao site para importar os detalhes dos produtos listados em seu site. Este arquivo deve ser atualizado automaticamente em intervalos regulares.
Os detalhes devem ser definidos conforme especificado aqui.
- Faça upload deste arquivo para um URL protegido por senha
- Acesse o Google Merchant Center e faça login (certifique-se de que sua conta do Merchant Center esteja configurada corretamente primeiro)
- Ir para Produtos
- Clique no botão mais
- Insira seu país de destino e crie um nome de feed
- Selecione a opção 'busca programada'
- Adicione o URL do arquivo de dados do seu produto, juntamente com o nome de usuário e a senha necessários para acessá-lo
- Selecione a frequência de busca que melhor corresponde à programação de upload do seu produto
- Clique em Salvar
- Os dados do seu produto agora devem estar disponíveis no Google Merchant Center. Apenas certifique-se de clicar na guia 'Diagnóstico' para verificar seu status e garantir que tudo esteja funcionando sem problemas.
O lado negro da raspagem de dados
Existem muitos usos positivos para a raspagem de dados, mas também é abusado por uma pequena minoria.
O uso indevido mais comum da extração de dados é a coleta de e-mail – a extração de dados de sites, mídias sociais e diretórios para descobrir os endereços de e-mail das pessoas, que são vendidos para spammers ou golpistas. Em algumas jurisdições, usar meios automatizados como coleta de dados para coletar endereços de e-mail com intenção comercial é ilegal e é quase universalmente considerado uma má prática de marketing.
Muitos usuários da web adotaram técnicas para ajudar a reduzir o risco dos coletores de e-mail obterem seu endereço de e-mail, incluindo:
- Endereço munging: alterando o formato do seu endereço de e-mail ao publicá-lo, por exemplo, digitando 'patrick[at]gmail.com' em vez de '[email protected]'. Essa é uma abordagem fácil, mas um pouco não confiável, para proteger seu endereço de e-mail nas mídias sociais – alguns coletores pesquisam várias combinações munged, bem como e-mails em formato normal, por isso não é totalmente hermético.
- Formulários de contato: usando um formulário de contato em vez de postar seu(s) endereço(s) de e-mail em seu site.
- Imagens: se o seu endereço de e-mail for apresentado em forma de imagem em seu site, estará além do alcance tecnológico da maioria das pessoas envolvidas na coleta de e-mails.
O futuro da raspagem de dados
Se você pretende ou não usar a raspagem de dados em seu trabalho, é aconselhável se informar sobre o assunto, pois é provável que se torne ainda mais importante nos próximos anos.
Agora existem IA de raspagem de dados no mercado que podem usar o aprendizado de máquina para continuar melhorando no reconhecimento de entradas que apenas humanos tradicionalmente conseguem interpretar – como imagens.
Grandes melhorias na extração de dados de imagens e vídeos terão consequências de longo alcance para os profissionais de marketing digital. À medida que a extração de imagens se torna mais profunda, poderemos saber muito mais sobre as imagens online antes de vê-las por nós mesmos – e isso, como a extração de dados baseada em texto, nos ajudará a fazer muitas coisas melhor.
Depois, há o maior raspador de dados de todos – o Google. Toda a experiência de pesquisa na web será transformada quando o Google puder inferir com precisão tanto de uma imagem quanto de uma página de cópia – e isso vale o dobro da perspectiva do marketing digital.
Se você tiver alguma dúvida sobre se isso pode acontecer em um futuro próximo, experimente a API de interpretação de imagens do Google, Cloud Vision, e diga-nos o que pensa. obtenha sua assinatura gratuita agora - absolutamente nenhum cartão de crédito necessário
ASSOCIAÇÃO GRATUITA