Jump to content

Você já ouviu falar em WebScraping?


Thanael

Postagens Recomendadas

  • Pessoal da TecnoSpeed

Olá você já ouviu falar de Web Scraping 🤨 ?

Caso tenha ficado curioso sobre o que é o Web Scraping e o quão útil isso pode ser, vou tentar esclarecer um pouco mais sobre este tema aqui neste tópico. Vamos começar explicando o que é Web Scraping.

Web Scraping: 
       Este processo consiste na coleta de informações de dados da web, essa coleta ocorre por meio de uma "raspagem" nos dados (HTML) dos sites. O funcionalmente deste processo consiste em obter o HTML do site desejado e com base no HTML procurarmos as informações desejadas através dos IDS dos elementos HTML. 

Utilidade: 
       Por meio dele podemos extrair os dados que queremos de algum site sem precisar necessariamente mexer com APIs, um exemplo de web scraping é extrair informações de criptomoedas de um site como o coingecko, para que você possa utilizar essas informações em seu projeto de data science. (Caso queira ver este exemplo, acesse Introdução ao WebScraping, neste repositório existe um notebook onde eu explico todo o processo de extração dos dados por meio do web scraping com python).
       Outro exemplo poderia ser abrir um site de vendas e extrair as informações como preço dos produtos para alimentar seu banco ou utilizar as informações como bem quiser.
      Podemos observar que as possibilidades do que você pode fazer com isso são inúmeras, basta usar sua criatividade. 🤑

Conhecimentos necessários: 

  • Python: Sabendo o básico de Python você já consegue realizar um web scraping, é bastante usado as estruturas de repetições no processo (FOR) e requisições GET (requests.get ...). 
  • HTML: É importante saber ler o HTML, uma boa maneira de pesquisar as informações que deseja no HTML é abrir o site desejado e clicar com o botão direito e ir em inspecionar elemento (Atalho F12).
    Para encontrar o que deseja na página basta clicar em.

           image.png 

          e levar o mouse na informação que deseja, isso te levará ao respectivo trecho do HTML que contém essa informação.

Bibliotecas Utilizadas no processo: 

  • BeautifulSoup: Esta se trata da Biblioteca principal que torna possível este processo de webscraping, é por ela que navegamos dentro do HTML e extraímos as informações desejadas.
  • Requests: Esta é a biblioteca onde fazemos uma requisição GET para o site desejado, com base nisso que conseguimos acessar o HTML. 
from bs4 import BeautifulSoup 
import requests


Web Scraping na prática:
       Para não deixar este tópico extenso demais, infelizmente vou me abster de realizar toda uma explicação detalhada de como realizar um web scraping na prática.
       Mas caso você tenha se interessado e gostaria de ver como funciona um web scraping na prática, deixo aqui meu convite para acessar meu repositório sobre web scraping dentro dele explico mais a fundo como realizar este processo na prática, demonstrando e ensinando como utilizar o básico do BeautifulSoup para realizar uma extração simples.


Repositório: Web Scraping na prática.

 

Enfim... 😅 Espero que este tópico tenha despertado sua curiosidade sobre WebScraping e o quão útil ele pode ser para extrair dados de diversas fontes. Caso alguma informação não tenha ficado clara, estou a disposição e ficarei feliz em poder explicar e esclarecer quaisquer dúvidas que possam surgir a respeitos deste tema.

Já aproveito também e deixo aqui meu Linkedin e GitHub para qualquer um que queira manter contato. 👍

  • Curtir 4
Link to comment
Compartilhe em outros sites

Crie uma conta ou entre para comentar 😀

Você precisa ser um membro para deixar um comentário.

Crie a sua conta

Participe da nossa comunidade, crie sua conta.
É bem rápido!

Criar minha conta agora

Entrar

Você já tem uma conta?
Faça o login agora.

Entrar agora


×
×
  • Create New...