En este tutorial vamos a extraer información de una web, tal y como os adelanté en el anterior tutorial en esta ocasión la extraeremos de un dato que no sea una variable de JS. Lo que nos ahorrará tener que abrir el explorador mediante Selenium.
Si no tenemos instalado Beautiful Soup, lo haremos:
pip install beautifulSoup4
A continuación instalaremos Requests
pip install requests
El funcionamiento sería más o menos el mismo que con Selenium, a continuación el código comentado:
from bs4 import BeautifulSoup import requests url = 'http://geekyhour.blogspot.com.es' # Le pasamos la web a request para convertirla en texto plano r = requests.get(url) soup = BeautifulSoup(r.text, 'html.parser') # Buscamos en este caso todos los tags h3, que tengan class = post-title entry-title html = soup.findAll('h3', 'post-title entry-title') # Iniciamos un bucle para mostrar todos los valores que contienen esos tags for i in html: print(i.getText()) Y hasta aquí el tutorial de esta semana, espero que le puedan sacar provecho, hasta la proxima!!
No hay comentarios:
Publicar un comentario