En este tutorial vamos a extraer información de una web, tal y como os adelanté en el anterior tutorial en esta ocasión la extraeremos de un dato que no sea una variable de JS. Lo que nos ahorrará tener que abrir el explorador mediante Selenium.
Si no tenemos instalado Beautiful Soup, lo haremos:
pip install beautifulSoup4
A continuación instalaremos Requests
pip install requests
El funcionamiento sería más o menos el mismo que con Selenium, a continuación el código comentado:
from bs4 import BeautifulSoup
import requests
url = 'http://geekyhour.blogspot.com.es'
# Le pasamos la web a request para convertirla en texto plano
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
# Buscamos en este caso todos los tags h3, que tengan class = post-title entry-title
html = soup.findAll('h3', 'post-title entry-title')
# Iniciamos un bucle para mostrar todos los valores que contienen esos tags
for i in html:
print(i.getText())
Y hasta aquí el tutorial de esta semana, espero que le puedan sacar provecho, hasta la proxima!!

No hay comentarios:
Publicar un comentario