GEEKY HOUR: Web Scraping con Python II (requests)

En este tutorial vamos a extraer información de una web, tal y como os adelanté en el anterior tutorial en esta ocasión la extraeremos de un dato que no sea una variable de JS. Lo que nos ahorrará tener que abrir el explorador mediante Selenium.

Si no tenemos instalado Beautiful Soup, lo haremos:

pip install beautifulSoup4

A continuación instalaremos Requests

pip install requests

El funcionamiento sería más o menos el mismo que con Selenium, a continuación el código comentado:

from bs4 import BeautifulSoup
import requests


url = 'http://geekyhour.blogspot.com.es'
# Le pasamos la web a request para convertirla en texto plano
r = requests.get(url)

soup = BeautifulSoup(r.text, 'html.parser')

# Buscamos en este caso todos los tags h3, que tengan class = post-title entry-title
html = soup.findAll('h3', 'post-title entry-title')

# Iniciamos un bucle para mostrar todos los valores que contienen esos tags
for i in html:
 print(i.getText())




Y hasta aquí el tutorial de esta semana, espero que le puedan sacar provecho, hasta la proxima!!

viernes, 25 de noviembre de 2016

Web Scraping con Python II (requests)

No hay comentarios:

Publicar un comentario