Web scraping, extracción de datos de sitios web

Categorías: 
Programación
Fechas Impartición: 
De 31/05/2017 a 26/06/2017
Codigo del Curso: 
6910
Horas presencial: 
20
Días de la semana: 
Lunes y Miércoles
Horario: 
19:00 - 21:30
Requisitos de Acceso: 

El alumno idóneo ha realizado algún grado o ciclo relacionado con la informática, y tiene algunas nociones de programación, aunque no necesariamente de programación web.

Los lenguajes de programación usados durante el curso son PHP y Javascript, aunque los ejemplos son fácilmente extrapolables a otros lenguajes.

Objetivos: 

●      Aprender a usar técnicas de extracción de datos de sitios web, que estén en formatos no estándar o directamente mezclados en el código de las páginas.

●      Conocer dos enfoques distintos en la extracción de datos: desde el lado cliente de una aplicación.

●      Aprender el uso de la librería CURL desde la línea de comandos, así como su posible integración en aplicaciones de escritorio.

●      Aprender a usar y crear expresiones regulares para filtrar información y extraer datos de ella.

●      Adquirir una perspectiva de los ámbitos de aplicación del web scraping: generación de contenidos, periodismo de datos, data mining, etc.

Contenidos: 

●      Introducción

●      Consideraciones legales

●      Extensiones de navegador para la extracción de datos

●      Uso de Google Spreadsheets para web scraping

●      Uso de la extensión Scraper en Chrome

●      Scrapers online: scraperwiki

●      Programación de un scraper

○      Expresiones regulares: introducción y sintaxis

○      Expresiones regulares para extraer marcas HTML

○      Expresiones regulares para extraer direcciones de email

○      Expresiones regulares para extraer URLs e imágenes

○      Otros usos de las expresiones regulares

○      Uso de las expresiones regulares en Javascript

○      Uso de las expresiones regulares en PHP

○      La utilidad CURL

●      Casos prácticos

○      Consulta de datos demográficos de Wikipedia

○      Feeds de noticias

○      Periodismo de datos

Metodologías: 
Presencial