Web scraping, extracción de datos de sitios web

Categorías: 
Programación
Fechas Impartición: 
De 16/11/2017 a 14/12/2017
Codigo del Curso: 
7353
Horas presencial: 
20
Días de la semana: 
Martes y Jueves
Horario: 
19:00 - 21:30
Requisitos de Acceso: 
Para realizar este curso hay que tener un conocimiento básico de programación.
Objetivos: 
OBJETIVO GENERAL
* Capacitar al participante para extraer datos de páginas web y en un formato útil para su posterior uso.
 
OBJETIVOS ESPECÍFICOS
Al final del curso los participantes estarán capacitados para:
 
* Aprender a usar técnicas de extracción de datos de sitios web, que estén en formatos no estándar o directamente mezclados en el código de las páginas.
* Conocer dos enfoques distintos en la extracción de datos: desde el lado cliente de una aplicación.
* Aprender el uso de la librería CURL desde la línea de comandos, así como su posible integración en aplicaciones de escritorio.
* Aprender a usar y crear expresiones regulares para filtrar información y extraer datos de ella.
Contenidos: 
* Introducción
* Consideraciones legales
* Extensiones de navegador para la extracción de datos
* Uso de Google Spreadsheets para web scraping
* Uso de la extensión Scraper en Chrome
* Scrapers online: scraperwiki
* Programación de un scraper
       - Expresiones regulares: introducción y sintaxis
       - Expresiones regulares para extraer marcas HTML
       - Expresiones regulares para extraer direcciones de email
       - Expresiones regulares para extraer URLs e imágenes
       - Otros usos de las expresiones regulares
       - Uso de las expresiones regulares en Javascript
       - Uso de las expresiones regulares en PHP
       - La utilidad CURL
* Casos prácticos
       - Consulta de datos demográficos de Wikipedia
       - Feeds de noticias
       - Periodismo de datos

 

Metodologías: 
Presencial