Esta la Práctica 1 de la asignatura Tipología y ciclo de vida de los datos, que se trata de realizar un caso práctico de web scraping.
Integrantes:
- P. Eduardo Paredes Brito
- Carlos Eduardo Hurtado Vega
.
├── README.md
├── requirements.txt
├── .gitignore
└── src
├── __init__.py
├── settings.py
├── scrapy.cfg
├── middleware.py
├── spiders
│ ├── __init__.py
│ └── chollopider.py
├── cholloscrapy_2023_11_13_23_28_16.csv
└── items.py
README
.md: Este archivo contiene información sobre el proyecto e instrucciones sobre cómo instalarlo y ejecutarlo.requirements
.txt: Este archivo enumera las dependencias de Python que deben instalarse..gitignore
: Este archivo le dice a Git qué archivos o directorios debe ignorar en el proyecto.src
: Este directorio contiene el código fuente del proyecto.__init__.py
: Este archivo es necesario para que Python trate los directorios como paquetes.settings.py
: Este archivo contiene la configuración para el proyecto Scrapy.settings.cfg
: Este archivo contiene la configuración para el proyecto Scrapy.middleware
: Este archivo contiene la configuración del middleware para añadir cabezar simuladas a las peticionesspiders:
Este directorio contiene todos los archivos de spider.chollopider.py
: Este es un archivo de spider.
items.py
: Este archivo define los modelos para los elementos scrapeados.cholloscrapy_XXX_XXX.csv
: Fichero de salida cada vez que se ejecuta el scraper.
Las dependencias de este proyecto se encuentran en el fichero requirements.txt
En este proyecto se ha utilizado python3.7
pip install -r requirements.txt
Los comandos para utilizar son los siguientes:
cd /source
scrapy runspider spiders/chollopider.py