Skip to content

Latest commit

 

History

History
60 lines (48 loc) · 2.05 KB

README.md

File metadata and controls

60 lines (48 loc) · 2.05 KB

DOI

CholloScrapy

Descripción

Esta la Práctica 1 de la asignatura Tipología y ciclo de vida de los datos, que se trata de realizar un caso práctico de web scraping.

Integrantes:

  • P. Eduardo Paredes Brito
  • Carlos Eduardo Hurtado Vega

Estructura

.
├── README.md
├── requirements.txt
├── .gitignore
└── src
    ├── __init__.py
    ├── settings.py
    ├── scrapy.cfg
    ├── middleware.py
    ├── spiders
    │   ├── __init__.py
    │   └── chollopider.py
    ├── cholloscrapy_2023_11_13_23_28_16.csv
    └── items.py
  • README.md: Este archivo contiene información sobre el proyecto e instrucciones sobre cómo instalarlo y ejecutarlo.
  • requirements.txt: Este archivo enumera las dependencias de Python que deben instalarse.
  • .gitignore: Este archivo le dice a Git qué archivos o directorios debe ignorar en el proyecto.
  • src: Este directorio contiene el código fuente del proyecto.
    • __init__.py: Este archivo es necesario para que Python trate los directorios como paquetes.
    • settings.py: Este archivo contiene la configuración para el proyecto Scrapy.
    • settings.cfg: Este archivo contiene la configuración para el proyecto Scrapy.
    • middleware: Este archivo contiene la configuración del middleware para añadir cabezar simuladas a las peticiones
    • spiders: Este directorio contiene todos los archivos de spider.
      • chollopider.py: Este es un archivo de spider.
    • items.py: Este archivo define los modelos para los elementos scrapeados.
    • cholloscrapy_XXX_XXX.csv: Fichero de salida cada vez que se ejecuta el scraper.

Instalación

Las dependencias de este proyecto se encuentran en el fichero requirements.txt En este proyecto se ha utilizado python3.7

pip install -r requirements.txt

Uso

Los comandos para utilizar son los siguientes:

cd /source
scrapy runspider spiders/chollopider.py