- Juan Luis Andión Tápiz | mail: [email protected]
- Raúl García Díaz | mail: [email protected]
Asignatura: M2.851 / Fecha 25-04-2023
Este módulo realiza un raspado de información referente a las obras que estan reflejadas en IMDb con un género determinado.
URL del sitio elegido: https://www.imdb.com
memoria.pdf
: Documento con una descripccion mas detallada del proyecto./src/main.py
: Archivo que ejecuta todo el proyecto./src/imdbClassDataSet.py
: Archivo que se encarga de generear el dataset./src/load_proxy.py
: Módulo que contiene las herramientas necesarias para cargar los proxys./src/requirements.txt
: Lista de paquetes utilizados (python 3.10).dataset/IMDb_data.csv
: Dataset extraído con los parámetrostype_=movie
ygenre=comedy
.
La información que se obtiene una vez ejecutado el programa de la forma indicada es la siguiente:
NameContent | ReleseYear | Certificate | TimeContent | AllGenres | RatingImdb | RatingMetacritic | Casting | Directors | Writers |
---|---|---|---|---|---|---|---|---|---|
... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
Donde:
- NameContent: Nombre de la obra.
- ReleseYear: Año de lanzamiento.
- Certificate: A que publico está dirigido.
- TimeContent: Duración de la obra.
- AllGenres: Todos los géneros de la obra.
- RatingImdb: Puntuación en IMDb.
- RatingMetacritic: Punctuation en Metracritic.
- Casting: Reparto de la obra.
- Directors: Directores de la obra.
- Writers: Escritores de la obra.
cd ./ PRA1-Tipologia-y-ciclo-de-vida-de-los-datos/src
pip install -r requirements.txt
python3 main.py --type_=movie --genre=comedy
Este ejemplo es para extraer las 10000 primeras películas de comedia que aparecen en IMDb.
El dataset ha sido publicado en Zenodo con DOI 10.5281/zenodo.7860478.