Practica 1: ¿Cómo podemos capturar los datos de la web?

Autores

Juan Luis Andión Tápiz | mail: [email protected]
Raúl García Díaz | mail: [email protected]

Description

Asignatura: M2.851 / Fecha 25-04-2023

Este módulo realiza un raspado de información referente a las obras que estan reflejadas en IMDb con un género determinado.

URL del sitio elegido: https://www.imdb.com

Descripción del repositorio

memoria.pdf: Documento con una descripccion mas detallada del proyecto.
/src/main.py: Archivo que ejecuta todo el proyecto.
/src/imdbClassDataSet.py: Archivo que se encarga de generear el dataset.
/src/load_proxy.py: Módulo que contiene las herramientas necesarias para cargar los proxys.
/src/requirements.txt: Lista de paquetes utilizados (python 3.10).
dataset/IMDb_data.csv: Dataset extraído con los parámetros type_=movie y genre=comedy.

Estructura del dataset

La información que se obtiene una vez ejecutado el programa de la forma indicada es la siguiente:

NameContent	ReleseYear	Certificate	TimeContent	AllGenres	RatingImdb	RatingMetacritic	Casting	Directors	Writers
...	...	...	...	...	...	...	...	...	...

Donde:

NameContent: Nombre de la obra.
ReleseYear: Año de lanzamiento.
Certificate: A que publico está dirigido.
TimeContent: Duración de la obra.
AllGenres: Todos los géneros de la obra.
RatingImdb: Puntuación en IMDb.
RatingMetacritic: Punctuation en Metracritic.
Casting: Reparto de la obra.
Directors: Directores de la obra.
Writers: Escritores de la obra.

Uso del programa

cd ./ PRA1-Tipologia-y-ciclo-de-vida-de-los-datos/src
pip install -r requirements.txt
python3 main.py --type_=movie --genre=comedy

Este ejemplo es para extraer las 10000 primeras películas de comedia que aparecen en IMDb.

Publicación en Zenodo

El dataset ha sido publicado en Zenodo con DOI 10.5281/zenodo.7860478.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
dataset		dataset
src		src
.gitignore		.gitignore
PRA1_MEMORIA.pdf		PRA1_MEMORIA.pdf
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Practica 1: ¿Cómo podemos capturar los datos de la web?

Autores

Description

Descripción del repositorio

Estructura del dataset

Uso del programa

Publicación en Zenodo

About

Releases

Packages

Languages

raulgdUOC/PRA1-Tipologia-y-ciclo-de-vida-de-los-datos

Folders and files

Latest commit

History

Repository files navigation

Practica 1: ¿Cómo podemos capturar los datos de la web?

Autores

Description

Descripción del repositorio

Estructura del dataset

Uso del programa

Publicación en Zenodo

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages