Skip to content

Repositorio para la asignatura Big Data II del Máster en Ciencia de Datos e Ingeniería de Computadores.

License

Notifications You must be signed in to change notification settings

lidiasm/DATCOM-BDII

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Big Data II: Almacenamiento de datos masivo, Big Data y Big Analytics

Máster Universitario en Ciencia de Datos e Ingeniería de Computadores 21-22

  1. Pig. En este primer apartado de la asignatura el objetivo consiste en familiarizarse con un lenguaje de programación orientado a flujos de datos conocido como Pig. Para ello el objetivo consiste en construir diversos flujos de datos particulares a una base de datos a elegir para comenzar su ingesta de datos, definiendo tanto su esquema como los tipos de datos, y realizando múltiples operaciones a partir de los operadores disponibles para extraer conocimiento útil no visible directamente.

  2. Spark. Esta segunda sección contiene el script y la memoria con la que se resuelve un problema de clasificación altamente desbalanceado mediante el conjunto de datos SUSY. Para ello se han aplicado diversas técnicas de preprocesamiento y algoritmos de Aprendizaje Aumático con los que comparar la bondad de los modelos obtenidos de distintas combinaciones en función de las tasas de muestras positivas y negativas correctamente identificadas. Se han empleado tanto las interfaces ML para trabajar con DataFrames como la librería MLLib que únicamente acepta RDD como estructura de datos.

About

Repositorio para la asignatura Big Data II del Máster en Ciencia de Datos e Ingeniería de Computadores.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages