-
Pig. En este primer apartado de la asignatura el objetivo consiste en familiarizarse con un lenguaje de programación orientado a flujos de datos conocido como Pig. Para ello el objetivo consiste en construir diversos flujos de datos particulares a una base de datos a elegir para comenzar su ingesta de datos, definiendo tanto su esquema como los tipos de datos, y realizando múltiples operaciones a partir de los operadores disponibles para extraer conocimiento útil no visible directamente.
-
Spark. Esta segunda sección contiene el script y la memoria con la que se resuelve un problema de clasificación altamente desbalanceado mediante el conjunto de datos SUSY. Para ello se han aplicado diversas técnicas de preprocesamiento y algoritmos de Aprendizaje Aumático con los que comparar la bondad de los modelos obtenidos de distintas combinaciones en función de las tasas de muestras positivas y negativas correctamente identificadas. Se han empleado tanto las interfaces ML para trabajar con DataFrames como la librería MLLib que únicamente acepta RDD como estructura de datos.
-
Notifications
You must be signed in to change notification settings - Fork 0
Repositorio para la asignatura Big Data II del Máster en Ciencia de Datos e Ingeniería de Computadores.
License
lidiasm/DATCOM-BDII
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
Repositorio para la asignatura Big Data II del Máster en Ciencia de Datos e Ingeniería de Computadores.
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published