Apache Spark es una plataforma de computación cluster rápida pensada para ejecutar programas paralelos en cluster con decenas y centenáres de máquinas.
A continuación encontrarás información introductoria con ejercicios prácticas de cada uno de los componentes de Spark.
Enlace a los slides de la presentación aquí
- 01 - INTRODUCCION A APACHE SPARK
- 02 - RDD RESILENT DISTRIBUTED DATASETS
- 03 - RDDs con pares clave valor
- 04 - RDDs numericos
- 05 - Persistencia y particionado
- 06 - Lectura y escritura de ficheros
- 07 - Ejecucion de un programa Spark y montaje de clusters
- 08 - Spark SQL
- 09 - GraphX Procesamiento de grafos
- 10 - Spark ML
- 11 - Spark Streaming
😂