ETL dataset keterlambatan penerbangan menggunakan Postgres - Airflow - Hadoop
- Docker
- Spark / Pyspark
- Airflow initiation :
docker-compose up airflow-init
- Run :
docker-compose up
- Destroy :
docker-compose down
ETL untuk mengolah data keterlambatan penerbangan. Menggunakan Airflow untuk melakukan otomatisasi ETL Script, ETL script dibuat dengan bahasa pemrograman Python, Spark digunakan untuk meng-ekstrak data dan menulis ke database, dan Hadoop digunakan untuk menyimpan hasil data yang telah diolah.
ETL belum selesai, masih terdapat error yang belum bisa saya selesaikan
- DAG Import Error
ModuleNotFoundError: No module named 'pyspark'
- Module pyspark sudah terinstall, tapi tetap terjadi error
ModuleNotFoundError: No module named 'pyspark'
- Berhasil menulis ke hadoop
- Meskipun berhasil menulis ke hadoop dan data sudah masuk ke hdfs, tetapi masih terdapat error