基于hadoop生态搭建的电商数仓
视频地址:https://www.bilibili.com/video/BV1RD4y1d7c5?p=154 https://www.bilibili.com/video/BV1dD4y1d7wL?p=401
名称 | 版本号 | 类型 | 说明 |
---|---|---|---|
hadoop | 2.7.2 | 数据存储 | |
spark | 2.0.0 | 计算引擎 | 使用spark作为hive的计算引擎 |
hive | 3.4.6 | 数据计算 | |
flume | 1.7.0 | 数据采集传输 | |
kafka | 2.11-0.11 | 数据采集传输 | |
sqoop | 1.4.6 | 数据采集传输 | |
mysql | 5.7.30 | 数据存储 | |
azkaban | 3.84.4 | 任务调度 | |
zookeeper | 3.4.10 | 集群管理 | |
superset | 0.0.0 | 数据可视化 | |
jdk | 1.8.0 | 依赖 |
├─azkaban azkaban job文件
│
├─shell 脚本
│ ├─ads.sh ads层加载数据脚本
│ │
│ ├─*to* 从某个地方导入到某个地方如(mysql_to_hdfs.sh)就是从mysql导入到hdfs上
│ │
│ ├─tools 集群启动停止脚本
│ │
│ └─utils 工具脚本
│
├─table hive中数仓建表sql
│
└──jar
├─hive hive自定义函数所需要的jar包
│
├─flume flume拦截器所需要的jar包
│
├─log 日志生成脚本
│
└─db 数据库数据生成脚本
名称 | 参数 | 参数说明 | 脚本说明 |
---|---|---|---|
mysql_to_hdfs.sh | $1 | 可选:first(首次导入,特殊表处理)、all(全部导入) | 从mysql中导入数据到hdfs |
$2 | 时间 | ||
hdfs_to_ods_log.sh | $1 | 分区名(时间) | 数仓ods层自动导入数据(埋点数据数据) |
hdfs_to_ods_db.sh | $1 | 可选:first(首次导入,特殊表处理)、all(全部导入) | 数仓ods层自动导入数据(业务数据) |
$2 | 时间 | ||
ods_to_dwd_log.sh | $1 | 分区名(时间) | 数仓dwd层自动导入数据(埋点数据)/td> |
ods_to_dwd_db.sh | $1 | 可选:first(首次导入,特殊表处理)、all(全部导入) | 数仓dwd层自动导入数据(业务数据) |
$2 | 时间 | ||
dwd_to_dws.sh | $1 | 分区名(时间) | 数仓dws层自动导入数据 |
dws_to_dwt.sh.sh | $1 | 分区名(时间) | 数仓dwt层自动导入数据 |
ads.sh | $1 | 分区名(时间) | 数仓ads层数据导入脚本 |
hdfs_to_mysql.sh | $1 | hive导出指定hive表数据,可选:ads_user_topic(用户主题)、ads_area_topic(地区主题)、all(上述二个全部导出) | hive导出ads层数据至mysql脚本 |
f1.sh | $1 | 可选:start(启动)、stop(停止) | 群起采集flume脚本 |
f2.sh | $1 | 可选:start(启动)、stop(停止) | 启动消费flume脚本 |
kafka.sh | $1 | 可选:start(启动)、stop(停止) | 启动/停止Kafka集群 |
hd.sh | $1 | 可选:start(启动)、stop(停止) | 启动/停止hadoop集群 |
zk.sh | $1 | 可选:start(启动)、stop(停止) | 启动/停止zk集群 |
xcall.sh | $1 | 要执行的命令 | 集群执行统一命令脚本 |
xsync.sh | $1 | 文件绝对路径 | 集群分发文件脚本 |