Skip to content

lixiang-repo/mall-warehouse

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

电商数仓

项目简介

基于hadoop生态搭建的电商数仓

视频地址:https://www.bilibili.com/video/BV1RD4y1d7c5?p=154 https://www.bilibili.com/video/BV1dD4y1d7wL?p=401

系统架构

系统数据流程图.png

数仓分层

系统数据流程图.png

er图

系统数据流程图.png

数仓模型图

系统数据流程图.png

集群规划

系统数据流程图.png

技术选型

名称 版本号 类型 说明
hadoop 2.7.2 数据存储
spark 2.0.0 计算引擎 使用spark作为hive的计算引擎
hive 3.4.6 数据计算
flume 1.7.0 数据采集传输
kafka 2.11-0.11 数据采集传输
sqoop 1.4.6 数据采集传输
mysql 5.7.30 数据存储
azkaban 3.84.4 任务调度
zookeeper 3.4.10 集群管理
superset 0.0.0 数据可视化
jdk 1.8.0 依赖

项目结构说明

├─azkaban azkaban job文件 
│
├─shell 脚本
│  ├─ads.sh ads层加载数据脚本
│  │      
│  ├─*to*  从某个地方导入到某个地方如(mysql_to_hdfs.sh)就是从mysql导入到hdfs上
│  │     
│  ├─tools 集群启动停止脚本
│  │      
│  └─utils 工具脚本
│
├─table hive中数仓建表sql             
│      
└──jar 
   ├─hive  hive自定义函数所需要的jar包
   │      
   ├─flume flume拦截器所需要的jar包
   │     
   ├─log   日志生成脚本
   │      
   └─db    数据库数据生成脚本

脚本说明

名称 参数 参数说明 脚本说明
mysql_to_hdfs.sh $1 可选:first(首次导入,特殊表处理)、all(全部导入) 从mysql中导入数据到hdfs
$2 时间
hdfs_to_ods_log.sh $1 分区名(时间) 数仓ods层自动导入数据(埋点数据数据)
hdfs_to_ods_db.sh $1 可选:first(首次导入,特殊表处理)、all(全部导入) 数仓ods层自动导入数据(业务数据)
$2 时间
ods_to_dwd_log.sh $1 分区名(时间) 数仓dwd层自动导入数据(埋点数据)/td>
ods_to_dwd_db.sh $1 可选:first(首次导入,特殊表处理)、all(全部导入) 数仓dwd层自动导入数据(业务数据)
$2 时间
dwd_to_dws.sh $1 分区名(时间) 数仓dws层自动导入数据
dws_to_dwt.sh.sh $1 分区名(时间) 数仓dwt层自动导入数据
ads.sh $1 分区名(时间) 数仓ads层数据导入脚本
hdfs_to_mysql.sh $1 hive导出指定hive表数据,可选:ads_user_topic(用户主题)、ads_area_topic(地区主题)、all(上述二个全部导出) hive导出ads层数据至mysql脚本
f1.sh $1 可选:start(启动)、stop(停止) 群起采集flume脚本
f2.sh $1 可选:start(启动)、stop(停止) 启动消费flume脚本
kafka.sh $1 可选:start(启动)、stop(停止) 启动/停止Kafka集群
hd.sh $1 可选:start(启动)、stop(停止) 启动/停止hadoop集群
zk.sh $1 可选:start(启动)、stop(停止) 启动/停止zk集群
xcall.sh $1 要执行的命令 集群执行统一命令脚本
xsync.sh $1 文件绝对路径 集群分发文件脚本

About

电商平台的数据仓库

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published