Skip to content

shartoo/BeADataScientist

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

61 Commits
 
 
 
 
 
 
 
 

Repository files navigation

0

按照设想,尝试成为一个数据科学家。

1 技能表

暂定技能表,后续会细化,并补充所有技能对应的博客链接和对应代码。

层级 说明 技能
9 商业分析 soft-skill
8 系统实现 Web系统服务
7 数据搜索,推荐 搜索引擎设计,搜索系统,SEO,推荐系统
6 数据生成 文本生成,语音合成,图像生成
5 可视化展现 数据表报,复杂网络数据关系展现
4 数据挖掘/算法 普通数据挖掘算法,自然语言处理,语音识别,合成算法,图像分类,定位,生成算法
3 数据分析处理 大数据处理,普通数据处理,文本数据处理,语音数据处理,图像处理
2 数据存储 SQL,YARN,HBase,Hive,MongBD
1 数据采集分发 kafka,ZeroMQ
0 数据源 普通数据集,公开数据集,爬虫数据
-1 数学基本 概率论与数据统计,线性代数,基础高数

0.0 数据源

大的数据收录网站

0.1 普通数据集

即被交付给的原始数据集

0.2 公开数据集

0.2.1 离散和连续型普通数据集

0.2.2 图像数据集

图像分类

目标检测

目标跟踪

语义分割

  • PASCAL VOC:分割任务中VOC2012的trainval包含07-11年的所有对应图片, test只包含08-11。trainval有 2913张图片共6929个物体
  • Cityscapes 城市道路分割:该数据集包含images_base和annotations_base分别对应这文件夹leftImg8bit(5,030 items, totalling 11.6 GB,factually 5000 items)和gtFine(30,030 items, totalling 1.1 GB)。里面都包含三个文件夹:train、val、test。总共5000张精细释,2975张训练图,500张验证图和1525张测试图。在leftImg8bit/train下有18个子文件夹对应德国的16个城市,法国一个城市和瑞士一个城市
  • CamVid:城市街道分割
  • KITTI:移动机器人及自动驾驶研究的最受欢迎的数据集之一,包含7481张训练集,7518张测试集,总计80.256种标签。该网站也列出了历年的分割结果以及对应的方法。
  • ADE20K_MIT:场景理解的新的数据集包括各种物体(比如人、汽车等)、场景(天空、路面等),150个类别,22210张图。
  • Sift Flow Dataset: 包含2688张图片,33个labels,包括Awning(棚) balcony(阳台) bird(鸟) boat(船) bridge(桥)Building(建筑)等每一类都有百张左右。
  • Stanford Background Dataset:包含从现有公共数据集中选择的715个图像,具有大约320×240像素,包含label种类:天空,树,道路,草,水,建筑物,山脉和前景物体.
  • MSRC Dataset:240个图像,可识别9个object class。
  • LIP:人体图像是从microsoft coco训练集和验证集中裁剪的。定义了19个人体部件或衣服标签,它们是帽子、头发、太阳镜、上衣、衣服、外套、袜子、裤子、手套、围巾、裙子、连体裤、脸、右臂、左臂、右腿、左腿、右脚、右脚鞋、左鞋,以及背景标签。数据集中共有50462张图像,其中包括19081张全身图像、13672张上身图像、403张下身图像、3386张头部丢失的图像、2778张后视图图像和21028张有遮挡的图像。
  • Mapillary Vistas Dataset:25,000个高分辨率图像(分为18,000个用于训练,2,000个用于验证,5,000个用于测试).152个物体类别,100个特定于实例的注释类别。一个多样化的街道级图像数据集,具有像素精确和特定于实例的人类注释,用于理解世界各地的街景。
  • MIT SceneParse150:MIT场景解析基准(SceneParse150)为场景解析算法提供标准的训练和评估平台。 该基准测试的数据来自ADE20K数据集。
  • COCO 2017 Stuff Segmentation Challenge:COCO 2019 图像分割挑战赛。COCO数据集非常全面,可以从其官方网站下载各类图像任务数据集。
  • INRIA Annotations for Graz-02:2006年发布的数据集,包含人、自行车、汽车三类,合计超过2000张。
  • Clothing Co-Parsing (CCP) Dataset:衣服分割图片,2098张高分辨率街头时尚照片,共59个标签。
  • ApolloScape:百度提供的场景解析数据集,开放数据集累计提供146,997帧图像数据,总计34类,包含像素级标注和姿态信息,以及对应静态背景深度图像下载。

图像融合

超分辨率

  • Vimeo-90k:包含89800张从vimeo.com网站上视频截图,图像分辨率为448 x 256
  • FlyingChairs:22872张图像对,2D对应的3D图像,标注ground truth为光流。
  • CelebA202599张各个尺寸的图片,此数据集有多类用途。
  • Waterloo:包含4741张原图,以及从这些图像中抖动生成的94,880图像。
  • DIV2K:包含800张训练集,100张验证集,100张测试集,总计1000张2k分辨率图像。

人脸数据集

0.2.3 语音数据

  • 语音识别数据集
  • 语音合成数据集

0.2.4 视频数据集

0.2.5 金融股票数据集

0.3 爬虫数据

  • HTML语言简介
  • python BeautifulSoup简介
  • scrapy简介

1 数据采集分发

1.1 kafka

  • kafka 简介
  • Java 调用kafka
  • kafka原理

1.2 ZeroMQ

  • ZeroMQ 简介
  • ZeroMQ使用

2 数据储存

2.1 SQL

  • SQL基础语法
  • SQL高级语法
  • SQL优化
  • SQL思考

2.2 YARN

  • YARN生态简介

2.3 HDFS

  • HDFS文件系统简介

2.4 HBase

  • HBase 简介和安装
  • HBase java API简单调用
  • HBase 索引机制,二级索引设计
  • HBase 设计原理

2.5 Hive

  • Hive简介和安装
  • Hive语法,存储
  • Hive设计

2.6 MongoDB

  • MongoDB 简介和安装
  • MongoDB 设计

3 数据分析

3.1 普通数据处理

3.1.1 数据清洗

3.1.2 数据标准化

3.1.3 数据映射(降维/升维)

降维

  1. 线性判别分析
  1. 二次判别分析
  1. 矩阵分解-PCA
  • 博客
  • 关键: 用数据里最主要的方面来代替原始数据。连续数据。无监督
  1. 矩阵分解-kernelPCA
  • 博客
  • 关键: PCA在协方差上变换,kernel PCA在kernel矩阵上变换
  1. 矩阵分解-稀疏PCA
  • 博客
  • 关键: 解决稀疏数据降维
  1. 随机投影-高斯随机投影 7.流型学习-MDS
  2. 流型学习-ISOMap
  3. 流型学习-LocallyLinearEmbedding
  4. 流型学习-拉普拉斯特征映射LE算法

升维

  1. 流型学习-tSNE

3.2 大数据处理

  • pig
  • Mapreduce
  • Spark,MLib

3.3 文本处理

  • TDIDF
  • word embeding
  • 词向量
  • 词袋模型
  • 互信息

3.4 图像处理


3.5 视频分析

  • 背景消除
  • meanShift
  • CamShift
  • 光流

3.6 语音分析

  1. 语音的基础概念
  • 概念:
  • 组成
    • 音素
    • 音节
    • 清音浊音
  1. 语音相关特征
  • 频谱
  • 采样频率
  • 基音和泛音
  • 基频
  • 频域
  • 时域
  • 音高
  • 共振峰
  1. 语音性质
  • 短时域

    • 短时能量
    • 短时平均幅度
    • 短时过零率
    • 短时自相关函数
  • 短频域

    • 傅里叶变换
  1. 特征提取过程
  • A/D转换
  • 预加重
  • 加窗
    • Hanning窗
    • 矩形窗
  • DFT
  • Mel滤波
  • IDFT
  • 提取动态特征
  • 特征变换
  1. 语音对应的文本处理
  • 中文语音文本相关概念
  • 声母
  • 韵母
  • 韵母(转换后)
  • 处理过程

    1. 规范化
    2. 转化为拼音
    3. 拼音转音调
    4. 音节分解为音素
  1. 语音对应文本处理
  • 合成基元选取
  • 上下文相关标注
  • 问题集设计

4 数据挖掘/分析算法

4.1 机器学习算法

4.1.1 分类算法

  • 决策树: ID3,C4.5,剪枝,熵,不纯度,回归树和分类树
  • 贝叶斯分类
  • SVM分类
  • 线性回归
  • Logistic回归
  • KNN

4.1.2 聚类算法

  • K-mean:多种kmean
  • 矩阵分解

4.1.2 数据压缩算法

  • 主成分分析

4.1.3 其他

4.1.4 统计学模型

4.2 Java Weka使用

4.3 Java Mahout使用

4.4 python sklean使用

4.5 自然语言处理

  • 语言模型
  • 贝叶斯网络
  • 马尔科夫模型
  • 条件随机场
  • 命名实体识别
  • 词性标注
  • 语义分析
  • 句法分析
  • 情感分析
  • 搜索引擎

4.6 语音算法

4.6.1 基础语音算法

  • GMM-HMM模型
  • DNN-HMM模型

4.6.2 语音合成基础理论

语音合成步骤 语音合成技术总结 xmind笔记

4.6.3 开源语音合成框架

merlin

4.6.3 开源语音识别框架

  • 语音识别开源
    • kaldi

4.7 传统图像算法

4.8 深度学习图像算法

分类定位网络

YOLO: 从Yolov1到yolov3

MobileNet

  • MobileNetv1

  • MobileNetv2

  • RetinaNet

人脸检测识别

  • 图像分割算法

    • Unet,3DUnet
    • FCN
    • DeepLab
    • DenseASPP
    • ICNet
    • PSPNet
    • BiSeNet
  • 超分辨率

  • 图像生成算法

    • DCGAN
  • 看图说话

  • 风格迁移

4.9 传统图像算法

5 可视化展现

5.1 python

  • matplotlib
  • scipy

5.2 Java

  • D3
  • JFreeChart

5.3 关系网络可视化

  • java gephi

5.4 医疗图像可视化

  • Mevislab
  • Mongo

5.5 神经网络网络可视化

6 数据搜索,推荐|搜索引擎设计,搜索系统,SEO,推荐系统

6.1 搜索引擎

  • Lucene使用
  • Lucene设计
  • ElasticSearch使用
  • ElasticSearch设计

6.2 搜索引擎设计原理

6.3 SEO优化简要

6.4 推荐系统

  • 常用算法

    • 协同过滤
    • 矩阵分解
    • FM
    • FFM
    • 聚类算法
    • SVD,SVD+
    • xgboost
    • 逻辑回归
  • 深度学习方法

    • Tensorflow deep and wide
  • 推荐系统冷启动问题

7 系统实现

7.1 Java web构建服务