按照设想,尝试成为一个数据科学家。
暂定技能表,后续会细化,并补充所有技能对应的博客链接和对应代码。
层级 | 说明 | 技能 |
---|---|---|
9 | 商业分析 | soft-skill |
8 | 系统实现 | Web系统服务 |
7 | 数据搜索,推荐 | 搜索引擎设计,搜索系统,SEO,推荐系统 |
6 | 数据生成 | 文本生成,语音合成,图像生成 |
5 | 可视化展现 | 数据表报,复杂网络数据关系展现 |
4 | 数据挖掘/算法 | 普通数据挖掘算法,自然语言处理,语音识别 ,合成 算法,图像分类 ,定位 ,生成 算法 |
3 | 数据分析处理 | 大数据处理,普通数据处理,文本数据处理,语音数据处理,图像处理 |
2 | 数据存储 | SQL,YARN,HBase,Hive,MongBD |
1 | 数据采集分发 | kafka,ZeroMQ |
0 | 数据源 | 普通数据集,公开数据集,爬虫数据 |
-1 | 数学基本 | 概率论与数据统计,线性代数,基础高数 |
大的数据收录网站
- github awesome-public-datasets
- skymind open dataset : 保罗万象的数据集搜集网,什么类型的数据都有
即被交付给的原始数据集
- uci数据集 :一个公开的用于机器学习的数据集,包含几乎所有类别数据,适用于多种机器学习任务
- 政府公开数据集
图像分类
- 手写字识别MNIST,60000万张分辨率为28x28,数字0-9灰白图识别
- CIFAR-10,6万张分辨率为32x32的10个分类的彩色分类图像
- ImageNet 1400万张,1000多个类别的分类图像,深度学习图像领域的关键比赛数据
- coco 微软组织的图像数据,包含了多种图像任务数据
目标检测
目标跟踪
语义分割
- PASCAL VOC:分割任务中VOC2012的trainval包含07-11年的所有对应图片, test只包含08-11。trainval有 2913张图片共6929个物体
- Cityscapes 城市道路分割:该数据集包含images_base和annotations_base分别对应这文件夹leftImg8bit(5,030 items, totalling 11.6 GB,factually 5000 items)和gtFine(30,030 items, totalling 1.1 GB)。里面都包含三个文件夹:train、val、test。总共5000张精细释,2975张训练图,500张验证图和1525张测试图。在leftImg8bit/train下有18个子文件夹对应德国的16个城市,法国一个城市和瑞士一个城市
- CamVid:城市街道分割
- KITTI:移动机器人及自动驾驶研究的最受欢迎的数据集之一,包含7481张训练集,7518张测试集,总计80.256种标签。该网站也列出了历年的分割结果以及对应的方法。
- ADE20K_MIT:场景理解的新的数据集包括各种物体(比如人、汽车等)、场景(天空、路面等),150个类别,22210张图。
- Sift Flow Dataset: 包含2688张图片,33个labels,包括Awning(棚) balcony(阳台) bird(鸟) boat(船) bridge(桥)Building(建筑)等每一类都有百张左右。
- Stanford Background Dataset:包含从现有公共数据集中选择的715个图像,具有大约320×240像素,包含label种类:天空,树,道路,草,水,建筑物,山脉和前景物体.
- MSRC Dataset:240个图像,可识别9个object class。
- LIP:人体图像是从microsoft coco训练集和验证集中裁剪的。定义了19个人体部件或衣服标签,它们是帽子、头发、太阳镜、上衣、衣服、外套、袜子、裤子、手套、围巾、裙子、连体裤、脸、右臂、左臂、右腿、左腿、右脚、右脚鞋、左鞋,以及背景标签。数据集中共有50462张图像,其中包括19081张全身图像、13672张上身图像、403张下身图像、3386张头部丢失的图像、2778张后视图图像和21028张有遮挡的图像。
- Mapillary Vistas Dataset:25,000个高分辨率图像(分为18,000个用于训练,2,000个用于验证,5,000个用于测试).152个物体类别,100个特定于实例的注释类别。一个多样化的街道级图像数据集,具有像素精确和特定于实例的人类注释,用于理解世界各地的街景。
- MIT SceneParse150:MIT场景解析基准(SceneParse150)为场景解析算法提供标准的训练和评估平台。 该基准测试的数据来自ADE20K数据集。
- COCO 2017 Stuff Segmentation Challenge:COCO 2019 图像分割挑战赛。COCO数据集非常全面,可以从其官方网站下载各类图像任务数据集。
- INRIA Annotations for Graz-02:2006年发布的数据集,包含人、自行车、汽车三类,合计超过2000张。
- Clothing Co-Parsing (CCP) Dataset:衣服分割图片,2098张高分辨率街头时尚照片,共59个标签。
- ApolloScape:百度提供的场景解析数据集,开放数据集累计提供146,997帧图像数据,总计34类,包含像素级标注和姿态信息,以及对应静态背景深度图像下载。
图像融合
- 爱分割人脸matting数据集:数据量大,包含34427张图像和对应的matting结果图,但是数据标注不够精细
- alpha matting官方数据集: 目前已知的最精细的数据集,但是数据量太少,只有27张。
- Deep Automatic Portrait Matting:包含2000张图像,精度和数量都适中,由于此数据集有很多明显的标注错误,需要进一步人工校正。
超分辨率
- Vimeo-90k:包含89800张从vimeo.com网站上视频截图,图像分辨率为448 x 256
- FlyingChairs:22872张图像对,2D对应的3D图像,标注ground truth为光流。
- CelebA202599张各个尺寸的图片,此数据集有多类用途。
- Waterloo:包含4741张原图,以及从这些图像中抖动生成的94,880图像。
- DIV2K:包含800张训练集,100张验证集,100张测试集,总计1000张2k分辨率图像。
人脸数据集
-
celaba
-
年龄和表情数图像据集
- FACES:包含了 171 young (n = 58), middle-aged (n = 56), and older (n = 57) ,不同表情的图片数据集。
-
医疗图像数据集
- 语音识别数据集
- 语音合成数据集
- HTML语言简介
- python BeautifulSoup简介
- scrapy简介
- kafka 简介
- Java 调用kafka
- kafka原理
- ZeroMQ 简介
- ZeroMQ使用
- SQL基础语法
- SQL高级语法
- SQL优化
- SQL思考
- YARN生态简介
- HDFS文件系统简介
- HBase 简介和安装
- HBase java API简单调用
- HBase 索引机制,二级索引设计
- HBase 设计原理
- Hive简介和安装
- Hive语法,存储
- Hive设计
- MongoDB 简介和安装
- MongoDB 设计
降维
- 线性判别分析
- 博客
- 代码
- 二次判别分析
- 博客
- 代码
- 矩阵分解-PCA
- 博客
- 关键: 用数据里最主要的方面来代替原始数据。连续数据。无监督
- 矩阵分解-kernelPCA
- 博客
- 关键: PCA在协方差上变换,kernel PCA在kernel矩阵上变换
- 矩阵分解-稀疏PCA
- 博客
- 关键: 解决稀疏数据降维
- 随机投影-高斯随机投影 7.流型学习-MDS
- 流型学习-ISOMap
- 流型学习-LocallyLinearEmbedding
- 流型学习-拉普拉斯特征映射LE算法
升维
- pig
- Mapreduce
- Spark,MLib
- TDIDF
- word embeding
- 词向量
- 词袋模型
- 互信息
-
- 图像变换
- 几何变换
- hough直线变换
- hough圆变换
- GrabGrabCut前景提取
- 直方图
- 图像轮廓
- canny边缘检测
- 形态学操作
- 图像梯度
- 图像平滑
-
医学影像处理
- 背景消除
- meanShift
- CamShift
- 光流
- 语音的基础概念
- 概念:
- 组成
- 音素
- 音节
- 清音浊音
- 语音相关特征
- 频谱
- 采样频率
- 基音和泛音
- 基频
- 频域
- 时域
- 音高
- 共振峰
- 语音性质
-
短时域
- 短时能量
- 短时平均幅度
- 短时过零率
- 短时自相关函数
-
短频域
- 傅里叶变换
- 特征提取过程
- A/D转换
- 预加重
- 加窗
- Hanning窗
- 矩形窗
- DFT
- Mel滤波
- IDFT
- 提取动态特征
- 特征变换
- 语音对应的文本处理
- 中文语音文本相关概念
- 声母
- 韵母
- 韵母(转换后)
-
处理过程
- 规范化
- 转化为拼音
- 拼音转音调
- 音节分解为音素
- 语音对应文本处理
- 合成基元选取
- 上下文相关标注
- 问题集设计
- 决策树: ID3,C4.5,剪枝,熵,不纯度,回归树和分类树
- 贝叶斯分类
- SVM分类
- 线性回归
- Logistic回归
- KNN
- K-mean:多种kmean
- 矩阵分解
- 主成分分析
-
随机森林
-
频繁模式挖掘:apiri算法,FP-growth算法
-
EM:结合HMM算法
-
线性判别分析
-
EM算法
-
遗传算法
- 语言模型
- 贝叶斯网络
- 马尔科夫模型
- 条件随机场
- 命名实体识别
- 词性标注
- 语义分析
- 句法分析
- 情感分析
- 搜索引擎
- GMM-HMM模型
- DNN-HMM模型
merlin
-
merlin 论文原文
-
merlin 理论体系
-
merlin 实战
-
merlin代码解析
- 语音识别开源
- kaldi
- 运动目标检测xmind
- python opencv中的机器学习算法
- knn ocr
- svm ocr
- kmeans
分类定位网络
- FasterRCNN: RCNN FastRCNN SPP到FasterRCNN
- SSD
YOLO: 从Yolov1到yolov3
MobileNet
-
MobileNetv1
-
MobileNetv2
-
RetinaNet
人脸检测识别
- 人脸检测
- 人脸识别
- 人脸检测识别项目
-
图像分割算法
- Unet,3DUnet
- FCN
- DeepLab
- DenseASPP
- ICNet
- PSPNet
- BiSeNet
-
超分辨率
-
图像生成算法
- DCGAN
-
看图说话
-
风格迁移
-
图像分割
-
特征检测
-
追踪
-
- KNN
- SVM
- Kmeans
- matplotlib
- scipy
- D3
- JFreeChart
- java gephi
- Mevislab
- Mongo
- Netron
- TensorSpace
- caffe网络可视化
- 网络结构可视化 alexnet
- 彩色网络架构可视化alexnet为例
- 网络架构可视化
- Lucene使用
- Lucene设计
- ElasticSearch使用
- ElasticSearch设计
-
常用算法
- 协同过滤
- 矩阵分解
- FM
- FFM
- 聚类算法
- SVD,SVD+
- xgboost
- 逻辑回归
-
深度学习方法
- Tensorflow deep and wide
-
推荐系统冷启动问题