Skip to content

Latest commit

 

History

History
389 lines (271 loc) · 16 KB

README-zh-Hans.md

File metadata and controls

389 lines (271 loc) · 16 KB

Colossal-AI

logo

Colossal-AI: 让AI大模型更低成本、方便易用、高效扩展

Build Documentation CodeFactor HuggingFace badge slack badge WeChat badge

| English | 中文 |

新闻

目录

为何选择 Colossal-AI

James Demmel 教授 (加州大学伯克利分校): Colossal-AI 让分布式训练高效、易用、可扩展。

(返回顶端)

特点

Colossal-AI 为您提供了一系列并行组件。我们的目标是让您的分布式 AI 模型像构建普通的单 GPU 模型一样简单。我们提供的友好工具可以让您在几行代码内快速开始分布式训练和推理。

(返回顶端)

并行训练样例展示

GPT-3

  • 释放 50% GPU 资源占用, 或 10.7% 加速

GPT-2

  • 降低11倍 GPU 显存占用,或超线性扩展(张量并行)

  • 用相同的硬件训练24倍大的模型
  • 超3倍的吞吐量

BERT

  • 2倍训练速度,或1.5倍序列长度

PaLM

OPT

请访问我们的 文档例程 以了解详情。

ViT

  • 14倍批大小和5倍训练速度(张量并行=64)

推荐系统模型

  • Cached Embedding, 使用软件Cache实现Embeddings,用更少GPU显存训练更大的模型。

(返回顶端)

单GPU训练样例展示

GPT-2

  • 用相同的硬件训练20倍大的模型

  • 用相同的硬件训练120倍大的模型 (RTX 3080)

PaLM

  • 用相同的硬件训练34倍大的模型

(返回顶端)

推理 (Energon-AI) 样例展示

  • OPT推理服务: 无需注册,免费体验1750亿参数OPT在线推理服务

  • BLOOM: 降低1760亿参数BLOOM模型部署推理成本超10倍

(返回顶端)

Colossal-AI 成功案例

ChatGPT

低成本复现ChatGPT完整流程 [代码] [博客]

  • 最高可提升单机训练速度7.73倍,单卡推理速度1.42倍

  • 单卡模型容量最多提升10.3倍
  • 最小demo训练流程最低仅需1.62GB显存 (任意消费级GPU)

  • 提升单卡的微调模型容量3.7倍
  • 同时保持高速运行

(back to top)

AIGC

加速AIGC(AI内容生成)模型,如Stable Diffusion v1Stable Diffusion v2

  • 训练: 减少5.6倍显存消耗,硬件成本最高降低46倍(从A100到RTX3060)

  • 推理: GPU推理显存消耗降低2.5倍

(返回顶端)

生物医药

加速 AlphaFold 蛋白质结构预测

  • FastFold: 加速AlphaFold训练与推理、数据前处理、推理序列长度超过10000残基

(返回顶端)

安装

从PyPI安装

您可以用下面的命令直接从PyPI上下载并安装Colossal-AI。我们默认不会安装PyTorch扩展包

pip install colossalai

但是,如果你想在安装时就直接构建PyTorch扩展,您可以设置环境变量CUDA_EXT=1.

CUDA_EXT=1 pip install colossalai

否则,PyTorch扩展只会在你实际需要使用他们时在运行时里被构建。

与此同时,我们也每周定时发布Nightly版本,这能让你提前体验到新的feature和bug fix。你可以通过以下命令安装Nightly版本。

pip install colossalai-nightly

从源码安装

此文档将与版本库的主分支保持一致。如果您遇到任何问题,欢迎给我们提 issue :)

git clone https://github.com/hpcaitech/ColossalAI.git
cd ColossalAI

# install dependency
pip install -r requirements/requirements.txt

# install colossalai
pip install .

我们默认在pip install时不安装PyTorch扩展,而是在运行时临时编译,如果你想要提前安装这些扩展的话(在使用融合优化器时会用到),可以使用一下命令。

CUDA_EXT=1 pip install .

(返回顶端)

使用 Docker

从DockerHub获取镜像

您可以直接从我们的DockerHub主页获取最新的镜像,每一次发布我们都会自动上传最新的镜像。

本地构建镜像

运行以下命令从我们提供的 docker 文件中建立 docker 镜像。

在Dockerfile里编译Colossal-AI需要有GPU支持,您需要将Nvidia Docker Runtime设置为默认的Runtime。更多信息可以点击这里。 我们推荐从项目主页直接下载Colossal-AI.

cd ColossalAI
docker build -t colossalai ./docker

运行以下命令从以交互式启动 docker 镜像.

docker run -ti --gpus all --rm --ipc=host colossalai bash

(返回顶端)

社区

欢迎通过论坛, Slack, 或微信加入 Colossal-AI 社区,与我们分享你的建议和问题。

做出贡献

欢迎为该项目做出贡献,请参阅贡献指南

真诚感谢所有贡献者!

贡献者头像的展示顺序是随机的。

(返回顶端)

CI/CD

我们使用GitHub Actions来自动化大部分开发以及部署流程。如果想了解这些工作流是如何运行的,请查看这个文档.

引用我们

@article{bian2021colossal,
  title={Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training},
  author={Bian, Zhengda and Liu, Hongxin and Wang, Boxiang and Huang, Haichen and Li, Yongbin and Wang, Chuanrui and Cui, Fan and You, Yang},
  journal={arXiv preprint arXiv:2110.14883},
  year={2021}
}

Colossal-AI 已被 SC, AAAI, PPoPP, CVPR等顶级会议录取为官方教程。

(返回顶端)