Skip to content

Latest commit

 

History

History
162 lines (116 loc) · 7.68 KB

README_zh-CN.md

File metadata and controls

162 lines (116 loc) · 7.68 KB

docs badge PyPI license issue resolution open issues

English | 简体中文

👋 join us on Twitter, Discord and WeChat


最新进展 🎉

2024
  • [2024/01] 支持多模型、多机、多卡推理服务。使用方法请参考此处
  • [2024/01] 增加 PyTorch 推理引擎,作为 TurboMind 引擎的补充。帮助降低开发门槛,和快速实验新特性、新技术
2023
  • [2023/12] Turbomind 支持多模态输入。Gradio Demo
  • [2023/11] Turbomind 支持直接读取 Huggingface 模型。点击这里查看使用方法
  • [2023/11] TurboMind 重磅升级。包括:Paged Attention、更快的且不受序列最大长度限制的 attention kernel、2+倍快的 KV8 kernels、Split-K decoding (Flash Decoding) 和 支持 sm_75 架构的 W4A16
  • [2023/09] TurboMind 支持 Qwen-14B
  • [2023/09] TurboMind 支持 InternLM-20B 模型
  • [2023/09] TurboMind 支持 Code Llama 所有功能:代码续写、填空、对话、Python专项。点击这里阅读部署方法
  • [2023/09] TurboMind 支持 Baichuan2-7B
  • [2023/08] TurboMind 支持 flash-attention2
  • [2023/08] TurboMind 支持 Qwen-7B,动态NTK-RoPE缩放,动态logN缩放
  • [2023/08] TurboMind 支持 Windows (tp=1)
  • [2023/08] TurboMind 支持 4-bit 推理,速度是 FP16 的 2.4 倍,是目前最快的开源实现。部署方式请看这里
  • [2023/08] LMDeploy 开通了 HuggingFace Hub ,提供开箱即用的 4-bit 模型
  • [2023/08] LMDeploy 支持使用 AWQ 算法进行 4-bit 量化
  • [2023/07] TurboMind 支持使用 GQA 的 Llama-2 70B 模型
  • [2023/07] TurboMind 支持 Llama-2 7B/13B 模型
  • [2023/07] TurboMind 支持 InternLM 的 Tensor Parallel 推理
______________________________________________________________________

简介

LMDeploy 由 MMDeployMMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。 这个强大的工具箱提供以下核心功能:

  • 高效的推理:LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍

  • 可靠的量化:LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。

  • 便捷的服务:通过请求分发服务,LMDeploy 支持多模型在多机、多卡上的推理服务。

  • 有状态推理:通过缓存多轮对话过程中 attention 的 k/v,记住对话历史,从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。

性能

LMDeploy TurboMind 引擎拥有卓越的推理能力,在各种规模的模型上,每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍。在静态推理能力方面,TurboMind 4bit 模型推理速度(out token/s)远高于 FP16/BF16 推理。在小 batch 时,提高到 2.4 倍。

v0 1 0-benchmark

更多设备、更多计算精度、更多setting下的的推理 benchmark,请参考以下链接:

  • A100
  • 4090
  • 3090
  • 2080

支持的模型

Model Size
Llama 7B - 65B
Llama2 7B - 70B
InternLM 7B - 20B
InternLM2 7B - 20B
InternLM-XComposer 7B
QWen 7B - 72B
QWen-VL 7B
Baichuan 7B - 13B
Baichuan2 7B - 13B
Code Llama 7B - 34B
ChatGLM2 6B
Falcon 7B - 180B

LMDeploy 支持 2 种推理引擎: TurboMindPyTorch,它们侧重不同。前者追求推理性能的极致优化,后者纯用python开发,着重降低开发者的门槛。

它们在支持的模型类别、计算精度方面有所差别。用户可参考这里, 查阅每个推理引擎的能力,并根据实际需求选择合适的。

快速开始

安装

使用 pip ( python 3.8+) 安装 LMDeploy,或者源码安装

pip install lmdeploy

LMDeploy的预编译包默认是基于 CUDA 11.8 编译的。如果需要在 CUDA 12+ 下安装 LMDeploy,请执行以下命令:

export LMDEPLOY_VERSION=0.2.0
export PYTHON_VERSION=38
pip install https://github.com/InternLM/lmdeploy/releases/download/v${LMDEPLOY_VERSION}/lmdeploy-${LMDEPLOY_VERSION}-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux2014_x86_64.whl

离线批处理

import lmdeploy
pipe = lmdeploy.pipeline("internlm/internlm-chat-7b")
response = pipe(["Hi, pls intro yourself", "Shanghai is"])
print(response)

关于 pipeline 的更多推理参数说明,请参考这里

用户教程

请阅读快速上手章节,了解 LMDeploy 的基本用法。

为了帮助用户更进一步了解 LMDeploy,我们准备了用户指南和进阶指南,请阅读我们的文档

贡献指南

我们感谢所有的贡献者为改进和提升 LMDeploy 所作出的努力。请参考贡献指南来了解参与项目贡献的相关指引。

致谢

License

该项目采用 Apache 2.0 开源许可证