Skip to content

Releases: DeepLink-org/dlinfer

dlinfer release v0.1.3.post1

11 Dec 06:33
df4f81b
Compare
Choose a tag to compare
  • 华为

    • 支持int8的kv cache
    • 修复w4a16方面的bug
  • 沐曦

    • 支持w4a16
    • 支持多种数据排布的Linear计算
    • 支持最新沐曦软件栈
    • 修复多轮对话

dlinfer release v0.1.2

18 Nov 08:58
a3f3be3
Compare
Choose a tag to compare
  • 华为
    • support multi-card on graph mode
    • support mistral8x7b on graph mode
    • support more models on eager mode
  • 沐曦
    • code refinement

dlinfer release v0.1.1.post2

28 Oct 14:27
f59dd41
Compare
Choose a tag to compare

版本

v0.1.1.post2

更新内容

  1. 支持沐曦C500加速卡
  2. 支持华为图模式(llama3-8B/llama2-7B/Qwen2-7B)
  3. 华为支持W4A16量化与推理
  4. 其他华为与沐曦平台优化

dlinfer release v0.1.0.post1

11 Sep 02:05
a7ba163
Compare
Choose a tag to compare

版本

v0.1.0.post1

更新内容

  • 适配lmdeploy的0.6.0。
  • 华为后端性能优化

dlinfer v0.1.0 releasenote

30 Aug 10:04
9fce123
Compare
Choose a tag to compare

大家好!我们很高兴的宣布dlinfer仓库正式开源,并发布v0.1.0版本。
dlinfer提供了一套将国产硬件接入大模型推理框架的解决方案。 对上承接大模型推理框架,对下在eager模式下调用各厂商的融合算子,在graph模式下调用厂商的图引擎。 在dlinfer中,我们根据主流大模型推理框架与主流硬件厂商的融合算子粒度,定义了大模型推理的融合算子接口。

版本

v0.1.0

主要功能

  1. 将对接框架与对接厂商融合算子在适配工程中有效解耦;
  2. 同时支持算子模式和图模式;
  3. 图模式下的图获取更加精确匹配,提高最终端到端性能;
  4. 同时支持LLM推理和VLM推理。
  5. 华为Atlas 800T A2在LMDeploy上支持如下模型推理(算子模式):InternLM2.5-7B/20B,InternLM2-7B/20B,InternVL2-2B,InternVL1-5,Llama3-8B,Mixtral8x7B,Qwen2-7B,Qwen2-57B-A14B,CogVLM。