dlinfer v0.1.0 releasenote
大家好!我们很高兴的宣布dlinfer仓库正式开源,并发布v0.1.0版本。
dlinfer提供了一套将国产硬件接入大模型推理框架的解决方案。 对上承接大模型推理框架,对下在eager模式下调用各厂商的融合算子,在graph模式下调用厂商的图引擎。 在dlinfer中,我们根据主流大模型推理框架与主流硬件厂商的融合算子粒度,定义了大模型推理的融合算子接口。
版本
v0.1.0
主要功能
- 将对接框架与对接厂商融合算子在适配工程中有效解耦;
- 同时支持算子模式和图模式;
- 图模式下的图获取更加精确匹配,提高最终端到端性能;
- 同时支持LLM推理和VLM推理。
- 华为Atlas 800T A2在LMDeploy上支持如下模型推理(算子模式):InternLM2.5-7B/20B,InternLM2-7B/20B,InternVL2-2B,InternVL1-5,Llama3-8B,Mixtral8x7B,Qwen2-7B,Qwen2-57B-A14B,CogVLM。