Sparse + Quant LLMs [WIP]

Do not use, unless you really know what you are doing. Broken in multiple places.

Based on Sparse GPT, GPTQ, Optimal Bert Surgeon and others.

run opt.py to get the optimal sparsity for each layer.

python3 opt.py facebook/opt-X [--seed 0] [--nsamples 128] [--wbits 16] [--groupsize -1] [--save PATH_TO_SAVE] [--compression_type {quantizeonly, prunemaskonly, prunemaskreconstruction, prunemagnitudemask, quantizeprune, none}] [--amount_prune 0.5]

Requirements:

torch == 1.13.1 transformers == 4.21.2 sentencepiece == 0.1.97

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
retrain		retrain
.gitignore		.gitignore
README.md		README.md
llama.py		llama.py
llama_model.py		llama_model.py
llama_tokenizer.py		llama_tokenizer.py
modelutils.py		modelutils.py
opt.py		opt.py
pythia.py		pythia.py
quant.py		quant.py
rwkv.py		rwkv.py
smart_compressors.py		smart_compressors.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sparse + Quant LLMs [WIP]

Do not use, unless you really know what you are doing. Broken in multiple places.

Requirements:

About

Releases

Packages

Languages

NolanoOrg/sparse_quant_llms

Folders and files

Latest commit

History

Repository files navigation

Sparse + Quant LLMs [WIP]

Do not use, unless you really know what you are doing. Broken in multiple places.

Requirements:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages