Add support for numa and selecting main GPU in llama.cpp/hf

Ph0rk0z · Sep 16, 2023 · bab1491 · StoyanStAtanasov · Sep 24, 2023 · Ph0rk0z
1 parent c39157f
commit bab1491
Show file tree

Hide file tree

Showing 6 changed files with 14 additions and 0 deletions.
diff --git a/modules/llamacpp_hf.py b/modules/llamacpp_hf.py
@@ -180,6 +180,8 @@ def from_pretrained(cls, pretrained_model_name_or_path: Optional[Union[str, os.P
             'seed': int(shared.args.llama_cpp_seed),
             'n_threads': shared.args.threads or None,
             'n_batch': shared.args.n_batch,
+            'numa': shared.args.numa,
+            'main_gpu': shared.args.maing_gpu,
             'use_mmap': not shared.args.no_mmap,
             'use_mlock': shared.args.mlock,
             'mul_mat_q': shared.args.mul_mat_q,

diff --git a/modules/llamacpp_model.py b/modules/llamacpp_model.py
@@ -74,6 +74,8 @@ def from_pretrained(self, path):
             'seed': int(shared.args.llama_cpp_seed),
             'n_threads': shared.args.threads or None,
             'n_batch': shared.args.n_batch,
+            'numa': shared.args.numa,
+            'main_gpu': shared.args.maing_gpu,
             'use_mmap': not shared.args.no_mmap,
             'use_mlock': shared.args.mlock,
             'mul_mat_q': shared.args.mul_mat_q,

diff --git a/modules/loaders.py b/modules/loaders.py
@@ -113,6 +113,8 @@
         'n_gpu_layers',
         'tensor_split',
         'n_batch',
+        'numa',
+        'main_gpu',
         'threads',
         'no_mmap',
         'low_vram',
@@ -129,6 +131,8 @@
         'n_gpu_layers',
         'tensor_split',
         'n_batch',
+        'numa',
+        'main_gpu',
         'threads',
         'no_mmap',
         'low_vram',

diff --git a/modules/shared.py b/modules/shared.py
@@ -125,6 +125,8 @@ def str2bool(v):
 # llama.cpp
 parser.add_argument('--threads', type=int, default=0, help='Number of threads to use.')
 parser.add_argument('--n_batch', type=int, default=512, help='Maximum number of prompt tokens to batch together when calling llama_eval.')
+parser.add_argument('--numa', action='store_true', help='Enable numa support for multiple processors.')
+parser.add_argument('--main-gpu', type=int, default=0, help='Main GPU to use for CPP.')
 parser.add_argument('--no-mmap', action='store_true', help='Prevent mmap from being used.')
 parser.add_argument('--low-vram', action='store_true', help='Low VRAM Mode')
 parser.add_argument('--mlock', action='store_true', help='Force the system to keep the model in RAM.')

diff --git a/modules/ui.py b/modules/ui.py
@@ -62,6 +62,8 @@ def list_model_elements():
         'threads',
         'n_batch',
         'no_mmap',
+        'numa',
+        'main_gpu',
         'mlock',
         'n_gpu_layers',
         'autograd',

diff --git a/modules/ui_model_menu.py b/modules/ui_model_menu.py
@@ -144,6 +144,8 @@ def create_ui():
                             shared.gradio['n_ctx'] = gr.Slider(minimum=0, maximum=32768, step=256, label="n_ctx", value=shared.args.n_ctx)
                             shared.gradio['threads'] = gr.Slider(label="threads", minimum=0, step=1, maximum=96, value=shared.args.threads)
                             shared.gradio['n_batch'] = gr.Slider(label="n_batch", minimum=1, maximum=2048, value=shared.args.n_batch)
+                            shared.gradio['numa'] = gr.Checkbox(label="numa support", value=shared.args.numa)
+                            shared.gradio['main_gpu'] = gr.Number(label='Main GPU', value=shared.args.main_gpu)
                             shared.gradio['no_mmap'] = gr.Checkbox(label="no-mmap", value=shared.args.no_mmap)
                             shared.gradio['low_vram'] = gr.Checkbox(label="low-vram", value=shared.args.low_vram)
                             shared.gradio['mlock'] = gr.Checkbox(label="mlock", value=shared.args.mlock)