janhq · vansangpfiev · Jun 7, 2024 · Jun 6, 2024
diff --git a/README.md b/README.md
@@ -145,4 +145,5 @@ Table of parameters
 |`model_type` | String | Model type we want to use: llm or embedding, default value is llm|
 |`model_alias`| String | Used as model_id if specified in request, mandatory in loadmodel|
 |`model`      | String | Used as model_id if specified in request, mandatory in chat/embedding request|
-|`flash_attn` | Boolean| To enable Flash Attention, default is false|
+|`flash_attn` | Boolean| To enable Flash Attention, default is false|
+|`cache_type` | String| KV cache type: f16, q8_0, q4_0, default is f16|
diff --git a/src/llama_engine.cc b/src/llama_engine.cc
@@ -374,7 +374,7 @@ bool LlamaEngine::LoadModelImpl(std::shared_ptr<Json::Value> jsonBody) {
     }
 
     server_map_[model_id].caching_enabled =
-        jsonBody->get("caching_enabled", false).asBool();
+        jsonBody->get("caching_enabled", true).asBool();
     server_map_[model_id].user_prompt =
         jsonBody->get("user_prompt", "USER: ").asString();
     server_map_[model_id].ai_prompt =