infiniflow · KevinHuSh · Oct 5, 2024 · Oct 4, 2024 · Oct 4, 2024
diff --git a/rag/llm/chat_model.py b/rag/llm/chat_model.py
@@ -630,7 +630,7 @@ def chat(self, system, history, gen_conf):
                 modelId=self.model_name,
                 messages=history,
                 inferenceConfig=gen_conf,
-                system=[{"text": system}] if system else None,
+                system=[{"text": (system if system else "Answer the user's message.")}] ,
             )
 
             # Extract and print the response text.
@@ -675,7 +675,8 @@ def chat_streamly(self, system, history, gen_conf):
             streaming_response = self.client.converse_stream(
                 modelId=self.model_name,
                 messages=history,
-                inferenceConfig=gen_conf
+                inferenceConfig=gen_conf,
+                system=[{"text": system if system else ""}],
             )
 
             # Extract and print the streamed response text in real-time.

diff --git a/rag/llm/embedding_model.py b/rag/llm/embedding_model.py
@@ -441,7 +441,7 @@ def encode_queries(self, text):
 
         response = self.client.invoke_model(modelId=self.model_name, body=json.dumps(body))
         model_response = json.loads(response["body"].read())
-        embeddings.extend([model_response["embedding"]])
+        embeddings.extend(model_response["embedding"])
 
         return np.array(embeddings), token_count