fix Document process ut

Signed-off-by: xinyual <[email protected]>
xinyual · Mar 11, 2024 · a97011c · a97011c
1 parent 2d91130
commit a97011c
Show file tree

Hide file tree

Showing 2 changed files with 15 additions and 15 deletions.
diff --git a/src/main/java/org/opensearch/neuralsearch/processor/DocumentChunkingProcessor.java b/src/main/java/org/opensearch/neuralsearch/processor/DocumentChunkingProcessor.java
@@ -76,12 +76,12 @@ public DocumentChunkingProcessor(
         AnalysisRegistry analysisRegistry
     ) {
         super(tag, description);
-        validateAndParseAlgorithmMap(algorithmMap);
         this.fieldMap = fieldMap;
         this.environment = environment;
         this.clusterService = clusterService;
         this.indicesService = indicesService;
         this.analysisRegistry = analysisRegistry;
+        validateAndParseAlgorithmMap(algorithmMap);
     }
 
     public String getType() {

diff --git a/src/test/java/org/opensearch/neuralsearch/processor/DocumentChunkingProcessorTests.java b/src/test/java/org/opensearch/neuralsearch/processor/DocumentChunkingProcessorTests.java
@@ -360,8 +360,8 @@ public void testExecute_withFixedTokenLength_andSourceDataStringWithMaxChunkNum_
         Object passages = document.getSourceAndMetadata().get(OUTPUT_FIELD);
         assert (passages instanceof List<?>);
         List<String> expectedPassages = new ArrayList<>();
-        expectedPassages.add("This is an example document to be chunked. The document");
-        expectedPassages.add("contains a single paragraph, two sentences and 24 tokens by");
+        expectedPassages.add("This is an example document to be chunked The document");
+        expectedPassages.add("contains a single paragraph two sentences and 24 tokens by");
         expectedPassages.add("standard tokenizer in OpenSearch");
         assertEquals(expectedPassages, passages);
     }
@@ -376,8 +376,8 @@ public void testExecute_withFixedTokenLength_andSourceDataStringWithMaxChunkNumT
             Object passages = document.getSourceAndMetadata().get(OUTPUT_FIELD);
             assert (passages instanceof List<?>);
             List<String> expectedPassages = new ArrayList<>();
-            expectedPassages.add("This is an example document to be chunked. The document");
-            expectedPassages.add("contains a single paragraph, two sentences and 24 tokens by");
+            expectedPassages.add("This is an example document to be chunked The document");
+            expectedPassages.add("contains a single paragraph two sentences and 24 tokens by");
             expectedPassages.add("standard tokenizer in OpenSearch");
             assertEquals(expectedPassages, passages);
         }
@@ -407,8 +407,8 @@ public void testExecute_withFixedTokenLength_andSourceDataString_thenSucceed() {
         Object passages = document.getSourceAndMetadata().get(OUTPUT_FIELD);
         assert (passages instanceof List<?>);
         List<String> expectedPassages = new ArrayList<>();
-        expectedPassages.add("This is an example document to be chunked. The document");
-        expectedPassages.add("contains a single paragraph, two sentences and 24 tokens by");
+        expectedPassages.add("This is an example document to be chunked The document");
+        expectedPassages.add("contains a single paragraph two sentences and 24 tokens by");
         expectedPassages.add("standard tokenizer in OpenSearch");
         assertEquals(expectedPassages, passages);
     }
@@ -440,11 +440,11 @@ public void testExecute_withFixedTokenLength_andSourceDataListStrings_thenSuccee
         assert (passages instanceof List<?>);
 
         List<String> expectedPassages = new ArrayList<>();
-        expectedPassages.add("This is the first document to be chunked. The document");
-        expectedPassages.add("contains a single paragraph, two sentences and 24 tokens by");
+        expectedPassages.add("This is the first document to be chunked The document");
+        expectedPassages.add("contains a single paragraph two sentences and 24 tokens by");
         expectedPassages.add("standard tokenizer in OpenSearch");
-        expectedPassages.add("This is the second document to be chunked. The document");
-        expectedPassages.add("contains a single paragraph, two sentences and 24 tokens by");
+        expectedPassages.add("This is the second document to be chunked The document");
+        expectedPassages.add("contains a single paragraph two sentences and 24 tokens by");
         expectedPassages.add("standard tokenizer in OpenSearch");
         assertEquals(expectedPassages, passages);
     }
@@ -488,8 +488,8 @@ public void testExecute_withFixedTokenLength_andFieldMapNestedMap_thenSucceed()
         assert (passages instanceof List);
 
         List<String> expectedPassages = new ArrayList<>();
-        expectedPassages.add("This is an example document to be chunked. The document");
-        expectedPassages.add("contains a single paragraph, two sentences and 24 tokens by");
+        expectedPassages.add("This is an example document to be chunked The document");
+        expectedPassages.add("contains a single paragraph two sentences and 24 tokens by");
         expectedPassages.add("standard tokenizer in OpenSearch");
         assertEquals(expectedPassages, passages);
     }
@@ -532,8 +532,8 @@ public void testExecute_withFixedTokenLength_andFieldMapNestedMap_sourceList_the
         Object nestedResult = document.getSourceAndMetadata().get(INPUT_NESTED_FIELD_KEY);
         List<String> expectedPassages = new ArrayList<>();
 
-        expectedPassages.add("This is an example document to be chunked. The document");
-        expectedPassages.add("contains a single paragraph, two sentences and 24 tokens by");
+        expectedPassages.add("This is an example document to be chunked The document");
+        expectedPassages.add("contains a single paragraph two sentences and 24 tokens by");
         expectedPassages.add("standard tokenizer in OpenSearch");
         assert (nestedResult instanceof List);
         assertEquals(((List<?>) nestedResult).size(), 2);