apache · cxzl25 · Jun 24, 2024 · Jun 24, 2024 · Jul 10, 2024 · deniskuzZ
diff --git a/java/core/src/java/org/apache/orc/impl/TreeReaderFactory.java b/java/core/src/java/org/apache/orc/impl/TreeReaderFactory.java
@@ -1551,6 +1551,7 @@ private void nextVector(DecimalColumnVector result,
       HiveDecimalWritable[] vector = result.vector;
       HiveDecimalWritable decWritable;
       if (result.noNulls) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         for (int r = 0; r < batchSize; ++r) {
           decWritable = vector[r];
@@ -1562,7 +1563,11 @@ private void nextVector(DecimalColumnVector result,
           }
           setIsRepeatingIfNeeded(result, r);
         }
+        if (!preIsRepeating && result.isRepeating) {
 } else { 
   // no nulls 
   boolean repeating = (batchSize > 1); 
   final double d1 = utils.readDouble(stream); 
   result.vector[0] = d1; 
   // conditions to ensure bounds checks skips 
   for (int i = 1; i < batchSize && batchSize <= result.vector.length; i++) { 
     final double d2 = utils.readDouble(stream); 
     repeating = repeating && (d1 == d2); 
     result.vector[i] = d2; 
   } 
   result.isRepeating = repeating; 
 } 
 } else { 
   // no nulls & > 1 row (check repeating) 
   boolean repeating = (batchSize > 1); 
   final float f1 = utils.readFloat(stream); 
   result.vector[0] = f1; 
   // conditions to ensure bounds checks skips 
   for (int i = 1; i < batchSize && batchSize <= result.vector.length; i++) { 
     final float f2 = utils.readFloat(stream); 
     repeating = repeating && (f1 == f2); 
     result.vector[i] = f2; 
   } 
   result.isRepeating = repeating; 
 } 
 } else { 
   // no nulls 
   boolean repeating = (batchSize > 1); 
   final double d1 = utils.readDouble(stream); 
   result.vector[0] = d1; 
   // conditions to ensure bounds checks skips 
   for (int i = 1; i < batchSize && batchSize <= result.vector.length; i++) { 
     final double d2 = utils.readDouble(stream); 
     repeating = repeating && (d1 == d2); 
     result.vector[i] = d2; 
   } 
   result.isRepeating = repeating; 
 } 
 } else { 
   // no nulls & > 1 row (check repeating) 
   boolean repeating = (batchSize > 1); 
   final float f1 = utils.readFloat(stream); 
   result.vector[0] = f1; 
   // conditions to ensure bounds checks skips 
   for (int i = 1; i < batchSize && batchSize <= result.vector.length; i++) { 
     final float f2 = utils.readFloat(stream); 
     repeating = repeating && (f1 == f2); 
     result.vector[i] = f2; 
   } 
   result.isRepeating = repeating; 
 } 
+          result.isRepeating = preIsRepeating;
+        }
       } else if (!result.isRepeating || !result.isNull[0]) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         for (int r = 0; r < batchSize; ++r) {
           if (!result.isNull[r]) {
@@ -1576,6 +1581,9 @@ private void nextVector(DecimalColumnVector result,
           }
           setIsRepeatingIfNeeded(result, r);
         }
+        if (!preIsRepeating && result.isRepeating) {
+          result.isRepeating = preIsRepeating;
+        }
       }
     }
 
@@ -1595,6 +1603,7 @@ private void nextVector(DecimalColumnVector result,
       HiveDecimalWritable[] vector = result.vector;
       HiveDecimalWritable decWritable;
       if (result.noNulls) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         int previousIdx = 0;
         for (int r = 0; r != filterContext.getSelectedSize(); ++r) {
@@ -1612,8 +1621,12 @@ private void nextVector(DecimalColumnVector result,
           setIsRepeatingIfNeeded(result, idx);
           previousIdx = idx + 1;
         }
+        if (!preIsRepeating && result.isRepeating) {
+          result.isRepeating = preIsRepeating;
+        }
         skipStreamRows(batchSize - previousIdx);
       } else if (!result.isRepeating || !result.isNull[0]) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         int previousIdx = 0;
         for (int r = 0; r != filterContext.getSelectedSize(); ++r) {
@@ -1633,6 +1646,9 @@ private void nextVector(DecimalColumnVector result,
           setIsRepeatingIfNeeded(result, idx);
           previousIdx = idx + 1;
         }
+        if (!preIsRepeating && result.isRepeating) {
+          result.isRepeating = preIsRepeating;
+        }
         skipStreamRows(countNonNullRowsInRange(result.isNull, previousIdx, batchSize));
       }
     }
@@ -1651,13 +1667,18 @@ private void nextVector(Decimal64ColumnVector result,
       // read the scales
       scaleReader.nextVector(result, scratchScaleVector, batchSize);
       if (result.noNulls) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         for (int r = 0; r < batchSize; ++r) {
           final long scaleFactor = powerOfTenTable[scale - scratchScaleVector[r]];
           result.vector[r] = SerializationUtils.readVslong(valueStream) * scaleFactor;
           setIsRepeatingIfNeeded(result, r);
         }
+        if (!preIsRepeating && result.isRepeating) {
+          result.isRepeating = preIsRepeating;
+        }
       } else if (!result.isRepeating || !result.isNull[0]) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         for (int r = 0; r < batchSize; ++r) {
           if (!result.isNull[r]) {
@@ -1666,6 +1687,9 @@ private void nextVector(Decimal64ColumnVector result,
           }
           setIsRepeatingIfNeeded(result, r);
         }
+        if (!preIsRepeating && result.isRepeating) {
+          result.isRepeating = preIsRepeating;
+        }
       }
       result.precision = (short) precision;
       result.scale = (short) scale;
@@ -1686,6 +1710,7 @@ private void nextVector(Decimal64ColumnVector result,
       // Read all the scales
       scaleReader.nextVector(result, scratchScaleVector, batchSize);
       if (result.noNulls) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         int previousIdx = 0;
         for (int r = 0; r != filterContext.getSelectedSize(); r++) {
@@ -1700,8 +1725,12 @@ private void nextVector(Decimal64ColumnVector result,
           setIsRepeatingIfNeeded(result, idx);
           previousIdx = idx + 1;
         }
+        if (!preIsRepeating && result.isRepeating) {
+          result.isRepeating = preIsRepeating;
+        }
         skipStreamRows(batchSize - previousIdx);
       } else if (!result.isRepeating || !result.isNull[0]) {
+        boolean preIsRepeating = result.isRepeating;
         result.isRepeating = true;
         int previousIdx = 0;
         for (int r = 0; r != filterContext.getSelectedSize(); r++) {
@@ -1718,6 +1747,9 @@ private void nextVector(Decimal64ColumnVector result,
           setIsRepeatingIfNeeded(result, idx);
           previousIdx = idx + 1;
         }
+        if (!preIsRepeating && result.isRepeating) {
+          result.isRepeating = preIsRepeating;
+        }
         skipStreamRows(countNonNullRowsInRange(result.isNull, previousIdx, batchSize));
       }
       result.precision = (short) precision;

diff --git a/java/core/src/test/org/apache/orc/impl/TestConvertTreeReaderFactory.java b/java/core/src/test/org/apache/orc/impl/TestConvertTreeReaderFactory.java
@@ -724,7 +724,7 @@ private void readDecimalInNullStripe(String typeString, Class<?> expectedColumnT
     assertEquals(expected, options.toString());
     assertEquals(batch.cols.length, 1);
     assertEquals(batch.cols[0].getClass(), expectedColumnType);
-    assertTrue(batch.cols[0].isRepeating);
+    assertFalse(batch.cols[0].isRepeating);
     StringBuilder sb3 = new StringBuilder();
     batch.cols[0].stringifyValue(sb3, 1023);
     assertEquals(sb3.toString(), expectedResult[2]);

diff --git a/java/core/src/test/org/apache/orc/impl/TestRecordReaderImpl.java b/java/core/src/test/org/apache/orc/impl/TestRecordReaderImpl.java
@@ -28,6 +28,7 @@
 import org.apache.hadoop.hive.common.io.DiskRangeList;
 import org.apache.hadoop.hive.common.type.HiveDecimal;
 import org.apache.hadoop.hive.ql.exec.vector.BytesColumnVector;
+import org.apache.hadoop.hive.ql.exec.vector.DecimalColumnVector;
 import org.apache.hadoop.hive.ql.exec.vector.LongColumnVector;
 import org.apache.hadoop.hive.ql.exec.vector.StructColumnVector;
 import org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch;
@@ -2732,4 +2733,71 @@ public void testHadoopVectoredIO() throws Exception {
 
     verify(spyFSDataInputStream, atLeastOnce()).readVectored(any(), any());
   }
+
+  @Test
+  public  void testDecimalIsRepeatingFlag() throws IOException {
+    Configuration conf = new Configuration();
+    FileSystem fs = FileSystem.get(conf);
+    Path testFilePath = new Path(workDir, "testDecimalIsRepeatingFlag.orc");
+    fs.delete(testFilePath, true);
+
+    Configuration decimalConf = new Configuration(conf);
+    decimalConf.set(OrcConf.STRIPE_ROW_COUNT.getAttribute(), "1024");
+    decimalConf.set(OrcConf.ROWS_BETWEEN_CHECKS.getAttribute(), "1");
+    String typeStr = "decimal(20,10)";
+    TypeDescription schema = TypeDescription.fromString("struct<col1:" + typeStr + ">");
+    Writer w = OrcFile.createWriter(testFilePath, OrcFile.writerOptions(decimalConf).setSchema(schema));
+
+    VectorizedRowBatch b = schema.createRowBatch();
+    DecimalColumnVector f1 = (DecimalColumnVector) b.cols[0];
+    for (int i = 0; i < 1024; i++) {
+      f1.set(i, HiveDecimal.create("-119.4594594595"));
+    }
+    b.size = 1024;
+    w.addRowBatch(b);
+
+    b.reset();
+    for (int i = 0; i < 1024; i++) {
+      f1.set(i, HiveDecimal.create("9318.4351351351"));
+    }
+    b.size = 1024;
+    w.addRowBatch(b);
+
+    b.reset();
+    for (int i = 0; i < 1024; i++) {
+      f1.set(i, HiveDecimal.create("-4298.1513513514"));
+    }
+    b.size = 1024;
+    w.addRowBatch(b);
+
+    b.reset();
+    w.close();
+
+    Reader.Options options = new Reader.Options();
+    try (Reader reader = OrcFile.createReader(testFilePath, OrcFile.readerOptions(conf));
+         RecordReader rows = reader.rows(options)) {
+      VectorizedRowBatch batch = schema.createRowBatch();
+
+      rows.nextBatch(batch);
+      assertEquals(1024, batch.size);
+      assertFalse(batch.cols[0].isRepeating);
+      for (HiveDecimalWritable hiveDecimalWritable : ((DecimalColumnVector) batch.cols[0]).vector) {
+        assertEquals(HiveDecimal.create("-119.4594594595"), hiveDecimalWritable.getHiveDecimal());
+      }
+
+      rows.nextBatch(batch);
+      assertEquals(1024, batch.size);
+      assertFalse(batch.cols[0].isRepeating);
+      for (HiveDecimalWritable hiveDecimalWritable : ((DecimalColumnVector) batch.cols[0]).vector) {
+        assertEquals(HiveDecimal.create("9318.4351351351"), hiveDecimalWritable.getHiveDecimal());
+      }
+
+      rows.nextBatch(batch);
+      assertEquals(1024, batch.size);
+      assertFalse(batch.cols[0].isRepeating);
+      for (HiveDecimalWritable hiveDecimalWritable : ((DecimalColumnVector) batch.cols[0]).vector) {
+        assertEquals(HiveDecimal.create("-4298.1513513514"), hiveDecimalWritable.getHiveDecimal());
+      }
+    }
+  }
 }