NVIDIA · revans2 · Jan 8, 2021 · Nov 18, 2020 · Dec 2, 2020 · Dec 2, 2020
diff --git a/integration_tests/src/main/python/arithmetic_ops_test.py b/integration_tests/src/main/python/arithmetic_ops_test.py
@@ -183,6 +183,26 @@ def test_shift_right_unsigned(data_gen):
                 'shiftrightunsigned(a, cast(null as INT))',
                 'shiftrightunsigned(a, b)'))
 
+@approximate_float
+@pytest.mark.parametrize('data_gen', round_gens, ids=idfn)
+def test_decimal_bround(data_gen):
+    assert_gpu_and_cpu_are_equal_collect(
+            lambda spark: debug_df(unary_op_df(spark, data_gen).selectExpr(
+                'bround(a)',
+                #'bround(a, -2)',
+                'bround(a, 10)')),
+                conf=allow_negative_scale_of_decimal_conf)
+
+@approximate_float
+@pytest.mark.parametrize('data_gen', round_gens, ids=idfn)
+def test_decimal_round(data_gen):
+    assert_gpu_and_cpu_are_equal_collect(
+            lambda spark: debug_df(unary_op_df(spark, data_gen).selectExpr(
+                'round(a)',
+                #'round(a, -2)',
+                'round(a, 10)')),
+               conf=allow_negative_scale_of_decimal_conf)
+
 @approximate_float
 @pytest.mark.parametrize('data_gen', double_gens, ids=idfn)
 def test_cbrt(data_gen):

diff --git a/integration_tests/src/main/python/data_gen.py b/integration_tests/src/main/python/data_gen.py
@@ -753,6 +753,9 @@ def gen_scalars_for_sql(data_gen, count, seed=0, force_no_nulls=False):
 # Include decimal type while testing equalTo and notEqualTo
 eq_gens_with_decimal_gen =  eq_gens + decimal_gens
 
+#gen for testing round operator
+round_gens = numeric_gens + decimal_gens
+
 date_gens = [date_gen]
 date_n_time_gens = [date_gen, timestamp_gen]
 

diff --git a/sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuExpressions.scala b/sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuExpressions.scala
@@ -16,7 +16,7 @@
 
 package com.nvidia.spark.rapids
 
-import ai.rapids.cudf.{BinaryOp, BinaryOperable, ColumnVector, DType, Scalar, UnaryOp}
+import ai.rapids.cudf.{BinaryOp, BinaryOperable, ColumnVector, DType, RoundMode, Scalar, UnaryOp}
 import com.nvidia.spark.rapids.RapidsPluginImplicits._
 
 import org.apache.spark.sql.catalyst.expressions._
@@ -148,6 +148,10 @@ trait CudfUnaryExpression extends GpuUnaryExpression {
   override def doColumnar(input: GpuColumnVector): ColumnVector = input.getBase.unaryOp(unaryOp)
 }
 
+trait GpuRoundBase extends GpuBinaryExpression {
+  def roundMode: RoundMode
+}
+
 trait GpuBinaryExpression extends BinaryExpression with GpuExpression {
 
   def doColumnar(lhs: GpuColumnVector, rhs: GpuColumnVector): ColumnVector

diff --git a/sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuOverrides.scala b/sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuOverrides.scala
@@ -1586,6 +1586,22 @@ object GpuOverrides {
 
         override def convertToGpu(child: Expression): GpuExpression = GpuAverage(child)
       }),
+    expr[BRound](
+      "Round an expression to d decimal places using HALF_EVEN rounding mode",
+      (a, conf, p, r) => new BinaryExprMeta[BRound](a, conf, p, r) {
+        override def isSupportedType(t: DataType): Boolean =
+          GpuOverrides.isSupportedType(t, allowDecimal = conf.decimalTypeEnabled)
+        override def convertToGpu(lhs: Expression, rhs: Expression): GpuExpression =
+          GpuBRound(lhs, rhs)
+      }),
+    expr[Round](
+      "Round an expression to d decimal places using HALF_UP rounding mode",
+      (a, conf, p, r) => new BinaryExprMeta[Round](a, conf, p, r) {
+        override def isSupportedType(t: DataType): Boolean =
+          GpuOverrides.isSupportedType(t, allowDecimal = conf.decimalTypeEnabled)
+        override def convertToGpu(lhs: Expression, rhs: Expression): GpuExpression =
+          GpuRound(lhs, rhs)
+      }),
     expr[PythonUDF](
       "UDF run in an external python process. Does not actually run on the GPU, but " +
           "the transfer of data to/from it can be accelerated.",

diff --git a/sql-plugin/src/main/scala/org/apache/spark/sql/rapids/mathExpressions.scala b/sql-plugin/src/main/scala/org/apache/spark/sql/rapids/mathExpressions.scala
@@ -18,10 +18,11 @@ package org.apache.spark.sql.rapids
 
 import java.io.Serializable
 
-import ai.rapids.cudf.{BinaryOp, ColumnVector, DType, Scalar, UnaryOp}
-import com.nvidia.spark.rapids.{Arm, CudfBinaryExpression, CudfUnaryExpression, FloatUtils, GpuColumnVector, GpuUnaryExpression}
+import ai.rapids.cudf.{BinaryOp, ColumnVector, DType, RoundMode, Scalar, UnaryOp}
+import com.nvidia.spark.rapids.{Arm, CudfBinaryExpression, CudfUnaryExpression, FloatUtils, GpuBinaryExpression, GpuColumnVector, GpuExpression, GpuUnaryExpression}
+import com.nvidia.spark.rapids.RapidsPluginImplicits.ReallyAGpuExpression
 
-import org.apache.spark.sql.catalyst.expressions.{Expression, ImplicitCastInputTypes}
+import org.apache.spark.sql.catalyst.expressions.{EmptyRow, Expression, ImplicitCastInputTypes}
 import org.apache.spark.sql.types._
 
 abstract class CudfUnaryMathExpression(name: String) extends GpuUnaryMathExpression(name)
@@ -349,6 +350,70 @@ abstract class CudfBinaryMathExpression(name: String) extends CudfBinaryExpressi
   override def dataType: DataType = DoubleType
 }
 
+abstract class GpuRoundBase(child: Expression, scale: Expression) extends GpuBinaryExpression
+  with Serializable with ImplicitCastInputTypes {
+
+  override def left: Expression = child
+  override def right: Expression = scale
+
+  def roundMode: RoundMode
+
+  override lazy val dataType: DataType = child.dataType match {
+    // if the new scale is bigger which means we are scaling up,
+    // keep the original scale as `Decimal` does
+    case DecimalType.Fixed(p, s) => DecimalType(p, if (_scale > s) s else _scale)
+    case t => t
+  }
+
+  // Avoid repeated evaluation since `scale` is a constant int,
+  // avoid unnecessary `child` evaluation in both codegen and non-codegen eval
+  // by checking if scaleV == null as well.
+  private lazy val scaleV: Any = scale match {
+    case _: GpuExpression => scale.columnarEval(null)
+    case _ => scale.eval(EmptyRow)
+  }
+  private lazy val _scale: Int = scaleV.asInstanceOf[Int]
+
+  override def inputTypes: Seq[AbstractDataType] = Seq(NumericType, IntegerType)
+
+  override def doColumnar(val0: GpuColumnVector, val1: Scalar): ColumnVector = {
+    val scaleVal=val1.getInt
+    val scale = dataType match {
+      case DecimalType.Fixed(p, s) => s
+      case ByteType | ShortType | IntegerType | LongType | FloatType | DoubleType => val1.getInt
+      case _ => throw new IllegalArgumentException(s"Round operator doesn't support $dataType")
+    }
+    val lhs = val0.getBase
+    lhs.round(scale, roundMode)
+  }
+
+  override def doColumnar(lhs: GpuColumnVector, rhs: GpuColumnVector): ColumnVector = {
+    throw new IllegalArgumentException("lhs has to be a vector and rhs has to be a scalar for " +
+      "the round operator to work")
+  }
+
+  override def doColumnar(lhs: Scalar, rhs: GpuColumnVector): ColumnVector = {
+    throw new IllegalArgumentException("lhs has to be a vector and rhs has to be a scalar for " +
+      "the round operator to work")
+  }
+
+  override def doColumnar(numRows: Int, lhs: Scalar, rhs: Scalar): ColumnVector = {
+    withResource(GpuColumnVector.from(lhs, numRows, left.dataType)) { expandedLhs =>
+      doColumnar(expandedLhs, rhs)
+    }
+  }
+}
+
+case class GpuBRound(child: Expression, scale: Expression) extends
+  GpuRoundBase(child, scale) {
+  override def roundMode: RoundMode = RoundMode.HALF_EVEN
+}
+
+case class GpuRound(child: Expression, scale: Expression) extends
+  GpuRoundBase(child, scale) {
+  override def roundMode: RoundMode = RoundMode.HALF_UP
+}
+
 case class GpuPow(left: Expression, right: Expression)
     extends CudfBinaryMathExpression("POWER") {
   override def binaryOp: BinaryOp = BinaryOp.POW