rapidsai · rapids-bot · Jan 14, 2022 · Nov 29, 2021 · Nov 29, 2021 · Dec 9, 2021
@@ -235,17 +235,27 @@ def sort_values(
         set_divisions=False,
         ascending=True,
         na_position="last",
+        sort_function=None,
+        sort_function_kwargs=None,
         **kwargs,
     ):
         if kwargs:
             raise ValueError(
                 f"Unsupported input arguments passed : {list(kwargs.keys())}"
             )
 
+        sort_kwargs = {
+            "by": by,
+            "ascending": ascending,
+            "na_position": na_position,
+        }
+        if sort_function is None:
+            sort_function = M.sort_values
+        if sort_function_kwargs is not None:
+            sort_kwargs.update(sort_function_kwargs)
+
         if self.npartitions == 1:
-            df = self.map_partitions(
-                M.sort_values, by, ascending=ascending, na_position=na_position
-            )
+            df = self.map_partitions(sort_function, **sort_kwargs)
         else:
             df = sorting.sort_values(
                 self,
@@ -256,6 +266,8 @@ def sort_values(
                 ignore_index=ignore_index,
                 ascending=ascending,
                 na_position=na_position,
+                sort_function=sort_function,
+                sort_function_kwargs=sort_kwargs,
             )
 
         if ignore_index:

@@ -10,7 +10,6 @@
 from dask.dataframe.core import DataFrame, Index, Series
 from dask.dataframe.shuffle import rearrange_by_column
 from dask.highlevelgraph import HighLevelGraph
-from dask.utils import M
 
 import cudf as gd
 from cudf.api.types import is_categorical_dtype
@@ -222,6 +221,8 @@ def sort_values(
     ignore_index=False,
     ascending=True,
     na_position="last",
+    sort_function=None,
+    sort_function_kwargs=None,
 ):
     """Sort by the given list/tuple of column names."""
     if na_position not in ("first", "last"):
@@ -263,9 +264,7 @@ def sort_values(
     df3.divisions = (None,) * (df3.npartitions + 1)
 
     # Step 3 - Return final sorted df
-    df4 = df3.map_partitions(
-        M.sort_values, by, ascending=ascending, na_position=na_position
-    )
+    df4 = df3.map_partitions(sort_function, **sort_function_kwargs)
     if not isinstance(divisions, gd.DataFrame) and set_divisions:
         # Can't have multi-column divisions elsewhere in dask (yet)
         df4.divisions = methods.tolist(divisions)

@@ -83,3 +83,22 @@ def test_sort_values_with_nulls(data, by, ascending, na_position):
 
     # cudf ordering for nulls is non-deterministic
     dd.assert_eq(got[by], expect[by], check_index=False)
+
+
+@pytest.mark.parametrize("by", [["a", "b"], ["b", "a"]])
+@pytest.mark.parametrize("nparts", [1, 10])
+def test_sort_values_custom_function(by, nparts):
+    df = cudf.DataFrame({"a": [1, 2, 3] * 20, "b": [4, 5, 6, 7] * 15})
+    ddf = dd.from_pandas(df, npartitions=nparts)
+
+    def f(partition, by_columns, ascending, na_position, **kwargs):
+        return partition.sort_values(
+            by_columns, ascending=ascending, na_position=na_position
+        )
+
+    with dask.config.set(scheduler="single-threaded"):
+        got = ddf.sort_values(
+            by=by[0], sort_function=f, sort_function_kwargs={"by_columns": by}
+        )
+    expect = df.sort_values(by=by)
+    dd.assert_eq(got, expect, check_index=False)