pandas-dev · aram-cinnamon · Aug 4, 2024 · Aug 10, 2024 · Aug 10, 2024 · Aug 10, 2024
diff --git a/doc/source/whatsnew/v3.0.0.rst b/doc/source/whatsnew/v3.0.0.rst
@@ -121,6 +121,7 @@ These improvements also fixed certain bugs in groupby:
 - :meth:`.DataFrameGroupBy.agg` would fail when there are multiple groupings, unobserved groups, and ``as_index=False`` (:issue:`36698`)
 - :meth:`.DataFrameGroupBy.groups` with ``sort=False`` would sort groups; they now occur in the order they are observed (:issue:`56966`)
 - :meth:`.DataFrameGroupBy.nunique` would fail when there are multiple groupings, unobserved groups, and ``as_index=False`` (:issue:`52848`)
+- :meth:`.DataFrameGroupBy.resample` with an ``on`` value that is not ``None`` would have incorrect values when the index is out of order (:issue:`59350`)
 - :meth:`.DataFrameGroupBy.sum` would have incorrect values when there are multiple groupings, unobserved groups, and non-numeric data (:issue:`43891`)
 - :meth:`.DataFrameGroupBy.value_counts` would produce incorrect results when used with some categorical and some non-categorical groupings and ``observed=False`` (:issue:`56016`)
 

@@ -34,6 +34,7 @@
 from pandas.core.indexes.api import (
     Index,
     MultiIndex,
+    RangeIndex,
     default_index,
 )
 from pandas.core.series import Series
@@ -348,8 +349,11 @@ def _set_grouper(
                     reverse_indexer = self._indexer.argsort()
                     unsorted_ax = self._grouper.take(reverse_indexer)
                     ax = unsorted_ax.take(obj.index)
-                else:
+                elif isinstance(obj.index, RangeIndex):
                     ax = self._grouper.take(obj.index)
+                else:
+                    # GH 59350
+                    ax = self._grouper
             else:
                 if key not in obj._info_axis:
                     raise KeyError(f"The grouper name {key} is not found")

diff --git a/pandas/tests/resample/test_resampler_grouper.py b/pandas/tests/resample/test_resampler_grouper.py
@@ -689,3 +689,246 @@ def test_groupby_resample_on_index_with_list_of_keys_missing_column():
     rs = gb.resample("2D")
     with pytest.raises(KeyError, match="Columns not found"):
         rs[["val_not_in_dataframe"]]
+
+
+def test_groupby_resample_after_set_index_and_not_on_column():
+    # GH 59350
+    df = DataFrame(
+        data={
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:00Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+            "group": ["A", "A"],
+            "numbers": [100, 200],
+        },
+        index=[1, 0],
+    ).set_index("datetime")
+    gb = df.groupby("group")
+    rs = gb.resample("1min")
+    result = rs.aggregate({"numbers": "sum"})
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    expected = DataFrame({"numbers": [100, 200]}, index=index)
+
+    tm.assert_frame_equal(result, expected)
+
+
+@pytest.mark.parametrize(
+    "df",
+    [
+        DataFrame(
+            data={
+                "datetime": [
+                    pd.to_datetime("2024-07-30T00:00Z"),
+                    pd.to_datetime("2024-07-30T00:01Z"),
+                ],
+                "group": ["A", "A"],
+                "numbers": [100, 200],
+            },
+            index=[1, 0],
+        ),
+        DataFrame(
+            data={
+                "datetime": [
+                    pd.to_datetime("2024-07-30T00:00Z"),
+                    pd.to_datetime("2024-07-30T00:01Z"),
+                ],
+                "group": ["A", "A"],
+                "numbers": [100, 200],
+            },
+        ).set_index("group"),
+        DataFrame(
+            data={
+                "datetime": [
+                    pd.to_datetime("2024-07-30T00:00Z"),
+                    pd.to_datetime("2024-07-30T00:01Z"),
+                ],
+                "group": ["A", "A"],
+                "numbers": [100, 200],
+            },
+        ).set_index("datetime", drop=False),
+    ],
+)
+def test_groupby_resample_on_column_when_index_is_unusual(df):
+    # GH 59350
+    gb = df.groupby("group")
+    rs = gb.resample("1min", on="datetime")
+    result = rs.aggregate({"numbers": "sum"})
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    expected = DataFrame({"numbers": [100, 200]}, index=index)
+
+    tm.assert_frame_equal(result, expected)
+
+
+def test_groupby_resample_then_groupby_is_reused_when_index_is_out_of_order():
+    # GH 59350
+    df = DataFrame(
+        data={
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:00Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+            "group": ["A", "A"],
+            "numbers": [100, 200],
+        },
+        index=[1, 0],
+    )
+
+    gb = df.groupby("group")
+
+    # use gb
+    result_1 = gb[["numbers"]].transform("sum")
+
+    index = Index([1, 0])
+    expected = DataFrame({"numbers": [300, 300]}, index=index)
+
+    tm.assert_frame_equal(result_1, expected)
+
+    # resample gb, unrelated to above
+    rs = gb.resample("1min", on="datetime")
+    result_2 = rs.aggregate({"numbers": "sum"})
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    expected = DataFrame({"numbers": [100, 200]}, index=index)
+
+    tm.assert_frame_equal(result_2, expected)
+
+    # reuse gb, unrelated to above
+    result_3 = gb[["numbers"]].transform("sum")
+
+    tm.assert_frame_equal(result_1, result_3)
+
+
+def test_groupby_resample_then_groupby_is_reused_when_index_is_set_from_column():
+    # GH 59350
+    df = DataFrame(
+        data={
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:00Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+            "group": ["A", "A"],
+            "numbers": [100, 200],
+        },
+    ).set_index("group")
+
+    gb = df.groupby("group")
+
+    # use gb
+    result_1 = gb[["numbers"]].transform("sum")
+
+    index = Index(["A", "A"], name="group")
+    expected = DataFrame({"numbers": [300, 300]}, index=index)
+
+    tm.assert_frame_equal(result_1, expected)
+
+    # resample gb, unrelated to above
+    rs = gb.resample("1min", on="datetime")
+    result_2 = rs.aggregate({"numbers": "sum"})
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    expected = DataFrame({"numbers": [100, 200]}, index=index)
+
+    tm.assert_frame_equal(result_2, expected)
+
+    # reuse gb, unrelated to above
+    result_3 = gb[["numbers"]].transform("sum")
+
+    tm.assert_frame_equal(result_1, result_3)
+
+
+def test_groupby_resample_then_groupby_is_reused_when_groupby_selection_is_not_none():
+    # GH 59350
+    df = DataFrame(
+        data={
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:00Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+            "group": ["A", "A"],
+            "numbers": [100, 200],
+        },
+        index=[1, 0],
+    )
+
+    gb = df.groupby("group")
+    gb = gb[["numbers", "datetime"]]  # gb._selection is ["numbers", "datetime"]
+
+    # use gb
+    result_1 = gb.transform("max")
+
+    index = Index([1, 0])
+    expected = DataFrame(
+        {
+            "numbers": [200, 200],
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:01Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+        },
+        index=index,
+    )
+
+    tm.assert_frame_equal(result_1, expected)
+
+    # resample gb, unrelated to above
+    rs = gb.resample("1min", on="datetime")
+    result_2 = rs.aggregate({"numbers": "sum"})  # Enter the `except IndexError:` block
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    columns = pd.MultiIndex.from_arrays([["numbers"], ["numbers"]])
+    expected = DataFrame([[100], [200]], index=index, columns=columns)
+
+    tm.assert_frame_equal(result_2, expected)
+
+    # reuse gb, unrelated to above
+    result_3 = gb.transform("max")
+
+    tm.assert_frame_equal(result_1, result_3)