rapidsai · rapids-bot · Feb 15, 2021 · Feb 9, 2021 · Feb 9, 2021 · Feb 10, 2021
@@ -1211,8 +1211,9 @@ __global__ void __launch_bounds__(block_size)
         uint32_t skippedrows = min(static_cast<uint32_t>(first_row - row_in), nrows);
         uint32_t skip_count  = 0;
         for (uint32_t i = t * 32; i < skippedrows; i += 32 * 32) {
-          uint32_t bits = s->vals.u32[i >> 5];
-          if (i + 32 > skippedrows) { bits &= (1 << (skippedrows - i)) - 1; }
+          uint32_t bits = (i + 32 <= skippedrows)
+                            ? s->vals.u32[i >> 5]
+                            : (rle8_read_bool32(s->vals.u32, i) & ((1 << (skippedrows - i)) - 1));
           skip_count += __popc(bits);
         }
         skip_count = warp_reduce(temp_storage[t / 32]).Sum(skip_count);

@@ -8,6 +8,7 @@
 import pandas as pd
 import pyarrow as pa
 import pyarrow.orc
+import pyorc
 import pytest
 
 import cudf
@@ -318,6 +319,31 @@ def test_orc_read_rows(datadir, skiprows, num_rows):
     np.testing.assert_allclose(pdf, gdf)
 
 
+def test_orc_read_skiprows(tmpdir):
+    fname = tmpdir.join("TestOrcFile.skiprows.orc")
+    df = pd.DataFrame(
+        {"a": [1, 0, 1, 0, None, 1, 1, 1, 0, None, 0, 0, 1, 1, 1, 1]},
+        dtype=pd.BooleanDtype(),
+    )
+    output = open(fname, "wb")
+    writer = pyorc.Writer(output, pyorc.Struct(a=pyorc.Boolean()))
+    tuples = list(
+        map(
+            lambda x: (None,) if x[0] is pd.NA else x,
+            list(df.itertuples(index=False, name=None)),
+        )
+    )
+    writer.writerows(tuples)
+    writer.close()
+
+    skiprows = 10
+
+    expected = cudf.read_orc(fname)[skiprows::].reset_index(drop=True)
+    got = cudf.read_orc(fname, skiprows=skiprows)
+
+    assert_eq(expected, got)
+
+
 def test_orc_reader_uncompressed_block(datadir):
     path = datadir / "uncompressed_snappy.orc"
     try: