[FEA] cudf.read_parquet support for column partitioned parquet datasets #6915

ayushdg · 2020-12-04T19:13:30Z

Is your feature request related to a problem? Please describe.
cudf.read_parquet supports reading a list of parquet files but does not support parquet datasets partitioned by columns.
cudf.to_parquet(partitions_cols=...) supports writing such parquet datasets.

Describe the solution you'd like
read_parquet call should work with partitioned parquet datasets. dask_cudf.read_parquet supports reading this and some of the logic might apply for cudf as well.

Describe alternatives you've considered
dask_cudf.read_parquet and pandas.read_parquet both support reading these datasets.

Additional context
N/A

The text was updated successfully, but these errors were encountered:

kkraus14 · 2020-12-07T16:59:07Z

Duplicate of #5059

ayushdg added feature request New feature or request Needs Triage Need team to review and classify labels Dec 4, 2020

ayushdg mentioned this issue Dec 4, 2020

[FEA] Support reading files from blob using adlfs #6348

Closed

kkraus14 marked this as a duplicate of #5059 Dec 7, 2020

kkraus14 closed this as completed Dec 7, 2020

bdice removed the Needs Triage Need team to review and classify label Mar 4, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[FEA] cudf.read_parquet support for column partitioned parquet datasets #6915

[FEA] cudf.read_parquet support for column partitioned parquet datasets #6915

ayushdg commented Dec 4, 2020

kkraus14 commented Dec 7, 2020

[FEA] cudf.read_parquet support for column partitioned parquet datasets #6915

[FEA] cudf.read_parquet support for column partitioned parquet datasets #6915

Comments

ayushdg commented Dec 4, 2020

kkraus14 commented Dec 7, 2020