PARQUET-2415: Reuse hadoop file status and footer in ParquetRecordReader #1242

wankunde · 2023-12-21T01:39:15Z

Make sure you have checked all steps below.

Jira

My PR addresses the following Parquet Jira issues and references
them in the PR title. For example, "PARQUET-2415: Reuse hadoop file status and footer in ParquetRecordReader"
- https://issues.apache.org/jira/browse/PARQUET-2415

Tests

My PR adds the following unit tests OR does not need testing for this extremely good reason:

Commits

My commits all reference Jira issues in their subject lines. In addition, my commits follow the guidelines
from "How to write a good git commit message":
1. Subject is separated from body by a blank line
2. Subject is limited to 50 characters (not including Jira issue reference)
3. Subject does not end with a period
4. Subject uses the imperative mood ("add", not "adding")
5. Body wraps at 72 characters
6. Body explains "what" and "why", not "how"

Style

My contribution adheres to the code style guidelines and Spotless passes.
- To apply the necessary changes, run mvn spotless:apply -Pvector-plugins

Documentation

In case of new functionality, my PR adds documentation that describes how to use it.
- Call ParquetInputSplit.setFooter(footer) before creating a ParquetRecordReader from this split, then the reader will reuse the Hadoop file status and skip the getfileinfo Hadoop RPC and skip reading the footer again.

wankunde · 2023-12-22T06:11:03Z

I can not reproduce the failed UT:

2023-12-22T04:25:27.6546055Z [INFO] Running org.apache.parquet.cli.commands.ShowFooterCommandTest
2023-12-22T04:25:27.8426114Z [ERROR] Tests run: 1, Failures: 0, Errors: 1, Skipped: 0, Time elapsed: 0.179 s <<< FAILURE! - in org.apache.parquet.cli.commands.ShowFooterCommandTest
2023-12-22T04:25:27.8428914Z [ERROR] testShowDirectoryCommand(org.apache.parquet.cli.commands.ShowFooterCommandTest)  Time elapsed: 0.179 s  <<< ERROR!
2023-12-22T04:25:27.8699007Z com.fasterxml.jackson.databind.JsonMappingException: Document nesting depth (1001) exceeds the maximum allowed (1000, from `StreamWriteConstraints.getMaxNestingDepth()`) (through reference chain: org.apache.parquet.hadoop.util.HadoopInputFile["fs"]->org.apache.hadoop.fs.LocalFileSystem["key"]->org.apache.hadoop.fs.FileSystem$Cache$Key["ugi"]->org.apache.hadoop.security.UserGroupInformation["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"]->javax.security.auth.Subject["principals"]->java.util.Collections$SynchronizedSet[5]->org.apache.hadoop.security.User["login"]->javax.security.auth.login.LoginContext["subject"])
2023-12-22T04:25:27.8914504Z Caused by: com.fasterxml.jackson.core.exc.StreamConstraintsException: Document nesting depth (1001) exceeds the maximum allowed (1000, from `StreamWriteConstraints.getMaxNestingDepth()`)
2023-12-22T04:25:27.8916205Z

If any one could help check this issue ?

wgtmac · 2023-12-24T12:28:10Z

Have you tried to run mvn install before running the cli test? It may run the test with dependency from maven central without your patch.

wankunde · 2023-12-25T13:48:00Z

Hi, @wgtmac I have fixed this issue in cli module. Thanks

wgtmac · 2023-12-25T15:33:26Z

parquet-hadoop/src/main/java/org/apache/parquet/hadoop/metadata/ParquetMetadata.java

@@ -84,6 +86,9 @@ public static ParquetMetadata fromJSON(String json) {
  private final FileMetaData fileMetaData;
  private final List<BlockMetaData> blocks;

+  @JsonIgnore


Why is this annotation required?

The jackson mapper will not serialize this field to json with this annotation and keep the the same behavior as before.

wgtmac · 2023-12-25T15:34:33Z

parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetRecordReader.java

+    HadoopInputFile inputFile;
+    if (split.getFooter() != null
+        && split.getFooter().getInputFile() != null
+        && split.getFooter().getInputFile() instanceof HadoopInputFile) {


cc @amousavigourabi to see if there is any chance to apply this to the non-hadoop code path

Hi @wgtmac, given that the inputFile variable seems to only be used in a constructor expecting an InputFile and not necessarily a HadoopInputFile, I think this instanceof condition could be dropped. As I just quickly skimmed it now and might have missed something, I'll take a more thorough look after Boxing Day. Happy holidays!🎄🎆

Thanks @wgtmac @amousavigourabi for your review.
I have changed the HadoopInputFile to InputFile

Looking good! Going back to @wgtmac's earlier concern, the method this snippet is part of is already in the Hadoop code path and I'm not sure whether there is a more generic alternative available. For the rest, the switch to using the plain InputFile interface here is of course amazing for flexibility in the future and makes the code a bit cleaner. Thanks a lot for the swift fix @wankunde!

wankunde · 2024-01-03T01:27:04Z

Hi, @wgtmac @amousavigourabi is there any concern about this PR ?

wgtmac

+1 on my side.

I think this should be a very common requirement and not sure if the community has discussed this before. cc @gszadovszky @shangxinli @Fokko @ConeyLiu

amousavigourabi · 2024-01-14T11:32:45Z

Hi @wankunde , sorry for the delayed response. I don't see any blockers on my side and love the patch, so its a +1 from me.

shangxinli · 2024-01-15T02:58:47Z

parquet-hadoop/pom.xml

@@ -95,6 +95,11 @@
      <artifactId>jackson-databind</artifactId>
      <version>${jackson-databind.version}</version>
    </dependency>
+    <dependency>
+      <groupId>${jackson.groupId}</groupId>


Can we avoid adding dependency?

The jackson-annotations dependency is used in parquet-hadoop/src/main/java/org/apache/parquet/hadoop/metadata/ParquetMetadata.java . Do not serialize InputFile inputFile to json and keep the the same behavior as before. I'm sorry I'm not familiar with jackson library and not sure is there any other way to do this.

I happened to find that we have a parquet-jackson module which shades jackson-core and jackson-databind. But in the parquet-hadoop (and other modules) it also explicitly depends on parquet-jackson and jackson-xxx at the same time. I'm not familiar with this history, do you know why? @gszadovszky @Fokko @shangxinli

@wgtmac, the README of parquet-jackson describes how it works. This is only for doing the shading once (and having one shaded jar) instead of in all the modules which requires jackson.

Thanks! Sorry for missing that.

ConeyLiu · 2024-01-15T07:13:58Z

parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetInputSplit.java

+    return footer;
+  }
+
+  public void setFooter(ParquetMetadata footer) {


The ParquetInputSplit is marked as deprecated. And the recommended usage is FileSplit. How does Spark set the footer after the ParquetInputSplit is removed?

Now parquet will convert the input split to ParquetInputSplit and build the reader with it. I think if ParquetInputSplit was removed from ParquetFileReader class, spark need a shim class to work with different parquet version.

That will be a big change.

I think this PR can be a good reason to push the spark community to migrate. Or we can fix this in only spark 4.x?

Already filed a WIP ticket apache/spark#44853 for spark 4 and will discuss about this change in spark side in that PR after this PR is merged.

IIUC, other comments have suggested that we should not work on a deprecated interface. Therefore I don't expect this PR will be merged as is. It would be good to figure out the final solution on the spark side before any action here.

parquet-hadoop/src/main/java/org/apache/parquet/hadoop/metadata/ParquetMetadata.java

ConeyLiu · 2024-01-15T07:25:16Z

parquet-cli/src/main/java/org/apache/parquet/cli/commands/ShowFooterCommand.java

@@ -64,13 +65,19 @@ public int run() throws IOException {
    return 0;
  }

+  abstract class MixIn {
+    @JsonIgnore
+    abstract int getInputFile();


Is there any better way to do this? What about annotating the getInputFile at https://github.com/apache/parquet-mr/pull/1242/files#diff-69ea2eba95ed65129e4a4a9e5807807a3c138ea39f2eddf5d6f6b8f2a3b51c73R115?

#1242 (comment)

I'm sorry, the UT failed, I don't know why.

You mean this is a workaround to get rid of the test failure at the cost of a new dependency?

I mean the UT will fail if just annotating the getInputFile method, create a MixIn class here (parquet-cli module) to workaround.

Parquet project already has a dependency of jackson-annotations library in some other modules. So I don't think this PR will add a new dependency in parquet-hadoop module.

ConeyLiu · 2024-01-15T07:26:37Z

Thanks @wankunde for the contribution. And thanks @wgtmac for ping me.

gszadovszky · 2024-01-15T08:16:23Z

+1 for the concept. We need to address that ParquetInputSplit is deprecated. Not sure how, though.

steveloughran · 2024-03-25T17:03:14Z

parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetRecordReader.java

+    if (split.getFooter() != null && split.getFooter().getInputFile() != null) {
+      inputFile = split.getFooter().getInputFile();
+    } else {
+      inputFile = HadoopInputFile.fromPath(path, configuration);


if the filestatus (or at least file length) can get down here then it becomes possible to skip a HEAD request when opening a file against cloud storage. the api you need is in 3.3.0, and not very reflection friendly. we could add something to assist there.

what is key is: get as much info as possible into HadoopInputFile, especially expected length

wankunde added 3 commits December 21, 2023 09:33

PARQUET-2415: Reuse hadoop file status and footer in ParquetRecordReader

c03b466

Fix code style

66c4cd4

Bug fix

99b43b8

wankunde force-pushed the footer_and_rpc branch from 6ee8649 to 10d74ed Compare December 21, 2023 08:44

Fix UT

0321a2d

wankunde force-pushed the footer_and_rpc branch from 10d74ed to 0321a2d Compare December 21, 2023 08:46

wankunde added 2 commits December 22, 2023 09:37

Fix UT

7817f4a

Fix UT

92befc2

Ignore InputFile field in ShowFooterCommand

8bca57b

wankunde force-pushed the footer_and_rpc branch from 0a9c353 to 8bca57b Compare December 25, 2023 09:51

wgtmac reviewed Dec 25, 2023

View reviewed changes

Create ParquetFileReader with InputFile instead of HadoopInputFile

4bcf880

wgtmac approved these changes Jan 13, 2024

View reviewed changes

amousavigourabi approved these changes Jan 14, 2024

View reviewed changes

shangxinli reviewed Jan 15, 2024

View reviewed changes

ConeyLiu reviewed Jan 15, 2024

View reviewed changes

parquet-hadoop/src/main/java/org/apache/parquet/hadoop/metadata/ParquetMetadata.java Show resolved Hide resolved

ConeyLiu reviewed Jan 15, 2024

View reviewed changes

Add some comments

d86d9c0

wankunde mentioned this pull request Jan 23, 2024

[WIP][SQL] Avoid parquet footer reads twice apache/spark#44853

Closed

steveloughran reviewed Mar 25, 2024

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PARQUET-2415: Reuse hadoop file status and footer in ParquetRecordReader #1242

PARQUET-2415: Reuse hadoop file status and footer in ParquetRecordReader #1242

wankunde commented Dec 21, 2023 •

edited

Loading

wankunde commented Dec 22, 2023

wgtmac commented Dec 24, 2023

wankunde commented Dec 25, 2023

wgtmac Dec 25, 2023

wankunde Dec 26, 2023

wgtmac Dec 25, 2023

amousavigourabi Dec 25, 2023

wankunde Dec 26, 2023 •

edited

Loading

amousavigourabi Dec 27, 2023

wankunde commented Jan 3, 2024

wgtmac left a comment

amousavigourabi commented Jan 14, 2024

shangxinli Jan 15, 2024

wankunde Jan 23, 2024

wgtmac Jan 28, 2024

gszadovszky Jan 29, 2024

wgtmac Jan 29, 2024

ConeyLiu Jan 15, 2024 •

edited

Loading

wankunde Jan 23, 2024

wgtmac Jan 28, 2024

wankunde Feb 1, 2024

wgtmac Feb 2, 2024

ConeyLiu Jan 15, 2024

wankunde Jan 23, 2024

wgtmac Jan 28, 2024

wankunde Feb 1, 2024

ConeyLiu commented Jan 15, 2024

gszadovszky commented Jan 15, 2024

steveloughran Mar 25, 2024

PARQUET-2415: Reuse hadoop file status and footer in ParquetRecordReader #1242

Are you sure you want to change the base?

PARQUET-2415: Reuse hadoop file status and footer in ParquetRecordReader #1242

Conversation

wankunde commented Dec 21, 2023 • edited Loading

Jira

Tests

Commits

Style

Documentation

wankunde commented Dec 22, 2023

wgtmac commented Dec 24, 2023

wankunde commented Dec 25, 2023

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

wankunde Dec 26, 2023 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

wankunde commented Jan 3, 2024

wgtmac left a comment

Choose a reason for hiding this comment

amousavigourabi commented Jan 14, 2024

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ConeyLiu Jan 15, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ConeyLiu commented Jan 15, 2024

gszadovszky commented Jan 15, 2024

Choose a reason for hiding this comment

wankunde commented Dec 21, 2023 •

edited

Loading

wankunde Dec 26, 2023 •

edited

Loading

ConeyLiu Jan 15, 2024 •

edited

Loading