rapidsai · rapids-bot · Sep 12, 2022 · Aug 17, 2022 · Aug 17, 2022 · Aug 17, 2022
@@ -164,7 +164,11 @@ rmm::device_buffer decompress_data(datasource& source,
   if (meta.codec == "deflate") {
     auto inflate_in = hostdevice_vector<device_span<uint8_t const>>(meta.block_list.size(), stream);
     auto inflate_out   = hostdevice_vector<device_span<uint8_t>>(meta.block_list.size(), stream);
-    auto inflate_stats = hostdevice_vector<decompress_status>(meta.block_list.size(), stream);
+    auto inflate_stats = hostdevice_vector<compression_result>(meta.block_list.size(), stream);
+    thrust::fill(rmm::exec_policy(stream),
+                 inflate_stats.d_begin(),
+                 inflate_stats.d_end(),
+                 compression_result{0, compression_status::FAILURE});
 
     // Guess an initial maximum uncompressed block size. We estimate the compression factor is two
     // and round up to the next multiple of 4096 bytes.
@@ -190,8 +194,6 @@ rmm::device_buffer decompress_data(datasource& source,
 
     for (int loop_cnt = 0; loop_cnt < 2; loop_cnt++) {
       inflate_out.host_to_device(stream);
-      CUDF_CUDA_TRY(cudaMemsetAsync(
-        inflate_stats.device_ptr(), 0, inflate_stats.memory_size(), stream.value()));
       gpuinflate(inflate_in, inflate_out, inflate_stats, gzip_header_included::NO, stream);
       inflate_stats.device_to_host(stream, true);
 
@@ -204,9 +206,9 @@ rmm::device_buffer decompress_data(datasource& source,
                        inflate_stats.begin(),
                        std::back_inserter(actual_uncomp_sizes),
                        [](auto const& inf_out, auto const& inf_stats) {
-                         // If error status is 1 (buffer too small), the `bytes_written` field
+                         // If error status is OUTPUT_OVERFLOW, the `bytes_written` field
                          // actually contains the uncompressed data size
-                         return inf_stats.status == 1
+                         return inf_stats.status == compression_status::OUTPUT_OVERFLOW
                                   ? std::max(inf_out.size(), inf_stats.bytes_written)
                                   : inf_out.size();
                        });

@@ -1914,7 +1914,7 @@ static __device__ void ProcessCommands(debrotli_state_s* s, const brotli_diction
 __global__ void __launch_bounds__(block_size, 2)
   gpu_debrotli_kernel(device_span<device_span<uint8_t const> const> inputs,
                       device_span<device_span<uint8_t> const> outputs,
-                      device_span<decompress_status> statuses,
+                      device_span<compression_result> statuses,
                       uint8_t* scratch,
                       uint32_t scratch_size)
 {
@@ -2017,7 +2017,8 @@ __global__ void __launch_bounds__(block_size, 2)
   // Output decompression status
   if (!t) {
     statuses[block_id].bytes_written = s->out - s->outbase;
-    statuses[block_id].status        = s->error;
+    statuses[block_id].status =
+      (s->error == 0) ? compression_status::SUCCESS : compression_status::FAILURE;
     // Return ext heap used by last block (statistics)
     statuses[block_id].reserved = s->fb_size;
   }
@@ -2079,7 +2080,7 @@ size_t __host__ get_gpu_debrotli_scratch_size(int max_num_inputs)
 
 void gpu_debrotli(device_span<device_span<uint8_t const> const> inputs,
                   device_span<device_span<uint8_t> const> outputs,
-                  device_span<decompress_status> statuses,
+                  device_span<compression_result> statuses,
                   void* scratch,
                   size_t scratch_size,
                   rmm::cuda_stream_view stream)

@@ -1027,7 +1027,7 @@ template <int block_size>
 __global__ void __launch_bounds__(block_size)
   inflate_kernel(device_span<device_span<uint8_t const> const> inputs,
                  device_span<device_span<uint8_t> const> outputs,
-                 device_span<decompress_status> statuses,
+                 device_span<compression_result> statuses,
                  gzip_header_included parse_hdr)
 {
   __shared__ __align__(16) inflate_state_s state_g;
@@ -1134,8 +1134,14 @@ __global__ void __launch_bounds__(block_size)
       state->err = 1;
     }
     statuses[z].bytes_written = state->out - state->outbase;
-    statuses[z].status        = state->err;
-    statuses[z].reserved      = (int)(state->end - state->cur);  // Here mainly for debug purposes
+    statuses[z].status        = [&]() {
+      switch (state->err) {
+        case 0: return compression_status::SUCCESS;
+        case 1: return compression_status::OUTPUT_OVERFLOW;
+        default: return compression_status::FAILURE;
+      }
+    }();
+    statuses[z].reserved = (int)(state->end - state->cur);  // Here mainly for debug purposes
   }
 }
 
@@ -1200,7 +1206,7 @@ __global__ void __launch_bounds__(1024)
 
 void gpuinflate(device_span<device_span<uint8_t const> const> inputs,
                 device_span<device_span<uint8_t> const> outputs,
-                device_span<decompress_status> statuses,
+                device_span<compression_result> statuses,
                 gzip_header_included parse_hdr,
                 rmm::cuda_stream_view stream)
 {

@@ -26,11 +26,21 @@ namespace cudf {
 namespace io {
 
 /**
- * @brief Output parameters for the decompression interface
+ * @brief Status of a compression/decompression operation.
  */
-struct decompress_status {
+enum class compression_status : uint8_t {
+  SUCCESS,          ///< Successful, output is valid
+  FAILURE,          ///< Failed, output is invalid (e.g. input is unsupported in some way)
+  SKIPPED,          ///< Operation skipped (if conversion, uncompressed data can be used)
+  OUTPUT_OVERFLOW,  ///< Output buffer is too small; operation can succeed with larger output
+};
+
+/**
+ * @brief Descriptor of compression/decompression result.
+ */
+struct compression_result {
   uint64_t bytes_written;
-  uint32_t status;
+  compression_status status;
   uint32_t reserved;
 };
 
@@ -50,7 +60,7 @@ enum class gzip_header_included { NO, YES };
  */
 void gpuinflate(device_span<device_span<uint8_t const> const> inputs,
                 device_span<device_span<uint8_t> const> outputs,
-                device_span<decompress_status> statuses,
+                device_span<compression_result> statuses,
                 gzip_header_included parse_hdr,
                 rmm::cuda_stream_view stream);
 
@@ -78,7 +88,7 @@ void gpu_copy_uncompressed_blocks(device_span<device_span<uint8_t const> const>
  */
 void gpu_unsnap(device_span<device_span<uint8_t const> const> inputs,
                 device_span<device_span<uint8_t> const> outputs,
-                device_span<decompress_status> statuses,
+                device_span<compression_result> statuses,
                 rmm::cuda_stream_view stream);
 
 /**
@@ -105,7 +115,7 @@ size_t get_gpu_debrotli_scratch_size(int max_num_inputs = 0);
  */
 void gpu_debrotli(device_span<device_span<uint8_t const> const> inputs,
                   device_span<device_span<uint8_t> const> outputs,
-                  device_span<decompress_status> statuses,
+                  device_span<compression_result> statuses,
                   void* scratch,
                   size_t scratch_size,
                   rmm::cuda_stream_view stream);
@@ -123,7 +133,7 @@ void gpu_debrotli(device_span<device_span<uint8_t const> const> inputs,
  */
 void gpu_snap(device_span<device_span<uint8_t const> const> inputs,
               device_span<device_span<uint8_t> const> outputs,
-              device_span<decompress_status> statuses,
+              device_span<compression_result> statuses,
               rmm::cuda_stream_view stream);
 
 }  // namespace io