nvidia-riva · atomer-nvidia · Nov 8, 2024 · Aug 12, 2024 · Aug 22, 2024 · Aug 28, 2024
diff --git a/WORKSPACE b/WORKSPACE
@@ -70,7 +70,7 @@ grpc_extra_deps()
 git_repository(
      name = "nvriva_common",
      remote = "https://github.com/nvidia-riva/common.git",
-     commit = "1c7da5aed4e4df3a296d2672379c5099a193aaae"
+     commit = "9b31412dc43a15740f5f55a97cbd8c3eb5b43d86"
 )
 
 http_archive(

diff --git a/riva/clients/asr/client_call.cc b/riva/clients/asr/client_call.cc
@@ -13,45 +13,63 @@ ClientCall::ClientCall(uint32_t corr_id, bool word_time_offsets)
   recv_final_flags.reserve(1000);
 }
 
+ClientCall::~ClientCall(){
+  if (pipeline_states_logs_)
+    pipeline_states_logs_.close();
+}
+
 void
 ClientCall::AppendResult(const nr_asr::StreamingRecognitionResult& result)
 {
-  bool is_final = result.is_final();
-  if (latest_result_.final_transcripts.size() < 1) {
-    latest_result_.final_transcripts.resize(1);
-    latest_result_.final_transcripts[0] = "";
-  }
-
-  if (is_final) {
-    int num_alternatives = result.alternatives_size();
-    latest_result_.final_transcripts.resize(num_alternatives);
-    latest_result_.final_scores.resize(num_alternatives);
-    latest_result_.final_time_stamps.resize(num_alternatives);
-    for (int a = 0; a < num_alternatives; ++a) {
-      // Append to transcript
-      latest_result_.final_transcripts[a] += result.alternatives(a).transcript();
-      latest_result_.final_scores[a] += result.alternatives(a).confidence();
+  if (result.has_pipeline_states()) {
+    auto pipeline_states = result.pipeline_states();
+    int prob_states_count = pipeline_states.vad_probabilities_size();
+    std::string vad_log = "";
+    for (int i = 0; i < prob_states_count; i++) {
+      vad_log += std::to_string(pipeline_states.vad_probabilities(i)) + " ";
+    }
+    if(!pipeline_states_logs_){
+      pipeline_states_logs_.open("riva_asr_pipeline_states.log");
+    }
+    pipeline_states_logs_ << "VAD states: " << vad_log << std::endl;
+  } else {
+    bool is_final = result.is_final();
+    if (latest_result_.final_transcripts.size() < 1) {
+      latest_result_.final_transcripts.resize(1);
+      latest_result_.final_transcripts[0] = "";
     }
-    VLOG(1) << "Final transcript: " << result.alternatives(0).transcript();
 
-    if (word_time_offsets_) {
-      if (num_alternatives > 0) {
-        for (int a = 0; a < num_alternatives; ++a) {
-          for (int w = 0; w < result.alternatives(a).words_size(); ++w) {
-            latest_result_.final_time_stamps[a].push_back(result.alternatives(a).words(w));
+    if (is_final) {
+      int num_alternatives = result.alternatives_size();
+      latest_result_.final_transcripts.resize(num_alternatives);
+      latest_result_.final_scores.resize(num_alternatives);
+      latest_result_.final_time_stamps.resize(num_alternatives);
+      for (int a = 0; a < num_alternatives; ++a) {
+        // Append to transcript
+        latest_result_.final_transcripts[a] += result.alternatives(a).transcript();
+        latest_result_.final_scores[a] += result.alternatives(a).confidence();
+      }
+      VLOG(1) << "Final transcript: " << result.alternatives(0).transcript();
+
+      if (word_time_offsets_) {
+        if (num_alternatives > 0) {
+          for (int a = 0; a < num_alternatives; ++a) {
+            for (int w = 0; w < result.alternatives(a).words_size(); ++w) {
+              latest_result_.final_time_stamps[a].push_back(result.alternatives(a).words(w));
+            }
           }
         }
       }
-    }
-  } else {
-    if (result.alternatives_size() > 0) {
-      if (result.stability() == 1) {
-        VLOG(1) << "Intermediate transcript: " << result.alternatives(0).transcript();
-      } else {
-        latest_result_.partial_transcript += result.alternatives(0).transcript();
-        if (word_time_offsets_) {
-          for (int w = 0; w < result.alternatives(0).words_size(); ++w) {
-            latest_result_.partial_time_stamps.emplace_back(result.alternatives(0).words(w));
+    } else {
+      if (result.alternatives_size() > 0) {
+        if (result.stability() == 1) {
+          VLOG(1) << "Intermediate transcript: " << result.alternatives(0).transcript();
+        } else {
+          latest_result_.partial_transcript += result.alternatives(0).transcript();
+          if (word_time_offsets_) {
+            for (int w = 0; w < result.alternatives(0).words_size(); ++w) {
+              latest_result_.partial_time_stamps.emplace_back(result.alternatives(0).words(w));
+            }
           }
         }
       }

diff --git a/riva/clients/asr/client_call.h b/riva/clients/asr/client_call.h
@@ -37,6 +37,7 @@ namespace nr_asr = nvidia::riva::asr;
 class ClientCall {
  public:
   ClientCall(uint32_t _corr_id, bool word_time_offsets);
+  ~ClientCall();
 
   void AppendResult(const nr_asr::StreamingRecognitionResult& result);
 
@@ -66,5 +67,6 @@ class ClientCall {
   std::vector<bool> recv_final_flags;
 
   grpc::Status finish_status;
+  std::ofstream pipeline_states_logs_;
 
 };  // ClientCall
diff --git a/riva/clients/nmt/riva_nmt_t2t_client.cc b/riva/clients/nmt/riva_nmt_t2t_client.cc
@@ -200,6 +200,7 @@ main(int argc, char** argv)
   if (FLAGS_text != "") {
     nr_nmt::TranslateTextRequest request;
     nr_nmt::TranslateTextResponse response;
+    VLOG(1) << "Setting up t2t config.";
     request.set_model(FLAGS_model_name);
     request.set_source_language(FLAGS_source_language_code);
     request.set_target_language(FLAGS_target_language_code);