switch audio to the existing one

OpenNMT · vince62s · Nov 3, 2023 · Oct 24, 2023 · Oct 24, 2023 · Oct 24, 2023
commit 11f5ff17a5ac3cd7ae104f87d7622bdb3baff0be
diff --git a/python/tests/requirements.txt b/python/tests/requirements.txt
@@ -6,5 +6,3 @@ tensorflow-cpu==2.11.*
 pytest
 wurlitzer==3.0.*;platform_system=='Linux'
 torch
-torchaudio
-requests
diff --git a/python/tests/test_transformers.py b/python/tests/test_transformers.py
@@ -957,7 +957,10 @@ def teardown_class(cls):
         [
             (
                 "facebook/wav2vec2-large-robust-ft-swbd-300h",
-                "I HAD THAT CURIOSITY BESIDE ME AT THIS MOMENT",
+                [
+                    "MISTER QUILTER IS THE APOSSEL OF THE MIDDLE CLASSES AND"
+                    " WE ARE GLAD TO WELCOME HIS GOSPEL",
+                ],
             ),
         ],
     )
@@ -969,7 +972,6 @@ def test_transformers_wav2vec2(
         expected_transcription,
     ):
         import torch
-        import torchaudio
         import transformers
 
         converter = ctranslate2.converters.TransformersConverter(
@@ -999,12 +1001,11 @@ def test_transformers_wav2vec2(
             inter_threads=1,
         )
 
-        waveform, sampling_rate = torchaudio.load(
-            os.path.join(test_utils.get_data_dir(), "audio", "test.wav")
+        speech_array = np.load(
+            os.path.join(test_utils.get_data_dir(), "audio", "mr_quilter.npy")
         )
-        speech_array = waveform[0].numpy()
         input_values = w2v2_processor(
-            speech_array.astype(np.float32),
+            speech_array,
             padding=True,
             return_tensors="pt",
             sampling_rate=16000,
@@ -1070,7 +1071,6 @@ def test_transformers_wav2vec2(
             logits = w2v2_model.lm_head(hidden_states.to(torch.float32))[0]
 
         predicted_ids = torch.argmax(logits, dim=-1)
-        transcription = w2v2_processor.decode(predicted_ids, output_word_offsets=True)[
-            0
-        ]
-        assert transcription == expected_transcription
+        transcription = w2v2_processor.decode(predicted_ids, output_word_offsets=True)
+
+        assert transcription[0] == expected_transcription[0]