-
Notifications
You must be signed in to change notification settings - Fork 210
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
不能复现对论文里对moshi的评测 #141
Comments
请问你这里测试时,输入音频是采用什么TTS工具合成的呢呢?不同TTS工具分数也会不同。 |
火山引擎seed TTS 我现在推理时,moshi基本上只回复“How are you”类似的开场白,偶尔能在开场白之后正式回复 |
不知道你有没有测试过开源出来的GLM-4-voice的效果? |
复现了,和论文里的结果基本一致 |
指的是3.69这个指标吗? |
Moshi 的推理好像有些问题,我之前要给他们提过issue, 还没有官方回复,有人说开源和论文里的不一样kyutai-labs/moshi#159 |
谢谢,我估计可能是这个细节没对齐: 实测确实发现不少问英文,回答中文的case。 |
这个情况我在review case的时候发现了,但是论文里的这个限制有点不合理,不过也无伤大雅。 |
这个我们会给 Moshi 的评测输入前拼接 3 秒的全空白输入,让 Moshi 完成开场白之后再提问
|
我们的代码是修改了 commit d654de31 中 |
发现使用拼接前面空白不够,还是需要在音频后面拼接空白 def encode(self, audio_path):
print(self.mimi.sample_rate)
wav = load_wav(audio_path, self.mimi.sample_rate)
current_length = wav.shape[-1]
target_length = ((current_length - 1) // 1920 + 1) * 1920
if current_length < target_length:
# 如果长度不足,以零填充至目标长度
padding = target_length - current_length
wav = torch.nn.functional.pad(wav, (0, padding))
wav = torch.nn.functional.pad(wav, (1920 * 50, 1920 * 100))
wav = wav.unsqueeze(0) # [B, T] |
感谢开源👍🏻
在论文《Scaling speech-text pre-training with synthetic interleaved data》里
对moshi的评测,
其他模型的评测结果都可以复现,但是无法复现Moshi这个评测,可以分享下Moshi的推理吗?🙏🙏🙏
The text was updated successfully, but these errors were encountered: