Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ヌルモデル #147

Open
yam4863245 opened this issue Jun 25, 2024 · 5 comments
Open

ヌルモデル #147

yam4863245 opened this issue Jun 25, 2024 · 5 comments

Comments

@yam4863245
Copy link

ご提供いただいたwhisperヌルモデルに感銘を受けました。
私もヌルモデルを作りたいのですが、できません。
付属のjvnv-F1モデルをAモデルとして使用し、
自分で怒りの感情を含まないjvnv-F1を訓練してBモデルとしました。
加重合成を使用し、つまりnew = A-Bとしてjvnv-F1-anger-nullモデルを得ました。
このモデルは怒りのベクトルのみを表現するはずですが、
自分のモデルと合成しても明確な怒りの感情が表れません。
どこに問題があるのでしょうか?
以上の内容はchatGPTによって翻訳されたもので、私は日本人ではありません。

@litagin02
Copy link
Owner

いくつかの可能性があります。

  • デフォルトのモデルは全ての感情音声で学習されているため、学習元の音声の中で怒り音声の占める割合は少なく、引き算をしてもそこまで怒りの特徴が出てこない
  • デフォルトのモデルのステップ数はまあまあ多いため、もしかしたらステップ数の差があるもの同士の差分はあまり効果がないのかもしれない(これは検証していないので一つの仮説です)

なので、

  • 怒り音声のみで学習したモデルをAとして、怒り以外の音声で学習させたモデルB(もしくは、全ての音声で学習させたモデル)から引いて A - B を作る

とすると、怒りの特徴がよく現れたものが出るかもしれません(検証はしていません)。

@yam4863245
Copy link
Author

いくつかの可能性があります。

  • デフォルトのモデルは全ての感情音声で学習されているため、学習元の音声の中で怒り音声の占める割合は少なく、引き算をしてもそこまで怒りの特徴が出てこない
  • デフォルトのモデルのステップ数はまあまあ多いため、もしかしたらステップ数の差があるもの同士の差分はあまり効果がないのかもしれない(これは検証していないので一つの仮説です)

なので、

  • 怒り音声のみで学習したモデルをAとして、怒り以外の音声で学習させたモデルB(もしくは、全ての音声で学習させたモデル)から引いて A - B を作る

とすると、怒りの特徴がよく現れたものが出るかもしれません(検証はしていません)。

ご提案の方法も試してみました。
jvnv-F1の怒りの音声を単独で訓練して、jvnv-F1-angerというモデルを作成しました。
また、怒り以外の音声を訓練して作成したモデルをjvnv-F1-no-angerとしました。
怒りのサンプル数が少なく、100エポックで2000ステップ程度しかないため、訓練ステップ数を13000ステップに増やしました。
そしてそれらを組み合わせました。
Aは私のモデル、Bはjvnv-F1-anger、Cはjvnv-F1-no-angerです。
しかし、結果として怒りの感情は表れませんでした。

お手数ですが、耳打ちモデルのレシピを教えていただけますか?ありがとうございます。

@litagin02
Copy link
Owner

うーん力になれず申し訳ないです。もともとが感情豊かで、いわゆる「通常のスタイルでの発話」のデータがJVNVコーパスにないため、うまく差が取れないのかもしれません。

ささやき声モデルは、同一話者の同一コーパスを囁き声で収録したコーパス(100ファイルからなる)から、通常声で収録したコーパスを引いたものです(ともに100エポック2700ステップほど)

コーパスはここから配布されています。

@yam4863245
Copy link
Author

了解しました。もう一度試してみます。ご返信ありがとうございます。

@gordon0414
Copy link

gordon0414 commented Aug 12, 2024

うーん力になれず申し訳ないです。もともとが感情豊かで、いわゆる「通常のスタイルでの発話」のデータがJVNVコーパスにないため、うまく差が取れないのかもしれません。

ささやき声モデルは、同一話者の同一コーパスを囁き声で収録したコーパス(100ファイルからなる)から、通常声で収録したコーパスを引いたものです(ともに100エポック2700ステップほど)

コーパスはここから配布されています。

I have read the license of the zunko's data and it says..

...
第3条(遵守事項)
甲は、次の各項に定める事項を遵守します。
1.本件データの利用に際し、東北ずん子プロジェクトの有する品位、品質、イメージを著しく損なうような行為または改変等を行わないこと。 
2.本件データ再頒布は行わないこと。
3.本件データの画像は公開しないこと。注1
4.本件データを使った成果物を商用目的で利用したい場合は事前に乙に連絡し承認を得ること。
5.本件データを使ったモデル等を公開するソフトウェアやサービスに組み込む場合は事前に乙に連絡し承認を得ること。
6.本件データ利用の登録、更新申請時に虚偽記載をおこなわないこと。
...

And since sbv2_null_models are trained with the zunko's multimodal dataset, I think it should follow the dataset's license.
Can I know the License for the sbv2_null_model's license?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants