- 音声からジェスチャを推測するモデル
- text2gestureを参考に作成
- 元論文
Speech_driven_gesture_generation_with_autoencoderのDownload raw dataを参照
Speech_driven_gesture_generation_with_autoencoderのSplit datasetを参照
python create_vector.py DATA_DIR
- センテンスごとに64frame区切るデータセットを作成
- shape
- speech: (block of frames, 26, 64)
- motion: (block of frames, 192, 64)
- 標準化時の平均値と標準偏差のパラメータは
./norm/
に保存される
python train.py [--batch_size] [--epochs] [--lr] [--weight_decay] [--embedding_dimension]
[--outdir_path] [--device] [--gpu_num] [--speech_path] [--pose_path] [--generator]
[--gan] [--discriminator] [--lambda_d]
- 詳細はtext2gestureのUsageを参照
python predict.py [--modelpath] [--inputpath] [--outpath]
- --modelpathにはgeneratorモデルがあるフォルダを指定
- train.pyで出力された
./out/日付/generator_日付_weights.pth
を指定
- train.pyで出力された
python reshape-predict.py [--denorm] [--denormpath] [--datatype] [--npypath] [--outpath]
- 正規化されたデータを元に戻す場合、--denormを1。その場合、--denormpathと--datatypeを指定する。(--datatypeのデフォルトはtrain)
- --denormpathと--datatypeは3章の
./norm/
内の平気位置と標準偏差のパラメータを指定
- --denormpathと--datatypeは3章の
- --npypathにはテストデータがあるフォルダを指定。