Skip to content

zassou65535/voice_converter

Repository files navigation

voice_converter

概要

Pytorchによる、ScycloneVocoderの2つを用いた音声変換器です。
詳しい解説と音声変換例はこちら

想定環境

Ubuntu20.04
python 3.8.5
torch==1.9.1+cu111
torchaudio==0.9.1
torchvision==0.10.1+cu111
ライブラリの詳細はrequirements.txtを参照。

プログラム

VocoderとScycloneの学習はそれぞれ別々に行います。

Vocoder

  • Vocoder_train.pyはVocoderの学習を実行、学習の過程と学習済みモデルを出力するプログラムです。
  • Vocoder_inference.pyVocoder_train.pyによって出力された学習済みVocoderを読み込み、推論(スペクトログラムから音声波形の生成)を実行、結果を出力するプログラムです。

Scyclone

  • Scyclone_train.pyはScycloneの学習を実行、学習の過程と学習済みモデルを出力するプログラムです。
  • Scyclone_inference.pyVocoder_train.pyによって出力された学習済みVocoderと、Scyclone_train.pyによって出力された学習済みGeneratorの2つを読み込み、.wavファイルに対し推論(ドメインA(変換元)からドメインB(変換先)への変換)を実行し結果を出力するプログラムです。

データセットに関する注意点

データセットはサンプリングレート16000[Hz]、長さ約1.5秒以上の.wav形式のファイル群を想定しています。
また、データセットサイズはドメインA(変換元)、ドメインB(変換先)それぞれで少なくとも5000以上とすることを強く推奨します。

使い方(Vocoder)

学習の実行

  1. Vocoder_train.pyの32行目付近の変数dataset_pathで音声ファイル群のパスの形式を指定します。
  2. Vocoder_train.pyの35行目付近の変数sample_audio_pathで、学習過程を見るための、サンプルとなる音声ファイルのパスを指定します。
  3. Vocoder_train.pyの置いてあるディレクトリでpython Vocoder_train.pyを実行することで学習を実行します。
    • 学習の過程が./output/vocoder/train/以下に出力されます。
    • 学習済みVocoderが./output/vocoder/train/iteration150000/vocoder_trained_model_cpu.pthなどという形で5000イテレーション毎に出力されます。

推論の実行

  1. Vocoder_inference.pyの33行目付近の変数audio_pathで対象とする.wavファイルのパスを指定します。
  2. Vocoder_inference.pyの35行目付近の変数vocoder_trained_model_pathで学習済みVocoderへのパス(例えば./output/vocoder/train/iteration150000/vocoder_trained_model_cpu.pthなど)を指定します。
  3. Vocoder_inference.pyの置いてあるディレクトリでpython Vocoder_inference.pyを実行して、audio_pathで指定した.wavファイルに対し推論を行います。
    • 「音声波形(.wav)→スペクトログラム→音声波形」と実行され、結果が./output/vocoder/inference/以下に出力されます。

使い方(Scyclone)

以下ではドメインA(変換元)、ドメインB(変換先)をそれぞれ単にA、Bと呼称します。

学習の実行

  1. Scyclone_train.pyの34行目付近の変数dataset_path_AでAに属する、dataset_path_BでBに属する音声ファイル群のパスの形式を指定します。
  2. Scyclone_train.pyの置いてあるディレクトリでpython Scyclone_train.pyを実行することで「A⇄B」の変換ができるよう学習を実行します。
    • 学習の過程が./output/scyclone/train/以下に出力されます。
    • 学習済みGeneratorが./output/scyclone/train/iteration380000/generator_A2B_trained_model_cpu.pthなどという形で5000イテレーション毎に出力されます。

推論の実行

  1. Scyclone_inference.pyの34行目付近の変数audio_pathで変換対象とする.wavファイルのパスを指定します。
  2. Scyclone_inference.pyの36行目付近の変数scyclone_trained_model_pathで学習済みGeneratorへのパスを指定します。
  3. Scyclone_inference.pyの38行目付近の変数vocoder_trained_model_pathで学習済みVocoderへのパスを指定します。
  4. Scyclone_inference.pyの置いてあるディレクトリでpython Scyclone_inference.pyを実行して、audio_pathで指定した.wavファイルに対し推論を行います。
    • .wavファイルに対し「A→B」と実行され、結果が./output/scyclone/inference/以下に出力されます。

参考

Reimplmentation of voice conversion system "Scyclone" with PyTorch
Recurrent Neural Network based Neural Vocoders