Definition of speaking style

August 16, 2013

Speaking styles of speech synthesis in MMDAgent should be defined in the speaking style definition file (.ojt).  The speaking style definition file (.ojt) contains a list of speech synthesis parameters for each style such as voice mixture weights, duration, pitch, speaking rate, and so on.

The following is an example of speaking style definitions that define different styles using three voice models: “normal”, “angry” and “bashful”, located within the “Voice” folder. Note that texts preceded by “#” are comments.

    # number of voices
    3
    # voice names
    Voice\normal
    Voice\angry
    Voice\bashful
    # number of speaking styles
    7
    # speaking style names, interpolation weight, and synthesis parameter
    normal   1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.55 1.0
    angry    0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  1.1 -0.5  0.55 1.1
    bashful  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  1.0  0.5  0.55 0.9
    fast     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  2.0  1.0  0.55 1.0
    slow     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  0.5  1.0  0.55 1.0
    high     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  4.0  0.55 1.0
    low      1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0 -2.0  0.55 1.0

The first part is a list of voices to be used, and then speaking styles are written per line.  The parameters at each line begin with declaration of a speaking style name, followed by the interpolation weights (from 0.0 to 1.0) of the spectrum model, fundamental frequency, and duration of a voice.  The remaining four parameters are speaking rate (from 0.1 to 10.0, default is 1.0), pitch shift (from -12.0 to 12.0, default is 0.0), gender (from -0.9 to 0.9, default is 0.55), and volume (from 0.1 to 10.0, default is 1.0).

=== Japanese ========================================

MMDAgentの音声合成で指定できる発話スタイルは,発話スタイル設定ファイル(.ojt)で定義します.発話スタイル設定ファイル(.ojt)では,発話スタイルごとにボイスの混合重み,持続時間,音高などの音声合成用パラメータを指定します.

以下は,normal, angry, bashfulの3種類のボイスがフォルダVoice以下に存在するときのいくつかの発話スタイルの定義例です.なお,#以降はコメントです.

    # number of voices
    3
    # voice names
    Voice\normal
    Voice\angry
    Voice\bashful
    # number of speaking styles
    7
    # speaking style names, interpolation weight, and synthesis parameter
    normal   1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.55 1.0
    angry    0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  1.1 -0.5  0.55 1.1
    bashful  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  1.0  0.5  0.55 0.9
    fast     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  2.0  1.0  0.55 1.0
    slow     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  0.5  1.0  0.55 1.0
    high     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  4.0  0.55 1.0
    low      1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0 -2.0  0.55 1.0

最初の部分で使用するボイスを列挙し,次に発話スタイルを1行につき1つずつ定義します.それぞれ,各ボイスが持つ声質・音の高さ・話速の補間重み(0.0~1.0)をそれぞれボイスごとに指定したあと,全体の話速(0.1~10.0,標準1.0)・音高(-12.0~12.0,標準0.0)・ジェンダー(-0.9~0.9,標準0.55)・音量(0.1~10.0,標準1.0)の4つの調整パラメータを指定します.

Advertisements