MMDAgent can speak any text sentence using the SYNTH_START command.It takes three arguments. The first is the alias of the model to perform lip synchronization with the text. The second is the choice of speaking style as described in the article “Definition of speaking style”.  The third is the text string to be uttered.

The SYNTH_STOP command terminates ongoing speech immediately. The first argument of the command is the model alias currently speaking.

At the end of speech output, a SYNTH_EVENT_STOP event will be issued.

=== Japanese ========================================

SYNTH_STARTコマンドで好きな文を喋らせることができます.第1引数にリップシンクを行うモデルのエイリアス名,第2引数に「Definition of speaking style」のように定義されている発話スタイル名,第3引数に喋らせたい文を記述します.

発話を途中で終了させるにはSYNTH_STOPコマンドを用います.第1引数にはモデルのエイリアス名を記述します.

発話終了時にはSYNTH_EVENT_STOPイベントが発行されます.

Speaking styles of speech synthesis in MMDAgent should be defined in the speaking style definition file (.ojt).  The speaking style definition file (.ojt) contains a list of speech synthesis parameters for each style such as voice mixture weights, duration, pitch, speaking rate, and so on.

The following is an example of speaking style definitions that define different styles using three voice models: “normal”, “angry” and “bashful”, located within the “Voice” folder. Note that texts preceded by “#” are comments.

    # number of voices
    3
    # voice names
    Voice\normal
    Voice\angry
    Voice\bashful
    # number of speaking styles
    7
    # speaking style names, interpolation weight, and synthesis parameter
    normal   1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.55 1.0
    angry    0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  1.1 -0.5  0.55 1.1
    bashful  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  1.0  0.5  0.55 0.9
    fast     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  2.0  1.0  0.55 1.0
    slow     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  0.5  1.0  0.55 1.0
    high     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  4.0  0.55 1.0
    low      1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0 -2.0  0.55 1.0

The first part is a list of voices to be used, and then speaking styles are written per line.  The parameters at each line begin with declaration of a speaking style name, followed by the interpolation weights (from 0.0 to 1.0) of the spectrum model, fundamental frequency, and duration of a voice.  The remaining four parameters are speaking rate (from 0.1 to 10.0, default is 1.0), pitch shift (from -12.0 to 12.0, default is 0.0), gender (from -0.9 to 0.9, default is 0.55), and volume (from 0.1 to 10.0, default is 1.0).

=== Japanese ========================================

MMDAgentの音声合成で指定できる発話スタイルは,発話スタイル設定ファイル(.ojt)で定義します.発話スタイル設定ファイル(.ojt)では,発話スタイルごとにボイスの混合重み,持続時間,音高などの音声合成用パラメータを指定します.

以下は,normal, angry, bashfulの3種類のボイスがフォルダVoice以下に存在するときのいくつかの発話スタイルの定義例です.なお,#以降はコメントです.

    # number of voices
    3
    # voice names
    Voice\normal
    Voice\angry
    Voice\bashful
    # number of speaking styles
    7
    # speaking style names, interpolation weight, and synthesis parameter
    normal   1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.55 1.0
    angry    0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  1.1 -0.5  0.55 1.1
    bashful  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  1.0  0.5  0.55 0.9
    fast     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  2.0  1.0  0.55 1.0
    slow     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  0.5  1.0  0.55 1.0
    high     1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0  4.0  0.55 1.0
    low      1.0  0.0  0.0  1.0  0.0  0.0  1.0  0.0  0.0  1.0 -2.0  0.55 1.0

最初の部分で使用するボイスを列挙し,次に発話スタイルを1行につき1つずつ定義します.それぞれ,各ボイスが持つ声質・音の高さ・話速の補間重み(0.0~1.0)をそれぞれボイスごとに指定したあと,全体の話速(0.1~10.0,標準1.0)・音高(-12.0~12.0,標準0.0)・ジェンダー(-0.9~0.9,標準0.55)・音量(0.1~10.0,標準1.0)の4つの調整パラメータを指定します.