Skip to content
Anna S edited this page Apr 12, 2022 · 1 revision

SSML

With SSML you can control pauses and prosody of synthesized speech. To pass text in SSML format, use the ssml_text parameter.

Example

ssml_sample = """
              <speak>
              <p>
                  Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
                  Потом я начинаю говорить своим обычным голосом,
                  <prosody pitch="x-high"> а могу говорить тоном выше </prosody>,
                  или <prosody pitch="x-low">наоборот, ниже</prosody>.
                  Потом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody>
                  А еще я умею делать паузы любой длины, например две секунды <break time="2000ms"/>.
                  <p>
                    Также я умею делать паузы между параграфами.
                  </p>
                  <p>
                    <s>И также я умею делать паузы между предложениями</s>
                    <s>Вот например как сейчас</s>
                  </p>
              </p>
              </speak>
              """

sample_rate = 48000
speaker = 'xenia'              
audio = model.apply_tts(ssml_text=ssml_sample,
                        speaker=speaker,
                        sample_rate=sample_rate)

Supported tags

speak

The root tag

<speak>В недрах тундры выдры в г+етрах т+ырят в вёдра ядра к+едров.</speak>

break

Add a pause with a specified duration

Attribute Description
time Pause duration in seconds or milliseconds, for example 500ms or 5s
strength Default value is medium. Possible values: - x-weak, weak, medium, strong, x-strong. This tag has a lower priority: <break time="1s" strength="x-weak"/> will produce a 1 second long pause.

Example

<speak>
    Пауза длиной в три секунды<break time="3s"/>
    После этого речь продолжается.
</speak>

prosody

Modifies the pitch, and rate of the tagged speech.

Attribute Description
rate Modify the rate of the speech: x-slow, slow, medium, fast, x-fast: Set the rate to a predefined value.
pitch Raise or lower the tone (pitch) of the speech: x-low, low, medium, high, x-high: Set the pitch to a predefined value.

You can combine prosody with other tags.

<speak>
    Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
    Потом я начинаю говорить своим обычным голосом, <prosody pitch="x-high">а могу говорить тоном выше.</prosody>
</speak>

p

Represents a paragraph, equivalent to x-strong pause.

<speak>                                         
    <p>Первый параграф.</p>       
    <p>Второй параграф.</p>
</speak>

s

Represents a sentence, equivalent to strong pause.

<speak>                                         
    <s>Первое предложение.</s><s>Второе предложение.</s>
</speak>
Clone this wiki locally