-
-
Notifications
You must be signed in to change notification settings - Fork 314
SSML
Anna S edited this page Apr 12, 2022
·
1 revision
With SSML you can control pauses and prosody of synthesized speech. To pass text in SSML format, use the ssml_text
parameter.
ssml_sample = """
<speak>
<p>
Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
Потом я начинаю говорить своим обычным голосом,
<prosody pitch="x-high"> а могу говорить тоном выше </prosody>,
или <prosody pitch="x-low">наоборот, ниже</prosody>.
Потом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody>
А еще я умею делать паузы любой длины, например две секунды <break time="2000ms"/>.
<p>
Также я умею делать паузы между параграфами.
</p>
<p>
<s>И также я умею делать паузы между предложениями</s>
<s>Вот например как сейчас</s>
</p>
</p>
</speak>
"""
sample_rate = 48000
speaker = 'xenia'
audio = model.apply_tts(ssml_text=ssml_sample,
speaker=speaker,
sample_rate=sample_rate)
The root tag
<speak>В недрах тундры выдры в г+етрах т+ырят в вёдра ядра к+едров.</speak>
Add a pause with a specified duration
Attribute | Description |
---|---|
time |
Pause duration in seconds or milliseconds, for example 500ms or 5s |
strength |
Default value is medium . Possible values: - x-weak , weak , medium , strong , x-strong . This tag has a lower priority: <break time="1s" strength="x-weak"/> will produce a 1 second long pause. |
Example
<speak>
Пауза длиной в три секунды<break time="3s"/>
После этого речь продолжается.
</speak>
Modifies the pitch, and rate of the tagged speech.
Attribute | Description |
---|---|
rate | Modify the rate of the speech: x-slow , slow , medium , fast , x-fast : Set the rate to a predefined value. |
pitch | Raise or lower the tone (pitch) of the speech: x-low, low, medium, high, x-high: Set the pitch to a predefined value. |
You can combine prosody with other tags.
<speak>
Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
Потом я начинаю говорить своим обычным голосом, <prosody pitch="x-high">а могу говорить тоном выше.</prosody>
</speak>
Represents a paragraph, equivalent to x-strong
pause.
<speak>
<p>Первый параграф.</p>
<p>Второй параграф.</p>
</speak>
Represents a sentence, equivalent to strong
pause.
<speak>
<s>Первое предложение.</s><s>Второе предложение.</s>
</speak>