Linguagem de marcação de síntese de fala - Speech Synthesis Markup Language

Speech Synthesis Markup Language ( SSML ) é uma linguagem de marcação baseada em XML para aplicativos de síntese de voz . É uma recomendação do W3C 's Voice Browser Grupo de Trabalho. SSML é frequentemente incorporado em scripts VoiceXML para conduzir sistemas de telefonia interativos. No entanto, também pode ser usado sozinho, como para a criação de livros de áudio. Para aplicativos de desktop, outras linguagens de marcação são populares, incluindo os comandos de voz incorporados da Apple e a marcação SAPI Text to speech (TTS) da Microsoft , também uma linguagem XML. Ele também é usado para produzir sons por meio da API Text to Speech dos Serviços Cognitivos do Azure ou ao escrever habilidades de terceiros para o Google Assistant ou Amazon Alexa .

SSML é baseado no Java Speech Markup Language (JSML) desenvolvido pela Sun Microsystems , embora a recomendação atual tenha sido desenvolvida principalmente por fornecedores de síntese de voz. Ele cobre virtualmente todos os aspectos da síntese, embora algumas áreas não tenham sido especificadas, então cada fornecedor aceita uma variante diferente da linguagem. Além disso, na ausência de marcação, espera-se que o sintetizador faça sua própria interpretação do texto. Portanto, SSML não é um padrão estrito no sentido de C , ou mesmo de HTML .

Exemplo

Aqui está um exemplo de um documento SSML:

<?xml version="1.0"?>
<speak xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:dc="http://purl.org/dc/elements/1.1/"
       version="1.0">
  <metadata>
    <dc:title xml:lang="en">Telephone Menu: Level 1</dc:title>
  </metadata>

  <p>
    <s xml:lang="en-US">
      <voice name="David" gender="male" age="25">
        For English, press <emphasis>one</emphasis>.
      </voice>
    </s>
    <s xml:lang="es-MX">
      <voice name="Miguel" gender="male" age="25">
        Para español, oprima el <emphasis>dos</emphasis>.
      </voice>
    </s>
  </p>

</speak>

Recursos

SSML especifica uma boa quantidade de marcação para prosódia , o que não é aparente no exemplo acima. Isso inclui marcação para

  • tom
  • contorno
  • intervalo de arremesso
  • avaliar
  • duração
  • volume

Veja também

links externos