Diffusion-based Approach to Style Modelling in Expressive TTS

Paper: Not available yet

Authors: Leonardo B. de M. M. Marques, Paula D. P. Costa, Lucas H. Ueda, Flávio O. Simões, Mário Uliani Neto, Fernando O. Runstein, Edson J. Nagle, Bianca Dal Bó

ABSTRACT

In this article, we propose an aggregation of denoising diffusion probabilistic models (DDPMs) onto an end-to-end text-to-speech system to learn a distribution of reference speaking styles in an unsupervised manner. By applying a few steps of a forward noising process to an embedding extracted from a reference mel spectrogram, we make profit of its information to reduce the diffusion backward chain and reconstruct an improved style embedding with only a few reverse steps, performing style transfer. Additionally, a combined spectrogram reconstruction and denoising loss allows for conditioning of the acoustic model on the synthesized style embeddings. A subjective perceptual evaluation is conducted to evaluate naturalness and style transfer capability of the proposed approach. A MUSHRA test shows a 5 point increment on the mean of naturalness ratings and a paired comparison (ABX test) on style transfer reveals preference of the raters (43%) of our proposed approach over state-of-the-art models (29%).

1. Naturalness (MUSHRA)

Best Cases:

Here are presented the top 2 samples per style that our model obtained in the overall naturalness rating:

Harsh Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(78/100) Ok, estou aguardando!
(72/100) Teve a festa cheia de parentes e amigos!
Lively Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(69/100) Gostaria de fazer uma observação.
(67/100) Desculpe, não entendi o que você falou.
Welcoming Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(67/100) Espero que as coisas melhorem a partir de agora.
(66/100) O uso de recursos do clube fora de casa, na verdade, foi uma probição da justiça.
Neutral Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(79/100) Entraremos em contato.
(65/100) Vieram seus filhos ao México neste dia.

Worst Cases:

Here are presented the worst 2 samples per style that our model obtained in the overall naturalness rating:

Harsh Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(55/100) Esse foi o motivo do dinheiro não ter sido creditado.
(57/100) Um mau caráter desse só podia terminar mal.
Lively Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(52/100) Sem mais delongas, você é o grande ganhador desta noite!
(54/100) Por falta de comunicação, esta ligação está sendo encerrada!
Welcoming Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(44/100) Se você quiser, eu passo pela sua casa hoje de tarde e levo o monstruário para escolher o tecido.
(56/100) Como presidente interino, comandou o conselho de ética.
Neutral Utterances GT+Vocoder VAETacotron VAE+Flow Diffusion
(51/100) Tenho boas notícias para você, dona Suzana.
(58/100) Siga o twitter pelo facebook.

2. Style Transfer (ABX Test)

Best Cases:

Here are presented the five utterances that our model received the most choices.

Utterances Reference VAE+Flow Diffusion
(22/30 Choices) O acusado de construir o laboratório.
(22/30 Choices) Quando Rosa pediu ajuda a Miguel, percebeu o quanto ele gostava dela.
(22/30 Choices) Bem, eu ligo mais tarde.
(21/30 Choices) Porque muitos vão comprar grades de cerveja, para juntos dos amigos, beber até amanhecer.
(20/30 Choices) Acho que liguei para o número errado.

Worst Cases :

Here are presented five utterances that our model received the least choices.

Utterances Reference VAE+Flow Diffusion
(1/30 Choices) Pagou para ver se o japonês era famoso no Texas, mas não teve sucesso.
(3/30 Choices) Siga o twitter pelo facebook.
(4/30 Choices) A sociedade vai poder, desta vez, ter direito a ser assim.
(5/30 Choices) Ok, estou aguardando.
(6/30 Choices) 6973-6087.