Paper: Not available yet

Authors: Leonardo B. de M. M. Marques, Paula D. P. Costa, Lucas H. Ueda, Flávio O. Simões, Mário Uliani Neto, Fernando O. Runstein, Edson J. Nagle, Bianca Dal Bó

ABSTRACT

In this article, we propose an aggregation of denoising diffusion probabilistic models (DDPMs) onto an end-to-end text-to-speech system to learn a distribution of reference speaking styles in an unsupervised manner. By applying a few steps of a forward noising process to an embedding extracted from a reference mel spectrogram, we make profit of its information to reduce the diffusion backward chain and reconstruct an improved style embedding with only a few reverse steps, performing style transfer. Additionally, a combined spectrogram reconstruction and denoising loss allows for conditioning of the acoustic model on the synthesized style embeddings. A subjective perceptual evaluation is conducted to evaluate naturalness and style transfer capability of the proposed approach. A MUSHRA test shows a 5 point increment on the mean of naturalness ratings and a paired comparison (ABX test) on style transfer reveals preference of the raters (43%) of our proposed approach over state-of-the-art models (29%).

Harsh Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(78/100) Ok, estou aguardando!
(72/100) Teve a festa cheia de parentes e amigos!

Lively Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(69/100) Gostaria de fazer uma observação.
(67/100) Desculpe, não entendi o que você falou.

Welcoming Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(67/100) Espero que as coisas melhorem a partir de agora.
(66/100) O uso de recursos do clube fora de casa, na verdade, foi uma probição da justiça.

Neutral Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(79/100) Entraremos em contato.
(65/100) Vieram seus filhos ao México neste dia.

Harsh Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(55/100) Esse foi o motivo do dinheiro não ter sido creditado.
(57/100) Um mau caráter desse só podia terminar mal.

Diffusion-based Approach to Style Modelling in Expressive TTS

ABSTRACT

1. Naturalness (MUSHRA)

Best Cases:

Worst Cases:

2. Style Transfer (ABX Test)

Best Cases:

Worst Cases :

Lively Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(52/100) Sem mais delongas, você é o grande ganhador desta noite!
(54/100) Por falta de comunicação, esta ligação está sendo encerrada!

Welcoming Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(44/100) Se você quiser, eu passo pela sua casa hoje de tarde e levo o monstruário para escolher o tecido.
(56/100) Como presidente interino, comandou o conselho de ética.

Neutral Utterances	GT+Vocoder	VAETacotron	VAE+Flow	Diffusion
(51/100) Tenho boas notícias para você, dona Suzana.
(58/100) Siga o twitter pelo facebook.

Utterances	Reference	VAE+Flow	Diffusion
(22/30 Choices) O acusado de construir o laboratório.
(22/30 Choices) Quando Rosa pediu ajuda a Miguel, percebeu o quanto ele gostava dela.
(22/30 Choices) Bem, eu ligo mais tarde.
(21/30 Choices) Porque muitos vão comprar grades de cerveja, para juntos dos amigos, beber até amanhecer.
(20/30 Choices) Acho que liguei para o número errado.

Utterances	Reference	VAE+Flow	Diffusion
(1/30 Choices) Pagou para ver se o japonês era famoso no Texas, mas não teve sucesso.
(3/30 Choices) Siga o twitter pelo facebook.
(4/30 Choices) A sociedade vai poder, desta vez, ter direito a ser assim.
(5/30 Choices) Ok, estou aguardando.
(6/30 Choices) 6973-6087.