O que é síntese de fala: 3 fatores importantes relacionados a ela

Robot Text-to-Speech

Síntese de fala

O método de geração de fala artificial como a humana com a ajuda de máquinas é chamado de síntese de fala. Um sistema de computador utilizado para realizar esse procedimento é denominado sintetizador de voz. O sistema requer implementação adicional em software ou hardware, e podemos notar uma aplicação dela em um sistema Text-to-Speech (TTS). Um sistema Text-to-Speech aceita a linguagem humana cotidiana na forma de texto como entrada e a converte em fala como saída.

A síntese da fala é feita por meio do sequenciamento da fala gravada na forma de unidades que são armazenadas em um banco de dados. Os sistemas variam no tamanho das unidades de voz armazenadas; a faixa de saída mais ampla é fornecida por um sistema que armazena telefones ou difones com a possibilidade de perda de clareza.

O armazenamento de palavras ou frases inteiras permite uma produção de alta qualidade para domínios de usuário específicos. Este método pode ser substituído pela incorporação de um modelo de trato vocal e várias outras características pertencentes à voz humana e geração de saída de voz artificial.

Síntese de fala
Visão geral do sistema TTS

A qualidade de saída de um sintetizador de voz está sujeita à sua proximidade com a voz humana real e à facilidade de compreensão. O uso do dispositivo de síntese de fala é evidente desde a década de 1990, que foi totalmente desenvolvido para ajudar pessoas com deficiências e deficiências específicas.

Visão geral do sistema Text-to-Speech

Existem duas partes importantes para um discurso de conversão de texto em voz:

  • Front End- É responsável por converter o texto de entrada que contém vários símbolos, números e abreviações na forma equivalente de dados compreensíveis e conversíveis. Esse processo é denominado normalização de texto ou pré-processamento dos dados. Cada palavra é então atribuída com transcrições fonéticas e separa e marca o texto em unidades prosódicas, como sentenças, orações e frases, por meio de um processo denominado texto para fonema ou grafema para fonema. Os dois aspectos são então combinados para gerar os dados de saída contendo a representação linguística simbólica.
  • Processo interno- Geralmente denominado “sintetizador”, esta parte é responsável pela representação linguística simbólica em som. No sistema avançado, esse processo é seguido pelo cálculo da prosódia alvo (contorno do tom, tempos do fonema), que será utilizado na fala de saída.
Caixa de computador e sintetizador de voz 19 9663804888
Sintetizador de fala usado por Stephen Hawking; Fonte da imagem: Museu da Ciência de Londres / Biblioteca de imagens de ciência e sociedadeCaixa para computador e sintetizador de voz, 19 (9663804888)CC BY-SA 2.0

Tecnologias envolvidas na síntese de fala

Naturalidade e inteligibilidade são os atributos mais significativos que determinam a qualidade de um dispositivo de síntese de voz. A naturalidade é definida pela capacidade do dispositivo de replicar a voz humana o mais próximo possível, e a inteligibilidade determina a facilidade com que o dispositivo pode entender o som de saída. Os sintetizadores de voz se esforçam para produzir resultados ideais em ambos os aspectos.

A síntese concatenativa e a síntese de formantes são as duas tecnologias principais que geram formas de onda de fala sintéticas. Existem vantagens e desvantagens em cada tecnologia, e os usos comuns de um método de síntese geralmente ditam a escolha de uma dessas abordagens.

Síntese Concatenativa

O sequenciamento de fragmentos de fala gravada de uma certa maneira é chamado de síntese concatenativa. Esse processo normalmente produz a fala sintetizada com som mais natural. No entanto, as inconsistências entre as variações naturais da fala e o design dos métodos automatizados de segmentação da forma de onda geralmente resultam em falhas de saída audíveis.

Existem três subtipos importantes de síntese concatenativa.

  1. Síntese de seleção de unidade- A entrada para esta técnica de seleção é um extenso banco de dados de fala gravada. A segmentação do banco de dados é realizada usando um reconhecedor de voz definido para o modo de alinhamento forçado. A segmentação resulta em unidades como fones, difonemas, palavras, frases, sílabas, morfemas, sentenças, etc. A indexação dessas unidades é baseada em vários parâmetros como altura, duração, posição na sílaba e os fones vizinhos. O processo da árvore de decisão seleciona as unidades mais adequadas para formar uma cadeia de execução. Quanto mais extensa a base de dados, mais natural é a voz de saída. Esta técnica oferece a mais extraordinária naturalidade para voz de saída com base nos dados gravados.
  2. Síntese de difone- O banco de dados para esta técnica consiste apenas de difones, o que o torna relativamente pequeno. A fonotática de um idioma selecionado determina o conjunto de todos os difones únicos a serem considerados. O banco de dados de voz consiste em uma única gravação de cada difone. Várias técnicas de processamento de sinal digital, como PSOLA, MBROLA e codificação preditiva linear, são usadas para sobrepor a sentença alvo nessas unidades de difonema. O uso da síntese de difonemas é limitado à pesquisa porque a fala carece de naturalidade, soa muito robótica e contém falhas sônicas.
  3. Síntese de domínio específico O banco de dados para essa técnica está restrito a palavras e frases pré-gravadas. A aplicabilidade deste método de síntese é limitada ao domínio com base no qual o banco de dados é gerado, por exemplo, anúncios de estação ferroviária, boletins meteorológicos, relógios falantes, etc. A implementação desta tecnologia é direta e, ao mesmo tempo, um alto nível de naturalidade pode ser alcançada por causa de sentenças de saída limitada. Para conseguir uma combinação suave de palavras com fala natural, muitas variações de linguagem devem ser levadas em consideração.

Síntese de Formantes

Para muitas aplicações, a naturalidade da fala não é um objetivo; em vez disso, confiabilidade, inteligência e precisão de alta velocidade são mais importantes. Isso pode ser alcançado usando a síntese de formantes, que cria um discurso sintetizado empregando síntese aditiva e modelagem acústica. Este método, também chamado de síntese baseada em regras, cria uma forma de onda de fala artificial variando parâmetros como frequência, níveis de ruído e voz.

É altamente improvável que a fala artificial com som robótico criada pela tecnologia de síntese de formantes seja confundida com a fala humana. Os glitches acústicos, que são comuns em sistemas concatenativos, são eliminados principalmente nesta técnica. Devido à ausência de um extenso banco de dados de gravações de fala, esses programas são relativamente pequenos porque encontram uso em sistemas embarcados onde o poder de processamento é limitado.

É possível transmitir uma variedade de tons de voz e emoções além das perguntas e declarações padrão porque os sistemas baseados em formato exibem controle completo sobre todos os aspectos da saída. Por exemplo, muitos videogames notáveis ​​fizeram uso da tecnologia de síntese de formato para fala interativa.

Síntese Articulatória

O método usado para gerar os sons da fala com base no modelo do trato vocal humano é chamado de síntese articulatória. Tem como objetivo simular os articuladores da fala de uma ou mais maneiras. Oferece uma maneira de compreender o desenvolvimento da fala e de pesquisar a fonética.

A coarticulação é um efeito que ocorre naturalmente em tal modelo, e deveria ser possível lidar corretamente em teoria com as propriedades da fonte glótica, a relação do trato vocal com as pregas vocais e como o sistema subglótico, o trato nasal e as cavidades nasais influenciam a geração da fala humana por meio desse modelo.

A síntese articulatória tipicamente compreende dois componentes distintos: o trato vocal, que é dividido em vários subcomponentes, e as regiões transversais correspondentes usadas parametricamente para a reflexão das características das cordas vocais. No modelo acústico, uma linha de transmissão analógica elétrica se aproxima de cada campo transversal.

A simulação do trato vocal está sujeita às mudanças que aparecem nas funções de área em relação ao tempo. A configuração de destino atribuída a cada som determina o ritmo do movimento do trato vocal. Se construído corretamente, o sintetizador articulatório pode reproduzir todos os efeitos relevantes no desenvolvimento de fricativas e plosivas e modelar transições de coarticulação para replicar os processos envolvidos na produção de fala real.

Em meados da década de 1970, nos Laboratórios Haskins, Philip Rubin, Tom Baer e Paul Mermelstein criaram o primeiro sintetizador articulatório comumente usado para experimentos de laboratório.

Síntese baseada em HMM

Esta é uma Síntese Paramétrica Estatística seguindo os “modelos de Markov ocultos”. HMMs modelar simultaneamente o espectro de frequência, frequência fundamental e comprimento da fala neste método. As formas de onda de fala criadas no critério de máxima verossimilhança são criadas a partir dos próprios HMMs.

Um modelo oculto de Markov (HMM) em Biologia Computacional é uma técnica matemática usada principalmente para modelagem de sequência biológica. Uma sequência é modelada como uma saída de um método estocástico discreto em sua implementação, que avança através de um conjunto de estados sequenciais que estão 'ocultos' do observador.

Síntese de onda senoidal

A síntese de onda senoidal, ou voz de onda senoidal, é um método de sintetizar a fala substituindo os formantes por assobios de tom puro (faixas de energia proeminentes). Philip Rubin criou o primeiro software de síntese de onda senoidal (SWS) para a produção automatizada de estímulos para experimentos perceptivos nos Laboratórios Haskins na década de 1970.

A fala senoidal é um fenômeno peculiar em que algumas das características da fala são assumidas por um pequeno número de sinusóides reunidos - com os quais eles não se parecem em nada em muitos aspectos. Alta inteligibilidade pode ser alcançada usando três sinusóides que rastreiam a frequência e amplitude dos três primeiros formantes de fala.

Síntese baseada em aprendizado profundo

Ao contrário da abordagem baseada em HMM, o método baseado em Deep Learning mapeia explicitamente características linguísticas para características acústicas com redes neurais profundas comprovadas para ser extremamente bem-sucedido no aprendizado de características de dados inerentes. As pessoas sugeriram vários modelos na longa tradição de estudos que seguem os métodos baseados no Deep Learning para a síntese da fala.

Uma ferramenta útil para a síntese de voz tornou-se deep learning capaz de explorar grandes quantidades de dados de treinamento. Recentemente, mais e mais pesquisas sobre técnicas de aprendizado profundo ou mesmo sistemas de ponta a ponta foram realizadas, e o sucesso de última geração foi alcançado.

IA ML DL 1
Fonte da imagem: Arquivo original: Avimanyu786 Versão SVG: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Setembro de 2016 marcou o início do WaveNet por DeepMind, um modelo gerador profundo de formas de onda de áudio brutas. Tornou evidente que os modelos baseados em aprendizagem profunda podem modelar formas de onda brutas e ter um bom desempenho a partir de características acústicas, como espectrogramas ou características linguísticas pré-processadas específicas para gerar expressão.

Vantagens dos sistemas ponta a ponta

  • Capacidade limitada de análise de texto usando um único sistema.
  • Quantidade confinada de engenharia de recursos.
  • Rico condicionamento de atributos existentes e fácil adaptação aos mais novos.
  • Maior naturalidade e inteligibilidade
  • Mais robusto em comparação com modelos de vários estágios.

Desvantagens dos sistemas ponta a ponta

  • Existência de problema de inferência lenta.
  • Menos dados resultam em voz de saída menos robusta.
  • Capacidade de controle limitada do que a abordagem concatenativa.
  • A prosódia plana é desenvolvida com a média dos dados de treinamento.

Desafios envolvidos na síntese de fala

  1. Acomodação de palavras com pronúncias diferentes e com a mesma grafia, de acordo com o contexto.
  2. Inferência de como expandir um não. com base na palavra, número e pontuação ao redor. Por exemplo, 1465 pode ser 'mil quatrocentos e sessenta e cinco' ou também pode ser lido como 'um quatro seis cinco', 'quatorze sessenta e cinco' ou 'quatrocentos e sessenta e cinco'.
  3. Ambigüidade nas abreviações. Por exemplo, 'em' para 'polegadas' deve ser diferenciado da palavra 'em'.
  4. A abordagem baseada em dicionário (procurando cada palavra no dicionário e substituindo a grafia pela pronúncia detalhada no dicionário para escolher a pronúncia correta de cada palavra) do processo de texto para fonema falha completamente para qualquer palavra que possa ser encontrada em o dicionário.
  5. Abordagem baseada em regras (para avaliar suas pronúncias com base em sua grafia, as regras de pronúncia são aplicadas às palavras ou a abordagem de 'aprender a ler') do processo de texto para fonema falha porque o esquema leva em consideração grafias ou pronúncias incomuns porque a sofisticação das regras aumenta consideravelmente.
  6. Dificuldade na avaliação confiável dos sistemas de síntese da fala devido à falta de padrões de desempenho objetivos geralmente aceitos.
  7. Mudança de contorno de tom da frase, dependendo se é uma expressão afirmativa, interrogativa ou exclamativa.

Para o artigo anterior sobre Robô com rodas Mecanum, Clique aqui.

Leia também: