Fala Brasil - Laboratório de Processamento de Sinais

F a l a B r a s i l

Reconhecimento de Voz para o Português Brasileiro

 

 

 
Fala Brasil - Laboratório de Processamento de Sinais
  SimonBR

Última atualização: 11/10/2014

 

Softwares:

  • Conversor Grafema-Fonema - Utiliza 38 fones e realiza o processo de determinação da vogal tônica. Versão online atualizada em 23/09/2015.
  • FFTranscriber - software para transcrições de áudio forense.
  • SimonBR - software para controle de desktop via comandos de voz.
  • JLaPSAPI - JLaPSAPI - API em Java para o software Coruja.
  • SpeechOO SpeechOO - um plug-in para adicionar reconhecimento de voz (ditado) ao aplicativo LibreOffice.org Writer.
  • Coruja-Navigator - Este trabalho é um primeiro esforço para navegação Web não visual em Português Brasileiro. Com este aplicativo é possível navegar em sites de notícias usando reconhecimento e síntese de voz. Um template deve ser desenvolvido e associado a cada site, possibilitando a análise do conteúdo da página. Nesta versão estamos disponibilizando o aplicativo com o template para o site do jornal Folha de São Paulo.

    P.S: A síntese de voz atualmente é realizada através do sintetizador Nuance Raquel Brazilian Portuguese Female Voice que pode ser adquirido AQUI. Estamos trabalhando para disponibilizar o aplicativo utilizando um sintetizador livre.

  • LaPSeparador 1.0: Implementação do algorítmo do separador silábico para Português Brasileiro e arquivos de teste referente a publicação no STIL13. Para download CLIQUE AQUI
  • UFPAlign 1.0: Plugin para o Praat que alinha foneticamente áudios gerando arquivos TextGrid. Para download CLIQUE AQUI

Aplicações e Recursos para Estudo:

  • Recursos para construir um BP MARY TTS: download

Modelos Acústicos e de Linguagem:

  • LaPSAM v1.5- Modelo acústico construído e adaptado da mesma forma que o LaPSAM v1.3. Diferença: Foram acrescidos 1h e 24 min de áudio na fase de treinamento em relação a versão anterior. Assim, o LaPSAM v1.5 foi treinado com 15h e 41min de áudio.

    Download: x86 x64 Formato HTK ASCII

  • LaPSAM-SimonBR - Baseado no LapsAM v1.5, este modelo acústico foi construído para ser utilizado no software Simon que terá sua versão em Português lançada em breve. Dentre as diferenças com relação ao LapsAM v1.5 tem-se a taxa de amostragem de 16KHz e a utilização de 16 Gaussianas por mistura.
  • LaPSAM v1.3 - Modelo acústico criado com o software HTK. Para treino foi utilizado o corpus LapsStory combinado com as técnicas MLLR+MAP para adaptação de ambiente. Para adaptação foi utilizado todo corpus Spoltech. Utiliza o UFPAdic3.0 com modelos trifones dependentes de contexto (cross-word triphones) com 14 Gaussianas por mistura e taxa de amostragem de 22.050 Hz. O tipo paramétrico utilizado foi o MFCC_E_D_A_Z.
  • LaPSLM v1.0 - Modelo de linguagem n-grama construído com o toolkit SRILM. Para treino foram utilizadas frases dos corpora CETENFolha, Spoltech, OGI-22, Westpoint, LapsStory e LapsNews, totalizando 1,6 milhões de frases. O dicionário utilizado no treino foi o UFPAdic3.0 com 64.972 palavras. O modelo possui perplexidade 169 e a técnica de suaviação (smoothing) utilizada foi a Kneser-Ney discounting.
Dicionários Fonéticos:
  • UFPAdic.2.0 - Versão do dicinário com 32 fones baseados no alfabeto SAMPA.
  • UFPAdic.3.0 - Novo dicionário fonético com 38 fones também baseados no alfabeto SAMPA.

Corpora de voz:

Entre outras, usamos bases de dados de voz pagas (tipo Spoltech, do LDC) para a construção do nosso modelo acústico. Contudo, seria anti-ético e contra a lei disponibilizar os arquivos de áudio (wav's) dessas bases. Por isso, ofertamos apenas as bases de dados coletadas pelo grupo FalaBrasil:

  • LapsBenchMark1.4 - Corpus de voz utilizado para avaliação de desempenho de sistemas LVCSR. Atualmente composto por 700 frases, o corpus possui 35 locutores com 20 frases cada, sendo 25 homens e 10 mulheres, o que corresponde a aproximadamente 54 minutos de áudio. Este corpus será expandido de forma a ter 50 locutores com a mesma distribuição, totalizando 1.000 frases. Todas as gravações foram realizadas em computadores utilizando microfones comuns. A taxa de amostragem utilizada foi de 22.050 Hz e cada amostra foi representada com 16 bits. O ambiente não foi controlado, existindo a presença de ruído nas gravações, com isso busca-se caracterizar ambientes onde softwares de reconhecimento de voz são utilizados.
  • LapsMail1.0 - Corpus de voz que representa o contexto de uma aplicação de correio eletrônico, utilizado para a avaliação de sistemas LVCSR para tarefas de comando e controle. Atualmente, composto por 86 sentenças (43 comando e 43 nomes próprios) gravados por 25 voluntários (21 homens e 4 mulheres), o que corresponde a 84 minutos minutos de áudio com um vocabulário de 95 palavras. As gravações foram realizadas com um microfone de alta qualidade (Shure PG30) em um ambiente de gravação não controlado.
  • Constituição1.0 - Corpus de voz da Constituição Federal. Os arquivos de áudio foram reamostrados para 22.050 Hz com 16 bits. Em seguida, os arquivos foram segmentados em arquivos menores, com aproximadamente 30 segundos de duração cada, e por fim transcritos. Atualmente, o corpus é composto por um locutor do sexo masculino. Os arquivos totalizam aproximadamente 9 horas de áudio. O ambiente de gravação utilizado é bastante controlado.

Corpora de textos:

  • TextCorpora1.5 - Conjunto de frases utilizadas para treino de modelos de linguagem.
  • LapsNews1.0 - (antigo LapsFolha) - Primeira versão do novo corpora de texto baseado em extração automática de textos da web. Versão com 120 mil frases.

Scripts para treino de Modelos Acústicos e de Linguagem:

  • Modelo Acústico - Conjunto de scripts utilizados para treino e teste de modelos acústicos utilizando o pacote de ferramentas HTK.
  • Modelo Acústico para Sphinx - Conjunto de arquivos para auxiliar no treinamento de modelos acústicos utilizando o software Sphinx e o corpus Constituição1.0. Esses arquivos podem ser utilizados enquanto seguindo o tutorial para treinamento de modelos acústicos disponibilizado no site do projeto cmusphinx.
  • Modelo de Linguagem - Conjunto de scripts utilizados para treinar modelos de linguagem utilizando os pacotes HTK e SRILM.
  • Adaptação de Locutor - Conjunto de scripts utilizados para adaptar o modelo acústico a voz de um locutor utilizando o pacote de ferramentas HTK.

Scripts para o WestPoint:

  • Westpoint - Conjunto de scripts utilizados para treinar modelos acústicos com o corpus Westpoint.

Scripts para o OGI 22 Language:

  • OGI-22 - Conjunto de scripts utilizados para treinar modelos acústicos com o corpus OGI-22.
Fala Brasil - Laboratório de Processamento de Sinais
Grupos do Google
Coruja Users
Visitar este grupo
FalaBrasil - www.laps.ufpa.br/falabrasil - Desenvolvido e mantido por Carlos Patrick Alves