VERISPEAK SDK 13.0

Recomendações de Uso

Recomendações gerais:
- A precisão do reconhecimento de alto-falante do VeriSpeak depende da qualidade do áudiodurante o registro e a identificação.
- Amostras de voz de pelo menos 2 segundos de duração são recomendadaspara garantir a qualidade do reconhecimento do locutor.
- Uma frase secreta deve ser mantida em segredo e não falada em um ambiente onde outras pessoas possam ouvi-lase o sistema de reconhecimento de locutor for usado em um cenário com frases exclusivas para cada usuário.
- O reconhecimento de voz independente de textopode ser vulnerável a ataques com uma frase gravada secretamente por uma pessoa. A verificação de senha ou autenticação de dois fatores (ou seja, requisito para digitar uma senha) aumentará a segurança geral do sistema.

Microfones– não há restrições específicas sobre alto-falantes ou fabricantes ao usar microfones comuns de PC, headsets ou microfones embutidos em laptops, smartphones e tablets. No entanto, esses fatores devem ser observados:
- O mesmo template de microfoneé recomendado (se possível) para uso durante o registro e o reconhecimento, pois templates diferentes podem produzir qualidade de som diferente. Alguns templates também podem introduzir ruído ou distorção específicos no áudio ou podem incluir certo processamento de som de hardware, que não estará presente ao usar um template diferente. Este também é o procedimento recomendado quando se utiliza smartphones ou tablets, pois diferentes templates de aparelhos podem alterar a gravação da voz de formas distintas.
- A mesma posiçãoe distância do microfone são recomendadas durante o registro e o reconhecimento. Os fones de ouvido proporcionam uma distância ideal entre o usuário e o microfone; essa distância é recomendada quando são usados microfones sem fone de ouvido.
- Microfones embutidos em webcamsdevem ser usados com cuidado, pois geralmente são posicionados a uma distância bastante longa do usuário e podem fornecer qualidade de som inferior. A qualidade do som pode ser afetada se os usuários alterarem posteriormente sua posição em relação à webcam.

Definições de som:
- As configurações para som clarodevem ser asseguradas; alguns softwares, hardwares ou drivers de áudio podem ter a modificação de som habilitada por padrão. Por exemplo, o sistema operacional Microsoft Windows geralmente tem, por padrão, o aumento de som ativado.
- Uma taxa de amostragem mínima de 8.000 Hz, com pelo menos 16 bitsde profundidade, deve ser usada durante a gravação de voz.
Restrições do ambiente– o mecanismo de reconhecimento de alto-falante do VeriSpeak é sensível a ruídos ou vozes altas no fundo; eles podem interferir na voz do usuário e afetar os resultados do reconhecimento. Estas soluções podem ser consideradas para reduzir ou eliminar estes problemas:
- Um ambiente tranquilopara inscrição e reconhecimento.
- Várias amostras da mesma frasegravadas em diferentes ambientes podem ser armazenadas em um template biométrico. Mais tarde, o usuário será confrontado com essas amostras com qualidade de reconhecimento muito maior.
- Microfones de curto alcance(como aqueles em fones de ouvido ou smartphones) que não são afetados por fontes distantes de som.
- Soluções de terceiros ou personalizadas para redução de ruído de fundo, como usar dois microfones separados para gravar a voz do usuário e o som de fundo e, posteriormente, subtrair o ruído de fundo da gravação.
Mudanças de comportamento e voz do usuário:
- Mudanças naturais de voz podem afetar a precisão do reconhecimento do locutor:
  - uma voztemporariamente rouca causada por um resfriado ou outra doença;
  - diferentes estados emocionaisque afetam a voz (ou seja, uma voz alegre versus uma voz cansada);
  - diferentes velocidades de pronúnciadurante a inscrição e identificação.
- As alterações de voz e comportamento do usuário mencionadas acima podem ser gerenciadasde duas maneiras:
  - cadastros separadospara a voz alterada, armazenando os registros no template da mesma pessoa;
  - uma voz controlada e neutradurante a inscrição e identificação.

Todos os templates de voz devem ser carregados na RAM antes da identificação, portanto, o tamanho máximo do banco de dados do template de voz é limitado pela quantidade de RAM disponível.

O tamanho do template de impressão de voz tem dependência linear do comprimento da amostra de voz.

Por exemplo, ao usar amostras de voz 2 vezes mais curtas, os valores de tamanho do template serão 2 vezes menores.

O mecanismo dependente de texto do VeriSpeak 13.0 pode executar identificação de template em dois modos:

Frase fixa– cada sujeito no banco de dados registrou a mesma frase. Este modo fornece identificação mais rápida, mas menor confiabilidade.
Frase única– cada sujeito no banco de dados registrou uma frase única. Este modo oferece maior confiabilidade, mas identificação mais lenta.

O algoritmo de extração e identificação de template biométrico VeriSpeak foi projetado para ser executado em processadores multi-core, permitindo alcançar o desempenho máximo possível no hardware usado.

Especificações do mecanismo de impressão de voz dependente de texto VeriSpeak 13.0
	Plataforma baseada em Android		plataforma baseada em PC
Componentes de Extração de Template	Voice Extractor móvel	Voice Client móvel	Voice Extractor	Voice Client
Velocidade de extração do template (impressões de voz por minuto)	45 ^( 1 )	50 ^( 1 )	45 ^( 2 )	100 ^( 2 )
Componentes de Matching de Template	Voice Matcher Móvel		Voice Matcher
Velocidade de Matching do Template (impressões de voz por segundo)	100 ^( 1 )		8.000 ^( 2 )
Tamanho de registro de impressão de voz único em um template, quando amostras de voz de 5 segundos são usadas (bytes)	3.500 – 4.500

Notas:

(1) Requer ser executado em dispositivos Android baseados em, pelo menos, Snapdragon S4 system-on-chip com processador Krait 300 (4 núcleos, 1,51 GHz).

(2) Requer para ser executado em PC ou laptop com pelo menos processador Intel Core i7-8700K .

VERISEPAK RECOMENDACOES

VERISPEAK SDK 13.0

Recomendações de Uso

Recomendações gerais:

Definições de som:

Notas:

Sobre

Distributors

Siga-nos