Especificações técnicas e recomendações de uso
- Recomendações gerais:
- A precisão do reconhecimento de voz do VeriSpeak depende da qualidade do áudio durante o cadastro e a identificação.
- Recomenda-se o uso de amostras de voz com duração mínima de 2 segundos para garantir a qualidade do reconhecimento do locutor.
- A senha deve ser mantida em segredo e não deve ser dita em um ambiente onde outras pessoas possam ouvi-la, caso o sistema de reconhecimento de voz seja utilizado em um cenário com frases exclusivas para cada usuário.
- O reconhecimento de voz independente de texto pode ser vulnerável a ataques com frases gravadas secretamente por uma pessoa. A verificação por senha ou a autenticação de dois fatores (ou seja, a exigência de digitar uma senha) aumentará a segurança geral do sistema .
- Microfones– não há restrições específicas quanto a modelos ou fabricantes ao usar microfones comuns de PC, headsets ou os microfones integrados em laptops, smartphones e tablets. No entanto, os seguintes fatores devem ser observados:
- Recomenda-se (se possível) o uso do mesmo modelo de microfone tanto durante o cadastro quanto no reconhecimento, pois modelos diferentes podem produzir qualidades de som distintas. Alguns modelos também podem introduzir ruídos ou distorções específicas no áudio, ou incluir certos processamentos de som por hardware, que não estarão presentes em modelos diferentes. Este procedimento também é recomendado ao usar smartphones ou tablets , já que diferentes modelos de dispositivos podem alterar a gravação da voz de maneiras distintas.
- Recomenda-se que o microfone permaneça na mesma posição e distância durante o cadastro e o reconhecimento. Fones de ouvido proporcionam a distância ideal entre o usuário e o microfone; essa distância é recomendada quando microfones externos são utilizados.
- Os microfones embutidos nas webcams devem ser usados com cautela , pois geralmente ficam posicionados a uma distância considerável do usuário e podem apresentar qualidade de som inferior. A qualidade do som pode ser afetada caso o usuário mude de posição em relação à webcam posteriormente.
- Configurações de som:
- É preciso garantir configurações para um som nítido ; alguns softwares, hardwares ou drivers de áudio podem ter a modificação de som ativada por padrão. Por exemplo, o sistema operacional Microsoft Windows geralmente tem o reforço de som ativado por padrão.
- Para a gravação de voz, deve-se utilizar uma taxa de amostragem mínima de 8000 Hz, com profundidade de pelo menos 16 bits .
- Restrições ambientais– o mecanismo de reconhecimento de voz do VeriSpeak é sensível a ruídos ou vozes altas ao fundo ; estes podem interferir na voz do usuário e afetar os resultados do reconhecimento. As seguintes soluções podem ser consideradas para reduzir ou eliminar esses problemas:
- Um ambiente tranquilo para matrícula e reconhecimento.
- Diversas amostras da mesma frase, gravadas em diferentes ambientes, podem ser armazenadas em um modelo biométrico. Posteriormente, o usuário será comparado a essas amostras com uma qualidade de reconhecimento muito maior.
- Microfones de curto alcance(como os de fones de ouvido ou smartphones) que não são afetados por fontes sonoras distantes.
- Soluções de terceiros ou personalizadas para redução de ruído de fundo, como o uso de dois microfones separados para gravar a voz do usuário e o som de fundo, e posteriormente subtrair o ruído de fundo da gravação.
- Comportamento do usuário e alterações de voz:
- Alterações naturais na voz podem afetar a precisão do reconhecimento do falante:
- Uma rouquidão temporária causada por um resfriado ou outra doença;
- diferentes estados emocionais que afetam a voz (ex.: uma voz alegre versus uma voz cansada);
- Diferentes velocidades de pronúncia durante a inscrição e a identificação.
- As alterações de voz e comportamento do usuário mencionadas anteriormente podem ser gerenciadas de duas maneiras:
- Inscrições separadas para a voz alterada, armazenando os registros no mesmo modelo da pessoa;
- Uma voz controlada e neutra durante o cadastro e a identificação.
- Alterações naturais na voz podem afetar a precisão do reconhecimento do falante:
Todos os modelos de voz devem ser carregados na RAM antes da identificação; portanto, o tamanho máximo do banco de dados de modelos de voz é limitado pela quantidade de RAM disponível.
O tamanho do modelo de impressão vocal tem uma dependência linear em relação à duração da amostra de voz. Por exemplo, ao usar amostras de voz com duração duas vezes menor, os valores do tamanho do modelo serão duas vezes menores.
O mecanismo VeriSpeak 2025.2, dependente de texto, pode realizar a correspondência de modelos em dois modos:
- Frase fixa– cada indivíduo no banco de dados registrou a mesma frase. Esse modo proporciona uma correspondência mais rápida , porém com menor confiabilidade.
- Frase única– cada indivíduo no banco de dados registrou uma frase única. Esse modo oferece maior confiabilidade , mas a correspondência é mais lenta.
O algoritmo de extração e correspondência de modelos biométricos VeriSpeak foi projetado para funcionar em processadores multi-core, permitindo alcançar o máximo desempenho possível no hardware utilizado.
| Especificações do mecanismo de impressão de voz dependente de texto VeriSpeak 2025.2 | ||||
Plataforma embarcada/móvel | plataforma baseada em PC | |||
| Componentes de extração de modelos | Extrator de voz móvel | Cliente de voz móvel | Extrator de Voz | Cliente de voz |
| Velocidade de extração de modelos (impressões de voz por minuto) | 45 ( 1 ) | 50 ( 1 ) | 45 ( 2 ) | 100 ( 2 ) |
| Componentes correspondentes ao modelo | Correspondência de voz móvel | Compatibilidade de Voz | ||
| Velocidade de correspondência de modelos (impressões de voz por segundo) | 100 ( 1 ) | 8.000 ( 2 ) | ||
| Tamanho de um único registro de impressão vocal em um modelo, quando amostras de voz de 5 segundos de duração são usadas (em bytes) | 3.500 – 4.500 | |||
Notas:
(1) Requer ser executado em um iPhone ou em dispositivos Android baseados em pelo menos um sistema em chip Snapdragon S4 com processador Krait 300 (4 núcleos, 1,51 GHz).
(2) Requer ser executado em PC ou laptop com pelo menos processador Intel Core i7-8700K .
