Leitura labial - Lip reading

A leitura labial , também conhecida como leitura da fala , é uma técnica de compreensão da fala por meio da interpretação visual dos movimentos dos lábios, rosto e língua quando o som normal não está disponível. Também se baseia em informações fornecidas pelo contexto, conhecimento do idioma e qualquer audição residual. Embora a leitura labial seja usada mais extensivamente por pessoas surdas e com deficiência auditiva, a maioria das pessoas com audição normal processa algumas informações de fala ao ver o movimento da boca.

Processo

Embora a percepção da fala seja considerada uma habilidade auditiva, ela é intrinsecamente multimodal, pois a produção da fala exige que o falante faça movimentos de lábios, dentes e língua, muitas vezes visíveis na comunicação face a face. As informações dos lábios e do rosto auxiliam na compreensão auditiva e a maioria dos ouvintes fluentes de um idioma são sensíveis às ações de fala visíveis (veja o efeito McGurk ). A extensão em que as pessoas fazem uso das ações da fala vista varia de acordo com a visibilidade da ação da fala e o conhecimento e a habilidade de quem percebe.

Fonemas e visemas

O fonema é a menor unidade de som detectável em uma linguagem que serve para distinguir as palavras umas das outras. / pit / e / pik / diferem em um fonema e referem-se a conceitos diferentes. O inglês falado tem cerca de 44 fonemas. Para leitura labial, o número de unidades visualmente distintas - visemas - é muito menor, portanto, vários fonemas são mapeados em alguns poucos visemas. Isso ocorre porque muitos fonemas são produzidos na boca e na garganta e não podem ser vistos. Isso inclui consoantes glóticas e a maioria dos gestos da língua. Os pares sonoros e não sonoros parecem idênticos, como [p] e [b], [k] e [g], [t] e [d], [f] e [v] e [s] e [z]; da mesma forma para a nasalização (por exemplo, [m] vs. [b]). Homofenos são palavras que parecem semelhantes quando lidas labialmente , mas que contêm fonemas diferentes. Como há cerca de três vezes mais fonemas do que visemas em inglês, costuma-se afirmar que apenas 30% da fala pode ser lida labial. Os homofenos são uma fonte crucial de leitura labial errônea.

A lenda deste quebra-cabeça diz: "Aqui está uma classe de uma dúzia de meninos, que, sendo chamados para dar seus nomes, foram fotografados pelo processo instantâneo, exatamente quando cada um estava começando a pronunciar seu próprio nome. Os doze nomes eram Oom, Alden , Eastman, Alfred, Arthur, Luke, Fletcher, Matthew, Theodore, Richard, Shirmer e Hisswald. Agora, não parece possível ser capaz de dar o nome correto a cada um dos doze meninos, mas se você praticar a lista novamente para cada um, você não achará difícil localizar o nome próprio para cada um dos meninos. "

Coarticulação

Visemes podem ser capturados como imagens estáticas, mas a fala se desenrola no tempo. A articulação suave dos sons da fala em sequência pode significar que os padrões da boca podem ser 'moldados' por um fonema adjacente: o 'e' som em 'dente' e em 'dentes' parece muito diferente por causa do contexto vocálico . Esta característica da leitura dinâmica da fala afeta a leitura labial "além do viseme".

Como pode 'funcionar' com tão poucos visemas?

A distribuição estatística dos fonemas no léxico de uma língua é desigual. Embora existam grupos de palavras que são fonemicamente semelhantes entre si ('vizinhos lexicais', como cuspir / sip / sentar / stick ... etc.), Outras são diferentes de todas as outras palavras: são 'únicas' em termos de a distribuição de seus fonemas ('guarda-chuva' pode ser um exemplo). Usuários habilidosos da língua trazem esse conhecimento ao interpretar a fala, então geralmente é mais difícil identificar uma palavra ouvida com muitos vizinhos lexicais do que uma com poucos vizinhos. Aplicando esse insight à fala visível, algumas palavras da língua podem ser lidas labial de forma inequívoca, mesmo quando contêm poucos visemas - simplesmente porque nenhuma outra palavra poderia "caber".

Variação na legibilidade e habilidade

Muitos fatores afetam a visibilidade de um rosto falante, incluindo iluminação, movimento da cabeça / câmera, taxa de quadros da imagem em movimento e distância do observador (ver, por exemplo). O movimento da cabeça que acompanha a fala normal também pode melhorar a leitura labial, independentemente das ações orais. No entanto, quando a leitura labial está conectada , o conhecimento do espectador sobre a linguagem falada, a familiaridade com o falante e o estilo de fala e o contexto do material de leitura labial são tão importantes quanto a visibilidade do falante. Embora a maioria das pessoas com audição seja sensível à fala vista, existe uma grande variabilidade na habilidade individual de leitura da fala. Bons distribuidores de texto são frequentemente mais precisos do que distribuidores de texto ruins na identificação de fonemas da fala visual.

Uma simples medida visêmica de 'espalhamento' foi questionada por alguns pesquisadores. A medida de 'classe de equivalência de fonema' leva em consideração a estrutura estatística do léxico e também pode acomodar diferenças individuais na capacidade de leitura labial. Em linha com isso, leitura labial excelente está frequentemente associada a habilidades cognitivas de base mais ampla, incluindo proficiência geral da linguagem, funções executivas e memória de trabalho .

Lipreading e aprendizagem de línguas em bebês e crianças ouvintes

Os primeiros meses

Ver a boca desempenha um papel na sensibilidade à fala de bebês muito pequenos e os prepara para se tornarem falantes entre 1 e 2 anos. Para imitar, o bebê deve aprender a moldar os lábios de acordo com os sons que ouve; ver o orador pode ajudá-los a fazer isso. Os recém-nascidos imitam os movimentos da boca do adulto, como esticar a língua ou abrir a boca, o que pode ser um precursor para imitações posteriores e aprendizado posterior da língua. Os bebês ficam perturbados quando a fala audiovisual de um falante familiar é dessincronizada e tendem a mostrar padrões de aparência diferentes para rostos familiares e desconhecidos quando combinados com vozes (gravadas). Os bebês são sensíveis às ilusões de McGurk meses antes de aprenderem a falar. Esses estudos e muitos outros apontam para um papel da visão no desenvolvimento da sensibilidade à fala (auditiva) no primeiro semestre de vida.

Os próximos seis meses; um papel na aprendizagem de uma língua nativa

Até por volta dos seis meses de idade, a maioria dos bebês com audição é sensível a uma ampla gama de gestos da fala - incluindo aqueles que podem ser vistos na boca - que podem ou não fazer parte da fonologia de sua língua nativa posteriormente . Mas, no segundo semestre de vida, o bebê ouvinte apresenta estreitamento perceptivo para a estrutura fonética de sua própria língua - e pode perder a sensibilidade precoce para padrões bucais que não são úteis. Os sons da fala / v / e / b / visemicamente distintos em inglês, mas não em espanhol castelhano, são distinguidos com precisão em bebês expostos ao espanhol e ao inglês até a idade de cerca de 6 meses. No entanto, bebês mais velhos expostos ao espanhol perdem a capacidade de "ver" essa distinção, enquanto ela é mantida para bebês expostos ao inglês. Esses estudos sugerem que, em vez de a audição e a visão se desenvolverem de maneiras independentes na infância, o processamento multimodal é a regra, não a exceção, no desenvolvimento (da linguagem) do cérebro infantil.

Produção inicial da linguagem: um a dois anos

Dados os muitos estudos que indicam um papel da visão no desenvolvimento da linguagem em bebês pré-linguais, os efeitos da cegueira congênita no desenvolvimento da linguagem são surpreendentemente pequenos. Crianças de 18 meses aprendem novas palavras mais prontamente quando as ouvem, e não as aprendem quando são mostrados os movimentos da fala sem ouvir. No entanto, crianças cegas de nascimento podem confundir / m / e / n / em sua própria produção inicial de palavras em inglês - uma confusão raramente vista em crianças com visão auditiva, uma vez que / m / e / n / são visivelmente distintos, mas auditivamente confundíveis. O papel da visão em crianças de 1 a 2 anos pode ser menos crítico para a produção de sua língua nativa, uma vez que, nessa idade, elas já adquiriram as habilidades necessárias para identificar e imitar os sons da fala. No entanto, ouvir uma língua não nativa pode desviar a atenção da criança para o envolvimento visual e auditivo por meio da leitura labial e da escuta para processar, compreender e produzir a fala.

Na infância

Estudos com bebês e crianças pré-linguais usam medidas indiretas, não verbais, para indicar a sensibilidade à fala vista. A leitura labial explícita pode ser testada de forma confiável em crianças em idade pré-escolar, pedindo-lhes que "digam em voz alta o que eu digo silenciosamente". Em crianças em idade escolar, a leitura labial de palavras conhecidas de conjunto fechado, como palavras numéricas, pode ser facilmente detectada. Diferenças individuais na habilidade de leitura labial, conforme testado pedindo à criança para 'falar a palavra que você leu labial', ou combinando uma expressão de leitura labial a uma imagem, mostram uma relação entre habilidade de leitura labial e idade.

Em adultos ouvintes: considerações sobre o tempo de vida

Enquanto a leitura labial da fala silenciosa representa um desafio para a maioria das pessoas que ouvem, adicionar a visão do falante à fala ouvida melhora o processamento da fala em muitas condições. Os mecanismos para isso, e as maneiras precisas em que a leitura labial ajuda, são tópicos de pesquisas atuais. Ver o falante ajuda em todos os níveis de processamento da fala, desde a discriminação de traços fonéticos até a interpretação de declarações pragmáticas . Os efeitos positivos de adicionar visão à fala ouvida são maiores em ambientes ruidosos do que silenciosos, onde, ao tornar a percepção da fala mais fácil, ver o falante pode liberar recursos cognitivos, permitindo um processamento mais profundo do conteúdo da fala.

À medida que a audição se torna menos confiável na velhice, as pessoas tendem a confiar mais na leitura labial e são encorajadas a fazê-lo. No entanto, uma maior confiança na leitura labial nem sempre compensa os efeitos da perda auditiva relacionada à idade. O declínio cognitivo no envelhecimento pode ser precedido e / ou associado à perda auditiva mensurável. Assim, a leitura labial nem sempre pode compensar totalmente os decréscimos auditivos e cognitivos associados à idade.

Em populações específicas (auditivas)

Vários estudos relatam anomalias de leitura labial em populações com distúrbios de desenvolvimento distintos. Autismo : pessoas com autismo podem apresentar redução da capacidade de leitura labial e redução da dependência da visão na percepção audiovisual da fala. Isso pode estar associado a anomalias do olhar no rosto nessas pessoas. Síndrome de Williams : Pessoas com síndrome de Williams apresentam alguns déficits na leitura da fala que podem ser independentes de suas dificuldades visuoespaciais. Comprometimento específico de linguagem : crianças com DEL também apresentam sensibilidade reduzida à leitura labial, assim como pessoas com dislexia .

Surdez

O debate tem ocorrido por centenas de anos sobre o papel da leitura labial (' oralismo ') em comparação com outros métodos de comunicação (mais recentemente, comunicação total ) na educação de pessoas surdas. A extensão em que uma ou outra abordagem é benéfica depende de uma série de fatores, incluindo o nível de perda auditiva da pessoa surda, a idade da perda auditiva, o envolvimento dos pais e a (s) língua (s) dos pais. Depois, há uma pergunta sobre os objetivos da pessoa surda e sua comunidade e cuidadores. O objetivo da educação é melhorar a comunicação em geral, desenvolver a linguagem de sinais como primeira língua ou desenvolver habilidades na língua falada pela comunidade ouvinte? Os pesquisadores agora se concentram em quais aspectos da linguagem e da comunicação podem ser mais bem ministrados por quais meios e em quais contextos, considerando o estado de audição da criança e de sua família e seus planos educacionais. O bilinguismo bimodal (proficiência na fala e na linguagem de sinais) é uma abordagem atual dominante na educação de línguas para crianças surdas.

Pessoas surdas costumam ler melhor os lábios do que pessoas com audição normal. Alguns surdos atuam como distribuidores de lábios profissionais, por exemplo, leitura forense de lábios . Em pessoas surdas que têm um implante coclear , a habilidade de leitura labial pré-implante pode prever o processamento da fala pós-implante (auditivo ou audiovisual). Para muitas pessoas surdas, o acesso à comunicação falada pode ser facilitado quando uma mensagem falada é transmitida por um orador profissional treinado .

Em relação à leitura labial e ao desenvolvimento da alfabetização, as crianças surdas geralmente apresentam atraso no desenvolvimento das habilidades de alfabetização , o que pode refletir dificuldades em adquirir elementos da linguagem falada. Em particular, o mapeamento fonema-grafema confiável pode ser mais difícil para crianças surdas, que precisam ser leitores de fala habilidosos para dominar essa etapa necessária na aquisição da alfabetização. A habilidade de leitura labial está associada a habilidades de alfabetização em surdos adultos e crianças e o treinamento em leitura labial pode ajudar a desenvolver habilidades de alfabetização.

A fala com pistas usa leitura labial acompanhada de formas de mão que elimina a ambigüidade da forma de lábios visêmica (consoante). Diz-se que a fala com pistas é mais fácil de aprender para os pais ouvintes do que a linguagem de sinais, e estudos, principalmente na Bélgica, mostram que uma criança surda exposta à fala com pistas na infância pode fazer um progresso mais eficiente no aprendizado de uma língua falada do que apenas com leitura labial. O uso da fala com pistas no implante coclear para surdez é provavelmente positivo. Uma abordagem semelhante, envolvendo o uso de formas de mãos que acompanham a fala visível, é a Visual Phonics , que é usada por alguns educadores para apoiar a aprendizagem da linguagem escrita e falada.

Ensino e treinamento

O objetivo do ensino e do treinamento em leitura labial é desenvolver a consciência da natureza da leitura labial e praticar maneiras de melhorar a capacidade de perceber a fala 'a olho'. As aulas de leitura labial , muitas vezes chamadas de aulas de leitura labial e de gerenciamento de perda auditiva , são destinadas principalmente a adultos com perda auditiva. A maior proporção de adultos com perda auditiva tem uma perda relacionada à idade ou ao ruído ; com ambas as formas de perda auditiva, os sons de alta frequência são perdidos primeiro. Como muitas das consoantes da fala são sons de alta frequência, a fala fica distorcida. Os aparelhos auditivos ajudam, mas podem não curar isso. As aulas de lipreading demonstraram ser benéficas em estudos no Reino Unido encomendados pela instituição de caridade Action on Hearing Loss (2012).

Os treinadores reconhecem que a leitura labial é uma arte inexata. Os alunos são ensinados a observar os movimentos dos lábios, da língua e da mandíbula, a seguir o estresse e o ritmo da linguagem, a usar sua audição residual, com ou sem aparelhos auditivos, a observar a expressão e a linguagem corporal e a usar sua capacidade de raciocinar e deduzir . Eles aprendem o alfabeto dos lábios , grupos de sons que se parecem nos lábios (visemes) como p, b, m ou f, v. O objetivo é obter a essência, de modo a ter confiança para entrar na conversa e evitar o isolamento social prejudicial que muitas vezes acompanha a perda auditiva. As aulas de lipreading são recomendadas para quem tem dificuldade em ouvir no ruído e ajudam a se ajustar à perda auditiva. ATLA (Association for Teaching Lipreading to Adults) é a associação profissional do Reino Unido para tutores qualificados de leitura labial.

Testes

A maioria dos testes de leitura labial foram concebidos para medir as diferenças individuais na execução de tarefas específicas de processamento de fala e para detectar mudanças no desempenho após o treinamento. Os testes de lipreading têm sido usados ​​com grupos relativamente pequenos em ambientes experimentais ou como indicadores clínicos com pacientes e clientes individuais. Ou seja, os testes de leitura labial até o momento têm validade limitada como marcadores de habilidade de leitura labial na população em geral.

Lipreading e fala labial por máquina

A leitura labial automatizada tem sido um tópico de interesse na engenharia computacional, bem como em filmes de ficção científica . O engenheiro computacional Steve Omohundro , entre outros, foi o pioneiro em seu desenvolvimento. Na animação facial , o objetivo é gerar ações faciais realistas, especialmente movimentos da boca, que simulam ações da fala humana. Algoritmos de computador para deformar ou manipular imagens de rostos podem ser acionados por linguagem escrita ou ouvida. Os sistemas podem ser baseados em modelos detalhados derivados de movimentos faciais ( captura de movimento ); na modelagem anatômica das ações da mandíbula, boca e língua; ou no mapeamento de propriedades viseme-fonemas conhecidas. A animação facial tem sido usada no treinamento de leitura de fala (demonstrando como os diferentes sons 'parecem'). Esses sistemas são um subconjunto da modelagem de síntese de fala que visa fornecer saídas confiáveis ​​de 'texto para (visto) -falar'. Um objetivo complementar - o inverso de fazer rostos se moverem na fala - é desenvolver algoritmos de computador que podem fornecer interpretações realistas da fala (ou seja, uma transcrição escrita ou registro de áudio) a partir de dados de vídeo naturais de um rosto em ação: este é o reconhecimento de fala facial. Esses modelos também podem ser obtidos a partir de uma variedade de dados. O reconhecimento visual automático de voz a partir de vídeo tem tido bastante sucesso em distinguir diferentes idiomas (a partir de um corpus de dados de linguagem falada). Modelos de demonstração, usando algoritmos de aprendizado de máquina, tiveram algum sucesso na leitura labial de elementos da fala, como palavras específicas, de vídeo e na identificação de fonemas difundidos de difícil compreensão a partir de ações da boca visemicamente semelhantes. A leitura de voz baseada em máquina agora está fazendo uso bem-sucedido de algoritmos baseados em rede neural que usam grandes bancos de dados de alto-falantes e material de fala (seguindo o modelo de sucesso para reconhecimento auditivo automático de fala ).

Os usos para leitura labial por máquina podem incluir leitura labial automatizada de registros apenas de vídeo, leitura labial automatizada de alto-falantes com trato vocal danificado e processamento de fala em vídeo face a face (ou seja, de dados de videofone). Leitura labial automatizada pode ajudar no processamento de fala barulhenta ou desconhecida. A leitura labial automatizada pode contribuir para a identificação biométrica de pessoas, substituindo a identificação baseada em senha.

O cérebro

Após a descoberta de que as regiões auditivas do cérebro , incluindo o giro de Heschl , foram ativadas pela fala observada, o circuito neural para leitura da fala mostrou incluir regiões de processamento supramodal, especialmente sulco temporal superior (todas as partes), bem como regiões occipital-temporais inferiores posteriores incluindo regiões especializadas para o processamento de rostos e movimento biológico . Em alguns estudos, mas não em todos, a ativação da área de Broca é relatada para a leitura da fala, sugerindo que os mecanismos articulatórios podem ser ativados na leitura da fala. Estudos da evolução temporal do processamento audiovisual da fala mostraram que a visão da fala pode preparar regiões de processamento auditivo antes do sinal acústico. Uma melhor habilidade de leitura labial está associada a uma maior ativação no sulco temporal superior (esquerdo) e nas regiões temporais inferiores (visuais) adjacentes em pessoas que ouvem. Em pessoas surdas, o circuito dedicado à leitura da fala parece ser muito semelhante ao das pessoas que ouvem, com associações semelhantes de ativação temporal superior (esquerda) e habilidade de leitura labial.

Referências

Bibliografia

  • D.Stork e M.Henneke (Eds) (1996) Speechreading by Humans and machines: Models, Systems and Applications. Nato ASI series F Computer and Systems sciences Vol 150. Springer, Berlin Germany
  • E.Bailly, P.Perrier e E.Vatikiotis-Bateson (Eds) (2012) Audiovisual Speech processing, Cambridge University press, Cambridge UK
  • Hearing By Eye (1987) , B.Dodd e R. Campbell (Eds), Erlbaum Asstes, Hillsdale NJ, EUA; Hearing by Eye II , (1997) R.Campbell, B.Dodd e D.Burnham (Eds), Psychology Press, Hove UK
  • DW Massaro (1987, reimpresso em 2014) Percepção da fala pelo ouvido e pelo olho , Lawrence Erlbaum Associates, Hillsdale NJ

Leitura adicional

links externos