Audio-to-video sincronização - Audio-to-video synchronization

Áudio-para-vídeo sincronização (também conhecido como sincronização de bordo , ou pela falta dela: erro de sincronização lábio , aba labial ) refere-se à temporização relativa de áudio (som) e video (imagem) partes durante a criação, de pós-produção ( mistura), transmissão , recepção e processamento de play-back. Sincronização AV pode ser um problema na televisão , videoconferência , ou filme .

Na terminologia indústria de erro de sincronização labial é expressa como uma quantidade de tempo que o áudio sai de perfeita sincronização com o vídeo onde um número tempo positivo indica o áudio leva o vídeo e um número negativo indica o áudio fica o vídeo. Esta terminologia e padronização do erro de sincronia labial numérico é utilizado na indústria de broadcast profissional como evidenciado pelos vários papéis profissionais, normas como a ITU-R BT.1359-1, e outras referências abaixo.

Digital ou analógico fluxos de vídeo de áudio ou arquivos de vídeo geralmente contêm algum tipo de mecanismo de sincronização, seja em forma de vídeo intercalado e dados de áudio ou por relação explícita timestamping de dados. O processamento de dados deve respeitar o sincronismo de dados relativa por exemplo, estendendo-se entre ou interpolação dos dados recebidos. Se o processamento não respeita o erro AV-sync, que irá aumentar sempre que os dados se perde por causa de erros de transmissão ou por causa de falta ou mis-cronometrado processamento.

incorretamente sincronizado

Há diferentes maneiras em que o AV-sync pode ficar sincronizados incorretamente:

  • Durante a criação erros AV-sync acontecer por causa de
    • Erro AV-sync interno: Diferentes processamento de sinal atrasos entre imagem e som em câmera de vídeo e microfone . O intervalo AV-sincronização está normalmente fixo.
    • Erro AV-sync externo: Se um microfone está colocado longe da fonte de som, o áudio será fora de sincronia, pois a velocidade do som é muito menor do que a velocidade da luz . Se a fonte de som é de 340 metros do microfone, em seguida, o som chega a cerca de 1 segundo depois do que a luz. O atraso AV-sync aumenta com a distância.
  • Durante a mistura de clipes de vídeo normalmente ou o áudio ou vídeo precisa ser adiada para que eles sejam sincronizados. O atraso AV-sync é estático, mas pode variar de acordo com o clipe individual.
  • Edição de vídeo efeitos.

Exemplos de transmissão ( transmissão ), recepção e reprodução que podem chegar a AV-sync sincronizados incorretamente:

  • Uma câmara de vídeo com microfones embutidos ou linha de entrada pode não atrasar caminhos de som e video pelo mesmo número de milissegundos. Uma câmera de vídeo deve ter algum tipo de explícita sincronismo AV-sync colocar nas transmissões de vídeo e áudio. Câmaras de vídeo de estado sólido (por exemplo, dispositivo de carga acoplada (CCD) e sensores de imagem CMOS ) podem atrasar o sinal de vídeo por um ou mais quadros.
  • Um AV-stream podem ser corrompidos durante a transmissão por causa elétricos falhas (com fio) ou interrupções sem fio - o que pode causar-lhe tornar-se fora de sincronia. O intervalo AV-sync normalmente aumenta com o tempo.
  • Há amplo uso de circuitos de processamento de sinal de áudio e vídeo com atrasos significativos (e muitas vezes não constantes) em sistemas de televisão. Circuitos de processamento de sinal de vídeo em particular que é amplamente utilizado e contribui atrasos significativos de vídeo incluem sincronizadores de quadro, processadores de efeitos de vídeo digital, a redução de ruído de vídeo, conversores de formato e sistemas de compressão .
  • O circuito de processamento de monitor de vídeo pode atrasar o fluxo de vídeo. Exibe pixelizada exigem vídeo conversão de formatos e processamento de desentrelaçamento que pode adicionar um ou mais quadros de atraso de vídeo.
  • Um monitor de vídeo com alto-falantes embutidos ou de saída de linha pode não atrasar caminhos de som e vídeo pelo mesmo número de milissegundos. Alguns monitores de vídeo contêm atrasos de áudio internos ajustáveis ​​pelo usuário para auxiliar na correção de erros.
  • Alguns protocolos de transmissão, como RTP requerem um método de out-of-band para a sincronização de fluxos de mídia. No caso da RTP, cada fluxo de mídia tem seu próprio timestamp usando um clock independente e per-stream randomizados valor inicial. A RTCP Relatório Sender (SR) é necessária para cada fluxo , a fim de sincronizar riachos. Os pacotes RTCP necessárias podem ser perdidos (desde RTP / RTCP não garante a entrega ) ou não enviado até pelo menos vários segundos depois que o fluxo já começou. Muitos clientes de software não envie RTCP em todos ou enviar dados não conformes.

Efeito de não sincronismo AV-sync explícito

Quando um fluxo de vídeo e áudio digital ou analógico não tem algum tipo de explícita AV-sync cronometrando esses efeitos fará com que o fluxo para se tornar fora de sincronia:

  • Em filmes de cinema esses erros temporais são mais comumente causadas por filmes gastas pular sobre as projetor filme pinhões porque o filme tem rasgadas perfurações.
  • Os erros também podem ser causados pelo projecionista misthreading o filme no projetor, embora isso seja raro com projetistas competentes.
  • Áudio para sincronização de vídeo é comumente corrigido e mantido com um sincronizador de áudio . Organizações de padrões da indústria de televisão estabeleceram quantidades aceitáveis de áudio e vídeo de erro tempo e práticas relacionadas com a manutenção de tempo aceitável sugeriu.
  • Um erros / V SYNC está se tornando um problema significativo na televisão digital indústria por causa do uso de grandes quantidades de processamento de sinal de vídeo em produção de televisão, a radiodifusão televisiva e pixelizada monitores de televisão, como LCD , DLP e telas de plasma .
  • Na televisão campo, problemas de sincronização de áudio e vídeo são geralmente causadas quando quantidades significativas de processamento de vídeo é realizada por parte de vídeo do programa de televisão.
  • As fontes típicas de atrasos de vídeo significativas no campo da televisão incluem sincronizadores de vídeo e codificadores de compressão de vídeo e decodificadores. Particularmente codificadores e decodificadores problemáticos são usados em MPEG sistemas de compressão utilizados para a transmissão de televisão digital e armazenar programas de televisão em dispositivos de consumo e de gravação profissional e de reprodução.
  • Uma fonte de atraso de vídeo significativa é encontrada em pixelated monitores de televisão ( LCD , tela de plasma , DLP ) que utilizam complexo de processamento de sinal de vídeo para converter a resolução do sinal de vídeo de entrada para a resolução nativa da tela pixelizada, por exemplo a conversão de vídeo de definição padrão a ser exibido em uma tela de alta definição. "Lip-flap" pode ser superior a 200 ms a tempos.
  • Na televisão aberta, não é incomum para erro lip-sync para variar por mais de 100 ms (quadros vários vídeo) ao longo do tempo.
  • A UER Recomendação R37 “A temporização relativa dos componentes de som e imagem de um sinal de televisão de” indica que a sincronização áudio / vídeo extremidade-a-extremidade deve estar dentro de + 40 ms e -60ms (áudio antes / depois de vídeo, respectivamente) e que cada estágio deve estar dentro de + 5ms e -15ms.

experiência do telespectador da sincronizados incorretamente AV-sync

O resultado normalmente deixa um personagem filmado ou televisionado movendo sua boca quando não há diálogo para acompanhá-lo falado, daí o termo "flap do bordo" ou "erro lip-sync". O erro de sincronização de áudio e vídeo resultante pode ser irritante para o espectador e pode até fazer com que o espectador não desfrutar do programa, diminuir a eficácia do programa ou levar a uma percepção negativa do alto-falante na parte do telespectador. A potencial perda de eficácia é de especial preocupação para comerciais de produtos e candidatos políticos. Indústria de televisão organizações de padrões, como o Advanced Television Systems Committee , envolveram-se no estabelecimento de padrões de erros de sincronização de áudio e vídeo.

Por causa desses incômodos, erro AV-sync é uma preocupação para a indústria de programação da televisão, incluindo estações de televisão, redes, anunciantes e empresas de produção de programa. Infelizmente, o advento das tecnologias de alta definição de visualização de tela plana (LCD, DLP e plasma), que podem atrasar vídeo mais de áudio, mudou-se o problema em casa do espectador e além do controle da indústria de programação da televisão sozinho. empresas de produtos de consumo já oferecem ajustes de áudio de atraso para compensar as mudanças de vídeo com atraso em TVs e receptores A / V, e várias empresas fabricam atrasos de áudio digital dedicados feitos exclusivamente para correção de erros lip-sync.

recomendações

Para aplicações de televisão, o Advanced Television Systems Committee recomenda que o áudio deve levar de vídeo por não mais de 15 milissegundos e áudio deve ficar de vídeo por não mais de 45 milissegundos. No entanto, a ITU realizados testes estritamente controladas com espectadores de especialistas e descobriu que o limiar para a detecção é -125ms para + 45ms. Para o filme, sincronização de bordo aceitável é considerada como sendo não mais do que 22 milissegundos em um ou outro sentido.

A Consumer Electronics Association publicou um conjunto de recomendações de como digital de aparelhos receptores de televisão deve implementar A / V sync.

SMPTE ST2064

SMPTE ST2064 standard, publicado em 2015, fornece tecnologia para reduzir ou eliminar erros lip-sync na televisão digital. O padrão utiliza impressões digitais de áudio e vídeo tomadas a partir de um programa de televisão. As impressões digitais podem ser recuperados e utilizados para corrigir o erro lip-sync acumulada. Quando as impressões digitais foram gerados para um programa de TV, e a tecnologia necessária é incorporada, dispositivo de exibição do espectador tem a capacidade de medir continuamente e erros lip-sync corretas.

timestamps

Selos apresentação tempo (PTS) são incorporados em fluxos de transporte MPEG para sinalizar precisamente quando cada segmento de áudio e vídeo deve ser apresentado, para evitar erros de AV-sync. No entanto, essas marcas de tempo são muitas vezes adicionados depois que o vídeo passa por sincronização de quadros, conversão de formato e pré-processamento, e, assim, os erros de sincronia labial criados por estas operações não serão corrigidos pela adição e uso de marcas de tempo.

O Real-time Transport Protocol relógios mídia usando originação timestamps em um cronograma arbitrário. Um relógio em tempo real, tais como um emitido pelo Network Time Protocol e descritos na Session Description Protocol associado com os meios de comunicação podem ser usados para sintonizar mídia. Um servidor pode então ser usado para a sincronização final para remover qualquer residual offset.

Veja também

Referências

Outras leituras