Amostragem (estatísticas) - Sampling (statistics)

Uma representação visual do processo de amostragem

Em estatística , garantia de qualidade e metodologia de pesquisa , a amostragem é a seleção de um subconjunto (uma amostra estatística ) de indivíduos de uma população estatística para estimar as características de toda a população. Os estatísticos tentam coletar amostras representativas da população em questão. A amostragem tem custos mais baixos e coleta de dados mais rápida do que medir toda a população e pode fornecer insights nos casos em que é inviável amostrar uma população inteira.

Cada observação mede uma ou mais propriedades (como peso, localização, cor) de objetos ou indivíduos independentes. Na amostragem da pesquisa , os pesos podem ser aplicados aos dados para ajustar o desenho da amostra, particularmente na amostragem estratificada . Os resultados da teoria da probabilidade e da teoria estatística são empregados para orientar a prática. Em negócios e pesquisas médicas, a amostragem é amplamente usada para coletar informações sobre uma população. A amostragem de aceitação é usada para determinar se um lote de produção de material atende às especificações regulamentares .

Definição de população

A prática estatística bem-sucedida é baseada na definição de problemas focada. Na amostragem, isso inclui definir a " população " da qual nossa amostra é extraída. Uma população pode ser definida como incluindo todas as pessoas ou itens com a característica que se deseja compreender. Como raramente há tempo ou dinheiro suficiente para reunir informações de todos ou de tudo em uma população, a meta passa a ser encontrar uma amostra representativa (ou subconjunto) dessa população.

Às vezes, o que define uma população é óbvio. Por exemplo, um fabricante precisa decidir se um lote de material da produção é de qualidade alta o suficiente para ser liberado para o cliente ou se deve ser condenado por sucata ou retrabalho devido à baixa qualidade. Nesse caso, o lote é a população.

Embora a população de interesse geralmente consista em objetos físicos, às vezes é necessário amostrar no tempo, no espaço ou em alguma combinação dessas dimensões. Por exemplo, uma investigação da equipe de supermercados pode examinar o comprimento da fila do caixa em vários momentos, ou um estudo sobre pinguins ameaçados de extinção pode ter como objetivo entender o uso de vários locais de caça ao longo do tempo. Para a dimensão do tempo, o foco pode ser em períodos ou ocasiões discretas.

Em outros casos, a 'população' examinada pode ser ainda menos tangível. Por exemplo, Joseph Jagger estudou o comportamento das rodas da roleta em um cassino em Monte Carlo e usou isso para identificar uma roda enviesada. Nesse caso, a 'população' que Jagger queria investigar era o comportamento geral da roda (ou seja, a distribuição de probabilidade de seus resultados ao longo de um número infinito de tentativas), enquanto sua 'amostra' era formada a partir dos resultados observados dessa roda. Considerações semelhantes surgem ao fazer medições repetidas de algumas características físicas, como a condutividade elétrica do cobre .

Esta situação surge frequentemente quando se busca conhecimento sobre o sistema de causas do qual a população observada é um resultado. Nesses casos, a teoria da amostragem pode tratar a população observada como uma amostra de uma 'superpopulação' maior. Por exemplo, um pesquisador pode estudar a taxa de sucesso de um novo programa de 'parar de fumar' em um grupo de teste de 100 pacientes, a fim de prever os efeitos do programa se ele fosse disponibilizado em todo o país. Aqui a superpopulação é "todos no país, tiveram acesso a esse tratamento" - grupo que ainda não existe, pois o programa ainda não está disponível para todos.

A população da qual a amostra é retirada pode não ser a mesma que a população sobre a qual as informações são desejadas. Freqüentemente, há uma grande, mas não completa, sobreposição entre esses dois grupos devido a problemas de quadro, etc. (veja abaixo). Às vezes, eles podem ser totalmente separados - por exemplo, pode-se estudar ratos para obter uma melhor compreensão da saúde humana ou pode-se estudar registros de pessoas nascidas em 2008 para fazer previsões sobre pessoas nascidas em 2009.

O tempo gasto em tornar a população amostrada e a população de interesse precisa é freqüentemente bem gasto, porque levanta muitas questões, ambigüidades e questões que, de outra forma, teriam sido negligenciadas neste estágio.

Quadro de amostragem

No caso mais simples, como a amostragem de um lote de material da produção (amostragem de aceitação por lotes), seria mais desejável identificar e medir cada item da população e incluir qualquer um deles em nossa amostra. No entanto, no caso mais geral, isso geralmente não é possível ou prático. Não há como identificar todos os ratos no conjunto de todos os ratos. Onde a votação não é obrigatória, não há como identificar quais pessoas votarão nas próximas eleições (antes da eleição). Essas populações imprecisas não são passíveis de amostragem de nenhuma das maneiras abaixo e às quais poderíamos aplicar a teoria estatística.

Como remédio, buscamos uma base de amostragem que tenha a propriedade de podermos identificar cada elemento e incluí-lo em nossa amostra. O tipo mais direto de moldura é uma lista de elementos da população (de preferência a população inteira) com informações de contato apropriadas. Por exemplo, em uma pesquisa de opinião , possíveis quadros de amostragem incluem um cadastro eleitoral e uma lista telefônica .

Uma amostra de probabilidade é uma amostra em que cada unidade da população tem uma chance (maior que zero) de ser selecionada na amostra, e essa probabilidade pode ser determinada com precisão. A combinação dessas características torna possível produzir estimativas não enviesadas de totais populacionais, ponderando as unidades amostradas de acordo com sua probabilidade de seleção.

Exemplo: Queremos estimar a renda total dos adultos que vivem em uma determinada rua. Visitamos cada família naquela rua, identificamos todos os adultos que moram lá e selecionamos aleatoriamente um adulto de cada família. (Por exemplo, podemos atribuir a cada pessoa um número aleatório, gerado a partir de uma distribuição uniforme entre 0 e 1, e selecionar a pessoa com o maior número em cada família). Em seguida, entrevistamos a pessoa selecionada e calculamos sua renda.

Pessoas que vivem sozinhas certamente serão selecionadas, então simplesmente adicionamos sua renda à nossa estimativa do total. Mas uma pessoa que vive em uma casa de dois adultos tem apenas uma chance em duas de seleção. Para refletir isso, quando chegamos a tal família, contaríamos a renda da pessoa selecionada duas vezes no total. (A pessoa que é selecionada dessa família pode ser vagamente vista como também representante da pessoa que não foi selecionada.)

No exemplo acima, nem todos têm a mesma probabilidade de seleção; o que o torna uma amostra de probabilidade é o fato de que a probabilidade de cada pessoa é conhecida. Quando todos os elementos da população não têm a mesma probabilidade de seleção, isto é conhecido como uma 'probabilidade igual de seleção' (EPS) design. Esses projetos também são chamados de 'ponderação própria' porque todas as unidades amostradas recebem o mesmo peso.

Amostragem probabilística inclui: Amostragem Aleatória Simples , sistemática de amostragem , estratificada Amostragem , probabilidade proporcional ao tamanho de amostragem, e Cluster ou multicelular amostragem . Essas várias formas de amostragem probabilística têm duas coisas em comum:

  1. Cada elemento tem uma probabilidade conhecida diferente de zero de ser amostrado e
  2. envolve a seleção aleatória em algum ponto.

Amostragem de não probabilidade

Amostragem de não probabilidade é qualquer método de amostragem em que alguns elementos da população não têm chance de seleção (às vezes são chamados de 'fora de cobertura' / 'encoberto') ou em que a probabilidade de seleção não pode ser determinada com precisão. Envolve a seleção de elementos com base em premissas sobre a população de interesse, que constituem os critérios de seleção. Portanto, como a seleção de elementos não é aleatória, a amostragem de não probabilidade não permite a estimativa de erros de amostragem. Essas condições geram viés de exclusão , colocando limites sobre a quantidade de informações que uma amostra pode fornecer sobre a população. As informações sobre a relação entre amostra e população são limitadas, dificultando a extrapolação da amostra para a população.

Exemplo: Visitamos todas as famílias em uma determinada rua e entrevistamos a primeira pessoa a atender a porta. Em qualquer família com mais de um ocupante, esta é uma amostra não provável, porque algumas pessoas são mais propensas a atender a porta (por exemplo, uma pessoa desempregada que passa a maior parte do tempo em casa tem mais probabilidade de responder do que um colega de casa empregado que pode ser no trabalho quando o entrevistador liga) e não é prático calcular essas probabilidades.

Os métodos de amostragem não probabilística incluem amostragem de conveniência , amostragem de cota e amostragem intencional . Além disso, os efeitos de não resposta podem transformar qualquer projeto de probabilidade em um projeto de não probabilidade se as características de não resposta não forem bem compreendidas, uma vez que a não resposta modifica efetivamente a probabilidade de cada elemento de ser amostrado.

Métodos de amostragem

Dentro de qualquer um dos tipos de quadros identificados acima, uma variedade de métodos de amostragem podem ser empregados, individualmente ou em combinação. Os fatores que comumente influenciam a escolha entre esses projetos incluem:

  • Natureza e qualidade da moldura
  • Disponibilidade de informações auxiliares sobre unidades no quadro
  • Requisitos de precisão e a necessidade de medir a precisão
  • Se a análise detalhada da amostra é esperada
  • Custo / preocupações operacionais

Amostragem aleatória simples

Uma representação visual da seleção de uma amostra aleatória simples

Em uma amostra aleatória simples (SRS) de um determinado tamanho, todos os subconjuntos de uma estrutura de amostragem têm uma probabilidade igual de serem selecionados. Cada elemento do quadro, portanto, tem uma probabilidade igual de seleção: o quadro não é subdividido ou particionado. Além disso, qualquer par de elementos tem a mesma chance de seleção que qualquer outro par (e da mesma forma para triplos e assim por diante). Isso minimiza o viés e simplifica a análise dos resultados. Em particular, a variação entre os resultados individuais dentro da amostra é um bom indicador de variação na população geral, o que torna relativamente fácil estimar a precisão dos resultados.

A amostragem aleatória simples pode ser vulnerável a erros de amostragem porque a aleatoriedade da seleção pode resultar em uma amostra que não reflete a composição da população. Por exemplo, uma amostra aleatória simples de dez pessoas de um determinado país produzirá , em média, cinco homens e cinco mulheres, mas é provável que qualquer ensaio clínico represente mais de um sexo e sub-represente o outro. Técnicas sistemáticas e estratificadas tentam superar esse problema "usando informações sobre a população" para escolher uma amostra mais "representativa".

Além disso, a amostragem aleatória simples pode ser complicada e tediosa ao fazer a amostragem de uma grande população-alvo. Em alguns casos, os pesquisadores estão interessados ​​em questões de pesquisa específicas para subgrupos da população. Por exemplo, os pesquisadores podem estar interessados ​​em examinar se a capacidade cognitiva como um preditor de desempenho no trabalho é igualmente aplicável em grupos raciais. A amostragem aleatória simples não pode acomodar as necessidades dos pesquisadores nessa situação, porque não fornece subamostras da população, e outras estratégias de amostragem, como amostragem estratificada, podem ser usadas em seu lugar.

Amostragem sistemática

Uma representação visual da seleção de uma amostra aleatória usando a técnica de amostragem sistemática

A amostragem sistemática (também conhecida como amostragem de intervalo) depende da organização da população do estudo de acordo com algum esquema de ordenação e, em seguida, da seleção de elementos em intervalos regulares por meio dessa lista ordenada. A amostragem sistemática envolve um início aleatório e então prossegue com a seleção de cada k- ésimo elemento a partir de então. Nesse caso, k = (tamanho da população / tamanho da amostra). É importante que o ponto de partida não seja automaticamente o primeiro da lista, mas sim escolhido aleatoriamente a partir do primeiro até o k- ésimo elemento da lista. Um exemplo simples seria selecionar a cada 10 nomes da lista telefônica (uma amostra 'a cada 10', também conhecida como 'amostragem com um salto de 10').

Desde que o ponto de partida seja aleatório , a amostragem sistemática é um tipo de amostragem probabilística . É fácil de implementar e a estratificação induzida pode torná-lo eficiente, se a variável pela qual a lista é ordenada estiver correlacionada com a variável de interesse. A amostragem 'a cada 10' é especialmente útil para uma amostragem eficiente de bancos de dados .

Por exemplo, suponha que desejamos amostrar pessoas de uma rua longa que começa em uma área pobre (casa nº 1) e termina em um bairro caro (casa nº 1000). Uma simples seleção aleatória de endereços desta rua poderia facilmente terminar com muitos na extremidade superior e poucos na extremidade inferior (ou vice-versa), levando a uma amostra não representativa. Selecionar (por exemplo) cada número de 10 ruas ao longo da rua garante que a amostra seja distribuída uniformemente ao longo da rua, representando todos esses bairros. (Observe que se sempre começarmos na casa # 1 e terminarmos na # 991, a amostra será ligeiramente inclinada para a extremidade inferior; ao selecionar aleatoriamente o início entre # 1 e # 10, essa tendência é eliminada.

No entanto, a amostragem sistemática é especialmente vulnerável às periodicidades da lista. Se a periodicidade estiver presente e o período for um múltiplo ou fator do intervalo usado, a amostra provavelmente não será representativa da população geral, tornando o esquema menos preciso do que a amostragem aleatória simples.

Por exemplo, considere uma rua onde as casas ímpares estão todas no lado norte (caro) da estrada e as casas pares estão todas no lado sul (barato). Sob o esquema de amostragem dado acima, é impossível obter uma amostra representativa; ou as casas amostradas serão todas do lado ímpar e caro, ou serão todas do lado par e barato, a menos que o pesquisador tenha conhecimento prévio desse viés e o evite usando um salto que garante o salto entre os dois lados (qualquer salto ímpar).

Outra desvantagem da amostragem sistemática é que mesmo em cenários onde ela é mais precisa do que o SRS, suas propriedades teóricas tornam difícil quantificar essa precisão. (Nos dois exemplos de amostragem sistemática que são dados acima, muito do erro de amostragem potencial é devido à variação entre casas vizinhas - mas como esse método nunca seleciona duas casas vizinhas, a amostra não nos dará nenhuma informação sobre essa variação.)

Conforme descrito acima, a amostragem sistemática é um método EPS, porque todos os elementos têm a mesma probabilidade de seleção (no exemplo dado, um em dez). É não 'amostragem aleatória simples', porque diferentes subconjuntos do mesmo tamanho têm diferentes probabilidades de seleção - por exemplo, o conjunto {4,14,24, ..., 994} tem um em cada dez probabilidade de seleção, mas o conjunto {4,13,24,34, ...} tem probabilidade zero de seleção.

A amostragem sistemática também pode ser adaptada para uma abordagem não EPS; para obter um exemplo, consulte a discussão de exemplos de PPS abaixo.

Amostragem estratificada

Uma representação visual da seleção de uma amostra aleatória usando a técnica de amostragem estratificada

Quando a população abrange várias categorias distintas, o quadro pode ser organizado por essas categorias em "estratos" separados. Cada estrato é então amostrado como uma subpopulação independente, da qual elementos individuais podem ser selecionados aleatoriamente. A proporção entre o tamanho dessa seleção aleatória (ou amostra) e o tamanho da população é chamada de fração de amostragem . Existem vários benefícios potenciais para a amostragem estratificada.

Primeiro, dividir a população em estratos distintos e independentes pode permitir aos pesquisadores fazer inferências sobre subgrupos específicos que podem ser perdidos em uma amostra aleatória mais generalizada.

Em segundo lugar, a utilização de um método de amostragem estratificada pode levar a estimativas estatísticas mais eficientes (desde que os estratos sejam selecionados com base na relevância para o critério em questão, em vez da disponibilidade das amostras). Mesmo que uma abordagem de amostragem estratificada não leve a um aumento da eficiência estatística, tal tática não resultará em menos eficiência do que a amostragem aleatória simples, desde que cada estrato seja proporcional ao tamanho do grupo na população.

Terceiro, às vezes ocorre que os dados estão mais prontamente disponíveis para estratos individuais pré-existentes dentro de uma população do que para a população geral; em tais casos, usar uma abordagem de amostragem estratificada pode ser mais conveniente do que agregar dados entre grupos (embora isso possa estar em conflito com a importância previamente observada de utilizar estratos relevantes para o critério).

Finalmente, uma vez que cada estrato é tratado como uma população independente, diferentes abordagens de amostragem podem ser aplicadas a diferentes estratos, potencialmente permitindo que os pesquisadores usem a abordagem mais adequada (ou mais econômica) para cada subgrupo identificado na população.

Existem, no entanto, algumas desvantagens potenciais no uso de amostragem estratificada. Em primeiro lugar, a identificação de estratos e a implementação de tal abordagem pode aumentar o custo e a complexidade da seleção da amostra, além de levar a uma maior complexidade das estimativas populacionais. Em segundo lugar, ao examinar vários critérios, as variáveis ​​de estratificação podem estar relacionadas a alguns, mas não a outros, complicando ainda mais o projeto e potencialmente reduzindo a utilidade dos estratos. Finalmente, em alguns casos (como projetos com um grande número de estratos, ou aqueles com um tamanho mínimo de amostra especificado por grupo), a amostragem estratificada pode potencialmente exigir uma amostra maior do que outros métodos (embora na maioria dos casos, o tamanho de amostra necessário não seria maior do que seria necessário para uma amostragem aleatória simples).

Uma abordagem de amostragem estratificada é mais eficaz quando três condições são atendidas
  1. A variabilidade dentro dos estratos é minimizada
  2. A variabilidade entre os estratos é maximizada
  3. As variáveis ​​sobre as quais a população é estratificada são fortemente correlacionadas com a variável dependente desejada.
Vantagens sobre outros métodos de amostragem
  1. Concentra-se em subpopulações importantes e ignora as irrelevantes.
  2. Permite o uso de diferentes técnicas de amostragem para diferentes subpopulações.
  3. Melhora a precisão / eficiência da estimativa.
  4. Permite um maior equilíbrio do poder estatístico dos testes de diferenças entre estratos por amostragem de números iguais de estratos de tamanhos variados.
Desvantagens
  1. Requer a seleção de variáveis ​​de estratificação relevantes, o que pode ser difícil.
  2. Não é útil quando não há subgrupos homogêneos.
  3. Pode ser caro para implementar.
Pós-estratificação

A estratificação às vezes é introduzida após a fase de amostragem em um processo denominado "pós-estratificação". Esta abordagem é tipicamente implementada devido à falta de conhecimento prévio de uma variável de estratificação apropriada ou quando o experimentador não possui as informações necessárias para criar uma variável de estratificação durante a fase de amostragem. Embora o método seja suscetível às armadilhas das abordagens post hoc, ele pode fornecer vários benefícios na situação certa. A implementação geralmente segue uma amostra aleatória simples. Além de permitir a estratificação em uma variável auxiliar, a pós-estratificação pode ser usada para implementar a ponderação, que pode melhorar a precisão das estimativas de uma amostra.

Sobreamostragem

A amostragem baseada em escolha é uma das estratégias de amostragem estratificada. Na amostragem baseada em escolha, os dados são estratificados no alvo e uma amostra é retirada de cada estrato para que a classe de alvo raro seja mais representada na amostra. O modelo é então construído com base nessa amostra tendenciosa . Os efeitos das variáveis ​​de entrada no destino são frequentemente estimados com mais precisão com a amostra baseada em escolha, mesmo quando um tamanho de amostra geral menor é obtido, em comparação com uma amostra aleatória. Os resultados geralmente devem ser ajustados para corrigir a sobreamostragem.

Amostragem com probabilidade proporcional ao tamanho

Em alguns casos, o designer da amostra tem acesso a uma "variável auxiliar" ou "medida de tamanho", que se acredita estar correlacionada à variável de interesse, para cada elemento da população. Esses dados podem ser usados ​​para melhorar a precisão no design da amostra. Uma opção é usar a variável auxiliar como base para a estratificação, conforme discutido acima.

Outra opção é a amostragem de probabilidade proporcional ao tamanho ('PPS'), em que a probabilidade de seleção para cada elemento é definida para ser proporcional à sua medida de tamanho, até um máximo de 1. Em um projeto PPS simples, essas probabilidades de seleção podem então ser usado como base para a amostragem de Poisson . No entanto, isso tem a desvantagem de tamanho variável da amostra, e diferentes porções da população podem ainda estar super ou sub-representadas devido à variação aleatória nas seleções.

A teoria da amostragem sistemática pode ser usada para criar uma probabilidade proporcional ao tamanho da amostra. Isso é feito tratando cada contagem dentro da variável de tamanho como uma única unidade de amostragem. As amostras são então identificadas selecionando em intervalos regulares entre essas contagens dentro da variável de tamanho. Este método é algumas vezes chamado de amostragem sequencial PPS ou unidade monetária no caso de auditorias ou amostragem forense.

Exemplo: Suponha que temos seis escolas com populações de 150, 180, 200, 220, 260 e 490 alunos, respectivamente (total de 1.500 alunos), e queremos usar a população de alunos como base para uma amostra de PPS de tamanho três. Para isso, poderíamos alocar os números da primeira escola de 1 a 150, a segunda escola de 151 a 330 (= 150 + 180), a terceira escola de 331 a 530 e assim por diante até a última escola (1.011 a 1.500). Em seguida, geramos um início aleatório entre 1 e 500 (igual a 1500/3) e contamos as populações escolares por múltiplos de 500. Se nosso início aleatório fosse 137, selecionaríamos as escolas às quais foram alocados os números 137, 637 e 1137, ou seja, a primeira, quarta e sexta escolas.

A abordagem PPS pode melhorar a precisão para um determinado tamanho de amostra, concentrando a amostra em grandes elementos que têm o maior impacto nas estimativas da população. A amostragem PPS é comumente usada para pesquisas de empresas, onde o tamanho do elemento varia muito e informações auxiliares estão frequentemente disponíveis - por exemplo, uma pesquisa que tenta medir o número de pernoites em hotéis pode usar o número de quartos de cada hotel como uma variável auxiliar . Em alguns casos, uma medição mais antiga da variável de interesse pode ser usada como uma variável auxiliar ao tentar produzir estimativas mais atuais.

Amostras agrupadas

Uma representação visual da seleção de uma amostra aleatória usando a técnica de amostragem por conglomerado

Às vezes, é mais econômico selecionar respondentes em grupos ('clusters'). A amostragem costuma ser agrupada por geografia ou por períodos de tempo. (Quase todas as amostras são, em algum sentido, 'agrupadas' no tempo - embora isso raramente seja levado em consideração na análise.) Por exemplo, se pesquisar domicílios dentro de uma cidade, podemos escolher selecionar 100 quarteirões da cidade e, em seguida, entrevistar todos os domicílios dentro os blocos selecionados.

O agrupamento pode reduzir os custos administrativos e de viagens. No exemplo acima, um entrevistador pode fazer uma única viagem para visitar vários domicílios em um quarteirão, em vez de ter que dirigir até um quarteirão diferente para cada domicílio.

Isso também significa que não é necessário um quadro de amostragem listando todos os elementos da população-alvo. Em vez disso, os clusters podem ser escolhidos a partir de um quadro de nível de cluster, com um quadro de nível de elemento criado apenas para os clusters selecionados. No exemplo acima, a amostra requer apenas um mapa da cidade em nível de quarteirão para as seleções iniciais e, em seguida, um mapa em nível de domicílio dos 100 quarteirões selecionados, em vez de um mapa em nível de domicílio de toda a cidade.

A amostragem por agrupamento (também conhecida como amostragem por agrupamento) geralmente aumenta a variabilidade das estimativas de amostra acima da amostragem aleatória simples, dependendo de como os agrupamentos diferem entre si em comparação com a variação dentro do agrupamento. Por esse motivo, a amostragem por conglomerados requer uma amostra maior do que o SRS para atingir o mesmo nível de precisão - mas a economia de custos do agrupamento ainda pode tornar esta opção mais barata.

A amostragem de cluster é comumente implementada como amostragem de vários estágios . Esta é uma forma complexa de amostragem por conglomerados em que dois ou mais níveis de unidades estão embutidos um no outro. A primeira fase consiste na construção dos clusters que serão utilizados para a amostragem. No segundo estágio, uma amostra de unidades primárias é selecionada aleatoriamente de cada conglomerado (em vez de usar todas as unidades contidas em todos os conglomerados selecionados). Nos estágios seguintes, em cada um desses agrupamentos selecionados, amostras adicionais de unidades são selecionadas, e assim por diante. Todas as unidades finais (indivíduos, por exemplo) selecionadas na última etapa deste procedimento são então pesquisadas. Essa técnica, portanto, é essencialmente o processo de obter subamostras aleatórias de amostras aleatórias anteriores.

A amostragem em vários estágios pode reduzir substancialmente os custos de amostragem, onde a lista completa da população precisaria ser construída (antes que outros métodos de amostragem pudessem ser aplicados). Ao eliminar o trabalho envolvido na descrição de clusters que não são selecionados, a amostragem em vários estágios pode reduzir os grandes custos associados à amostragem de cluster tradicional. No entanto, cada amostra pode não ser um representante completo de toda a população.

Amostragem de cota

Na amostragem por cota , a população é primeiro segmentada em subgrupos mutuamente exclusivos , assim como na amostragem estratificada . Em seguida, o julgamento é usado para selecionar os assuntos ou unidades de cada segmento com base em uma proporção especificada. Por exemplo, um entrevistador pode ser instruído a fazer uma amostra de 200 mulheres e 300 homens com idades entre 45 e 60 anos.

É esta segunda etapa que torna a técnica de amostragem não probabilística. Na amostragem por cota, a seleção da amostra não é aleatória . Por exemplo, os entrevistadores podem ficar tentados a entrevistar aqueles que parecem mais úteis. O problema é que essas amostras podem ser tendenciosas porque nem todos têm a chance de seleção. Esse elemento aleatório é sua maior fraqueza e cota versus probabilidade tem sido motivo de controvérsia há vários anos.

Amostragem Minimax

Em conjuntos de dados desequilibrados, onde a taxa de amostragem não segue as estatísticas da população, pode-se reamostrar o conjunto de dados de uma maneira conservadora chamada amostragem minimax . A amostragem minimax tem sua origem na razão minimax de Anderson cujo valor é provado ser 0,5: em uma classificação binária, os tamanhos das amostras de classe devem ser escolhidos igualmente. Essa razão pode ser provada como uma razão minimax apenas sob a suposição do classificador LDA com distribuições gaussianas. A noção de amostragem minimax foi desenvolvida recentemente para uma classe geral de regras de classificação, chamados classificadores inteligentes de classe. Nesse caso, a proporção de amostragem das classes é selecionada de modo que o pior caso de erro do classificador sobre todas as estatísticas populacionais possíveis para as probabilidades anteriores de classe seja o melhor.

Amostragem acidental

A amostragem acidental (às vezes conhecida como amostragem de agarramento , conveniência ou oportunidade ) é um tipo de amostragem não probabilística que envolve a amostra sendo retirada daquela parte da população que está próxima. Ou seja, uma população é selecionada porque está prontamente disponível e é conveniente. Pode ser por meio do encontro com a pessoa ou da inclusão de uma pessoa na amostra quando ela se encontra ou escolhida por meio de localização por meios tecnológicos como a internet ou telefone. O pesquisador usando tal amostra não pode fazer generalizações cientificamente sobre a população total desta amostra porque não seria representativa o suficiente. Por exemplo, se o entrevistador fosse realizar essa pesquisa em um shopping center no início da manhã em um determinado dia, as pessoas que ele / ela poderia entrevistar seriam limitadas àquelas fornecidas naquele determinado horário, o que não representaria o opiniões de outros membros da sociedade em tal área, se a pesquisa fosse realizada em diferentes horários do dia e várias vezes por semana. Este tipo de amostragem é mais útil para o teste piloto. Várias considerações importantes para os pesquisadores que usam amostras de conveniência incluem:

  1. Existem controles dentro do projeto de pesquisa ou experimento que podem servir para diminuir o impacto de uma amostra de conveniência não aleatória, garantindo assim que os resultados sejam mais representativos da população?
  2. Há uma boa razão para acreditar que uma amostra de conveniência específica responderia ou deveria responder ou se comportar de maneira diferente de uma amostra aleatória da mesma população?
  3. A pergunta feita pela pesquisa pode ser respondida adequadamente usando uma amostra de conveniência?

Na pesquisa em ciências sociais, a amostragem em bola de neve é uma técnica semelhante, em que os sujeitos de estudo existentes são usados ​​para recrutar mais sujeitos para a amostra. Algumas variantes de amostragem em bola de neve, como amostragem dirigida por respondente, permitem o cálculo de probabilidades de seleção e são métodos de amostragem de probabilidade sob certas condições.

Amostragem Voluntária

O método de amostragem voluntária é um tipo de amostragem não probabilística. Os voluntários optam por preencher uma pesquisa.

Os voluntários podem ser convidados por meio de anúncios nas redes sociais. A população-alvo dos anúncios pode ser selecionada por características como localização, idade, sexo, renda, ocupação, escolaridade ou interesses por meio de ferramentas disponibilizadas pelo meio social. O anúncio pode incluir uma mensagem sobre a pesquisa e um link para uma pesquisa. Após acessar o link e preencher a pesquisa, o voluntário envia os dados para serem incluídos na amostra da população. Este método pode atingir uma população global, mas é limitado pelo orçamento da campanha. Voluntários fora da população convidada também podem ser incluídos na amostra.

É difícil fazer generalizações a partir desta amostra porque ela pode não representar a população total. Freqüentemente, os voluntários têm grande interesse no tópico principal da pesquisa.

Amostragem de interceptação de linha

Amostragem de interceptação de linha é um método de amostragem de elementos em uma região por meio do qual um elemento é amostrado se um segmento de linha escolhido, chamado de "transecto", cruza o elemento.

Amostragem de painel

A amostragem de painel é o método de primeiro selecionar um grupo de participantes por meio de um método de amostragem aleatória e, em seguida, solicitar a esse grupo as informações (potencialmente as mesmas) várias vezes durante um período de tempo. Portanto, cada participante é entrevistado em dois ou mais momentos; cada período de coleta de dados é chamado de "onda". O método foi desenvolvido pelo sociólogo Paul Lazarsfeld em 1938 como meio de estudar campanhas políticas . Este método de amostragem longitudinal permite estimativas de mudanças na população, por exemplo, no que diz respeito a doenças crônicas, estresse no trabalho e gastos semanais com alimentação. A amostragem em painel também pode ser usada para informar os pesquisadores sobre as mudanças na saúde da pessoa devido à idade ou para ajudar a explicar as mudanças nas variáveis ​​dependentes contínuas, como a interação conjugal. Existem vários métodos propostos de análise de dados em painel , incluindo MANOVA , curvas de crescimento e modelagem de equações estruturais com efeitos defasados.

Amostragem de bola de neve

A amostragem bola de neve envolve encontrar um pequeno grupo de entrevistados iniciais e usá-los para recrutar mais entrevistados. É particularmente útil nos casos em que a população está oculta ou é difícil de enumerar.

Amostragem teórica

A amostragem teórica ocorre quando as amostras são selecionadas com base nos resultados dos dados coletados até o momento com o objetivo de aprofundar o conhecimento da área ou desenvolver teorias. Casos extremos ou muito específicos podem ser selecionados para maximizar a probabilidade de um fenômeno ser realmente observável.

Substituição de unidades selecionadas

Os esquemas de amostragem podem ser sem substituição ('WOR' - nenhum elemento pode ser selecionado mais de uma vez na mesma amostra) ou com substituição ('WR' - um elemento pode aparecer várias vezes em uma amostra). Por exemplo, se pegarmos peixes, medimos e imediatamente os devolvemos à água antes de continuar com a amostra, este é um desenho WR, porque podemos acabar pegando e medindo os mesmos peixes mais de uma vez. No entanto, se não devolvermos o peixe à água ou marcarmos e soltarmos cada peixe depois de capturá-lo, isso se tornará um desenho WOR.

Determinação do tamanho da amostra

Fórmulas, tabelas e gráficos de função de potência são abordagens bem conhecidas para determinar o tamanho da amostra.

Etapas para usar tabelas de tamanho de amostra

  1. Postule o tamanho do efeito de interesse, α e β.
  2. Verifique a tabela de tamanhos de amostra
    1. Selecione a tabela correspondente ao α selecionado
    2. Localize a linha correspondente à potência desejada
    3. Localize a coluna correspondente ao tamanho do efeito estimado.
    4. A interseção da coluna e linha é o tamanho mínimo de amostra necessário.

Amostragem e coleta de dados

Uma boa coleta de dados envolve:

  • Seguindo o processo de amostragem definido
  • Manter os dados em ordem de tempo
  • Observando comentários e outros eventos contextuais
  • Gravando não respostas

Aplicações de amostragem

A amostragem permite a seleção de pontos de dados corretos de dentro do conjunto de dados maior para estimar as características de toda a população. Por exemplo, existem cerca de 600 milhões de tweets produzidos todos os dias. Não é necessário olhar para todos eles para determinar os tópicos que são discutidos durante o dia, nem é necessário olhar para todos os tweets para determinar o sentimento sobre cada um dos tópicos. Uma formulação teórica para amostragem de dados do Twitter foi desenvolvida.

Na fabricação, diferentes tipos de dados sensoriais, como acústica, vibração, pressão, corrente, tensão e dados do controlador estão disponíveis em curtos intervalos de tempo. Para prever o tempo de inatividade, pode não ser necessário examinar todos os dados, mas uma amostra pode ser suficiente.

Erros em pesquisas de amostra

Os resultados da pesquisa geralmente estão sujeitos a alguns erros. Os erros totais podem ser classificados em erros de amostragem e erros de não amostragem. O termo "erro" aqui inclui tendências sistemáticas, bem como erros aleatórios.

Erros de amostragem e vieses

Erros de amostragem e vieses são induzidos pelo desenho da amostra. Eles incluem:

  1. Viés de seleção : quando as verdadeiras probabilidades de seleção diferem daquelas assumidas no cálculo dos resultados.
  2. Erro de amostragem aleatória : variação aleatória nos resultados devido aos elementos da amostra serem selecionados aleatoriamente.

Erro de não amostragem

Erros de não amostragem são outros erros que podem impactar as estimativas finais da pesquisa, causados ​​por problemas na coleta de dados, processamento ou desenho da amostra. Esses erros podem incluir:

  1. Cobertura excessiva: inclusão de dados de fora da população
  2. Subcobertura : a base de amostragem não inclui elementos da população.
  3. Erro de medição : por exemplo, quando os entrevistados entendem mal uma pergunta ou têm dificuldade de responder
  4. Erro de processamento : erros na codificação de dados
  5. Não resposta ou viés de participação : falha em obter dados completos de todos os indivíduos selecionados

Após a amostragem, deve ser realizada uma revisão do processo exato seguido na amostragem, ao invés do pretendido, a fim de estudar quaisquer efeitos que quaisquer divergências possam ter nas análises subsequentes.

Um problema específico envolve a não resposta . Existem dois tipos principais de não resposta:

  • não resposta da unidade (falta de conclusão de qualquer parte da pesquisa)
  • item não resposta (envio ou participação na pesquisa, mas não conseguiu preencher um ou mais componentes / questões da pesquisa)

Na amostragem da pesquisa , muitos dos indivíduos identificados como parte da amostra podem não querer participar, não ter tempo para participar (custo de oportunidade) ou os administradores da pesquisa podem não ter sido capazes de contatá-los. Nesse caso, existe o risco de diferenças entre respondentes e não respondentes, levando a estimativas enviesadas dos parâmetros populacionais. Freqüentemente, isso é resolvido melhorando o desenho da pesquisa, oferecendo incentivos e conduzindo estudos de acompanhamento que fazem uma tentativa repetida de contatar os que não respondem e de caracterizar suas semelhanças e diferenças com o resto do quadro. Os efeitos também podem ser mitigados ponderando os dados (quando os parâmetros de referência da população estão disponíveis) ou imputando dados com base nas respostas a outras perguntas. A falta de resposta é particularmente um problema na amostragem da Internet. As razões para este problema podem incluir pesquisas mal planejadas, pesquisas excessivas (ou fadiga da pesquisa) e o fato de que os participantes em potencial podem ter vários endereços de e-mail, que não usam mais ou não verificam regularmente.

Pesos de pesquisa

Em muitas situações, a fração da amostra pode ser variada por estrato e os dados terão que ser ponderados para representar corretamente a população. Assim, por exemplo, uma amostra aleatória simples de indivíduos no Reino Unido pode não incluir alguns em ilhas remotas da Escócia, cuja amostragem seria excessivamente cara. Um método mais barato seria usar uma amostra estratificada com estratos urbanos e rurais. A amostra rural pode estar sub-representada na amostra, mas devidamente ponderada na análise para compensar.

De forma mais geral, os dados devem ser ponderados se o desenho da amostra não der a cada indivíduo uma chance igual de ser selecionado. Por exemplo, quando as famílias têm probabilidades de seleção iguais, mas uma pessoa é entrevistada de dentro de cada família, isso dá às pessoas de famílias grandes uma chance menor de serem entrevistadas. Isso pode ser contabilizado usando pesos de pesquisa. Da mesma forma, domicílios com mais de uma linha telefônica têm maior chance de serem selecionados em uma amostra de discagem de dígitos aleatórios, e os pesos podem ser ajustados para isso.

Os pesos também podem servir a outros propósitos, como ajudar a corrigir a falta de resposta.

Métodos de produção de amostras aleatórias

História

A amostragem aleatória por meio de lotes é uma ideia antiga, mencionada várias vezes na Bíblia. Em 1786, Pierre Simon Laplace estimou a população da França usando uma amostra, junto com um estimador de proporção . Ele também calculou estimativas probabilísticas do erro. Estes não foram expressos como intervalos de confiança modernos , mas como o tamanho da amostra que seria necessário para atingir um determinado limite superior no erro de amostragem com probabilidade 1000/1001. Suas estimativas usaram o teorema de Bayes com uma probabilidade anterior uniforme e assumiram que sua amostra era aleatória. Alexander Ivanovich Chuprov introduziu pesquisas por amostragem na Rússia Imperial na década de 1870.

Nos Estados Unidos, a previsão do Literary Digest de 1936 de uma vitória republicana nas eleições presidenciais deu errado, devido a um viés severo [1] . Mais de dois milhões de pessoas responderam ao estudo com seus nomes obtidos por meio de listas de assinaturas de revistas e listas telefônicas. Não foi apreciado que essas listas fossem fortemente tendenciosas para os republicanos e a amostra resultante, embora muito grande, era profundamente falha.

Veja também

Notas

O livro de Groves et alia fornece uma visão geral da metodologia de pesquisa, incluindo literatura recente sobre o desenvolvimento de questionários (informada pela psicologia cognitiva ):

  • Robert Groves , et alia. Metodologia de pesquisa (2010 2ª ed. [2004]) ISBN  0-471-48348-6 .

Os outros livros enfocam a teoria estatística da amostragem de pesquisa e requerem algum conhecimento de estatística básica, conforme discutido nos seguintes livros:

O livro elementar de Scheaffer et alia usa equações quadráticas da álgebra do ensino médio:

  • Scheaffer, Richard L., William Mendenhal e R. Lyman Ott. Amostragem da pesquisa elementar , Quinta Edição. Belmont: Duxbury Press, 1996.

Mais estatísticas matemáticas são necessárias para Lohr, para Särndal et alia e para Cochran (clássico):

Os livros historicamente importantes de Deming e Kish permanecem valiosos para insights para cientistas sociais (particularmente sobre o censo dos EUA e o Instituto de Pesquisa Social da Universidade de Michigan ):

Referências

Leitura adicional

Padrões

ISO

  • ISO 2859 series
  • ISO 3951 series

ASTM

  • Prática Padrão ASTM E105 para Amostragem de Probabilidade de Materiais
  • Prática padrão ASTM E122 para calcular o tamanho da amostra para estimar, com um erro tolerável especificado, a média para a característica de um lote ou processo
  • Prática padrão ASTM E141 para aceitação de evidências com base nos resultados da amostragem de probabilidade
  • Terminologia padrão ASTM E1402 relacionada à amostragem
  • Prática padrão ASTM E1994 para uso de planos de amostragem AOQL e LTPD orientados a processos
  • Prática padrão ASTM E2234 para amostragem de um fluxo de produto por atributos indexados por AQL

ANSI, ASQ

  • ANSI / ASQ Z1.4

Padrões federais e militares dos EUA

links externos