Exibição de haste e folha - Stem-and-leaf display

Um gráfico de caule e folha dos valores 20, 30, 32, 35, 41, 41, 43, 47, 48, 51, 53, 53, 54, 56, 57, 58, 58, 59, 60, 62, 64, 65, 65, 69, 71, 74, 77, 88 e 102

Um visor caule e folhas ou trama caule e folhas é um dispositivo para a apresentação de dados quantitativos em um gráfico formato, semelhante a um histograma , para ajudar a visualizar a forma de uma distribuição . Eles evoluíram do trabalho de Arthur Bowley no início de 1900 e são ferramentas úteis na análise exploratória de dados . Stemplots tornou-se mais comumente usado na década de 1980 após a publicação do livro de John Tukey sobre análise exploratória de dados em 1977. A popularidade durante aqueles anos é atribuída ao uso de estilos de tipo monoespaçado (máquina de escrever) que permitiam que a tecnologia de computador da época produzisse facilmente os gráficos. As capacidades gráficas superiores dos computadores modernos significam que essas técnicas são usadas com menos frequência.

Este enredo foi implementado em Octave e R.

Um gráfico de caule e folhas também é chamado de gráfico de tronco , mas o último termo geralmente se refere a outro tipo de gráfico. Um gráfico de haste simples pode referir-se a plotar uma matriz de valores y em um eixo x comum e identificar o valor x comum com uma linha vertical e os valores y individuais com símbolos na linha.

Ao contrário dos histogramas, as exibições de caule e folha retêm os dados originais em pelo menos dois dígitos significativos e colocam os dados em ordem, facilitando assim a mudança para inferência baseada em ordem e estatísticas não paramétricas .


Construção

Para construir uma exibição de caule e folha, as observações devem primeiro ser classificadas em ordem crescente: isso pode ser feito mais facilmente se trabalhar manualmente, construindo um esboço da exibição de caule e folha com as folhas não classificadas e, em seguida, classificando o folhas para produzir a exibição final de caule e folha. Aqui está o conjunto classificado de valores de dados que serão usados ​​no exemplo a seguir:

44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106

Em seguida, deve-se determinar o que os caules representarão e o que as folhas representarão. Normalmente, a folha contém o último dígito do número e a haste contém todos os outros dígitos. No caso de números muito grandes, os valores dos dados podem ser arredondados para um valor de casa particular (como a casa das centenas) que será usado para as folhas. Os dígitos restantes à esquerda do valor da casa arredondada são usados ​​como base.

Neste exemplo, a folha representa a casa das unidades e o caule representará o resto do número (casa das dezenas e mais).

A exibição de caule e folha é desenhada com duas colunas separadas por uma linha vertical. As hastes são listadas à esquerda da linha vertical. É importante que cada haste seja listada apenas uma vez e que nenhum número seja omitido, mesmo que isso signifique que algumas hastes não tenham folhas. As folhas são listadas em ordem crescente em uma fileira à direita de cada haste.

É importante notar que, quando há um número repetido nos dados (como dois 72s), o gráfico deve refleti-lo (de modo que o gráfico seria semelhante a 7 | 2 2 5 6 7 quando tivesse os números 72 72 75 76 77).

Chave:
Unidade de folha: 1.0
Unidade de haste: 10,0

O arredondamento pode ser necessário para criar uma exibição de haste e folha. Com base no seguinte conjunto de dados, o gráfico-tronco abaixo seria criado:

−23,678758, −12,45, −3,4, 4,43, 5,5, 5,678, 16,87, 24,7, 56,8

Para números negativos, um negativo é colocado na frente da unidade da haste, que ainda é o valor X / 10. Os não inteiros são arredondados. Isso permitiu que o gráfico de caule e folha mantivesse sua forma, mesmo para conjuntos de dados mais complicados. Como neste exemplo abaixo:

Chave:

Uso

Exibições de folhas e hastes são úteis para exibir a densidade relativa e a forma dos dados, dando ao leitor uma visão geral rápida da distribuição. Eles retêm (a maior parte) os dados numéricos brutos, geralmente com integridade perfeita. Eles também são úteis para destacar outliers e encontrar o modo . No entanto, exibições de caule e folha são úteis apenas para conjuntos de dados de tamanho moderado (cerca de 15-150 pontos de dados). Com conjuntos de dados muito pequenos, uma exibição de haste e folha pode ser de pouca utilidade, pois um número razoável de pontos de dados é necessário para estabelecer propriedades de distribuição definitivas. Um gráfico de pontos pode ser mais adequado para esses dados. Com conjuntos de dados muito grandes, uma exibição de haste e folha ficará muito confusa, pois cada ponto de dados deve ser representado numericamente. Um gráfico de caixa ou histograma pode se tornar mais apropriado conforme o tamanho dos dados aumenta.

Notas

Referências

  • Wild, C. e Seber, G. (2000) Chance Encounters: A First Course in Data Analysis and Inference pp. 49–54 John Wiley and Sons. ISBN  0-471-32936-3
  • Elliott, Jane; Catherine Marsh (2008). Explorando Dados: Uma Introdução à Análise de Dados para Cientistas Sociais (2ª ed.). Polity Press. ISBN 0-7456-2282-8.