Dados que não apresentam a distribuição normal: como apresentar as medidas de tendência central e variabilidade?

Por Luiz Felippe Salemi | 19/05/2020 | Educação

Dados que não apresentam a distribuição normal: como apresentar as medidas de tendência central e variabilidade?

Frequentemente, os pesquisadores usam a média aritmética assim como o desvio padrão como medidas que descrevem, respectivamente, a tendência central e a variabilidade de um conjunto de observações de uma variável. Entretanto, uma das premissas para se utilizar essas estatísticas comuns é que o conjunto de observações vem de uma população que apresenta a distribuição normal. Contudo, muitas variáveis frequentemente não apresentam tal requisito. Então, como proceder nesses casos? Esse pequeno texto pretende fornecer uma resposta.

Imagine que um pesquisador mediu a largura de 6 troncos de árvores de uma floresta muito heterogênea.  Após isso, ele calculou a que a média e o desvio padrão das suas amostras foi de 457 ± 665 cm. Nesse caso, note que a média acrescida do seu desvio padrão resultaria num valor de 1123 cm. No entanto, subtraindo-se a média do desvio padrão, obter-se-ia o valor de -208 cm, uma valor que não tem sentido de entendimento algum porque não existe, para fins práticos, -208 cm. Isso pode ser um indicativo que a distribuição das observações não segue a distribuição normal. Nesse caso, uma saída para apresentar estatísticas descritivas básicas é, em vez de usar média e desvio padrão, utilizar mediana e desvio absoluto da mediana. Essas são estatísticas (especialmente o desvio absoluto da mediana) que independem de  distribuição normal. Enquanto a mediana é a medida central de um grupo de observações disposto de maneira crescente, o desvio absoluto da mediana é, como o nome indica, a mediana dos desvios (em módulo) que cada observação feita tem em relação à mediana. Com isso, pode-se chegar no caso apresentado da largura das árvores, numa estimativa de 84 ± 80 cm. Esse número tem muito mais sentido compreensivo que a média e o desvio das observações (457 ± 665 cm). Assim, para esse casos, pode-se utiliza a mediana e o desvio absoluto da mediana para serem as estatísticas descritivas básicas desse conjunto de observações.

Se você tem interesse em conhecer artigos científicos que utilizaram a mediana e o desvio absoluto da mediana da maneira descrita, consulte, por exemplo, os seguintes artigos:

Ziegler et al. (2004). Hydrological consequences of landscape fragmentation in mountainous northern Vietnam: evidence of accelerated Overland flow generation. Journal of Hydrology, 287, 124-146.

Salemi et al. (2020). Soil hydraulic properties: A simple and practical approach to estimate the number of samples. Eurasian Journal of Soil Science, v.9, p.18-23, 2020.