A estatística não paramétrica é o ramo da estatística que não se baseia apenas em famílias parametrizadas de distribuições de probabilidade (exemplos comuns de parâmetros são a média e a variância). As estatísticas não paramétricas baseiam-se em não ter distribuição ou em ter uma distribuição especificada, mas com os parâmetros da distribuição não especificados. As estatísticas não paramétricas incluem estatísticas descritivas e inferência estatística . Os testes não paramétricos são freqüentemente usados quando as suposições dos testes paramétricos são violadas. [1] O termo "estatística não paramétrica" foi definido de forma imprecisa das duas maneiras a seguir, entre outras. Estes incluem, entre outros: As estatísticas de pedidos , baseadas nas classificações de observações, são um exemplo dessas estatísticas. A discussão a seguir foi retirada de Kendall . [2]
As hipóteses estatísticas dizem respeito ao comportamento de variáveis aleatórias observáveis ... Por exemplo, a hipótese (a) de que uma distribuição normal tem uma média e variância especificadas é estatística; o mesmo ocorre com a hipótese (b) de que tem uma determinada média, mas uma variância não especificada; o mesmo ocorre com a hipótese (c) de que uma distribuição é de forma normal com média e variância não especificadas; finalmente, também é a hipótese (d) de que duas distribuições contínuas não especificadas são idênticas.
Terá sido notado que nos exemplos (a) e (b) a distribuição subjacente às observações foi considerada de uma certa forma (a normal) e a hipótese preocupou-se inteiramente com o valor de um ou de ambos os seus parâmetros. Essa hipótese, por razões óbvias, é chamada de paramétrica .
A hipótese (c) era de natureza diferente, uma vez que nenhum valor de parâmetro é especificado na declaração da hipótese; podemos razoavelmente chamar tal hipótese de não paramétrica . A hipótese (d) também é não paramétrica, mas, além disso, nem mesmo especifica a forma subjacente da distribuição e pode agora ser razoavelmente denominada de livre de distribuição . Apesar dessas distinções, a literatura estatística agora comumente aplica o rótulo "não paramétrico" aos procedimentos de teste que acabamos de denominar "livre de distribuição", perdendo assim uma classificação útil.
- regressão não paramétrica , que é a modelagem pela qual a estrutura da relação entre as variáveis é tratada de forma não paramétrica, mas onde, no entanto, pode haver suposições paramétricas sobre a distribuição dos resíduos do modelo.
- modelos bayesianos hierárquicos não paramétricos , como os modelos baseados no processo de Dirichlet , que permitem que o número de variáveis latentes cresça conforme necessário para se ajustar aos dados, mas onde as variáveis individuais ainda seguem distribuições paramétricas e até mesmo o processo que controla a taxa de crescimento de variáveis latentes seguem uma distribuição paramétrica.
Métodos não paramétricos são amplamente usados para estudar populações que assumem uma ordem de classificação (como críticas de filmes que recebem de uma a quatro estrelas). O uso de métodos não paramétricos pode ser necessário quando os dados têm uma classificação, mas não uma interpretação numérica clara , como na avaliação de preferências . Em termos de níveis de medição , os métodos não paramétricos resultam em dados ordinais .
Como os métodos não paramétricos fazem menos suposições, sua aplicabilidade é muito mais ampla do que os métodos paramétricos correspondentes. Em particular, eles podem ser aplicados em situações em que menos se sabe sobre a aplicação em questão. Além disso, devido à confiança em menos suposições, os métodos não paramétricos são mais robustos .
Outra justificativa para o uso de métodos não paramétricos é a simplicidade. Em certos casos, mesmo quando o uso de métodos paramétricos é justificado, os métodos não paramétricos podem ser mais fáceis de usar. Devido a essa simplicidade e à sua maior robustez, os métodos não paramétricos são vistos por alguns estatísticos como deixando menos espaço para uso impróprio e mal-entendidos.
A aplicabilidade mais ampla e a robustez aumentada dos testes não paramétricos têm um custo: nos casos em que um teste paramétrico seria apropriado, os testes não paramétricos têm menos poder . Em outras palavras, um tamanho de amostra maior pode ser necessário para tirar conclusões com o mesmo grau de confiança.
Os modelos não paramétricos diferem dos modelos paramétricos porque a estrutura do modelo não é especificada a priori, mas sim determinada a partir de dados. O termo não paramétrico não pretende implicar que tais modelos não possuam parâmetros, mas que o número e a natureza dos parâmetros são flexíveis e não fixados de antemão.
- Um histograma é uma estimativa não paramétrica simples de uma distribuição de probabilidade.
- A estimativa da densidade do kernel fornece melhores estimativas da densidade do que os histogramas.
- Métodos de regressão não paramétrica e regressão semiparamétrica foram desenvolvidos com base em kernels , splines e wavelets .
- A análise envoltória de dados fornece coeficientes de eficiência semelhantes aos obtidos por análise multivariada sem qualquer suposição de distribuição.
- Os KNNs classificam a instância invisível com base nos K pontos no conjunto de treinamento que estão mais próximos a ela.
- Uma máquina de vetores de suporte (com um kernel gaussiano) é um classificador não paramétrico de grande margem.
- O método dos momentos com distribuições de probabilidade polinomiais.
Os métodos estatísticos inferenciais não paramétricos (ou sem distribuição ) são procedimentos matemáticos para teste de hipóteses estatísticas que, ao contrário da estatística paramétrica , não fazem suposições sobre as distribuições de probabilidade das variáveis que estão sendo avaliadas. Os testes usados com mais frequência incluem
- Análise de semelhanças
- Teste de Anderson-Darling : testa se uma amostra é retirada de uma determinada distribuição
- Métodos estatísticos de bootstrap : estima a precisão / distribuição amostral de uma estatística
- Q de Cochran : testa se k tratamentos em desenhos de blocos aleatórios com resultados 0/1 têm efeitos idênticos
- Kappa de Cohen : mede a concordância entre avaliadores para itens categóricos
- Análise de variância bidirecional de Friedman por classificações: testa se k tratamentos em designs de blocos aleatórios têm efeitos idênticos
- Kaplan-Meier : estima a função de sobrevivência a partir de dados de vida, modelagem de censura
- Tau de Kendall : mede a dependência estatística entre duas variáveis
- W de Kendall : uma medida entre 0 e 1 de concordância entre avaliadores
- Teste de Kolmogorov-Smirnov : testa se uma amostra é retirada de uma determinada distribuição ou se duas amostras são retiradas da mesma distribuição
- Análise unilateral de variância por classificação de Kruskal-Wallis : testa se> 2 amostras independentes são extraídas da mesma distribuição
- Teste de Kuiper : testa se uma amostra é retirada de uma determinada distribuição, sensível a variações cíclicas, como o dia da semana
- Teste de Logrank : compara as distribuições de sobrevivência de duas amostras censuradas enviesadas para a direita
- Mann-Whitney U ou Wilcoxon rank sum test: testa se duas amostras são retiradas da mesma distribuição, em comparação com uma dada hipótese alternativa.
- Teste de McNemar : testa se, em tabelas de contingência 2 × 2 com uma característica dicotômica e pares combinados de sujeitos, as frequências marginais de linha e coluna são iguais
- Teste de mediana : testa se duas amostras são retiradas de distribuições com medianas iguais
- Teste de permutação de Pitman : um teste de significância estatística que produz valores p exatos examinando todos os rearranjos possíveis de rótulos
- Produtos de classificação : detecta genes diferencialmente expressos em experimentos de microarray replicados
- Teste de Siegel-Tukey : testa as diferenças de escala entre dois grupos
- Teste de sinal : testa se as amostras de pares combinados são retiradas de distribuições com medianas iguais
- Coeficiente de correlação de Spearman : mede a dependência estatística entre duas variáveis usando uma função monotônica
- Teste de classificação quadrada : testa a igualdade de variâncias em duas ou mais amostras
- Teste de Tukey-Duckworth : testa a igualdade de duas distribuições usando classificações
- Wald – Wolfowitz executa o teste : testa se os elementos de uma sequência são mutuamente independentes / aleatórios
- Teste de classificação sinalizada de Wilcoxon : testa se as amostras de pares combinados são retiradas de populações com classificações médias diferentes
As primeiras estatísticas não paramétricas incluem a mediana (século 13 ou anterior, uso na estimativa de Edward Wright , 1599; ver Mediana § História ) e o teste de sinal por John Arbuthnot (1710) na análise da proporção de sexos humanos no nascimento (ver Teste de sinal § História ) [3] [4]
- Intervalo de confiança não paramétrico baseado em CDF
- Estatísticas paramétricas
- Reamostragem (estatísticas)
- Modelo semiparamétrico
- ^ Pearce, J; Derrick, B (2019). "Teste preliminar: o diabo das estatísticas?" . Reinvenção: An International Journal of Undergraduate Research . 12 (2). doi : 10.31273 / reinvention.v12i2.339 .
- ^ Stuart A., Ord JK, Arnold S. (1999), Teoria Avançada de Estatística de Kendall: Volume 2A - Inferência Clássica e o Modelo Linear , sexta edição, §20.2–20.3 ( Arnold ).
- ^ Conover, WJ (1999), "Capítulo 3.4: The Sign Test", Practical Nonparametric Statistics (Third ed.), Wiley, pp. 157-176, ISBN 0-471-16068-7
- ^ Sprent, P. (1989), Applied Nonparametric Statistical Methods (segunda edição), Chapman & Hall, ISBN 0-412-44980-3
- Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "Testes não paramétricos para dados completos", ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
- Corder, GW; Foreman, DI (2014). Estatística não paramétrica: uma abordagem passo a passo . Wiley. ISBN 978-1118840313.
- Gibbons, Jean Dickinson ; Chakraborti, Subhabrata (2003). Nonparametric Statistical Inference , 4ª ed. CRC Press. ISBN 0-8247-4052-1 .
- Hettmansperger, T. P .; McKean, J. W. (1998). Métodos estatísticos não paramétricos robustos . Biblioteca de Estatísticas de Kendall. 5 (primeira edição). Londres: Edward Arnold . Nova York: John Wiley & Sons. ISBN 0-340-54937-8. MR 1604954 . tb ISBN 0-471-19479-4 .
- Hollander M., Wolfe DA, Chicken E. (2014). Nonparametric Statistical Methods , John Wiley & Sons.
- Sheskin, David J. (2003) Handbook of Parametric and Nonparametric Statistical Procedures . CRC Press. ISBN 1-58488-440-1
- Wasserman, Larry (2007). All of Nonparametric Statistics , Springer. ISBN 0-387-25145-6 .