Estatística - Testes Paramétricos e Não-Paramétricos

 Ora bem, passados 5 dias de estudo intenso, deixo abaixo para memória futura a cheat-sheet para todos os testes paramétricos e não paramétricos de Estatística. Os testes foram feitos com esta base de dados e o programa usado o SPSS:

TESTE PARAMÉTRICO: Teste T - One Sample T Test

Este teste serve para comparar médias. Se tivermos a média de uma variável quantitativa, vamos compará-la a outra já conhecida anteriormente. Por exº a média de idades da nossa amostra contra a média de idades já conhecida anteriormente.

Pressupostos:

- Uma amostra

- 1 variável quantitativa(scale)

- Distribuição normal

----------------------------------

Se amostra > 50 usar o Kolmogorov e se < 50 usar o Shapiro. Na verificação de aproximadamente normal, amostra > 30

Passos a fazer:

Formular Hipóteses: H0 e Ha:

Exemplo: 

H0 - a idade média de população onde foi retirada a amostra é de 34 anos

Ha – (…)não é(…)


2) Verificar se Distribuição é normal

Analyze – Descriptive – Explore, Escolher variável, Statistics – Descriptive, Plot – Histogram, Normality plots with tests.

Ter em atenção o tamanho da amostra:

Verificar nos Testes de Normalidade o Sig.:

Acima de 0.05 a distribuição é normal

Abaixo de 0.05 a distribuição não é normal



2.1) Se a Distribuição não fôr normal:

Na tabela “Descritivas” procurar a Assimetria e a Curtose. Dividir a Assimetria pelo desvio. Dividir a Curtose pelo desvio. Se ambos os valores tiverem dentro de -1,988 e 1,988 a distribuição é aproximadamente normal e podemos continuar o teste.



3) Analyze – Compare Means – One Sample T Test

Na Test Variable metemos o nosso campo e no Test Value o valor contra o qual o queremos comparar.

Na tabela One-Sample Test procurar por Sig.(2-tailed). Se este valor fôr > Alfa não rejeitamos H0 (podemos generalizar). Se este valor fôr <= Alfa rejeitamos H0 (não podemos generalizar).



Paramétrico: Teste T de Igualdade de 2 Médias - Independent Samples T Test

Este teste é utilizado para separar uma variável Quantitativa em 2 grupos de uma variável Qualitativa (M/F por exemplo). Podemos dizer que o numero de vendas é igual em duas lojas diferentes por exemplo.

Pressupostos:

Uma amostra
1 variável quantitativa(scale) dependente
1 variável qualitativa com 2 categorias (independente)
Distribuição normal na variável quantitativa
Variâncias iguais em cada grupo de estudo da quantitativa (Teste de Levene)

----------------------------------
Se amostra > 50 usar o Kolmogorov e se < 50 usar o Shapiro. Na verificação de aproximadamente normal, amostra > 30

1) Formular Hipóteses: H0 e Ha:
Exemplo: 
H0 – o nº médio de diários lidos por semana é igual nos homens e nas mulheres
Ha – (…)não é(…)

2) Verificar a normalidade da distribuição:
Analyze – Descriptive – Explore – Na dependente colocar a quantitativa, na Factor Lista colocar a qualitativa – Plots – Normality plots with tests.
Ter em atenção o tamanho de cada amostra.
Verificar nos Testes de Normalidade o Sig.:
Acima de 0.05 a distribuição é normal
Abaixo de 0.05 a distribuição não é normal




2.1) Se a Distribuição não fôr normal:
Na tabela “Descritivas” procurar a Assimetria e a Curtose. Dividir a Assimetria pelo desvio. Dividir a Curtose pelo desvio. Se ambos os valores tiverem dentro de -1,988 e 1,988 a distribuição é aproximadamente normal e podemos continuar o teste.




3) Verificar igualdade da variância (Levene)
Analyze – Compare means – Independent Samples T Test – Na Test variable colocar a quantitativa, na Grouping colocar os grupos e defini-los.
Na tabela Independent Samples Test procurar o Sig.
Acima de 0.05 as variâncias são iguais (usar 1ª linha)
Abaixo de 0.05 as variâncias são diferentes (usar 2ª linha)
Procuramos pelo valor de Sig.(2-tailed) consoante a linha que nos der. 
Acima de 0.05 não rejeitamos H0 (aceita-se na população geral)
Abaixo de 0.05 rejeitamos H0 (não aceitamos na população)



Paramétrico: Teste ANOVA de análise de Variâncias – One-Way ANOVA

Este teste serve para pegarmos numa variável quantitativa e verificarmos se a sua média em 3 ou mais grupos de uma variável qualitativa é idêntica.

Pressupostos:

1 Variável quantitativa (dependente)
1 variável qualitativa com 3 ou mais grupos (independente)
Distribuição normal
Variâncias normais

----------------------------------
Se amostra > 50 usar o Kolmogorov e se < 50 usar o Shapiro. Na verificação de aproximadamente normal, amostra > 30

1) Formular Hipóteses: H0 e Ha:
Exemplo: 
H0 – o tempo de leitura médio do semanário é idêntico para os 3 modos de leitura do semanário preferido
Ha – existe pelo menos um par de modos de leitura com médias de tempo de leitura diferentes

2) Verificar a normalidade da distribuição:
Analyze – Descriptive – Explore – Na dependente colocar a quantitativa, na Factor Lista colocar a qualitativa – Plots – Normality plots with tests.
Ter em atenção o tamanho de cada amostra.
Verificar nos Testes de Normalidade o Sig.:
Acima de 0.05 a distribuição é normal
Abaixo de 0.05 a distribuição não é normal

2.1) Se a Distribuição não fôr normal:
Na tabela “Descritivas” procurar a Assimetria e a Curtose. Dividir a Assimetria pelo desvio. Dividir a Curtose pelo desvio. Se ambos os valores tiverem dentro de -1,988 e 1,988 a distribuição é aproximadamente normal e podemos continuar o teste.

3) Verificar igualdade da variância (Levene)
Analyze – Compare means – One-Way Anova. Nas Options colocar Descriptive, Homogeneneity, Exclude cases analysis by analysis, Means Plot.
Na tabela Homegeneidade de variâncias verificar os Sig:
Acima de 0.05 as variâncias são iguais (não rejeitamos H0)
Abaixo de 0.05 as variâncias são diferentes (rejeitamos H0)

VARIÂNCIAS IGUAIS

Se as variâncias forem idênticas vamos à tabela ANOVA e procuramos pelo Sig:
Acima de 0.05 a hipótese é válida na população geral (não rejeitamos H0)
Abaixo de 0.05 a hipótese não é válida (rejeitamos H0)

Se rejeitarmos H0

Se as variâncias forem idênticas mas rejeitarmos H0, podemos fazer o teste de Scheffe para verificar se existem semelhanças entre alguns dos grupos.
Analyze – Compare Means – One Way ANOVA – Post Hoc – Scheffe – Escolher variáveis

Vamos à tabela das múltiplas comparações e vemos os Sig. Se Sig > 0,05, existe associação entre grupos. Se Sig <= 0,05, não existe associação.

VARIÂNCIAS DIFERENTES

Variâncias diferentes (Teste de Welch – não paramétrico) –
Se as variâncias não forem idênticas podemos fazer este teste para ver se as médias são pouco ou muito diferentes:
Analyze-Compare Means – One-Way Anova. Nas Options escolher Descriptive, Homegeneity e Welch test.
Na Tabela de Igualdade de Médias procurar pelo Sig:
Acima de 0.05 as médias são iguais (não rejeitamos H0) – hipótese válida
Abaixo de 0.05 as médias são diferentes (rejeitamos H0) – hipótese não válida

Verificar associação entre médias (Teste de Dunnet)
Usamos para saber mais informações sobre como os grupos se relacionam. Neste caso para ver a significância entre médias.
Analyze – Compare Means – One-Way Anova – Post Hoc – Dunnets C – Specify significance: 0.05
Na tabela das Multiplas comparações vemos a diferença entre médias. Um valor alto significa que a difª é alta e há pouca associação. Se o valor for baixo significa que a difª de médias é baixa e existe uma associação alta.

Não Paramétrico: Teste de Ajustamento do Qui-Quadrado

Este teste serve para testar a aderência de uma varável qualitativa a uma distribuição conhecida (uniforme – cujos grupos tenham todos o mesmo tamanho, ou não uniforme, com valores definidos por nós)

Pressupostos:

1 variável qualitativa (nominal ou ordinal) ou quantitativa não normal

----------------------------------
Não mais de 20% das classes com frequencia inferior a 5;
Todas as classes com menor valor superior ou igual a 1

Formular as hipóteses :

Exemplo: 
H0 – A variável diário preferido segue a distribuição acima especificada na população de onde foi retirada esta amostra.
Ha – A variável diário preferido não segue a distribuição acima especificada na população de onde foi retirada esta amostra.

Analyze – Nonparametric Testes – Legacy Dialogs – Chi-Square – Colocar “All categories equal”

Na tabela da variável (“Semanario Preferido” neste caso) temos as frequências observadas (Observed N e as frequências esperadas caso a hipótese nula seja verdadeira (Expected N). O residual é a difª entre os 2 campos.

Na Teste Statistics verificamos o Sig.:
Decisão: Sig(0,002) < Alfa (0,05) – Rejeitamos H0
A distribuição portanto não será uniforme e não se refletirá na população.
Vemos também se as condições do teste são cumpridas em a.

Nota: podemos alterar os valores esperados de cada categoria em vez de metermos “All categories equal”. Basta colocar os values que queremos (0,20 por exº).

Se o Sig fosse > Alfa, não rejeitamos H0, ou seja, a distribuição de preferências do semanário é de 40,30,30 para Expresso, Regional e Sol.


Se rejeitarmos H0, questionar a amostra. Verificar relação entre Nº de observados e esperados. Recolher mais dados. A amostra foi bem tirada ? A distribuição das idades foi bem feita ? A geografia foi bem escolhida ? Não utilizar variável pois não é representativa da população.


Não Paramétrico: Teste de Independência do Qui Quadrado 

Pressupostos:

2 variáveis qualitativas (ordinais ou nominais)
-----------------------------------------

Não mais de 20% das classes com frequencia inferior a 5;
Todas as classes com menor valor superior ou igual a 1

Formular as hipóteses :

Exemplo: 
H0 – as variáveis Sexo e Semanário Preferido são independentes(não estão relacionadas);
Ha – (…)não são independentes (estão relacionadas)

Analyze – Descriptive – Crosstabs –Statistics: Chi-Square, Phi and Cramers V, Cells: Observed, Expected

Na Tabela Cross Tabulation:
Count – nº da amostra
Expected – nº esperado caso serem independentes

Na tabela Teste Chi-Square:
Procurar pelo valor de Significancia 2-Sided na linha do Pearson Chi-Square.

Sig > Alfa: não rejeitamos H0 e portanto as variáveis são independentes e não há relação
Sig <= Alfa: rejeitamos H0 e portanto as variáveis não são independentes e há uma relação. 



Não Paramétrico: Teste de Mann Whitney

Pressupostos:

1 variável dependente qualitativa ordinal ou quantitativa n normal
1 variável independente qualitativa (nominal ou ordinal)

Teste de Mann – Whitney (não-paramétrico)
(alternativa ao teste T igualdade de 2 medias independentes)

Feito a duas médias independentes entre si (podemos ver isto no teste da Indepedencia). A variável independente pode ter mais que 2 grupos mas só comparamos 2. Hipóteses:
H0: a distribuição do nº de semanarios lidos por mês é igual para os grupos F e M
Ha: (…)não é igual(…)

Analyze – NonparametricTests – Legacy – 2 Independent samples. Na test variable meter a quantitativa, na grouping a qualitativa. Definir grupos.
Na tabela Ranks comparamos as médias. Vemos qual a maior e a menor.

Na tabela Test Statistics procuramos pelo Sig(2-tailed):
Sig > Alfa: não rejeitamos hipótese nula (a média nos dois grupos é igual)
Sig <= Alfa : rejeitamos hipótese nula (a média nos dois grupos é diferente)



Não Paramétrico: Teste de Kruskal-Wallis

Este teste serve para comparar 3 ou mais grupos independentes. Alternativa ao ANOVA quando a distribuição não é normal.

Pressupostos:

1 variável dependente qualitativa ordinal ou quantitativa n normal
1 variável independente qualitativa com 3 ou mais grupos 

Primeiro temos de formular as hipóteses:

H0: As distribuições do número de semanários lidos por mês para os leitores cujo semanário preferido é o Expresso, o Regional e o Sol são iguais.
Ha: As distribuições do número de semanários lidos por mês para os leitores cujo semanário preferido é o Expresso, o Regional e o Sol são diferentes.

Analyze – Nonparametric Tests – Legacy Dialogs – K Independent Samples

Na tabela Ranks aparece o ranking das médias.

Na Tabela Test Statistics verificamos o Sig:

Acima de 0.05 as distribuições são iguais (não rejeitamos H0)
Abaixo de 0.05 as distribuições são diferentes (rejeitamos H0)














Comentários

Mensagens populares deste blogue

Python - Excel - Lista de Còdigos Postais de Portugal

Python - criar nomes aleatórios