6장.다양한 가설검정
6장.다양한 가설검정
6.1 다양한 가설검정
가설검정 방법 구분해 사용하기
🔖가설검정 해석의 흐름
- 귀무가설이나 검정통계량 -> 방법에 따라 달라짐
- 필요한 검정통계량 -> 데이터 유형이나 성질에 따라 다름
❗가설검정 방법을 선택할 때는 데이터 유형, 표본의 수, 양적 변수 분포의 성질을 먼저 확인하자!
🔖데이터 유형
- 2가지 변수 사이의 관계 조사
- 양적 변수와 질적 변수
- 범주형 변수 간의 관계
- 분할표: 각 상태에 몇 개 데이터가 있는지 나타내느 표.
- 양적 변수 간의 관계
❗데이터 유형이 양적 변수인지 질적 변수인지에 따라 해석 방법이 달라지니, 데이터 유형부터 확인!
🔖표본의 수
- 1표본: 1변수 데이터를 조사(모집단분포에 대해 가설을 세움)
- 2표본: 표본끼리 비교함
- 3개 이상의 표본을 서로 비교
🔖양적 변수의 성질
❗데이터에 양적 변수가 있는 경우, 이것이 어떤 분포를 취하는지가 검정 방법을 선택할 때 중요!
- 모수검정: 모집단이 수학적으로 다룰 수 있는 특정 분포를 따른다는 가정을 둔 가설검정
- 정규성: 데이터가 정규분포로부터 얻어졌다고 간주할 수 있는 성질
- 정규성: 데이터가 정규분포로부터 얻어졌다고 간주할 수 있는 성질
VS
- 비모수검정: 평균이나 표준편차 등의 파라미터에 기반을 두지 않는 방법(특정 분포라고 가정 못할 경우)
- 등분산성: 집단 간 평균값을 비교하는 경우에는 집단끼리 분산이 동일하다고 가정.
6.2 대푯값 비교
모수검정의 평균값 비교
🔖일표본 t검정
- 일표본 t검정: 어떤 평균값의 모집단에서 표본을 얻었는가를 조사
❗ 단, u=oo으로는 연구의 배경으로서 의미가 있는 값을 고려!
❗95% 신뢰구간을 구하는 것과 a=0.05의 유의 수준으로 귀무가설을 검정하는 것은 동전의 양면과 같은 관계
🔖이표본 t검정
- 이표본 t검정: 2개 집단의 평균값을 비교하는 것
❗t검정은 모수검정으로 분류되는 검정방법이기 때문에 데이터에 정규성이 있어야한다.(일반적으로 등분산성을 가정해야함 -> 분산이 일치하지 않으면 웰치의 t검정을 이용)
🔖대응 관계가 없는 검정과 대응 관계가 있는 검정
❗대응 관계가 있는 데이터일 때는 똑같이 대응 관계가 있는 검정을 이용하는 편이 좋다 -> 제2종 오류가 발생할 확률⬇️ 검정력⬆️
➕ 적절하지 않은 검정을 사용하게 된다면?
- 유의수준을 0.05로 설정하더라고, 제 1종 오류가 일어날 확률이 0.05가 아니게 된다 -> 설정한 값보다 오히려 커진다!
🔖정규성 조사
- Q - Q 플롯: 시각적으로 판단
- 샤피로 - 윌크 검정: 가설검정으로 조사
- 콜모고로프 - 스미르노프 검정: 이론적인 분포와 비교
🔖등분산성 조사
- 바틀렛 검정
- 레빈 검정
비모수검정의 대푯값 비교
🔖비모수 버전의 2개 표본 대푯값 비교
- 윌콕슨 순위합 검정
- 평균값 대신 분포의 위치를 나타내는 대푯값에 주목
- 평균값 대신 각 데이터 값의 순위에 기반하여 검정을 실시
- 맨 - 휘트니 U 검정
- 위와 같은 방법
- 비교할 2개 집단의 분포 모양 자체가 같아야함
- 플리그너 - 플리셀로 검정
- 브루너 - 문첼 검정
- 2개 모집단의 분포 형태가 같지 않아도 괜찮음
분산분석(3개 집단 이상의 평균값 비교)
- 분산분석: 3개 이상 집단의 평균값을 비교하는 방법
🔖분산분석의 원리
➕ 자유도
- 자유도: 자유로이 움직일 수 있는 변수의 수
- 이용
- t분포의 형태를 결정
- F분포의 형태를 결정
다중비교 검정
- 다중비교 검정: 검정을 반복하는 만큼, 유의수준을 엄격한 값으로 변경하자!
🔖여러가지 다중비교 방법
- 본페로니 교정: 전체에서 유의수준 a를 설정했을 때의 검정 반복 횟수를 k라 하고, 매 검정에서는 a를 검정 횟수로 나눈 값 a/k를 기준으로 가설검정을 하는 방법 ❗검정력이 낮음.
- 튜키 검정
- 던넷 검정(대조군과의 비교에만 관심)
- 윌리엄스 검정(집단 간에 순위 매길 수 있음)
🔖언제나 분산분석이 필요할까?
- 다중비교
- F분포를 이용한 검정 방법인 분산분석과 같은 원리
- 분산분석에서의 결과가 다중비교 결과와도 일치
- F분포를 이용한 검정 방법인 분산분석과 다른 원리
- 결과가 다를 때가 있음
- F분포를 이용한 검정 방법인 분산분석과 같은 원리
❗섣불리 분산분석 -> 다중비교 X ❗본페르니 검정, 튜키 검정, 던넷 검정, 윌리엄스 검정은 분산분석과 다른 원리이므로 분산분석 없이 단독으로 수행해도 문제X
🔖3집단 이상의 비모수 검정
- 크러스컬 - 윌리스 검정: 정규성이 없는 집단이 1개 이상일때
- 스틸 - 드와스 검정: 튜키 검정에 상응
- 스틸 검정: 던넷 검정에 상응
6.3 비율 비교
범주형 데이터
- 범주형 데이터: 범주로 나타나는 경우
❗모집단의 파라미터인 확률 P에 관련된 가설을 세워 검정할 수 있음
이항검정
- 이항검정: 하나의 범주가 확률 P, 또 하나의 범주가 확률 1-P로 나타나는지를 조사
- p: 모든 패턴의 확률 더한것
카이제곱검정: 적합도 검정
- 카이제곱검정: 특정 이산확률분포에서 얻은 데이터인지를 조사하는 방법
- 귀무가설의 확률분포에서 얻을 수 있는 기대도수(전체 개수에 각 확률을 곱한 값)를 계산
- 각 경우의 (실제 출현도수 - 기대도수)^2 / (기대도수)를 계산하고, 이를 더한 값을 구합니다.(이때 구한 것이 카이제곱분포이다.)
카이제곱검정: 독립성검정
- 카이제곱검정의 독립성검정: 두 변수가 독립적일 때
This post is licensed under CC BY 4.0 by the author.