Post

6장.다양한 가설검정

6장.다양한 가설검정

6.1 다양한 가설검정

가설검정 방법 구분해 사용하기

🔖가설검정 해석의 흐름

alt text

  • 귀무가설이나 검정통계량 -> 방법에 따라 달라짐
  • 필요한 검정통계량 -> 데이터 유형이나 성질에 따라 다름

❗가설검정 방법을 선택할 때는 데이터 유형, 표본의 수, 양적 변수 분포의 성질을 먼저 확인하자!

🔖데이터 유형

  • 2가지 변수 사이의 관계 조사
    • 양적 변수와 질적 변수
    • 범주형 변수 간의 관계
      • 분할표: 각 상태에 몇 개 데이터가 있는지 나타내느 표.
    • 양적 변수 간의 관계

alt text -> 산점도

❗데이터 유형이 양적 변수인지 질적 변수인지에 따라 해석 방법이 달라지니, 데이터 유형부터 확인!

🔖표본의 수

  • 1표본: 1변수 데이터를 조사(모집단분포에 대해 가설을 세움)
  • 2표본: 표본끼리 비교함
  • 3개 이상의 표본을 서로 비교

alt text

🔖양적 변수의 성질

❗데이터에 양적 변수가 있는 경우, 이것이 어떤 분포를 취하는지가 검정 방법을 선택할 때 중요!

  • 모수검정: 모집단이 수학적으로 다룰 수 있는 특정 분포를 따른다는 가정을 둔 가설검정
    • 정규성: 데이터가 정규분포로부터 얻어졌다고 간주할 수 있는 성질

VS

  • 비모수검정: 평균이나 표준편차 등의 파라미터에 기반을 두지 않는 방법(특정 분포라고 가정 못할 경우)

alt text

  • 등분산성: 집단 간 평균값을 비교하는 경우에는 집단끼리 분산이 동일하다고 가정.

alt text

6.2 대푯값 비교

모수검정의 평균값 비교

🔖일표본 t검정

  • 일표본 t검정: 어떤 평균값의 모집단에서 표본을 얻었는가를 조사

alt text

❗ 단, u=oo으로는 연구의 배경으로서 의미가 있는 값을 고려!

alt text

❗95% 신뢰구간을 구하는 것과 a=0.05의 유의 수준으로 귀무가설을 검정하는 것은 동전의 양면과 같은 관계

🔖이표본 t검정

  • 이표본 t검정: 2개 집단의 평균값을 비교하는 것

alt text

❗t검정은 모수검정으로 분류되는 검정방법이기 때문에 데이터에 정규성이 있어야한다.(일반적으로 등분산성을 가정해야함 -> 분산이 일치하지 않으면 웰치의 t검정을 이용)

🔖대응 관계가 없는 검정과 대응 관계가 있는 검정

alt text

❗대응 관계가 있는 데이터일 때는 똑같이 대응 관계가 있는 검정을 이용하는 편이 좋다 -> 제2종 오류가 발생할 확률⬇️ 검정력⬆️

➕ 적절하지 않은 검정을 사용하게 된다면?

  • 유의수준을 0.05로 설정하더라고, 제 1종 오류가 일어날 확률이 0.05가 아니게 된다 -> 설정한 값보다 오히려 커진다!

🔖정규성 조사

  • Q - Q 플롯: 시각적으로 판단
  • 샤피로 - 윌크 검정: 가설검정으로 조사
  • 콜모고로프 - 스미르노프 검정: 이론적인 분포와 비교

🔖등분산성 조사

  • 바틀렛 검정
  • 레빈 검정

비모수검정의 대푯값 비교

🔖비모수 버전의 2개 표본 대푯값 비교

  • 윌콕슨 순위합 검정
    • 평균값 대신 분포의 위치를 나타내는 대푯값에 주목
    • 평균값 대신 각 데이터 값의 순위에 기반하여 검정을 실시
  • 맨 - 휘트니 U 검정
    • 위와 같은 방법
    • 비교할 2개 집단의 분포 모양 자체가 같아야함
  • 플리그너 - 플리셀로 검정
  • 브루너 - 문첼 검정
    • 2개 모집단의 분포 형태가 같지 않아도 괜찮음

alt text

분산분석(3개 집단 이상의 평균값 비교)

  • 분산분석: 3개 이상 집단의 평균값을 비교하는 방법

alt text

🔖분산분석의 원리

alt text alt text

➕ 자유도

  • 자유도: 자유로이 움직일 수 있는 변수의 수
  • 이용
    • t분포의 형태를 결정
    • F분포의 형태를 결정

다중비교 검정

alt text

  • 다중비교 검정: 검정을 반복하는 만큼, 유의수준을 엄격한 값으로 변경하자!

🔖여러가지 다중비교 방법

  • 본페로니 교정: 전체에서 유의수준 a를 설정했을 때의 검정 반복 횟수를 k라 하고, 매 검정에서는 a를 검정 횟수로 나눈 값 a/k를 기준으로 가설검정을 하는 방법 ❗검정력이 낮음.

alt text

  • 튜키 검정
  • 던넷 검정(대조군과의 비교에만 관심)
  • 윌리엄스 검정(집단 간에 순위 매길 수 있음)

alt text

🔖언제나 분산분석이 필요할까?

  • 다중비교
    • F분포를 이용한 검정 방법인 분산분석과 같은 원리
      • 분산분석에서의 결과가 다중비교 결과와도 일치
    • F분포를 이용한 검정 방법인 분산분석과 다른 원리
      • 결과가 다를 때가 있음

❗섣불리 분산분석 -> 다중비교 X ❗본페르니 검정, 튜키 검정, 던넷 검정, 윌리엄스 검정은 분산분석과 다른 원리이므로 분산분석 없이 단독으로 수행해도 문제X

🔖3집단 이상의 비모수 검정

  • 크러스컬 - 윌리스 검정: 정규성이 없는 집단이 1개 이상일때
  • 스틸 - 드와스 검정: 튜키 검정에 상응
  • 스틸 검정: 던넷 검정에 상응

6.3 비율 비교

범주형 데이터

  • 범주형 데이터: 범주로 나타나는 경우

❗모집단의 파라미터인 확률 P에 관련된 가설을 세워 검정할 수 있음

이항검정

  • 이항검정: 하나의 범주가 확률 P, 또 하나의 범주가 확률 1-P로 나타나는지를 조사

alt text

  • p: 모든 패턴의 확률 더한것

alt text

카이제곱검정: 적합도 검정

  • 카이제곱검정: 특정 이산확률분포에서 얻은 데이터인지를 조사하는 방법

alt text

  1. 귀무가설의 확률분포에서 얻을 수 있는 기대도수(전체 개수에 각 확률을 곱한 값)를 계산
  2. 각 경우의 (실제 출현도수 - 기대도수)^2 / (기대도수)를 계산하고, 이를 더한 값을 구합니다.(이때 구한 것이 카이제곱분포이다.)

alt text

카이제곱검정: 독립성검정

alt text

  • 카이제곱검정의 독립성검정: 두 변수가 독립적일 때

alt text

This post is licensed under CC BY 4.0 by the author.

Trending Tags