Statistical hypothesis test(통계적 가설·검정)
07 Jan 2018 | Basic Statistics독립변수 & 종속변수
-
독립변수(Independent variable)
= 설명변수(Explanatory variable), 예측변수(Predictor variable), 위험인자(Risk factor)
: 연구자가 의도적으로 변화시키는 변수로, 입렵값이나 원인을 나타낸다. -
종속변수(Dependent variable)
= 반응변수(Response variable), 결과변수(Outcome variable), 표적변수(Target variable)
: 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수로, 결과나 효과를 나타낸다.
귀무가설 & 대립가설
-
귀무가설(Null hypothesis, $H_0$)
: 증명하고자 하는 실험과 반대되는 입장, 증명되기 전까지는 효과도 없고 차이도 없다는 영가설 -
대립가설(Alternative hypothesis, $H_{1}$)
: 귀무가설의 반대로, 연구자가 실험을 통해 규명하고자 하는 가설Ex)
- $H_0$ : 새로운 신약은 알레르기에 효과가 없다.
- $H_1$ : 새로운 신약은 알레르기에 효과가 있다.
모집단 & 표본집단 / 모수 & 통계량
-
모집단(Population)
: 어떤 정보를 얻고자 하는 전체 대상 또는 전체 집합 -
표본집단(Sample)
: 모집단으로 부터 추출된 모집단의 부분 집합
-
모수(Parameter)
: 모집단의 특성을 수치로 나타낸 값 (ex. 평균 $\mu$, 분산 $\sigma^2$) -
통계량(Statistic)
: 표본의 특성을 수치로 나타낸 값 (ex. 표본 평균 $\hat{\mu} = \bar{X}$, 표본 분산 $\hat{\sigma^2} = s^2$)
※ hat 기호는 추정량을 뜻한다.
일반적으로, 전수조사가 아닌 이상 모집단에서 모수를 구하기가 어렵다. 결국, 데이터 분석의 목적은 표본집단에서 통계량을 구해 모집단의 모수를 추론하는 것이다.
가설·검정
: 문제를 인식하여 가설(hypothesis)를 세우고, 이를 확인하는 과정을 검정(test)라고 한다. 가설·검정을 할 때, 위의 상황처럼 고려할 사항들이 몇가지 있다.
가설(hypothesis)
- $H_0$ : A학교 1학년의 평균키는 162.0cm 이다. ($\mu_1 = 162.0$)
- $H_1$ : A학교 1학년의 평균키는 162.0cm 보다 크다. ($\mu_1 > 162.0$)
검정(test)
- 기각역(rejection region, $\alpha$)
: 귀무가설이 맞다는 가정하에, 귀무가설이 틀리다고 할 기준 영역
(즉, 관측된 통계량이 기각역에 포함되면 귀무가설 기각, 대립가설 채택) - 채택역($1-\alpha$)
: 귀무가설이 맞다는 가정하에, 귀무가설이 맞다고 할 기준 영역
(즉, 관측된 통계량이 채택역에 포함되면 귀무가설 채택, 대립가설 기각) - 유의확률(p-value)
: 귀무가설이 맞다는 전제하에, 관측된 통계량과 같거나 더욱 극단적인 통계량이 나올 확률
(즉, 기각역보다 유의확률이 작다면, 귀무가설 기각, 대립가설 채택)
기각역과 채택역은 분석가가 조정하는 부분이며, 유의확률은 자료로부터 계산된다.
Comments