http://blog.naver.com/preciousbody/20058704671
명쾌하게 설명돼 있음.
결론적으로 표본의 분산이 늘 모집단 분산보다 작기 때문에 표본 분산을 사용한 추론통계치가 현상을 제대로 반영하지 못할 수 있고, 이에 표본 분산을 실제 모집단 분산과 비슷하게 만들기 위해 n에서 1을 빼주어 교정하는 것임. 즉 표본 분산의 크기를 키움. (n에서 1을 빼면 n일 때보다 분산이 왜 더 커지는지 이해 안 되는 분은 분산 공식을 공부할 것.) 위 링크 글 보면 가상의 모집단에서 추출한 샘플로 계산한 게 나와 있는데, n일 때는 오차가 있지만 n-1은 가상의 모집단 분산과 표본 분산이 일치하는 것을 알 수 있음.
의문 1.1 n-1을 사용해서 교정한다고 해도 모집단 분산과 표본 분산의 차이가 줄어들지언정 늘 일치하는 것은 아니지 않나? 1.2 또한 모집단 분산을 모르면 그 차이가 얼마나 큰지 영영 알 수 없는 것 아닌가..
의문 2. 1.1과 연결되는 문제인데, 불일치 정도가 여전히 크다면 t값 같은 추론 통계치 자체가 현상을 제대로 반영하고 있지 못하다고 할 수 있는 것 아닌가? 표본 분산을 사용해서 추정된 표준오차를 만들고 이 추정된 표준오차가 표본을 통해 획득한 결과가 그저 우연적으로 얻어진 것인지 혹은 그렇지 않은지 여부를 결정하는 기준이기 때문이다.
통계 공부를 하다 보면 늘 이 부분에서 멘붕에 빠지는데, 어디에서도 제대로 된 설명을 찾아볼 수가 없다. 눈으로 읽으면서도 이해를 못 하는 건지.. 답답함.
t검정에서 표본의 분산을 사용하는 표준오차가 어떻게 모집단 분산을 사용하는 표준오차를 대체할 수 있는지 설명해 주실 분 없나요?
댓글