통계학노트
통계학 노트
데이터사이언스를 하다보니 모르는 통계학 용어가 많이 나와서 공부할때마다 간단하게 메모해놓음
t-test
두 집단 간 평균의 차이가 유의미한지 검증하는 가장 보편적인 방법 실제 정보를 모를 때, 현재의 데이터만으로 두 집단의 차이에 대해 검정할 수 있는 방법 두 데이터는 개수가 비슷하면서 두 데이터가 정규분포를 이룰 때 신뢰도가 높다.
t-test 의 귀무가설은 " 두 집단의 평균이 같다."
c.f. 블로그
해석방법
검정 통계량 (t-statistic) 은 p-value (귀무 가설이 맞다는 전제하에 현재 나온 통계값 이상이 나올 확률) 와 함께 관찰해야 하는데, 보통 P-value 가 0.05 나 0.01 보다 작을 때 채택한다.
method
test_ind()
Equal_var = True: 두 집단의 분산이 같은 경우
Equal_var = False: 두 집단의 분산이 같지 않은 경우
결론
대립가설은 "두 집단의 평균이 다르다" 인데, 이는 통계적 분석을 하기에 좋은 조건에서 유의미하다고 할 수 있다.
통계적 조건이 좋은 조건에서 t-test 와 같은 방법을 사용할 수 있다.
검정 통계량 (test statistic)
표본 통계량을 2차 가공한 것. 값이 기준을 벗어나는지 확인
t-value
차이를 불확실도로 나눈 것
"차이는 이 정도나면서 불확실도는 이 정도다" 를 의미함
두 표본 간 어떠한 통계값을 비교 시 사용
F-value
여러 그룹 간 차이
t-value 와 비교해 분산을 사용함으로써 두 그룹이 아닌 여러 그룹 간 차이를 알 수 있음
P-value
검정 통계량보다 크거나 같은 값이 나올 확률
"두 표본 집단이 같은 모집단이라고 치자(귀무가설) 그랬을 때, 우리가 이런 검정 통계량을 얻었는데, 이게 얼마나 말이 되냐?"에 대한 지표
이는 검정 통계량을 표본 수에 따라 정규화하여 확률 단위로 나타내며 (보통) 5% 이하일 때 유의미하다고 한다.
그러나
표본 수 (n) 이나 effect size 에 따라 p-value 는 변할 수 있으니 주의해야 하며, 특히 요즘처럼 n 이 큰 정보를 다루니 더욱 조심
Last updated