> For the complete documentation index, see [llms.txt](https://pyohamen.gitbook.io/til/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://pyohamen.gitbook.io/til/data_science/undefined-2.md).

# 통계학노트

## 통계학 노트

> 데이터사이언스를 하다보니 모르는 통계학 용어가 많이 나와서 공부할때마다 간단하게 메모해놓음

## t-test

> **두 집단 간 평균의 차이가 유의미한지 검증**하는 가장 보편적인 방법 실제 정보를 모를 때, 현재의 데이터만으로 두 집단의 차이에 대해 검정할 수 있는 방법 두 데이터는 개수가 비슷하면서 두 데이터가 정규분포를 이룰 때 신뢰도가 높다.
>
> t-test 의 귀무가설은 " 두 집단의 평균이 같다."
>
> c.f. [블로그](https://brunch.co.kr/@jihoonleeh9l6/33)

* 해석방법
  * 검정 통계량 (t-statistic) 은 p-value (귀무 가설이 맞다는 전제하에 현재 나온 통계값 이상이 나올 확률) 와 함께 관찰해야 하는데, 보통 P-value 가 0.05 나 0.01 보다 작을 때 채택한다.
  *
* method
  * test\_ind()
    * Equal\_var = True: 두 집단의 분산이 같은 경우
    * Equal\_var = False: 두 집단의 분산이 같지 않은 경우
* 결론
  * 대립가설은 "두 집단의 평균이 다르다" 인데, 이는 통계적 분석을 하기에 좋은 조건에서 유의미하다고 할 수 있다.
  * 통계적 조건이 좋은 조건에서 t-test 와 같은 방법을 사용할 수 있다.

## 검정 통계량 (test statistic)

> 표본 통계량을 2차 가공한 것. 값이 기준을 벗어나는지 확인

## t-value

> 차이를 불확실도로 나눈 것

**"차이는 이 정도나면서 불확실도는 이 정도다"** 를 의미함

두 표본 간 어떠한 통계값을 비교 시 사용

## F-value

> 여러 그룹 간 차이

t-value 와 비교해 분산을 사용함으로써 두 그룹이 아닌 여러 그룹 간 차이를 알 수 있음

## P-value

> 검정 통계량보다 크거나 같은 값이 나올 확률

**"두 표본 집단이 같은 모집단이라고 치자(귀무가설) 그랬을 때, 우리가 이런 검정 통계량을 얻었는데, 이게 얼마나 말이 되냐?"**&#xC5D0; 대한 지표

이는 검정 통계량을 표본 수에 따라 정규화하여 확률 단위로 나타내며 (보통) 5% 이하일 때 유의미하다고 한다.

### 그러나

표본 수 (n) 이나 effect size 에 따라 p-value 는 변할 수 있으니 주의해야 하며, 특히 요즘처럼 n 이 큰 정보를 다루니 더욱 조심
