패캠 데이터 분석 14기/통계

[패캠 8일차] 기초 통계: 상관계수, 중심극한정리

Sheryl Yun 2024. 5. 3. 16:58

공분산

개념

2개의 확률 변수의 선형 관계를 나타내는 값

 

‘선형 관계’ 라는 말이 중요

- 분산 그래프는 선형이 아니라 기울어져 있거나 원형일 수도 있지만 공분산의 그래프는 선형

 

부호

+: 양의 상관 관계
-: 음의 상관 관계

0 : 상관 관계 없음

주의점

상관 관계가 없는 것(= 공분산이 0인 것)과 두 변수가 독립인 것은 다름

 

두 변수가 독립 변수일 때 (= 서로 상관 관계가 없을 때) 공분산은 0

하지만 공분산이 0이라고 해서 두 변수가 반드시 독립 변수이지는 않음

 

실무에서 공분산이 0이 나올 확률은 많지 않다

공분산이 0이 나오면 둘이 별로 관련이 없나 보다 정도로 생각

 

상관 계수

공분산에서는 ‘부호’에 관심

부호가 +냐 -냐 0이냐

 

그러나 0을 기준으로 얼마나 큰지 작은지는 상관 계수로 확인

 

피어슨 상관 계수

공식에 포함된 부등식 때문에 -1에서 1 사이의 값만 가질 수 있음

값을 -1에서 1 사이에 넣어서 ‘표준화’를 시켜놓음

 

'표준화'의 장점

두 상관 관계를 비교할 때 공분산만 가지고는

A가 B와 C 중 누구와 더 가까운지 비교하기 어려움

 

상관 계수(= 표준화된 기준)를 사용하면

'A와 B의 상관 계수는 0.3,

A와 C의 상관 계수는 0.7이므로

A가 C와 더 강한 상관 관계를 가지고 있다'는 식으로

한눈에 비교 가능

 

판별 기준

0.5 ~ 0.7 이상 ⇒ 강한 상관 관계

-0.2 ~ 0.2 ⇒ 약한 상관 관계/상관 관계 없음

-0.7 ~ -0.5 ⇒ 강한 음의 상관 관계

 

IQR을 활용한 이상치 탐지

IQR = 3사분위수 - 1사분위수

 

IQR 안에 50%의 데이터가 몰려있고

위쪽으로 25%, 아래쪽으로 25%의 데이터가 있음

 

IQR을 벗어났다고 무조건 이상치(Outlier)가 아님

(그러면 데이터 절반을 버리는 것)

 

이상치 계산 공식

Q1 - (IQR * 1.5)

Q3 + (IQR * 1.5)

 

중심극한정리

표본이 충분히 많아지면

표본평균의 분포는 '정규분포'를 따른다는 법칙

이항분포

연속된 n번의 독립적 시행에서

각 시행이 확률 p를 가질 때의 이산 확률 분포

 

추론통계

모집단에서 추출된 표본으로부터

모수와 관련된 통계량들의 값을 계산하여

모집단의 특성을 알아내는 과정

 

가설검정 종류

독립성 검정

두 변수 사이에 상관 관계가 있는지

샤피로 윌크 검정

표본이 정규분포로부터 추출된 것인지

(= 모집단이 정규분포를 따르는지)

카이제곱 검정

데이터가 특정 분포를 따르는지

K-S 검정

= 콜모고로프 스미르노프 검정

두 데이터가 차이가 있는지

같은 모집단으로부터 추출된 것인지 등을 검정