공분산
개념
2개의 확률 변수의 선형 관계를 나타내는 값
‘선형 관계’ 라는 말이 중요
- 분산 그래프는 선형이 아니라 기울어져 있거나 원형일 수도 있지만 공분산의 그래프는 선형
부호
+: 양의 상관 관계
-: 음의 상관 관계
0 : 상관 관계 없음
주의점
상관 관계가 없는 것(= 공분산이 0인 것)과 두 변수가 독립인 것은 다름
두 변수가 독립 변수일 때 (= 서로 상관 관계가 없을 때) 공분산은 0
하지만 공분산이 0이라고 해서 두 변수가 반드시 독립 변수이지는 않음
실무에서 공분산이 0이 나올 확률은 많지 않다
공분산이 0이 나오면 둘이 별로 관련이 없나 보다 정도로 생각
상관 계수
공분산에서는 ‘부호’에 관심
부호가 +냐 -냐 0이냐
그러나 0을 기준으로 얼마나 큰지 작은지는 상관 계수로 확인
피어슨 상관 계수
공식에 포함된 부등식 때문에 -1에서 1 사이의 값만 가질 수 있음
값을 -1에서 1 사이에 넣어서 ‘표준화’를 시켜놓음
'표준화'의 장점
두 상관 관계를 비교할 때 공분산만 가지고는
A가 B와 C 중 누구와 더 가까운지 비교하기 어려움
상관 계수(= 표준화된 기준)를 사용하면
'A와 B의 상관 계수는 0.3,
A와 C의 상관 계수는 0.7이므로
A가 C와 더 강한 상관 관계를 가지고 있다'는 식으로
한눈에 비교 가능
판별 기준
0.5 ~ 0.7 이상 ⇒ 강한 상관 관계
-0.2 ~ 0.2 ⇒ 약한 상관 관계/상관 관계 없음
-0.7 ~ -0.5 ⇒ 강한 음의 상관 관계
IQR을 활용한 이상치 탐지
IQR = 3사분위수 - 1사분위수
IQR 안에 50%의 데이터가 몰려있고
위쪽으로 25%, 아래쪽으로 25%의 데이터가 있음
IQR을 벗어났다고 무조건 이상치(Outlier)가 아님
(그러면 데이터 절반을 버리는 것)
이상치 계산 공식
Q1 - (IQR * 1.5)
Q3 + (IQR * 1.5)
중심극한정리
표본이 충분히 많아지면
표본평균의 분포는 '정규분포'를 따른다는 법칙
이항분포
연속된 n번의 독립적 시행에서
각 시행이 확률 p를 가질 때의 이산 확률 분포
추론통계
모집단에서 추출된 표본으로부터
모수와 관련된 통계량들의 값을 계산하여
모집단의 특성을 알아내는 과정
가설검정 종류
독립성 검정
두 변수 사이에 상관 관계가 있는지
샤피로 윌크 검정
표본이 정규분포로부터 추출된 것인지
(= 모집단이 정규분포를 따르는지)
카이제곱 검정
데이터가 특정 분포를 따르는지
K-S 검정
= 콜모고로프 스미르노프 검정
두 데이터가 차이가 있는지
같은 모집단으로부터 추출된 것인지 등을 검정
'패캠 데이터 분석 14기 > 통계' 카테고리의 다른 글
[패캠 7일차] 기초 통계 완전 정복: 시계열 데이터 (0) | 2024.05.02 |
---|---|
[패캠 6일차] 기초 통계 완전 정복: t-test, f 검정, 회귀분석, 귀무가설 (0) | 2024.04.30 |
[패캠 5일차] 기초 통계 완전 정복: EDA, 통계 용어 (0) | 2024.04.29 |