패캠 데이터 분석 14기/통계

[패캠 7일차] 기초 통계 완전 정복: 시계열 데이터

Sheryl Yun 2024. 5. 2. 18:52

지난 시간 복습

 

p-value (probability-value)

나오면 안 되는 경우가 나올 확률 (= 유의 확률)

p 값이 작다 = 분산이 다르다는 뜻이므로 이분산 가정

 

귀무 가설

유의미한 차이가 없다 (p ≥ 유의수준)

 

대립 가설

유의미한 차이가 있다 (p < 유의수준)

 

상관 분석 = 그래프의 방향이 올라가는지 내려가는지

회귀 분석 = x가 떨어지면 y가 얼마나 떨어지는지까지 판단 (상관 분석에서 한 단계 더 나아감)

 

오차 제곱들의 합계 ⇒ 최소 제곱법 (이 합들이 가장 작은 것 = 현상을 가장 잘 설명해준다)

 

가슴으로 받아들이자 (수학, 통계)

앞서 훌륭하신 분들이 p-value 계산해두었고

우리는 그냥 이런 게 있구나 정도로 받아들이면 됨

 


 

단순 선형 회귀 분석 ⇒ 어찌 보면 이름 그대로 단순

매출액 하나에 영향을 주는 요소가 광고비 하나일 리 없기 때문에

 

다중 선형 회귀 분석

⇒ 매출액에 영향을 주는 요인이 여러 가지이다

 

강사님의 회귀분석 방식 (팁)

00. 상관 분석을 활용해 16개 미만의 종속 변수와 상관 관계가 강한 변수들을 추론

01. 모든 독립 변수들을 포함한 다중선형회귀분석

02. 유의미한 독립 변수들로만 다시 다중선형회귀분석

03. 유의미한 독립 변수들을 각각 종속 변수와 단순선형회귀분석

 

 

Q. 데이터 모델링의 목적이 결정계수가 높은 수식을 찾는 것이라고 이해했습니다.

결정계수가 낮게 나타나는 경우,

동일한 독립변수를 유지하면서 결정 계수를 높일 수 있는

다른 분석 방법(모델링?)을 고민해봐야 하나요?

아니면 다른 독립변수를 활용해 회귀분석을 시도해봐야 하나요?

 

정확한 답이 있는 건 아님

인문사회: 결정계수가 낮아도 0.2~0.3이어도 영향력 있는 걸로 간주

과학적으로 높은 걸 찾기 어려운 분야

 

VS

 

이공계: 예측에 더 초점,

결정계수를 더 높임 (엄격하게 측정)

종속변수에 영향을 미치는

독립변수를 전처리해서 수정하거나 독립변수를 교체

 

 

머신러닝 방법 

전진 선택

가장 유의미하다고 생각되는 변수부터 포함해가는 것

 

후진 선택

모든 변수를 넣고

가장 쓸모 없는 변수부터 제거해나감

 

선택 단계법 (단계 선택법?)

전진 + 후진 왔다갔다 하면서 최적의 변수 찾기 

 

 

시계열 데이터 분석

시간의 흐름에 따라 발생된 데이터를 분석하는 기법

 

간 / 속 / 나

 

=> 시간의 흐름에 따라 계속해서 나열한 데이터

예: 주가, 매출액, 판매계수, 사람수

 

시간대별로 일/월/연도별로 정리한 것도 시계열 데이터

 

종류

정상 시계열

정상성을 가지고 있는 데이터

 

정상성 조건: 추세(오르거나 내리거나 기울기 방향이 있음)

계절성(계절에 따라 비슷한 패턴을 보이는 것) 없어야

 

어느 시점에 측정하더라도 비슷한 측정이 되는 데이터 = 정상 시계열 데이터

 

VS. 비정상 시계열

세상에는 비정상 시계열 데이터가 훨씬 많음

그러나 그대로 분석하기는 어려움

 

추세, 계절성, 백색 소음 등을 걷어내고

데이터를 정상 시계열화 해서 분석하는 경우가 많음

 

여러 기법이 있는데 그 중 하나가 ‘지수 평활법’(Exponential Smoothing)

 

36개월 매출액

다음 해 12개월의 매출액을 예습해보는 실습

 

엑셀의 함수를 써서 예측

이때 엑셀이 지수 평활법 방법을 토대로 예측해줌

 

주가의 원리

사람들이 사면 오르고

팔면 내린다

 

주가 변동의 근본적인 원인 = 인간의 욕심

 

머신러닝이 인간의 욕심을 예측할 수는 없음

⇒ 시계열 데이터로는 완벽한 주가 예측 불가