R-Squared는 결정계수를 말한다.
흔히 R(상관계수) 제곱이라고 불린다.
독립변수가 종속변수를 얼마만큼 설명해주는지 가리키는 지표이다.
결정계수는 독립변수의 수가 증가하면 상승한다.
주의할 점은 '종속변수를 잘 설명하지 못하는 독립변수'가 추가되어도 증가하기 때문에
결정계수만 가지고 회귀 모델의 유용성을 판단하는 것은 어렵다.
= 조정된 결정계수(Adjusted R-Squared)가 등장한 이유
독립변수의 갯수가 증가하면 일방적으로 증가하는 결정계수와 달리,
독립변수가 증가할 때 '분자를 감소시켜주는 연산'을 통해 일방적 증가를 방지
'결정계수가 0.3(30%)이다' 라는 말의 의미는
'독립변수가 종속변수의 30% 정도를 설명한다'는 뜻이다.
그러나 이 결정계수 값이 몇 퍼센트 이상이어야 실질적으로 유용하다고
단식으로 판단하기는 어렵다.
분야와 연구자의 판단에 따라 차이가 있지만
일반적으로 결정계수가 20%는 넘어야 한다고 보기도 한다.
'데이터 분석 > 통계' 카테고리의 다른 글
[통계 공부] 평균, 중앙값, 최빈값의 개념과 예시 (1) | 2024.07.15 |
---|---|
[통계 공부] 히스토그램, 도수분포표, 분산의 유의점 (0) | 2024.07.13 |
[통계 공부] Heartcount 강의: 히스토그램, boxplot, percentile (1) (0) | 2024.06.16 |
[통계 공부] 다변량 분석이란?, 다변량 분석이 필요한 이유 (0) | 2024.06.11 |
[통계 공부] 통계학이란? (0) | 2024.06.07 |