데이터 분석/통계

[통계 공부] R-Squared란?

Sheryl Yun 2024. 6. 12. 21:48

 

R-Squared는 결정계수를 말한다.

흔히 R(상관계수) 제곱이라고 불린다.

 

 

독립변수가 종속변수를 얼마만큼 설명해주는지 가리키는 지표이다. 

 


 

 

결정계수는 독립변수의 수가 증가하면 상승한다.

 

주의할 점은 '종속변수를 잘 설명하지 못하는 독립변수'가 추가되어도 증가하기 때문에

결정계수만 가지고 회귀 모델의 유용성을 판단하는 것은 어렵다.

 

 

= 조정된 결정계수(Adjusted R-Squared)가 등장한 이유

 

독립변수의 갯수가 증가하면 일방적으로 증가하는 결정계수와 달리,
독립변수가 증가할 때 '분자를 감소시켜주는 연산'을 통해 일방적 증가를 방지

 

 

 

'결정계수가 0.3(30%)이다' 라는 말의 의미는

'독립변수가 종속변수의 30% 정도를 설명한다'는 뜻이다.

 

 

그러나 이 결정계수 값이 몇 퍼센트 이상이어야 실질적으로 유용하다고

단식으로 판단하기는 어렵다. 

 

 

 

분야와 연구자의 판단에 따라 차이가 있지만

일반적으로 결정계수가 20%는 넘어야 한다고 보기도 한다.

 

 

 

참고 링크