파이썬/파이썬-AI 기본

다중 선형 회귀와 회귀모델에 대한 평가 지표, 그리고 과적합과 과소적합

용사냥꾼69 2023. 4. 14. 19:43
728x90

안녕하세요! 이번 포스트에서는 다중 선형 회귀와 회귀모델에 대한 평가 지표, 그리고 과적합과 과소적합에 대해서 알아보려고 합니다.

다중 선형 회귀

다중 선형 회귀는 특성을 2개 이상 사용한 선형 회귀 모델입니다.

회귀 계수를 통해 모델을 상대적으로 간단하고 명료하게 설명할 수 있습니다.

그러나, 복잡한 데이터와 문제에 대해서는 과소적합을 보이는 경우가 많습니다.

이를 해결하기 위해 다른 모델들과 비교해서 사용할 수 있습니다.

하지만, 성능이 비슷할 경우 다중 선형 회귀가 가진 장점은 상당히 강력하다고 생각합니다.

회귀모델에 대한 평가 지표

회귀 모델의 성능을 평가하는 지표로는 MAE, MSE, R2 등이 있습니다.

MAE는 오차 절댓값의 평균으로, 이상치에 대해서 강건한 경향이 있습니다.

MSE는 오차 제곱의 평균으로, 이상치에 대해서 민감한 경향이 있습니다.

MAE와 MSE는 모두 0에 가까울수록 성능이 좋다고 판단합니다.

R2는 예측치와 평균치의 차이를 제곱하여 총합한 것을 관측치와 평균치의 차이를 제곱하여 총합한 것으로 나눈 값입니다.

R2는 1에 가까울수록 성능이 좋다고 판단합니다.

회귀문제라고 판단하면 반드시 평가지표는 회귀문제에 맞는 이러한 것들을 사용해야 합니다.

과적합과 과소적합

학습 데이터를 너무 과하게 모델이 학습해서 테스트 데이터에선 성능이 안 좋은 경우, 과적합이라고 합니다. 학습 데이터조차 모델의 성능이 제대로 나오지 않을 경우 이를 과소적합이라고 합니다. 편향이 낮은데, 분산이 높을 경우 과적합이며, 편향이 높은데, 분산이 낮을 경우 과소적합입니다. 둘 다 피해야 할 상황이지만, 과소적합부터 해결해야 문제에 대한 시작점을 잡을 수 있다고 생각합니다.

 

 

이상으로, 다중 선형 회귀와 회귀 모델에 대한 평가 지표, 그리고 과적합과 과소적합에 대해서 알아보았습니다. 더 깊이 있는 내용은 추후에 다루도록 하겠습니다. 감사합니다.