본문 바로가기
AI/회귀

[회귀 - 10] 후진 소거법 (Backward Elimination)

by Nhahan 2022. 4. 24.

[회귀 - 9]와 동일한 데이터 세트

회귀 모델을 후진 소거법을 통해 만들어볼 것이다.

regressor = lm(formula = Profit ~ R.D.Spend + Administration + Marketing.Spend + State,
               data = dataset)
summary(regressor)

 

[회귀 - 9]와 다르게 Profit ~ 이후 모든 독립 변수들을 적어준 이유는 후진 소거법을 통해 독립 변수들을 지워줄 것이기 때문이다.

신뢰 수준은 0.05으로 진행하겠다.

summary(regressor)의 결과

State2의 p-value를 보면 0.990(99%)로 통계적으로 무의미한 것을 알 수 있다.

정석적인 후진 소거법에 의하면 독립 변수를 1개만 지워야하지만, State3의 p-value 또한 0.943(94%)로 역시 무의미할 것을 예측할 수 있으므로 2개를 모두 가진 State열을 소거할 것이다.

 

regressor = lm(formula = Profit ~ R.D.Spend + Administration + Marketing.Spend,
               data = dataset)
summary(regressor)

State열을 소거한 이후의 summary

다음으로 가장 높은 p-value값을 가진 Administration를 지우고 다시 회귀 모델을 만들 것이다.

 

regressor = lm(formula = Profit ~ R.D.Spend + Marketing.Spend,
               data = dataset)
summary(regressor)

Administration을 소거한 이후의 summary

이번에 눈여겨봐야할 것은 Marketing.Spend의 p-value가 0.06(6%)로 나왔다는 것이다. 이는 0.05의 신뢰 수준과 거의 비슷한 값으로 이를 지울지 말지는 주관적으로 결정하면 된다.

 

하지만 지금은 튜토리얼이기 때문에 없앨 것이다.

 

regressor = lm(formula = Profit ~ R.D.Spend,
               data = dataset)
summary(regressor)

Marketing.Spend를 소거한 이후의 summary

드디어 결과에 도달했다.

 

R.D.Spend의 p-value는 2 * 10^-16으로 매우매우 중요하고 유의미한 독립 변수이고 별표 또한 3개인 것을 알 수 있다.

댓글