본문 바로가기
AI/회귀

[회귀 - 9] 다중 선형 회귀

by Nhahan 2022. 4. 24.

이번에 실습할 dataset(총 50행). 스타트업들의 독립변수 대비 이익을 나타낸 데이터 세트.

regressor = lm(formula = Profit ~ ., #.은 모든 독립변수들을 뜻 함
               data = training_set)

독립 변수 : R.D.Spend(연구개발 비용), Administration(행정 비용), Marketing.Spend(마케팅 비용), State(주)

종속 변수 : Profict(이익)

 

 

이 데이터를 바탕으로 스타트업들의 미래 이익을 예측하고, 어떤 독립 변수가 이익에 가장 큰 이익을 주는지 알아내고, 어떤 부분이 이익과 독립 변수 사이의 관계를 주도하는지 하는 정보들을 알아볼 것이다.

 

 

먼저 앞서 데이터 전처리에서 배운대로 범주형 데이터를 양적 데이터로 변경해준다.

New York = 1 / California = 2 / Florida = 3

 

다음으로 역시 앞에서 배운대로 훈련 세트와 테스트 세트로 나눈다.

8:2 비율로 훈련 세트와 테스트 세트를 나누었다. 위 세트는 테스트 세트이다.

 

다음에 나와있는 코드로 훈련 세트를 다중 선형 회귀에 맞춰주고, regressor의 정보를 본다.

regressor = lm(formula = Profit ~ ., # .은 모든 독립변수들을 뜻 함
               data = training_set)
summary(regressor)

summary(regressor)의 결과

중요한건 Coefficients 파트이다. (State2와 State3은 가변수인데 라이브러리가 자동으로 생성해준 것이다. 가변수의 함정에 빠지지 않은 것 또한 체크하자. 결론: 라이브러리가 다 해준다 굿!)

 

Coefficients 파트에서 가장 중요한건 마지막 두 컬럼이다.

빨간 박스는 p-value이고, 파란 박스는 significance level(유의 수준, 신뢰 수준)이다.

앞에서도 언급했었지만 p-value가 낮을수록 통계적 유의성이 높다는 것이다. 더 쉽게 말하자면 p-value가 낮을수록 독립변수의 영향력이 크다는 뜻이다.

파란 박스는 그냥 별이 많을수록 중요한 변수라는 것이다. 이 역시 앞에서 다룬 부분이다.

 

결과를 정리하면, R.D.Spend(연구개발 비용) 변수가 이익에 가장 큰 영향을 끼친다고 해석할 수 있다.

따라서 투자자들은 투자할 스타트업을 고를 때, 이익이 크다고 고를 것이 아니라 R.D.Spend가 가장 높은 스타트업을 고르는 것이 현명할 것이다.

나머지 변수들은 p-value가 0.05보다 크기 때문에 투자 대상을 고려할 때 신경쓰지 않아도 될 데이터들이라는 것도 알 수 있다.

 

더 나아가서, R.D.Spend만이 유일하게 유의미한 변수이기에 독립 변수를 하나만 고려해도 되고, 이는 즉 다중 선형 회귀를 단순 선형 회귀로 바꿀 수 있다는 뜻이다. (와우!)

 

이걸 정리하면,

이익은 연구개발 비용과 '비례'한다.

 

라고 할 수 있다.

 

 

 

 

이제 훈련 세트를 통해 훈련을 했으니, 이를 테스트 세트에 적용해볼 때가 됐다.

y_pred = predict(regressor, newdata = test_set)
        4         5         8        11        16        20        21        24        31        32
173981.09 172655.64 160250.02 135513.90 146059.36 114151.03 117081.62 110671.31  98975.29  96867.03

비교를 해보면 예를 들어 4번은 예상 이익보다 더 높고, 5번은 예상 이익보다 낮은 걸 알 수 있다.

댓글