r16 [회귀 - 12] R을 이용한 다항 회귀 실습 새 직원을 뽑으려고 하는데 이 직원을 A라고 하겠다. A는 20년의 경력을 가지고 있고 이전 회사에서 16만 달러의 연봉을 받았다고 말하고 있다. 그리고 이전 회사에서는 Region Manager 직급으로 2년간 일했다고 하고 있다. 그럼 이 직원에게 제시 될 연봉은 6행과 7행 사이의 어딘가가 될 것이다. (이를 대강 6.5 수준의 급여라고 하겠다) 다중 회귀를 통해서 위 내용이 사실인지 거짓인지 알아보자. 일단 Position과 Level은 사실상 같은 내용이기 때문에 2, 3열만 가지고 모델을 만들 것이다. dataset = dataset[2:3] 데이터 세트가 작으니 이번에는 훈련 세트와 테스트 세트를 나누지 않고 진행할 예정이다. 이 데이터 세트에 선형 회귀가 어울릴지, 다항 회귀가 어울릴지 .. 2022. 4. 24. [회귀 - 10] 후진 소거법 (Backward Elimination) 회귀 모델을 후진 소거법을 통해 만들어볼 것이다. regressor = lm(formula = Profit ~ R.D.Spend + Administration + Marketing.Spend + State, data = dataset) summary(regressor) [회귀 - 9]와 다르게 Profit ~ 이후 모든 독립 변수들을 적어준 이유는 후진 소거법을 통해 독립 변수들을 지워줄 것이기 때문이다. 신뢰 수준은 0.05으로 진행하겠다. State2의 p-value를 보면 0.990(99%)로 통계적으로 무의미한 것을 알 수 있다. 정석적인 후진 소거법에 의하면 독립 변수를 1개만 지워야하지만, State3의 p-value 또한 0.943(94%)로 역시 무의미할 것을 예측할 수 있으므로 2개를 모.. 2022. 4. 24. [회귀 - 9] 다중 선형 회귀 regressor = lm(formula = Profit ~ ., #.은 모든 독립변수들을 뜻 함 data = training_set) 독립 변수 : R.D.Spend(연구개발 비용), Administration(행정 비용), Marketing.Spend(마케팅 비용), State(주) 종속 변수 : Profict(이익) 이 데이터를 바탕으로 스타트업들의 미래 이익을 예측하고, 어떤 독립 변수가 이익에 가장 큰 이익을 주는지 알아내고, 어떤 부분이 이익과 독립 변수 사이의 관계를 주도하는지 하는 정보들을 알아볼 것이다. 먼저 앞서 데이터 전처리에서 배운대로 범주형 데이터를 양적 데이터로 변경해준다. 다음으로 역시 앞에서 배운대로 훈련 세트와 테스트 세트로 나눈다. 다음에 나와있는 코드로 훈련 세트를 다중.. 2022. 4. 24. [회귀 - 4] 단순 선형 회귀 이해도 테스트 1. 풋볼 게임 결과를 예측하는데 단순 선형 회귀선을 이용해야한다. True False 2. 다음 중 단순 선형 회귀 모델이 아닌 것은? Salary = a * Experience Salary = a * Experience + b Salary = a * Experience + b * Age 답(드래그) : 2, 3, 2022. 4. 23. [회귀 - 3] 단순 선형 회귀(2) 3. 테스트 세트의 결과 예측하기 > y_pred = predict(regressor, newdata = test_set) > y_pred 위처럼 직관적으로 predict 펑션을 쓰면, 2 4 5 8 11 16 20 21 24 26 37766.77 44322.33 46195.35 55560.43 62115.99 71481.07 81782.66 89274.72 102385.84 109877.90 이런 결과를 얻을 수 있는데, 위 숫자가 index, 아래는 예측값이다. 실제 test_set과 비교해보면 비슷하게 값을 예측한 것을 알 수 있다. 4. 훈련 세트 Visualize install.packages(ggplot2) Visualize를 위해 위와 같이 실행하여 ggplot2라는 라이브러리를 설치하고 #.. 2022. 4. 19. 이전 1 2 3 4 다음 728x90