본문 바로가기
AI/회귀

[회귀 - 18] R을 이용한 랜덤 포레스트 실습

by Nhahan 2022. 4. 25.

계속 함께 하고 있는 그 데이터 세트

랜덤 포레스트 라이브러리를 설치하고 아래의 코드를 실행한다.

library(randomForest)
set.seed(1234)
regressor = randomForest(x = dataset[-2],
                         y = dataset$Salary,
                         ntree = 500) # 나무의 갯수
predict(regressor, data.frame(Level = 6.5))

결과 값 : 160907.7 

이는 A의 말한 16만 달러와 매우 흡사한 결과다.

 

 

그래프를 그려보면,

library(ggplot2)
x_grid = seq(min(dataset$Level), max(dataset$Level), 0.01)
ggplot() +
  geom_point(aes(x = dataset$Level, y = dataset$Salary),
             colour = 'red') +
  geom_line(aes(x = x_grid, y = predict(regressor, newdata = data.frame(Level = x_grid))),
            colour = 'blue') +
  ggtitle('Truth or Bluff (Random Forest Regression)') +
  xlab('Level') +
  ylab('Salary')

[회귀 - 16]의 결과보다 훨씬 정교한 그래프를 얻었다. 와우!

 

많은 나무, 많은 잎들이 있으니 더 정확한 결과가 나온 것이다.

나무가 많으면 많을수록 평균에 점점 가까운 값을 도출해낼수 있다.

댓글