본문 바로가기

r16

[분류 - 4] K-NN 분류 실습 빠르게 훈련 세트와 테스트 세트를 나누고 스케일링까지 해준다 library(caTools) set.seed(123) split = sample.split(dataset$Purchased, SplitRatio = 0.75) training_set = subset(dataset, split == TRUE) test_set = subset(dataset, split == FALSE) # Feature Scaling training_set[-3] = scale(training_set[-3]) test_set[-3] = scale(test_set[-3]) 훈련 세트를 통해 생성된 K-NN classifier로 테스트 세트를 분류하면 아래와 같은 결과가 나온다. y_pred = knn(train = training.. 2022. 4. 29.
[분류 - 2] 로지스틱 회귀 실습 dataset = dataset[3:5] (성별 제외) 나이에와 연봉에 따른 구매 회귀 예측을 해보려고 한다. Purchased 열의 0이 구매하지 않음, 1이 구매함이다. 테스트 세트와 훈련 세트틑 1:3 비율로 나누고, 스케일링을 해준다 library(caTools) set.seed(123) split = sample.split(dataset$Purchased, SplitRatio = 0.75) training_set = subset(dataset, split == TRUE) test_set = subset(dataset, split == FALSE) training_set[-3] = scale(training_set[-3]) test_set[-3] = scale(test_set[-3]) 로지스틱 .. 2022. 4. 27.
[회귀 - 18] R을 이용한 랜덤 포레스트 실습 랜덤 포레스트 라이브러리를 설치하고 아래의 코드를 실행한다. library(randomForest) set.seed(1234) regressor = randomForest(x = dataset[-2], y = dataset$Salary, ntree = 500) # 나무의 갯수 predict(regressor, data.frame(Level = 6.5)) 결과 값 : 160907.7 이는 A의 말한 16만 달러와 매우 흡사한 결과다. 그래프를 그려보면, library(ggplot2) x_grid = seq(min(dataset$Level), max(dataset$Level), 0.01) ggplot() + geom_point(aes(x = dataset$Level, y = dataset$Salary), c.. 2022. 4. 25.
[회귀 - 16] R을 이용한 의사 결정 트리 실습 [회귀 - 12]에서처럼 A의 연봉 예측을 해보겠다. 이번엔 의사 결정 트리다. 바로 예측까지 해보겠다. library(rpart) # 의사 결정 트리 라이브러리 regressor = rpart(formula = Salary ~ ., data = dataset, control = rpart.control(minsplit = 1)) # 분할을 많이해 정보량을 늘리는 것과 같다. predict(regressor, data.frame(Level = 6.5)) # 6.5 수준의 연봉 예측 결과 값 : 250000 다른 모델에 비해 예측 값이 상당히 높게 나왔다. 그래프까지 확인해보자. library(ggplot2) x_grid = seq(min(dataset$Level), max(dataset$Level), 0.. 2022. 4. 25.
[회귀 - 14] R을 이용한 서포트 벡터 회귀 실습 https://nhahan.tistory.com/30 2022. 4. 25.
728x90