AI51 [회귀 - 6] 가변수의 함정 Profit R&D Spend Admin Marketing State 213 165 136 471 New York 251 162 151 443 California 212 153 101 407 California 261 144 118 383 New York 209 142 91 366 California 다중 선형 회귀란 독립변수가 2개 이상 있는 식이다. 만약 위 표를 선형 회귀로 만든다면 어떻게 될까? 당연히 종속변수는 Profit이 될 것이다. y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + ??? 그런데 State는 어떻게 넣어야할까? (???가 State) 여기서 중요한 점은 State가 범주형 변수라는 것이다. 범주형 변수는 이 상태로 회귀식에 넣을 수 없다. State에는 .. 2022. 4. 23. [회귀 - 5] 선형 회귀를 설계하기 전에 고민해야할 것들 1. Linearity 2. Homoscedasticity 3. Multivariate normality 4. Independence of errors 5. Lack of multicollinearity 2022. 4. 23. [회귀 - 4] 단순 선형 회귀 이해도 테스트 1. 풋볼 게임 결과를 예측하는데 단순 선형 회귀선을 이용해야한다. True False 2. 다음 중 단순 선형 회귀 모델이 아닌 것은? Salary = a * Experience Salary = a * Experience + b Salary = a * Experience + b * Age 답(드래그) : 2, 3, 2022. 4. 23. [회귀 - 3] 단순 선형 회귀(2) 3. 테스트 세트의 결과 예측하기 > y_pred = predict(regressor, newdata = test_set) > y_pred 위처럼 직관적으로 predict 펑션을 쓰면, 2 4 5 8 11 16 20 21 24 26 37766.77 44322.33 46195.35 55560.43 62115.99 71481.07 81782.66 89274.72 102385.84 109877.90 이런 결과를 얻을 수 있는데, 위 숫자가 index, 아래는 예측값이다. 실제 test_set과 비교해보면 비슷하게 값을 예측한 것을 알 수 있다. 4. 훈련 세트 Visualize install.packages(ggplot2) Visualize를 위해 위와 같이 실행하여 ggplot2라는 라이브러리를 설치하고 #.. 2022. 4. 19. [회귀 - 2] 단순 선형 회귀 1. 데이터세트를 훈련 세트와 테스트 세트로 나누기 [데이터 전처리]에서 했던 것처럼 아래와 같은 코드를 실행시킨다. split = sample.split(dataset$Salary, SplitRatio = 2/3) training_set = subset(dataset, split == TRUE) test_set = subset(dataset, split == FALSE) [데이터 전처리]에서는 스케일링을 해주어야했지만, 이번에는 회귀 라이브러리가 스케일링을 해주기에 하지 않기로 한다. 2. 선형 회귀 모델 만들기 regressor = lm(formula = Salary ~ YearsExperience, data = training_set) summary(regressor) 위와 같은 코드를 입력하면, .. 2022. 4. 17. 이전 1 ··· 6 7 8 9 10 11 다음