본문 바로가기

AI44

[회귀 - 4] 단순 선형 회귀 이해도 테스트 1. 풋볼 게임 결과를 예측하는데 단순 선형 회귀선을 이용해야한다. True False 2. 다음 중 단순 선형 회귀 모델이 아닌 것은? Salary = a * Experience Salary = a * Experience + b Salary = a * Experience + b * Age 답(드래그) : 2, 3, 2022. 4. 23.
[회귀 - 3] 단순 선형 회귀(2) 3. 테스트 세트의 결과 예측하기 > y_pred = predict(regressor, newdata = test_set) > y_pred 위처럼 직관적으로 predict 펑션을 쓰면, 2 4 5 8 11 16 20 21 24 26 37766.77 44322.33 46195.35 55560.43 62115.99 71481.07 81782.66 89274.72 102385.84 109877.90 이런 결과를 얻을 수 있는데, 위 숫자가 index, 아래는 예측값이다. 실제 test_set과 비교해보면 비슷하게 값을 예측한 것을 알 수 있다. 4. 훈련 세트 Visualize install.packages(ggplot2) Visualize를 위해 위와 같이 실행하여 ggplot2라는 라이브러리를 설치하고 #.. 2022. 4. 19.
[회귀 - 2] 단순 선형 회귀 1. 데이터세트를 훈련 세트와 테스트 세트로 나누기 [데이터 전처리]에서 했던 것처럼 아래와 같은 코드를 실행시킨다. split = sample.split(dataset$Salary, SplitRatio = 2/3) training_set = subset(dataset, split == TRUE) test_set = subset(dataset, split == FALSE) [데이터 전처리]에서는 스케일링을 해주어야했지만, 이번에는 회귀 라이브러리가 스케일링을 해주기에 하지 않기로 한다. 2. 선형 회귀 모델 만들기 regressor = lm(formula = Salary ~ YearsExperience, data = training_set) summary(regressor) 위와 같은 코드를 입력하면, .. 2022. 4. 17.
[회귀 - 1] 회귀란? 회귀란 1개 이상의 독립 변수와, 1개의 종속 변수간의 상관관계를 모델링 하는 것이다. 라고 하면 어려운데 그냥 간단히 말하면 식이다. y = a * x + b 라는 식이 있다면 y는 종속 변수, x는 독립 변수가 된다. 단순 선형 회귀란? x, 즉 독립 변수가 1개인 회귀 다중 선형 회귀란? 독립 변수가 2개 이상인 회귀 다항 회귀란? '선형'이 아닌 '곡선' 회귀를 말한다. 즉, 차수가 2 이상이다. ex) y = a * x^2 + b - 아래는 뇌피셜을 포함하고 있어 정확하지 않을 수 있음 회귀의 진짜 원래 의미는 우리가 원래 흔히 알고 있는 '돌아가다'의 뜻인 회귀가 맞다. 하지만 찾아보니 통계학의 회귀는 '평균으로 돌아가다'라는 의미를 뜻하는 것 같다. 평균으로 돌아가다라는 말은 '추세'라고도 .. 2022. 4. 17.
[데이터 전처리 - 5] 데이터 스케일링 데이터 스케일링이 필요한 이유는 컬럼 간의 차이가 너무 크면 분석이 힘들기 때문이다(Age는 많아봐야 100살인데, Salary는 수십만이 될수도). 혹은 수능 만점(500점인가?)과 토익 만점(990점)에서 수능 총점수 100점과 토익 점수 100점의 가치를 동일 선상에 둘 수 없기 때문이기도 하다. 약간 위 사진 예시와 같은 느낌이라고 할 수 있다. 이제 이 dastaset의 Age와 Salary를 스케일링 해보자. dastaset[, 2:3] = scale(dastaset[, 2:3]) # '2:3'은 2열과 3열을 스케일링 한다는 뜻이다. 위와 같은 커맨드를 실행하면 아름답게 스케일링 된 결과를 확인할 수 있다. 2022. 4. 17.