본문 바로가기

AI44

[회귀 - 9] 다중 선형 회귀 regressor = lm(formula = Profit ~ ., #.은 모든 독립변수들을 뜻 함 data = training_set) 독립 변수 : R.D.Spend(연구개발 비용), Administration(행정 비용), Marketing.Spend(마케팅 비용), State(주) 종속 변수 : Profict(이익) 이 데이터를 바탕으로 스타트업들의 미래 이익을 예측하고, 어떤 독립 변수가 이익에 가장 큰 이익을 주는지 알아내고, 어떤 부분이 이익과 독립 변수 사이의 관계를 주도하는지 하는 정보들을 알아볼 것이다. 먼저 앞서 데이터 전처리에서 배운대로 범주형 데이터를 양적 데이터로 변경해준다. 다음으로 역시 앞에서 배운대로 훈련 세트와 테스트 세트로 나눈다. 다음에 나와있는 코드로 훈련 세트를 다중.. 2022. 4. 24.
[회귀 - 8] 모델 만들기 모든 변수를 다 쓸 수 없는 2가지 이유 1. 쓰레기를 넣으면 쓰레기가 나온다. 2. 어떤 독립변수가 종속변수에 무슨 영향을 미쳤는지 설명할 수 있어야한다. 모델을 만드는 5가지 방법 올인 (All-in) 후진 소거법 (Backward Elimination) 전진 선택법 (Forward Selection) 왕복 소거법 (Bidirectional Elimination) 점수 비교법 (Score Comparison) 단계 선택법 (Stepwise Regression) - 사실 이건 2, 3, 4번에 해당되므로 제외 1. 올인 앞서 말했듯, 최대한 지양해야할 방법이지만 만약 각 변수들이 무슨 일들을 하는지 다 알고 있거나, 프레임워크에서 다 요구하거나, 후진 소거법을 위한 준비단계를 위해 종속변수를 하나도 제.. 2022. 4. 23.
[회귀 - 7] p-value (probability value) p-value란 어떤 사건이 우연히 발생할 확률이다. 근데 왜 p-value는 일반적으로 0.05(5%)일까? 그건 암묵적으로, 누군가, p-value를 맨 처음에 정한 사람들끼리 "아 ㅋㅋㅋ 이 정도면 우연은 아니겠지. 다들 인정하시죠?" 라고 정한 거라고 생각하면 된다. 우린 그냥 그걸 따라가는 것이다. 이걸 다시 말하면, p-value가 0.05보다 작다는건 어떤 사건이 우연히 발생할 가능성이 없다는 뜻이므로 "뭔가 이유가 있다"는 뜻이 되고 이를 우리는 유의하다라고 해석하게 된다. 하지만 상황에 따라 더 높은 신뢰도를 가져야할 경우도 많다. 와 진짜 다른 블로그들 다 너무 어렵게 설명해놨음 2022. 4. 23.
[회귀 - 6] 가변수의 함정 Profit R&D Spend Admin Marketing State 213 165 136 471 New York 251 162 151 443 California 212 153 101 407 California 261 144 118 383 New York 209 142 91 366 California 다중 선형 회귀란 독립변수가 2개 이상 있는 식이다. 만약 위 표를 선형 회귀로 만든다면 어떻게 될까? 당연히 종속변수는 Profit이 될 것이다. y = b0 + b1 * x1 + b2 * x2 + b3 * x3 + ??? 그런데 State는 어떻게 넣어야할까? (???가 State) 여기서 중요한 점은 State가 범주형 변수라는 것이다. 범주형 변수는 이 상태로 회귀식에 넣을 수 없다. State에는 .. 2022. 4. 23.
[회귀 - 5] 선형 회귀를 설계하기 전에 고민해야할 것들 1. Linearity 2. Homoscedasticity 3. Multivariate normality 4. Independence of errors 5. Lack of multicollinearity 2022. 4. 23.