모든 변수를 다 쓸 수 없는 2가지 이유
1. 쓰레기를 넣으면 쓰레기가 나온다.
2. 어떤 독립변수가 종속변수에 무슨 영향을 미쳤는지 설명할 수 있어야한다.
모델을 만드는 5가지 방법
- 올인 (All-in)
- 후진 소거법 (Backward Elimination)
- 전진 선택법 (Forward Selection)
- 왕복 소거법 (Bidirectional Elimination)
- 점수 비교법 (Score Comparison)
- 단계 선택법 (Stepwise Regression) - 사실 이건 2, 3, 4번에 해당되므로 제외
1. 올인
앞서 말했듯, 최대한 지양해야할 방법이지만 만약 각 변수들이 무슨 일들을 하는지 다 알고 있거나, 프레임워크에서 다 요구하거나, 후진 소거법을 위한 준비단계를 위해 종속변수를 하나도 제거 하지 않을 수도 있다.
2. 후진 소거법
Step 1: 모델 내 유의 확률을 설정. (디폴트로 0.05)
Step 2: 모든 변수들을 모델에 넣는다.
Step 3: 가장 높은 p-value를 가진 변수를 고른다.
Step 4: 이전 단계에서 고른 변수를 지운다.
Step 5: 이제 모델을 만든다. 그리고 이제 Step 3 ~ Step 5를 반복하면서 변수들을 차례차례 소거한다. 더 이상 유의 확률보다 높은 p-value 값이 없으면 최종 모델 완성.
3. 전진 선택법
Step 1: 모델 내 유의 확률을 설정. (디폴트로 0.05)
..? 이해 못했음
4. 왕복 소거법
Step 1: 모델 내 들어갈 유의 수준과, 유지할 유의 수준을 설정한다.
Step 2: 전진 선택법의 2번째 단계를 똑같이 실행한다.
..? 그러므로 이해 못했음
5.점수 비교법
Step 1: 범주형 데이터 열을 이용해 가능한 회귀 모형들을 모두 만든다. (ex. 만약 컬럼이 n개 라면 2의 n제곱에서 1을 뺸 만큼이 총 조합수)
Step 2: 가장 좋은 범주가 있는 모형을 고른다.
듣기에는 쉽고 좋아보이지만 10개의 데이터가 있다면 1023개의 모델이 만들어진다. 100개의 데이터가 있다면...
어떻게 단계별로 모형을 만드는지 이해하고 연습하기 좋은 방법은 '후진 소거법'이라고 한다. (다행)
'AI > 회귀' 카테고리의 다른 글
[회귀 - 10] 후진 소거법 (Backward Elimination) (0) | 2022.04.24 |
---|---|
[회귀 - 9] 다중 선형 회귀 (0) | 2022.04.24 |
[회귀 - 7] p-value (probability value) (0) | 2022.04.23 |
[회귀 - 6] 가변수의 함정 (0) | 2022.04.23 |
[회귀 - 5] 선형 회귀를 설계하기 전에 고민해야할 것들 (0) | 2022.04.23 |
댓글