본문 바로가기
AI/회귀

[회귀 - 8] 모델 만들기

by Nhahan 2022. 4. 23.

어떤 변수를 버리고, 어떤 변수를 유지해야할까?

모든 변수를 다 쓸 수 없는 2가지 이유

1. 쓰레기를 넣으면 쓰레기가 나온다.

2. 어떤 독립변수가 종속변수에 무슨 영향을 미쳤는지 설명할 수 있어야한다.

 

 


 

모델을 만드는 5가지 방법

  1. 올인 (All-in)
  2. 후진 소거법 (Backward Elimination)
  3. 전진 선택법 (Forward Selection)
  4. 왕복 소거법 (Bidirectional Elimination)
  5. 점수 비교법 (Score Comparison)
  6. 단계 선택법 (Stepwise Regression) - 사실 이건 2, 3, 4번에 해당되므로 제외

 

 

1. 올인

앞서 말했듯, 최대한 지양해야할 방법이지만 만약 각 변수들이 무슨 일들을 하는지 다 알고 있거나, 프레임워크에서 다 요구하거나, 후진 소거법을 위한 준비단계를 위해 종속변수를 하나도 제거 하지 않을 수도 있다.

 

2. 후진 소거법

Step 1: 모델 내 유의 확률을 설정. (디폴트로 0.05)

Step 2: 모든 변수들을 모델에 넣는다.

Step 3: 가장 높은 p-value를 가진 변수를 고른다.

Step 4: 이전 단계에서 고른 변수를 지운다.

Step 5: 이제 모델을 만든다. 그리고 이제 Step 3 ~ Step 5를 반복하면서 변수들을 차례차례 소거한다. 더 이상 유의 확률보다 높은 p-value 값이 없으면 최종 모델 완성.

 

3. 전진 선택법

Step 1: 모델 내 유의 확률을 설정. (디폴트로 0.05)

..? 이해 못했음

 

4. 왕복 소거법

Step 1: 모델 내 들어갈 유의 수준과, 유지할 유의 수준을 설정한다.

Step 2: 전진 선택법의 2번째 단계를 똑같이 실행한다.

..? 그러므로 이해 못했음

 

5.점수 비교법

Step 1: 범주형 데이터 열을 이용해 가능한 회귀 모형들을 모두 만든다. (ex. 만약 컬럼이 n개 라면 2의 n제곱에서 1을 뺸 만큼이 총 조합수)

Step 2: 가장 좋은 범주가 있는 모형을 고른다.

듣기에는 쉽고 좋아보이지만 10개의 데이터가 있다면 1023개의 모델이 만들어진다. 100개의 데이터가 있다면...

 

 

 

어떻게 단계별로 모형을 만드는지 이해하고 연습하기 좋은 방법은 '후진 소거법'이라고 한다. (다행)

 

 

댓글