본문 바로가기

전체 글160

[분류 - 13] 랜덤 포레스트 분류 랜덤 포레스트 회귀하고 상당히 유사하다. Step 1. K개의 데이터를 고른다. Step 2. 고른 K개의 데이터로 의사결정트리를 만든다. Step3. Step1~2를 N번 반복한다. Step4. 이제 새로운 데이터 포인트를 분류하고 싶을 때 위의 나무트리들 N개에서 먼저 분류하고 어떤 범주에 들어갈지 예측한다(많은 쪽). 2022. 5. 1.
[분류 - 12] 의사결정트리 분류 의사결정트리 회귀와 분류가 다른 점은 회귀는 급여나, 인구수, 온도 등의 숫자의 결과를 예측할 때, 분류는 남자나 여자, 사과나 오렌지처럼 범주형 변수들을 다룰 때 쓴다. 최근에는 거의 안쓰이는 분류 기법이고, 랜덤 포레스트 등으로 업그레이드 되서 쓰인다. 2022. 5. 1.
[분류 - 11] 나이브 베이즈 분류(Naive Bayes Classifier)란? 나이브 베이즈 분류는 베이즈 정리를 이용한 Classifer이다. 새로운 데이터(회색점) X가 들어왔을 때 이 데이터가 Walks에 속할지, Drives에 속할지 어떻게 알 수 있을까? 나이브 베이즈 분류를 이용해 분류해볼건데, 이를 위해서는 X가 Walks에 속할 확률과 X가 Drives에 속할 확률을 베이즈 정리를 2번 적용해 구해야한다. Walks일 확률은 P(Walks) = 10 / 30 P(X)를 구하기 위해서 임의의 원을 그리는데 이 원의 크기는 아무렇게나 해도 상관없다. P(X)는 X가 이 원 안에 속할 확률이므로 P(X) = 4 / 30 P(X | Walks)는 걷는 사람들 중에 원 안에 속해있을 확률이다. P(X | Walks) = 3 / 10 이제 우리는 P(Walks | X)를 구할 .. 2022. 5. 1.
[분류 - 10] 베이즈 정리(Bayes Theorem) 상품을 1시간에 30개를 만드는 기계A와 상품을 1시간에 20개를 만드는 기계B가 있다. 기계A와 B를 가동시켜서 상품을 1000개를 만들었는데, 불량 상품은 총 상품의 1%인 10개였다. 그런데 불량 상품의 50%는 기계A, 나머지 50%는 기계B의 불량이라고 한다. 즉 A기계에서 5개, B기계에서 5개의 불량 상품이 나왔다. 그렇다면 기계B에서 만들어진 상품이 불량일 확률은 얼마일까? P(A) = 30 / 50 = 0.6 상품이 A일 확률 P(B) = 20 / 50 = 0.4 상품이 B일 확률 P(D) = 0.01 상품이 불량일 확률 P(A | D) = 0.5 불량 상품이 A일 확률 P(B | D) = 0.5 불량 상품이 B일 확률 P(D | B) = ? B가 불량일 확률 우선 기계B와 관련된 확률이.. 2022. 5. 1.
데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트 무엇이 다를까 데이터 엔지니어(Data Engineer) 데이터 애널리스트(Data Analyst) 데이터 사이언티스트(Data Scientist) 차이가 무엇일까? 현재 다니고 있는 회사 기준이므로 다를 수도 있다. 이게 100% 정확하게 용어가 정립된게 아닌 것 같다. 데이터 엔지니어가 애널리스트 일을 일부 겸할 수도 있고, 사이언티스트가 애널리스트의 일을 일부 겸할 수도 있는 것이다. 데이터 엔지니어는 안정적인 데이터 파이프라인을 구축하고 운영하는 직업이다. 데이터 애널리스트는 데이터를 시각화, 분석하고 인사이트를 얻는 직업이다. 마케팅 팀하고 데이터 팀하고 사이에 걸쳐 있는 느낌. 데이터 사이언티스트는 애널리스트의 일을 겸하면서 더 나아가 머신러닝과 AI까지 가능한 직군이다. 애널리스트보다 좀 더 이과스러운(?.. 2022. 5. 1.