본문 바로가기

전체 글194

데이터 엔지니어, 데이터 애널리스트, 데이터 사이언티스트 무엇이 다를까 데이터 엔지니어(Data Engineer) 데이터 애널리스트(Data Analyst) 데이터 사이언티스트(Data Scientist) 차이가 무엇일까? 현재 다니고 있는 회사 기준이므로 다를 수도 있다. 이게 100% 정확하게 용어가 정립된게 아닌 것 같다. 데이터 엔지니어가 애널리스트 일을 일부 겸할 수도 있고, 사이언티스트가 애널리스트의 일을 일부 겸할 수도 있는 것이다. 데이터 엔지니어는 안정적인 데이터 파이프라인을 구축하고 운영하는 직업이다. 데이터 애널리스트는 데이터를 시각화, 분석하고 인사이트를 얻는 직업이다. 마케팅 팀하고 데이터 팀하고 사이에 걸쳐 있는 느낌. 데이터 사이언티스트는 애널리스트의 일을 겸하면서 더 나아가 머신러닝과 AI까지 가능한 직군이다. 애널리스트보다 좀 더 이과스러운(?.. 2022. 5. 1.
[분류 - 9] 비선형 커널 SVM 실습 데이터 세트는 쓰던 걸 쓰고, classifier를 만든다. library(e1071) classifier = svm(formula = Purchased ~ ., data = training_set, type = 'C-classification', kernel = 'radial') 더보기 library(ElemStatLearn) set = training_set X1 = seq(min(set[, 1]) - 1, max(set[, 1]) + 1, by = 0.01) X2 = seq(min(set[, 2]) - 1, max(set[, 2]) + 1, by = 0.01) grid_set = expand.grid(X1, X2) colnames(grid_set) = c('Age', 'EstimatedSalary'.. 2022. 4. 30.
[분류 - 8 ] 비선형 커널 SVR 중간 과정을 정확히 이해를 잘 못해서 내가 받은 느낌만 적어보려고 한다. 왼쪽과 같은 그래프가 있고(노란점 참고), 커널 함수로 3차원 그래프를 만든다 그곳에 비스듬한 초평면을 투과시키고, 생긴 추세선의 튜브를 만들기 위해 평행한 초평면 2개를 더 만든다. 그렇게 생긴 2차원의 단면이 SVR이 되고, 이 SVR에 가까운 점들이 서포트 벡터가 된다. 2022. 4. 30.
[분류 - 7] Kernel SVM이란? 결정 경계(Decision Boundary)를 긋지 못하는 데이터에 대해서는 어떻게 해야할까? 1. 고차원으로의 매핑 제곱을 해서 분리하는 방법이다. 이런 느낌이라고 보면 된다. 그러나 이 방법은 연산에 오랜 시간이 걸리므로 그렇게 좋은 방법은 아니다. 2. 커널 트릭 식의 좌항은 초록색 점들이 모인 구역을 뜻한다. l은 초록색 점들의 중심, x는 초록색 점의 위치 벡터이다. 식이 어렵게 보이지만, 교양 수준에서 해석을 해보면 x-l즉, 초록색 점의 위치에서 중심점의 위치의 거리가 멀면 멀수록 K가 작아진단 뜻이다. 즉 K > 0인 구간에 데이터들에 대해서 초록색 점으로 판단하겠다는 뜻이다. σ는 원의 크기를 뜻한다. 실제로 커널은 이것보다 훨씬 다양한 종류들이 있다. 2022. 4. 30.
[분류 - 6] SVM 실습 앞의 진행과 비슷하기 때문에 코드는 더접기에 붙여넣고 생략. 더보기 # Importing the dataset dataset = read.csv('Social_Network_Ads.csv') dataset = dataset[3:5] # Encoding the target feature as factor dataset$Purchased = factor(dataset$Purchased, levels = c(0, 1)) # Splitting the dataset into the Training set and Test set # install.packages('caTools') library(caTools) set.seed(123) split = sample.split(dataset$Purchased, Spli.. 2022. 4. 30.
728x90