본문 바로가기

전체 글280

[데이터 전처리 - 3] 범주형 데이터 (Categorical Data) 위 사진에서 범주형 데이터는 Country 컬럼과 Purchased 컬럼이다. Country에는 France, Spain, Germany Purchased에는 Yes, No 범주형 데이터가 어떤 느낌인지 바로 느껴진다. (enum 같은?) 머신러닝은 기본적으로 모두 숫자로 이루어지기 때문에 이런 값들을 숫자로 바꿔주는 것이 중요하다. 이렇게 코드를 실행시켜주면 이처럼 아름답게 숫자로 모두 바뀐 것을 알 수 있다. Factor는 "정해진 범주 내에서 카테고리별로 분석하기 위해 주로 사용되는 데이터 자료형" 2022. 4. 16.
[데이터 전처리 - 2] 누락된 데이터 처리 (Taking care of missing data) 누락된 데이터를 처리하는 방법 2가지 그냥 삭제한다. 하지만 이렇게 하면 중요한 데이터를 잃어버릴 가능성이 있기 때문에 비추천 특정 컬럼에 대해서 누락된 행을 제외한 나머지 데이터들의 평균 값을 넣어준다. 실제 데이터와 큰 오차가 있을 가능성이 적어 추천 따라서 2번을 실습해보겠다. dataset$Age = ifelse(is.na(dataset$Age), ave(dataset$Age, FUN = function(x) mean(x, na.rm = TRUE)), dataset$Age) 를 실행하면 (Salary 컬럼에 대해서는 Age를 Salary로 바꾸기만 하면 된다) 이처럼 데이터가 모두 채워진 모습을 볼 수 있다. 2022. 4. 16.
[데이터 전처리 - 1] R Studio로 .scv 읽기 머신러닝 스터디를 시작하면서 : https://nhahan.tistory.com/12 . . . 처음에는 R이 처음이라 잘 모르기 때문에 모든 것을 자세하게 설명하면서 갈 것이지만, 이후엔 이미 설명한 부분이고 중요하지 않다면 기능 설명 같은건 일부 생략하면서 글 작성을 할 예정이다. 그림 1. R Studio 우측 하단에 있는 More탭에서 엑셀 파일이 있는 곳을 Working Directory로 설정한다. 그림 2. 1번처럼 dataset = read.csv('Data.csv') 를 실행한다. 그리고 2번을 클릭하면 3번처럼 보여준다. 주의 : R은 인덱스가 1부터 시작 저는 '느낌'을 한 번 받아보는게 중요하다고 생각하는데, R의 느낌은 https://dev.epiloum.net/1546 이 블로그.. 2022. 4. 16.
머신러닝 스터디에 가입하다 우연히 머신러닝 스터디 광고를 보고 들어가서 신청을 했는데 약간의 경쟁(?)을 뚫고 공부할 기회가 생겨서 시작하게 되었다. 5주간 진행되는 스터디라서 부담이 크게 되지 않는 선에서 재미있게 할 수 있을 것 같다.5주만에 머신러닝 맛을 볼 수 있다니 이런 혜자가 있나? 스터디 학습노트는 이 블로그에 머신러닝이라는 카테고리를 만들어서 정리할 것이다. 공부자료는 https://bit.ly/3rqvgfi 이 유데미 강의인데벌써 기대된다. 사실 요즘 회사 외에 뭔가 동기부여가 될만한 요소를 많이 찾고 있었는데 그 중 하나이다.다른 것들도 하고 있지만 이 스터디가 가장 기대되고 흥미가 생긴다.상당히 재밌을듯! 평소에 R에 관심이 있었는데 이번 기회에 한 번 맛을 볼 생각이다. 대학생 취미 동아리 활동 혹은 교양과.. 2022. 4. 15.
3분만에 AWS CDK 좋은 느낌 받아보기 AWS의 IaC 도구인 AWS CDK를 처음 접하는 사람들도 좋은 느낌을 받을 수 있게 프레젠테이션을 구성했다. - 내가 생각하는 CDK의 장점 1. 한 번 짜두면 dev, qa, prod(+더 나아가 개인 테스트용 파이프라인도 가능) 환경들을 터미널에 커맨드 한 번 입력하는 것으로 똑같이 쉽게 배포가능하다. 2. 1번과 연관 있는 이야기인데 코드로 인프라를 짰다는건 형상관리가 가능하다는 것. 3. 디폴트로 잡아주는 값이 있어서 익숙해지면 AWS Console보다 편하다. 그리고 생각보다 이걸 공부하면 AWS에 대해 몰랐던 사실들을 더 잘 알 수 있다. 4. 재밌다. (진짜 재밌음) - 단점 1. 그럼에도 불구하고 AWS 사이트에서 그냥 마우스로 버튼 눌러가며 배포하는 것에 비해 러닝커브가 있기 때문에 .. 2022. 4. 4.