데이터 전처리4 [AI] 데이터셋 검증을 잘 하자 + 전처리 저장/로드 영-한 번역 모델을 만들어보고 있는데, 데이터셋 검증을 제대로 하지 않아 시간을 많이 날렸다.대충 봐선 몰랐는데, 데이터셋을 하나하나 보니까 번역이 이상한 데이터셋... https://huggingface.co/datasets/msarmi9/korean-english-multitarget-ted-talks-task 아니면 이런건 아예 컬럼이 없고 데이터만 딸랑 존재했다. (전처리의 귀찮음)https://huggingface.co/datasets/bongsoo/news_talk_ko_en 데이터셋이 GB 단위로 넘어가면 로드에 매우 오랜 시간이 걸린다. # 데이터셋 저장 경로 설정processed_train_dataset_path = os.path.join(log_dir, "tokenized_train.. 2024. 9. 29. [데이터 전처리 - 3] 범주형 데이터 (Categorical Data) 위 사진에서 범주형 데이터는 Country 컬럼과 Purchased 컬럼이다. Country에는 France, Spain, Germany Purchased에는 Yes, No 범주형 데이터가 어떤 느낌인지 바로 느껴진다. (enum 같은?) 머신러닝은 기본적으로 모두 숫자로 이루어지기 때문에 이런 값들을 숫자로 바꿔주는 것이 중요하다. 이렇게 코드를 실행시켜주면 이처럼 아름답게 숫자로 모두 바뀐 것을 알 수 있다. Factor는 "정해진 범주 내에서 카테고리별로 분석하기 위해 주로 사용되는 데이터 자료형" 2022. 4. 16. [데이터 전처리 - 2] 누락된 데이터 처리 (Taking care of missing data) 누락된 데이터를 처리하는 방법 2가지 그냥 삭제한다. 하지만 이렇게 하면 중요한 데이터를 잃어버릴 가능성이 있기 때문에 비추천 특정 컬럼에 대해서 누락된 행을 제외한 나머지 데이터들의 평균 값을 넣어준다. 실제 데이터와 큰 오차가 있을 가능성이 적어 추천 따라서 2번을 실습해보겠다. dataset$Age = ifelse(is.na(dataset$Age), ave(dataset$Age, FUN = function(x) mean(x, na.rm = TRUE)), dataset$Age) 를 실행하면 (Salary 컬럼에 대해서는 Age를 Salary로 바꾸기만 하면 된다) 이처럼 데이터가 모두 채워진 모습을 볼 수 있다. 2022. 4. 16. [데이터 전처리 - 1] R Studio로 .scv 읽기 머신러닝 스터디를 시작하면서 : https://nhahan.tistory.com/12 . . . 처음에는 R이 처음이라 잘 모르기 때문에 모든 것을 자세하게 설명하면서 갈 것이지만, 이후엔 이미 설명한 부분이고 중요하지 않다면 기능 설명 같은건 일부 생략하면서 글 작성을 할 예정이다. 그림 1. R Studio 우측 하단에 있는 More탭에서 엑셀 파일이 있는 곳을 Working Directory로 설정한다. 그림 2. 1번처럼 dataset = read.csv('Data.csv') 를 실행한다. 그리고 2번을 클릭하면 3번처럼 보여준다. 주의 : R은 인덱스가 1부터 시작 저는 '느낌'을 한 번 받아보는게 중요하다고 생각하는데, R의 느낌은 https://dev.epiloum.net/1546 이 블로그.. 2022. 4. 16. 이전 1 다음