데이터셋1 [AI] 데이터셋 검증을 잘 하자 + 전처리 저장/로드 영-한 번역 모델을 만들어보고 있는데, 데이터셋 검증을 제대로 하지 않아 시간을 많이 날렸다.대충 봐선 몰랐는데, 데이터셋을 하나하나 보니까 번역이 이상한 데이터셋... https://huggingface.co/datasets/msarmi9/korean-english-multitarget-ted-talks-task 아니면 이런건 아예 컬럼이 없고 데이터만 딸랑 존재했다. (전처리의 귀찮음)https://huggingface.co/datasets/bongsoo/news_talk_ko_en 데이터셋이 GB 단위로 넘어가면 로드에 매우 오랜 시간이 걸린다. # 데이터셋 저장 경로 설정processed_train_dataset_path = os.path.join(log_dir, "tokenized_train.. 2024. 9. 29. 이전 1 다음 728x90