2019년 2학기 소프트웨어 종합설계. NiP은 Namgyu is Pig
Yelp 2014
(http://www.thunlp.org/~chm/data/data.zip)
nip/data 폴더 만들고 그 안에 dataset 저장
- dataset 변환 (기존 .txt 파일을 리뷰 + 평점만 남긴 .txt 파일로 변환)
python3 convert.py
- vocab 파일 생성
python3 vocab_generate.py
- 리뷰 텍스트 토큰화 + int 값으로 인코딩
python3 encode.py
- dataloader 생성
- dataset.py의 NIPDataset 클래스를 import하여 dataset 생성
- 생성한 dataset에 맞게 dataloader 생성
2, 3번 과정에서 stanford nlp tokenizer를 다운 받고 서버를 연 상태에서 진행해야 함.
Tokenizer 설치 및 사용법은 다음 링크 참고.
https://stackoverflow.com/questions/47624742/how-to-use-stanford-word-tokenizer-in-nltk
만일 사용이 어려울 경우 preprocessing 과정을 거친 데이터셋을 구글 드라이브에 올려놓았으니 참고.
data 폴더 채로 받아서 사용하면 됨