Skip to content

Latest commit

 

History

History
31 lines (27 loc) · 1.1 KB

README.md

File metadata and controls

31 lines (27 loc) · 1.1 KB

nip

2019년 2학기 소프트웨어 종합설계. NiP은 Namgyu is Pig

dataset

Yelp 2014
(http://www.thunlp.org/~chm/data/data.zip)
nip/data 폴더 만들고 그 안에 dataset 저장

preprocessing

  1. dataset 변환 (기존 .txt 파일을 리뷰 + 평점만 남긴 .txt 파일로 변환)
    python3 convert.py
  2. vocab 파일 생성
    python3 vocab_generate.py
  3. 리뷰 텍스트 토큰화 + int 값으로 인코딩
    python3 encode.py
  4. dataloader 생성
    • dataset.py의 NIPDataset 클래스를 import하여 dataset 생성
    • 생성한 dataset에 맞게 dataloader 생성

2, 3번 과정에서 stanford nlp tokenizer를 다운 받고 서버를 연 상태에서 진행해야 함.
Tokenizer 설치 및 사용법은 다음 링크 참고.
https://stackoverflow.com/questions/47624742/how-to-use-stanford-word-tokenizer-in-nltk

만일 사용이 어려울 경우 preprocessing 과정을 거친 데이터셋을 구글 드라이브에 올려놓았으니 참고.
data 폴더 채로 받아서 사용하면 됨