Genomics-Informatics-Corpus raw_text : wondersharepdf 으로 수작업을 거쳐 텍스트 파일 추출한 것 (vol 1~9) raw_text2 : wondersharepdf 으로 텍스트 파일 추출한 것 (vol 1~16) original_text : box repository 에 있던 텍스트 파일 (vol 1~16) GNI Corpus 1.0: pdf로 부터 코드를 통해 직접 텍스트 추출한 것 (vol 6~9)