Economic Policy Data Web Crawling
- (KDI EIEC) Collection of Korean economic policy documents (ID, title, publisher, date, content summary) (link to code)
- (KDI EIEC) Collection of Korean and international research papers (ID, title, publisher, date, content summary) (link to code)
- Collection of U.S. Department of the Treasury Press Releases (ID, title, category, date, content) (link to code)
- Collection of Ministere de L'Economie des Finances Presse (ID, title, category, date, content) (link to code)
- KDI EIEC Collection of economic policy documents (ID, title, publisher, date, number of pages, file names 1–5, download links 1–5) (link to code)
- Raw document PDF and HWP files available for download
- KDI EIEC Collection of domestic and international research papers (ID, title, publisher, date, number of pages, file names 1–5, download links 1–5) (link to code)
- PDF text extraction
- PDF text tokenization
- Summarization and Excel file download
- Summarization models (e.g., GPT-4 API) not yet integrated
경제 정책 데이터 크롤링
- KDI EIEC 경제정책자료 수집 (ID, 제목, 발간처, 날짜, 내용 요약) (파일 바로가기)
- KDI EIEC 국내외연구자료 수집 (ID, 제목, 발간처, 날짜, 내용 요약) (파일 바로가기)
- 미국 재무부 보도자료 수집 (ID, 제목, 자료유형, 날짜, 내용) (파일 바로가기)
- KDI EIEC 경제정책자료 수집 (ID, 제목, 발간처, 날짜, 페이지수, 파일명1,2,3,4,5, 다운로드링크1,2,3,4,5) (파일 바로가기)
- 원문자료 PDF, HWP 파일 다운로드 가능
- KDI EIEC 국내외연구자료 수집 (ID, 제목, 발간처, 날짜, 페이지수, 파일명1,2,3,4,5, 다운로드링크1,2,3,4,5) (파일 바로가기)
- PDF 텍스트 추출
- PDF 텍스트 토큰화(tokenize)
- 요약 후 엑셀 다운로드
- 요약 모델(ex. gpt4) 미탑재