Skip to content

YeongSeokJeong/Post_Editing-Seq2Seq

Repository files navigation

Post_Editing Seq2Seq

목적

음성인식 결과 자동 교정을 위한 sequence to sequence 모델링


데이터

구글 음성인식기를 통한 뉴스의 음성정보 데이터 사용(9.6만 문장)


진행사항

2020.01.30		코드 수정 및 데이터 전처리
2020.01.31		전처리 코드 수정 평가 코드 추가 및 주석
2020.02.05		검증 집합의 비용계산 함수 추가, 데이터 증폭을 위한 함수 추가(음소)
2020.02.06		데이터 증폭을 위한 함수 추가(형태소)
2020.02.11 ~		어절 단위 Attention Seq2Seq를 위한 코드 작성
2020.02.17
2020.02.18		형태소 단위 Attention validation loss 변환
			형태소 단위 save_data_morph.py 파일 수정
2020.02.25 ~ 		Transformer 공부 및 [구현](https://www.tensorflow.org/tutorials/text/transformer#top_of_page)
2020.02.28
2020.03 ~ 		KorBERT 적용 
2020.03.12		FastText 적용
2020.03.17		성능 측정을 위한 WER알고리즘 추가

성능 측정

WER(Word Error Rate) 알고리즘을 사용한 측정

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published