-
Notifications
You must be signed in to change notification settings - Fork 115
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Other data #81
Comments
안녕하세요. 안그래도 해당 내용을 위키에 정리하면 좋겠다고 생각하고 있었는데, 좀처럼 시간이 나지를 않아서 추가하지 못하고 있는 상황입니다.
예시)
KsponSpeech - LightningDataModule. 위와 같은 해당 데이터셋에 맞는 코드가 필요합니다. 사실 1번의 예시와 같은 매니페스트 파일을 만드는 코드가 여기에 들어가야합니다.
텍스트 유닛을 숫자로(encode), 숫자를 텍스트 유닛으로(decode) 변환해주는 역할을 하는 Tokenizer 클래스를 구현해야 합니다. 여기까지 구현하시고 코드 실행하실때 커맨드만 적절하게 넘겨주시면 됩니다. |
상세한 코멘트 감사합니다! |
네 위 설명만으로는 부족한 점이 많겠지만, 진행하시면서 문제가 되는 부분이 있으면 이슈 남겨주세요. |
혹시 Train은 train set과 val set으로 학습하는것이고 eval은 test set으로 하는것이 맞는걸까요 |
저는 이미 Test set을 따로 떼어 놓아서 lit_data_module.py를 보고 있는데 ksponspeech 데이터는 한 폴더에서 train val test를 나누는 코드이다보니 질문을 남깁니다..ㅠ |
❓ Questions & Help
Details
현재 세 개의 데이터 이외에도 다른 데이터에 오픈 음성인식 모델들을 쉽게 적용할 수 있는 가이드라인들이 있을까요??
The text was updated successfully, but these errors were encountered: