Пример скрытых субтитров (с переводом на русский язык) к вводным видео в документации к редактору «Visual Studio Code». Субтитры выложены в формате SRT, в кодировке UTF-8, окончания строк формата «Windows» (CR LF).
Опубликованные здесь файлы с субтитрами имеют кодировку UTF-8, без метки BOM (эта аббревиатура расшифровывается как «Byte Order Mark»). Некоторые видеоплееры не могут автоматически правильно определить кодировку UTF-8 и выдают кракозябры (по-английски «mojibake») вместо русских букв. Для таких видеоплееров может потребоваться добавление в начало файла с субтитрами метки BOM (то есть трех байтов EF BB BF
). Это можно сделать в любом хорошем текстовом редакторе или редакторе кода (например, это можно сделать в «Notepad++», «Visual Studio Code» и даже в простом «Блокноте» операционной системы «Windows»).
Примером видеоплеера, для которого может потребоваться добавление метки BOM в файл субтитров в кодировке UTF-8, являеется видеоплеер «Кино и ТВ» (по-английски «Movies & TV») операционной системы «Windows 10».
В разделе «Вводные видео» в документации к редактору «Visual Studio Code» всего 8 видеороликов, из них 6 встроено на страницы документации с помощью внутреннего видеоплеера сайта www.microsoft.com
, а 2 видеоролика — с видеохостинга «YouTube». Видеоролики записаны на английском языке, к ним есть скрытые субтитры на английском. Субтитры в этих видеороликах недоступны для редактирования. А редактирование там не помешало бы, потому что в этих субтитрах есть ошибки, да и мне хотелось бы добавить перевод субтитров на русский язык.
Я решил создать пример скрытых субтитров для вышеуказанных вводных видео, доступных для редактирования в этом репозитории.
Для примера я выбрал вводное видео «Productivity Tips» (по-русски «Приемы эффективной работы»). Оно встроено в документацию «VS Code» с помощью видеоплеера сайта www.microsoft.com
. Работа над получением скрытых субтитров для этого видео состояла из трех следующих шагов.
-
Я скачал видеоролик с сайта документации редактора «Visual Studio Code» и загрузил его на сайт веб-сервиса «Azure Video Indexer» (анализатор видео на облачной платформе «Microsoft Azure»). После автоматического анализа загруженного видео веб-сервисом можно скачать созданные автоматически субтитры в любом из нескольких форматов. Я выбрал формат SRT и сохранил эти субтитры в файле «productivity-vi.srt»;
-
Субтитры, созданные автоматически анализатором видео, сильно отличаются от субтитров вводного видео «Productivity Tips». Я взял файл «productivity-vi.srt», полученный на предыдущем шаге, и на глаз подогнал его так, чтобы он по возможности совпадал с субтитрами во вводном видео. Результат я поместил в файл «productivity-en.srt»;
-
Полученные на шаге 2 субтитры я перевел на русский язык и результат поместил в файл «productivity-ru.srt».
Для примера я выбрал вводное видео «Getting started» (по-русски «Приступая к работе»). Оно встроено в документацию «VS Code» с видеохостинга «YouTube». Работа над получением скрытых субтитров для этого видео состояла из трех следующих шагов.
-
Я воспользовался функцией «Показать текст видео», которую можно вызвать на сайте «YouTube» из меню под видеороликом (кнопка-пункт с многоточием). Справа от видео откроется панель «Расшифровка видео», на которой можно выделить субтитры с временными метками и скопировать выделенное в текстовый файл. Так я получил файл «basics-raw.txt»;
-
Полученный текст я переделал вручную в формат SRT. Во временных метках, полученных на шаге 1, нет миллисекунд. Их пришлось добавить вручную, на глаз. Так я получил файл «basics-en.srt»;
-
Субтитры на английском языке, созданные на шаге 2, я перевел на русский язык. Так я получил файл «basics-ru.srt».
Из-за того, что я на шаге 2 подгонял субтитры под временные метки на глаз, получилось не очень хорошо. Видеоролик с полученными субтитрами можно смотреть, но хотелось бы подогнать субтитры под произносимые фразы по времени более точно. Правда, у меня для этого не хватает знаний и умений.
Этот проект родился из дискуссии в сообщении о проблеме (issue) microsoft/vscode-docs#4892.