Что такое транскрибация и где она применяется?
Моя задача, связанная с транскрибацией — перевод видеороликов и создание субтитров
Как включить субтитры на youtube, как добавить перевод субтитров на ютубе
Как скачать видео с ютуба с субтитрами? — 4KVideoDownloader
Чем проиграть видеофайлы со встроенными субтитрами и как выбрать нужный язык? — Media Player Classic
Субтитры = текст. Формат *.srt
Бесплатный вариант преобразования аудиодорожки видеофайла в текст: Subtitle Edit и Whisper
Как визуально сравнить версии субтитров между собой?
Как выполнить перевод субтитров?
Как встроить полученные субтитры в видеофайл?
Как сохранить субтитры из видеофайла?
Как удалить субтитры из видеофайла?
Как перевести аудиофайлы в текстовый файл в формате txt?
Как убрать из субтитров служебную информацию — тайминги, строки?
Перевод аудио в текст для тех, кто любит попроще — WhisperDesktop
Перевод аудио в текст и создание субтитров в Adobe Premiere Pro
Что такое транскрибация и где она применяется?
Транскрибация — конвертация речи в текст, STT(Speech To Text):
Программа FineReader распознает текст на картинке и дает на выходе текстовый файл, преобразуя графический формат в текстовый — такие системы называют OCR (optical character recognition, оптическое распознавание символов). Аналогичные решения для преобразования аудио в текст называются ASR (automatic speech recognition, автоматическое распознавание речи).
Самый простой пример — голосовой ввод: сказали фразу — получили ее в виде текста на экране телефона: Google Assistant, Siri.
Область применения транскрибации невероятно широка, даже в бытовой сфере — например, запись студентами лекций на диктофон с последующим распознаванием голоса в текст. Когда-то и диктофон стал потрясающе удобным изобретением, позволяющим забрать с собой кусочек информации, но на ее перенос в конспект тратилось дополнительное время, которое, впрочем, позволяло лучше запомнить лекцию. Еще пример — запись интервью, которое надо быстро опубликовать, тут однозначно: чем скорее, распознаешь, тем лучше! Можно оперативно получать новый контент для сайта.
Перевод. Преобразование аудио в текст незаменимо для перевода с одного языка на другой, особенно для тех, кто плохо воспринимает на слух чужой язык. Читать гораздо проще, чем слушать и различать. Кроме того, иностранный текст можно загрузить в любую программу-переводчик и получить примерно понятный вариант перевода на свой язык.
С появлением на сервисе Youtube возможности автоматически транскрибировать субтитры для видеороликов, а также добавлять перевод на любой язык сгенерированных субтитров, стало гораздо проще воспринимать то, о чем говорят в зарубежных обучающих клипах. Но не для всех роликов на ютуб есть сгенерированные субтитры. А еще у меня накопился запас англоязычных DVD по каякингу разных лет, которые так же неплохо было бы перевести.
Искал, как преобразовать офлайн на компьютере с Windows аудио в текст: аудиодорожку видеофайла mp4, аудиофайл mp3 или wav —> в txt файл. Нашел:)
Моя задача, связанная с транскрибацией — перевод видеороликов и создание субтитров
Перевести обучающие видео по каякингу с английского на русский язык с минимальными временными потерями и максимально качественно.
Переозвучивать видео можно, но, опять же — время: надо просто понять содержание. Поэтому наиболее простой вариант — сделать субтитры. А там и озвучить можно, читая с экрана.
Здесь рассматриваются только программные («мягкие», soft) субтитры — их просто редактировать, менять в любой момент.
Субтитры английские и русские можно встроить в видео: с одной стороны, так удобнее хранить, с другой — кроме повышения уровня знаний по каякингу можно заодно попрактиковаться в английском, выбрав английские субтитры: как и в любой специфической области, английский язык для каякера содержит специальные определения, слова, которые имеют совершенно другие значения в обычном их применении.
Как включить субтитры на youtube, как добавить перевод субтитров на ютубе
Самые свежие обучающие видео по каякингу можно найти на сервисе youtube.com, как правило, они на английском. Для лучшего понимания включим на ютуб субтитры, для этого нажмем на шестеренку в правом нижнем углу:
В появившемся меню выбираем Cубтитры (Sutitles(CC) в английском варианте):
Да, авторы роликов — каякеры, и они просто не заморачиваются на субтитры, но ютуб имеет свой алгоритм распознавания речи, и возможность генерировать субтитры автоматически, поэтому в выпадающем меню справа Английский (создано автоматически) (English (auto-generated). Выбираем этот пункт — субтитры включены.
Как включить русские субтитры для англоязычного видео на ютуб?
Аналогично нажимаем на шестеренку возле ролика на ютуб, переходим в Субтитры, затем выбираем Перевести (Auto-translate):
В следующем меню выбираем нужный язык:
Все — русские субтитры для ролика активированы!
Но надо иметь в виду, что погрешность в этих субтитрах уже двойная — первая вносится при распознавании текста, вторая — при переводе.
Бывает так, что видеоролик на ютуб не содержит субтитров:
Если этот ролик интересен вам, то его можно скачать и автоматически сгенерировать субтитры для видео на локальном компьютере, а также выполнить их перевод.
Как скачать видео с ютуба с субтитрами? — Программа 4KVideoDownloader
Для начала рассмотрим, как скачать с ютуб ролик с субтитрами. Для этой цели лучше всего использовать программу 4KVideoDownloader. Программа имеет бесплатную версию, ее ограничение — можно скачать только 30 видеороликов с ютуб в день, что вполне достаточно.
Для начала откроем Настройки. Мне больше нравится, когда субтитры сразу встраиваются в видеоролик при скачивании. Если необходимо, их можно потом извлечь, отредактировать и вставить обратно. А еще программа 4KVideoDownloader позволяет качать сразу целые плейлисты — их удобно хранить в отдельных папках:
Закрываем настройки, идем на ютуб, находим нужный ролик, выбираем кнопку Поделиться, затем в появившемся окне со ссылкой нажимаем Копировать — ссылка скопирована в буфер обмена.
Теперь возвращаемся к программе и нажимаем зеленую иконку с плюсиком «Вставить ссылку». Начинается анализ ссылки:
Затем появляется окно загрузки видеоролика с youtube — выбираем качество видео и необходимые субтитры:
Если ранее в настройках не была поставлена галочка на встраивать субтитры, то при загрузке с такими настройками получим три файла:
Видео.en.srt
Видео.ru.srt
Можно «Загрузить видео», а можно — только аудиодорожку: бывает удобно для подкастов и новостей, когда на видео исключительно «говорящая голова»:
К сожалению, субтитры при этом не скачиваются, надо будет переводить аудио в текст отдельно. Можно скачать видео в минимальном качестве — быстрее, трафик меньше.
Чрезвычайно удобно cкачать сразу весь плейлист или канал. Если единичное видео является частью плейлиста, программа сама предложит скачать все оптом:
Либо можно сразу вставить ссылку на плейлист или канал:
После этого начинают качаться все файлы плейлиста в отдельную папку с названием этого плейлиста (если поставили галочку в настройках) — не надо каждый раз вставлять новую ссылку. Субтитры качаются так же, все выбранные, встраиваются в видеофайлы.
Чем проиграть видеофайлы со встроенными субтитрами и как выбрать нужный язык? — Media Player Classic
Проиграть загруженный с ютуб в предыдущем пункте видеоролик с двумя дорожками субтитров можно при помощи Media Player Classic Home Cinema (MPC-HC), входящего в набор K-Lite Codec Pack.
MPC-HC позволяет выбрать необходимую дорожку субтитров — по нажатии правой клавиши мыши на любом месте воспроизводимого видео:
Если субтитры не встроены в файл, а просто находятся в одной папке с файлом, например:
Видео.en.srt
Видео.ru.srt,
то при воспроизведении файла Видео.mp4 субтитры подключатся сами, автоматически, при этом у меня все время подключались в первую очередь именно русские субтитры, а английские нужно было специально выбирать. Видимо это зависит от основного языка системы.
Так же можно выбрать дополнительную аудиодорожку.
Субтитры = текст. Формат *.srt
Рассмотрим наиболее распространенный и простой формат хранения субтитров — в текстовом файле с расширением *.srt: его можно редактировать при помощи блокнота, загружать в любой переводчик.
Вот пример фрагмента содержимого такого файла для обучающего видео «Playboating Basic» от Eric Jackson:
--------------------------------------------- 1 00:00:00,166 --> 00:00:03,168 Welcome to the Playboating Basics here in Africa. 2 00:00:03,268 --> 00:00:06,937 Between Zambia and Uganda on the Zambezi and Nile Rivers, 3 00:00:06,937 --> 00:00:10,306 let Team Jackson Kayak show you how to have more fun on the water. ---------------------------------------------
Формат srt похож на примитивную базу данных — без заголовка, но с отдельными записями.
Каждая запись содержит 4 поля:
— порядковый номер записи субтитров;
— время нахождения текста на экране — начало и конец, часы:минуты:секунды,миллисекунды;
— сам текст субтитров — возможны теги, как в HTML: цвет, выделение цветом, перевод строки;
— пустая строка-разделитель.
Бесплатный вариант преобразования аудиодорожки видеофайла в текст: Subtitle Edit и Whisper
Когда я нашел эту программу, то был в восторге от ее возможностей! Качественное преобразование звука в текст бесплатно, что удивительно для столь мощного продукта. Невероятный комбайн со множеством модулей — ниже опишу только то, что нужно было для решения моих задач, но на самом деле список возможностей программы гораздо шире.
Subtitle Edit, основное окно, по умолчанию английский интерфейс, выбираю русский:
Открываем видео, к которому необходимо создать субтитры при помощи распознавания речи на оригинальной аудиодорожке:
Теперь переходим непосредственно к меню распознавания аудио и перевода в текст:
Для автоматического создания субтитров в Subtitle Edit используется Whisper (Шепот) — система автоматического распознавания речи (automatic speech recognition, ASR), обученная на 680 000 часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. «Мы обучили и открыли исходный код нейронной сети под названием Whisper, которая приближается по надежности и точности к человеческому уровню распознавания английской речи.» Дата публикации — 21 сентября 2022 г., относительно недавно.
При первом нажатии пункта меню «Аудио в текст (Whisper)» потребуется загрузить дополнительные программы и модели — сделать это нетрудно, программа предлагает все сама, надо только соглашаться:
После загрузки необходимых дополнений открывается окно «Аудио в текст» — выпадающий список «Выбор моделей» пуст:
При попытке нажатия на клавишу «Создать» или на кнопку с тремя точками перед ссылкой на «Папку моделей» появляется следующее окно:
К сожалению, в этой версии Subtitle Edit 3.6.13 следующая ошибка: при попытке загрузки модели в Папке моделей создается файл, одноименный с моделью — например, «base.en.bin», но он текстовый, а не бинарный, его содержимое — фраза «Invalid username or password.»
Покопавшись по форумам, находим прямую ссылку на модели Wisper. Загружаем их, переименовываем так, как они называются в меню выбора моделей, например: «ggml-base.en.bin» в «base.en.bin», и копируем в «Папку моделей».
Теперь, выбрав модель, можно приступить к генерации субтитров из аудиоряда:
В случае универсальной модели можно получить одновременное распознавание и русского и английского языков, независимо от того, какой язык был выбран:
1 00:00:02,950 --> 00:00:07,520 Первый урок английского по методу доктора Пимпслера. Второй уровень. 2 00:00:08,490 --> 00:00:10,120 Listen to this conversation.
Если выбрана модель исключительно английская, то получим следующий результат:
1 00:00:02,950 --> 00:00:08,000 [speaking in foreign language]. 2 00:00:08,500 --> 00:00:10,000 Listen to this conversation.
Или вот так:
41 00:02:35,150 --> 00:02:40,000 C'c'do-ga-vis-dis-nachu-dis? - Это "Как долго вы здесь находитесь?":)
Размеры моделей от 77 Мб до 3 Гб — чем меньше модель, тем быстрее работает распознавание, но тем оно менее точное. Продолжительность преобразования аудиодорожки в текст субтитров фильма продолжительностью 1:18 с разными моделями:
base.en 141 Мб — 8 минут
medium.en 1.42 Гб — 1 час 10 минут
Модель large даже для небольших файлов требует невероятного количества времени.
В окне «Аудио в текст» можно выбрать «Пакетный режим», загрузить туда необходимое количество файлов для преобразования в текст — и оставить компьютер работать на ночь, а с утра обнаружить рядом с каждым файлом одноименный текстовый файл субтитров:
Если же распознавался единичный файл, то после генерации субтитров они загружаются в программу и синхронизируются с видео — их можно править, а затем сохранить:
Как визуально сравнить версии субтитров между собой?
В зависимости от использованных моделей Whisper получили несколько версий субтитров — как выявить отличия?
Subtitle Edit также позволяет сравнить полученные субтитры — в меню «Файл» можно выбрать пункт «Сравнить»:
Откроется окно «Сравнение субтитров» — если в программе открыты субтитры, то они будут загружены в левую часть окна автоматически:
Нажав на клавишу с тремя точками сверху справа, можно загрузить субтитры для сравнения:
Модель medium.en за более часа работы распознала точнее, чем модель tiny.en — правильно Playboating, а не Playboarding. Зато модель medium.en игнорирует перевод песен, а tiny.en пытается переводить.
К сожалению, «Сравнение субтитров» в Subtitle Edit — отдельный модуль, программа в программе. Сколько раз нажмешь — столько раз он загрузится:
Было бы удобнее, если бы при сравнении субтитров происходила синхронизация с видео, можно было воспроизвести конкретный отрезок ролика, как в основном режиме работы программы.
Как выполнить перевод субтитров?
Да, субтитры — это текстовый файл, его можно загрузить в любой переводчик, но у Subtitle Edit есть свой модуль, отвечающий за перевод субтитров на другой язык:
При открытии модуля перевода в его левую часть загружается текст субтитров, которые в данный момент открыты в программе:
При нажатии на «Перевод» выходит сообщение о том, что перевод будет идти медленно:
Но все проходит достаточно быстро:
После нажатия клавиши ОК перевод подгружается к остальным субтитрам в очень удобной форме: русский и английский текст стоят друг напротив друга, при нажатии на определенный фрагмент субтитров происходит переход к соответствующей позиции в видеоплеере — можно одновременно корректировать и оригинальный текст, слушая и сравнивая со звуковой дорожкой, и соответствующий ему фрагмент перевода:
После правки субтитры можно сохранить — и английские сгенерированные, и русские переведенные. Для сохранения русских субтитров нужно просто выбрать «Сохранить», а для английских субтитров — «Сохранить исходные субтитры»:
Как встроить полученные субтитры в видеофайл?
Встраивание субтитров в видеоролик возможно при помощи еще одного модуля «Создать видео со встроенными субтитрами»:
Если в программе открыт видеофайл и с ним открыты субтитры, то в открывшемся окне сразу предложат объединить именно эти файлы. Если вы уже сделали перевод и видите на экране два файла с субтитрами, то вам все равно предложат только один файл субтитров, исходный английский для присоединения. Поэтому перед встраиванием субтитров сохраните переведенные субтитры — тогда вы сможете их добавить, и в файл встроится две дорожки субтитров:
По нажатии клавиши «Создать» вам будет предложено создать новый видеофайл с именем, состоящим из имени исходного видео + «_embed». Измените имя, если необходимо, или сохраните файл с предложенным именем.
Как сохранить субтитры из видеофайла?
Первый пункт меню Subtitle Edit, «Файл», предназначен не только для открытия текстовых файлов — можно открывать и видеофайлы. Если в видео встроена одна дорожка субтитров, то она сразу загрузится, а в плеер загрузится видео. После загрузки дорожку можно сохранить. Если дорожек субтитров больше, то программа предложит выбрать, какую из дорожек загрузить:
Как удалить субтитры из видеофайла?
При встраивании субтитров в видеофайл при помощи Subtitle Edit все остальные встроенные субтитры удаляются — если вы не желаете их потерять, то сохраните их перед встраиванием.
Если нужно просто удалить субтитры из видео, то в окне «Создать видео со встроенными субтитрами» укажите только входной видеофайл, а субтитры не указывайте — программа забудет, что она перешла на русский язык, и спросит на английском: «Сгенерировать видео без встроенных субтитров?»
Согласившись, вы получите видеофайл, который не содержит дорожек субтитров. Вот такой неинтуитивный метод удаления субтитров при помощи создания файла с субтитрами:)
Как перевести аудиофайлы в текстовый файл в формате txt?
Так же, как распознается аудиодорожка в видео, так же может быть распознан и отдельный аудиофайл. И алгоритм работы такой же: открываем файл и переводим его в текст при помощи Whisper. Но снова не совсем очевидное действие — надо войти в меню «Видео», нажать «Открыть видеофайл», а в следующем окне выбора файла изменить Видеофайлы на Аудиофайлы:
Судя по выбору, программа Subtitles Edit преобразует в текст следующие аудиоформаты: mp3(проверил сам), с wav, wma, ogg, mpa, m4a, ape, aiff, flac, aac, ac3, esc3, mka.
По завершении преобразования текст также открывается в виде субтитров с синхронизированным звуком в плеере.
Как убрать из субтитров служебную информацию — тайминги, строки?
Итак, текст из аудио получен — но в формате субтитров, с временными метками. Как убрать всю служебную информацию из субтитров, оставив только содержимое? Меню «Файл», «Экспортировать в», «Обычный текст»:
В открывшемся окне «Экспорт текста» можно настроить, как будет выглядеть текст, и в какой кодировке он будет сохраняться — для Windows выберите 1251: Кириллица (Windows):
Нажмите «Сохранить как…» — и сохраните файл.
Перевод аудио в текст для тех, кто любит попроще — WhisperDesktop
WhisperDesktop — максимально облегченная программа, так же работающая с моделями Whisper. На входе аудио или видео, на выходе — текстовый файл в одном из четырех форматов, никаких пакетных обработок и кучи модулей. Программа не поддерживает русский язык, но настолько проста, что это не усложняет ее использование.
При первом запуске программа предложит выбрать необходимую модель Whisper — можно взять ее прямо из каталога Subtittle Edit: WhisperDesktop позволяет выбрать путь к моделям; или загрузить отдельно — в окне выбора моделей указана та самая ссылка, что я нашел на форумах:
При последующих запусках будет использоваться модель, выбранная вначале.
Выпадающее меню «Model Implementation» работает только с одним пунктом — GPU, на другие ругается. Не стал разбираться, все работает при выбранном по умолчанию пункте.
Следующее окно программы — Транскрибация аудиофайла, именно оно будет открываться при последующих запусках, когда модель уже выбрана:
Если необходимо поменять модель, то нажимаем клавишу «Back» — это возврат на экран выбора моделей. Выбираем язык — в данном случае «Russian», задаем входной файл с аудиоконтентом (проверял формат mp3 и видео в mp4 -они поддерживаются оба) потом задаем выходной файл.
Возможен экспорт в 4 формата — заодно проверим, как работает распознавание русского языка у Whisper — модель large:
Text File:
38 лет Лёня Козлович честно прожил в коммунальной квартире на 25 человек. Лёня привык к соседям к удобствам, которых не было. И в своей комнатке площадью 22 не очень-то квадратных метра, так она была вытянута коридорчиком за то, как просторно было под высоким лепным потолком.
Text with timestamps:
[00:00:00.000 --> 00:00:05.240] 38 лет Лёня Козлович честно прожил в коммунальной квартире на 25 человек. [00:00:05.240 --> 00:00:09.480] Лёня привык к соседям к удобствам, которых не было. [00:00:09.480 --> 00:00:14.040] И в своей комнатке площадью 22 не очень-то квадратных метра, [00:00:14.040 --> 00:00:19.680] так она была вытянута коридорчиком за то, как просторно было под высоким лепным потолком.
SubRip subtitles — субтитры *.srt
WebVTT subtitles — тоже субтитры в похожем формате.
Для сравнения — перевод на русский с моделью tiny: качество похуже, конечно:
38 лет Лёня Козлович, честно, прожил коммунальный квартире на 25 человек. Лёня привык соседям к удауством, которую не было. Их свои комнатки получили 22 не очень так водоратных метра. Такая она была вытенна за коридорчиком за звук, как просторно было бы в высоким лепной потолком.
Перевод аудио в текст и создание субтитров в Adobe Premiere Pro
Многие используют для монтажа видео Adobe Premiere Pro — в версии 15.4, вышедшей в июле 2021 года, появилась функция перевода аудио в текст.
Создадим новый проект, вставим на таймлайн необходимый ролик — подробнее об этом рассказывать не буду, сейчас просто коротко о функции транскрибации. Откройте окно текст — Пункт «Окно» -> «Текст»:
Здесь слово «Транскрибирование», не «Транскрибация», но все понятно — запускаем преобразование аудио в текст:
Процесс транскрибирования пошел:
На преобразование аудиодорожки того же фильма продолжительностью 1 час 18 минут в текст ушло 6 минут, что находится ровно посередине между результатами при использовании модели tiny.en (4 мин.) и base.en (8 мин.) для Whisper.
Качество распознавания:
Adobe Premiere Pro Speech To Text:
Between Zambia and Uganda on the Zambezi and Nile Rivers, let Team Jackson Kayak show you how to have more fun on the water.
Play boating is more than just doing tricks and freestyle.
Play boating is maximizing your fun on the river every day.
We’ll run you through some basic concepts that are make your play boating easier.»
Whisper, модель base.en:
Between Zambia and Uganda on the Zambisian Nile Rivers, let team Jackson Kayak show you how to have more fun on the water.
Play-Boding is more than just doing tricks and freestyle.
Play-Boding is maximizing your fun on the river every day.
We’ll run you through some basic concepts that will make your play-boding easier.»
Whisper, модель medium.en:
Between Zambia and Uganda on the Zambezi and Nile rivers, let team Jackson Kayak show you how to have more fun on the water.
Playboating is more than just doing tricks and freestyle.
Playboating is maximizing your fun on the river every day.
We’ll run you through some basic concepts that will make your playboating easier.»
Слово «Playboating» было правильно распознано только Whisper с моделью medium.en, зато артикль «the» в первой строчке правильно распознал только Adobe Premiere Pro SST. В любом случае, результаты схожи — бесплатная система дает результаты не хуже, чем платная.
Полученный в результате транскрибирования текст синхронизируется с видеофайлом — при проигрывании видео курсор удобно перемещается по тексту, выделяя звучащее в данный момент слово:
Текст можно править, нажав на карандаш:
Текст так же можно сохранить в трех форматах, но не формате субтитров:
Для того чтобы сохранить в Adobe Premiere Pro распознанный из аудио текст в виде субтитров в формате srt, надо сначала выполнить Создание подписей:
Субтитры появляются на экране просмотра видео, и их теперь можно экспортировать в файл *.srt:
Встроенного переводчика субтитров в Adobe Premiere Pro на сегодня нет, но можно перевести экспортированные субтитры и заново импортировать их в проект.
В интернете Премьер Про «распространяется» обычно без встроенных моделей от Adobe — так он весит чуть больше 2 Гб, а SST нужен далеко не всем. Speech.to.Text.for.Premiere.Pro. — это как раз те модели, без которых преобразование аудио в текст работать не будет, размер этого пакета приближается к 9 Гб. Так что если Adobe Premiere Pro зависает на распознавании аудио — ищите отдельный SST.
Заключение
Транскрибация — отдельная работа; те, кто выполняет ее, называются транскрибаторами. Буквально недавно распознавание аудио, перевод аудио в текст стало возможно программно, автоматически, на бытовом уровне — причем бесплатно, что, с одной стороны, упростило работу транскрибаторов, а с другой — возможно, в совсем недалеком будущем сделает ее ненужным. Для меня лично эта возможность открыла доступ к достаточно большому пласту информации, ранее трудно доступному.