Программы для преобразования аудио в текст (транскрибации), автоматического создания субтитров, их перевода и встраивания в видео

Что такое транскрибация и где она применяется?
Моя задача, связанная с транскрибацией — перевод видеороликов и создание субтитров
Как включить субтитры на youtube, как добавить перевод субтитров на ютубе
Как скачать видео с ютуба с субтитрами? — 4KVideoDownloader
Чем проиграть видеофайлы со встроенными субтитрами и как выбрать нужный язык? — Media Player Classic
Субтитры = текст. Формат *.srt
Бесплатный вариант преобразования аудиодорожки видеофайла в текст: Subtitle Edit и Whisper
Как визуально сравнить версии субтитров между собой?
Как выполнить перевод субтитров?
Как встроить полученные субтитры в видеофайл?
Как сохранить субтитры из видеофайла?
Как удалить субтитры из видеофайла?
Как перевести аудиофайлы в текстовый файл в формате txt?
Как убрать из субтитров служебную информацию — тайминги, строки?
Перевод аудио в текст для тех, кто любит попроще — WhisperDesktop
Перевод аудио в текст и создание субтитров в Adobe Premiere Pro

Что такое транскрибация и где она применяется?

Транскрибация — конвертация речи в текст, STT(Speech To Text):

Транскрибация - преобразование аудио в текст
Транскрибация — преобразование аудио в текст

Программа FineReader распознает текст на картинке и дает на выходе текстовый файл, преобразуя графический формат в текстовый — такие системы называют OCR (optical character recognition, оптическое распознавание символов). Аналогичные решения для преобразования аудио в текст называются ASR (automatic speech recognition, автоматическое распознавание речи).

Самый простой пример — голосовой ввод: сказали фразу — получили ее в виде текста на экране телефона: Google Assistant, Siri.

Область применения транскрибации невероятно широка, даже в бытовой сфере — например, запись студентами лекций на диктофон с последующим распознаванием голоса в текст. Когда-то и диктофон стал потрясающе удобным изобретением, позволяющим забрать с собой кусочек информации, но на ее перенос в конспект тратилось дополнительное время, которое, впрочем, позволяло лучше запомнить лекцию. Еще пример — запись интервью, которое надо быстро опубликовать, тут однозначно: чем скорее, распознаешь, тем лучше! Можно оперативно получать новый контент для сайта.

Перевод. Преобразование аудио в текст незаменимо для перевода с одного языка на другой, особенно для тех, кто плохо воспринимает на слух чужой язык. Читать гораздо проще, чем слушать и различать. Кроме того, иностранный текст можно загрузить в любую программу-переводчик и получить примерно понятный вариант перевода на свой язык.

С появлением на сервисе Youtube возможности автоматически транскрибировать субтитры для видеороликов, а также добавлять перевод на любой язык сгенерированных субтитров, стало гораздо проще воспринимать то, о чем говорят в зарубежных обучающих клипах. Но не для всех роликов на ютуб есть сгенерированные субтитры. А еще у меня накопился запас англоязычных DVD по каякингу разных лет, которые так же неплохо было бы перевести.

Искал, как преобразовать офлайн на компьютере с Windows аудио в текст: аудиодорожку видеофайла mp4, аудиофайл mp3 или wav —> в txt файл. Нашел:)

Моя задача, связанная с транскрибацией — перевод видеороликов и создание субтитров

Перевести обучающие видео по каякингу с английского на русский язык с минимальными временными потерями и максимально качественно.

Переозвучивать видео можно, но, опять же — время: надо просто понять содержание. Поэтому наиболее простой вариант — сделать субтитры. А там и озвучить можно, читая с экрана.

Здесь рассматриваются только программные («мягкие», soft) субтитры — их просто редактировать, менять в любой момент.

Субтитры английские и русские можно встроить в видео: с одной стороны, так удобнее хранить, с другой — кроме повышения уровня знаний по каякингу можно заодно попрактиковаться в английском, выбрав английские субтитры: как и в любой специфической области, английский язык для каякера содержит специальные определения, слова, которые имеют совершенно другие значения в обычном их применении.

Как включить субтитры на youtube, как добавить перевод субтитров на ютубе

Самые свежие обучающие видео по каякингу можно найти на сервисе youtube.com, как правило, они на английском. Для лучшего понимания включим на ютуб субтитры, для этого нажмем на шестеренку в правом нижнем углу:

Меню на ютуб для включения субтитров
Меню на ютуб для включения субтитров

В появившемся меню выбираем Cубтитры (Sutitles(CC) в английском варианте):

Как включить автоматически сгенерированные субтитры на youtube
Как включить автоматически сгенерированные субтитры на youtube

Да, авторы роликов — каякеры, и они просто не заморачиваются на субтитры, но ютуб имеет свой алгоритм распознавания речи, и возможность генерировать субтитры автоматически, поэтому в выпадающем меню справа Английский (создано автоматически) (English (auto-generated). Выбираем этот пункт — субтитры включены.

Как включить русские субтитры для англоязычного видео на ютуб?

Аналогично нажимаем на шестеренку возле ролика на ютуб, переходим в Субтитры, затем выбираем Перевести (Auto-translate):

Включение на ютуб автоперевода субтитров
Включение на ютуб автоперевода субтитров

В следующем меню выбираем нужный язык:

Выбор русского языка для субтитров на youtube
Выбор русского языка для субтитров на youtube

Все — русские субтитры для ролика активированы!

Русские субтитры для англоязычного ролика в ютуб
Русские субтитры для англоязычного ролика в ютуб

Но надо иметь в виду, что погрешность в этих субтитрах уже двойная — первая вносится при распознавании текста, вторая — при переводе.

Бывает так, что видеоролик на ютуб не содержит субтитров:

Видео на ютуб без возможности включения субтитров
Видео на ютуб без возможности включения субтитров

Если этот ролик интересен вам, то его можно скачать и автоматически сгенерировать субтитры для видео на локальном компьютере, а также выполнить их перевод.

Как скачать видео с ютуба с субтитрами? — Программа 4KVideoDownloader

Для начала рассмотрим, как скачать с ютуб ролик с субтитрами. Для этой цели лучше всего использовать программу 4KVideoDownloader. Программа имеет бесплатную версию, ее ограничение — можно скачать только 30 видеороликов с ютуб в день, что вполне достаточно.

Главное окно программы 4KVideoDownloader
Главное окно программы 4KVideoDownloader

Для начала откроем Настройки. Мне больше нравится, когда субтитры сразу встраиваются в видеоролик при скачивании. Если необходимо, их можно потом извлечь, отредактировать и вставить обратно. А еще программа 4KVideoDownloader позволяет качать сразу целые плейлисты — их удобно хранить в отдельных папках:

Настройки программы 4KVideoDownloader для загрузки видео с ютуб с субтитрами
Настройки программы 4KVideoDownloader для загрузки видео с ютуб с субтитрами

Закрываем настройки, идем на ютуб, находим нужный ролик, выбираем кнопку Поделиться, затем в появившемся окне со ссылкой нажимаем Копировать — ссылка скопирована в буфер обмена.

Теперь возвращаемся к программе и нажимаем зеленую иконку с плюсиком «Вставить ссылку». Начинается анализ ссылки:

4KVideoDownloader проводит анализ параметров загружаемого видео
4KVideoDownloader проводит анализ параметров загружаемого видео

Затем появляется окно загрузки видеоролика с youtube — выбираем качество видео и необходимые субтитры:

Параметры загрузки видео с сервиса youtube в программе 4KVideoDownloader
Параметры загрузки видео с сервиса youtube в программе 4KVideoDownloader

Если ранее в настройках не была поставлена галочка на встраивать субтитры, то при загрузке с такими настройками получим три файла:

Видео.mp4
Видео.en.srt
Видео.ru.srt

Можно «Загрузить видео», а можно — только аудиодорожку: бывает удобно для подкастов и новостей, когда на видео исключительно «говорящая голова»:

Загрузить только аудио с youtube при помощи программы 4KVideoDownloader
Загрузить только аудио с youtube при помощи программы 4KVideoDownloader

К сожалению, субтитры при этом не скачиваются, надо будет переводить аудио в текст отдельно. Можно скачать видео в минимальном качестве — быстрее, трафик меньше.

Чрезвычайно удобно cкачать сразу весь плейлист или канал. Если единичное видео является частью плейлиста, программа сама предложит скачать все оптом:

4KVideoDownloader сам предлагает скачать плейлист
4KVideoDownloader сам предлагает скачать плейлист

Либо можно сразу вставить ссылку на плейлист или канал:

4KVideoDownloader анализирует видеоплейлист перед скачкой

После этого начинают качаться все файлы плейлиста в отдельную папку с названием этого плейлиста (если поставили галочку в настройках) — не надо каждый раз вставлять новую ссылку. Субтитры качаются так же, все выбранные, встраиваются в видеофайлы.

Чем проиграть видеофайлы со встроенными субтитрами и как выбрать нужный язык? — Media Player Classic

Проиграть загруженный с ютуб в предыдущем пункте видеоролик с двумя дорожками субтитров можно при помощи Media Player Classic Home Cinema (MPC-HC), входящего в набор K-Lite Codec Pack.

MPC-HC позволяет выбрать необходимую дорожку субтитров — по нажатии правой клавиши мыши на любом месте воспроизводимого видео:

Meida Player Classic выбор дорожки субтитров
Meida Player Classic выбор дорожки субтитров

Если субтитры не встроены в файл, а просто находятся в одной папке с файлом, например:

Видео.mp4
Видео.en.srt
Видео.ru.srt,

то при воспроизведении файла Видео.mp4 субтитры подключатся сами, автоматически, при этом у меня все время подключались в первую очередь именно русские субтитры, а английские нужно было специально выбирать. Видимо это зависит от основного языка системы.

Так же можно выбрать дополнительную аудиодорожку.

Субтитры = текст. Формат *.srt

Рассмотрим наиболее распространенный и простой формат хранения субтитров — в текстовом файле с расширением *.srt: его можно редактировать при помощи блокнота, загружать в любой переводчик.

Вот пример фрагмента содержимого такого файла для обучающего видео «Playboating Basic» от Eric Jackson:

---------------------------------------------
1
00:00:00,166 --> 00:00:03,168
Welcome to the Playboating Basics here
in Africa.

2
00:00:03,268 --> 00:00:06,937
Between Zambia and Uganda on the Zambezi
and Nile Rivers,

3
00:00:06,937 --> 00:00:10,306
let Team Jackson Kayak show
you how to have more fun on the water.
---------------------------------------------

Формат srt похож на примитивную базу данных — без заголовка, но с отдельными записями.

Каждая запись содержит 4 поля:
— порядковый номер записи субтитров;
— время нахождения текста на экране — начало и конец, часы:минуты:секунды,миллисекунды;
— сам текст субтитров — возможны теги, как в HTML: цвет, выделение цветом, перевод строки;
— пустая строка-разделитель.

Бесплатный вариант преобразования аудиодорожки видеофайла в текст: Subtitle Edit и Whisper

Когда я нашел эту программу, то был в восторге от ее возможностей! Качественное преобразование звука в текст бесплатно, что удивительно для столь мощного продукта. Невероятный комбайн со множеством модулей — ниже опишу только то, что нужно было для решения моих задач, но на самом деле список возможностей программы гораздо шире.

Subtitle Edit, основное окно, по умолчанию английский интерфейс, выбираю русский:

Бесплатная программа  для создания и редактирования субтитров, преобразования аудио в текст Subtitle Edit - основное окно
Бесплатная программа для создания и редактирования субтитров, преобразования аудио в текст Subtitle Edit — основное окно

Открываем видео, к которому необходимо создать субтитры при помощи распознавания речи на оригинальной аудиодорожке:

Открываем видеоролик в Subtitle Edit для генерации субтитров при помощи транскрибации
Открываем видеоролик в Subtitle Edit для генерации субтитров при помощи транскрибации

Теперь переходим непосредственно к меню распознавания аудио и перевода в текст:

Subtitle Edit меню распознавания аудиопотока для создания субтитров Whisper
Subtitle Edit меню распознавания аудиопотока для создания субтитров Whisper

Для автоматического создания субтитров в Subtitle Edit используется Whisper (Шепот) — система автоматического распознавания речи (automatic speech recognition, ASR), обученная на 680 000 часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. «Мы обучили и открыли исходный код нейронной сети под названием Whisper, которая приближается по надежности и точности к человеческому уровню распознавания английской речи.» Дата публикации — 21 сентября 2022 г., относительно недавно.

При первом нажатии пункта меню «Аудио в текст (Whisper)» потребуется загрузить дополнительные программы и модели — сделать это нетрудно, программа предлагает все сама, надо только соглашаться:

Subtitle Edit просит загрузить FFmpeg
Subtitle Edit просит загрузить FFmpeg
Subtitle Edit сообщает об успешной загрузке FFmpeg
Subtitle Edit сообщает об успешной загрузке FFmpeg
Subtitle Edit загружает Whisper
Subtitle Edit загружает Whisper

После загрузки необходимых дополнений открывается окно «Аудио в текст» — выпадающий список «Выбор моделей» пуст:

Subtitle Edit окно Aудио в текст, выбор моделей для Whisper
Subtitle Edit окно Aудио в текст, выбор моделей для Whisper

При попытке нажатия на клавишу «Создать» или на кнопку с тремя точками перед ссылкой на «Папку моделей» появляется следующее окно:

Subtitle Edit загрузка моделей Whisper
Subtitle Edit загрузка моделей Whisper

К сожалению, в этой версии Subtitle Edit 3.6.13 следующая ошибка: при попытке загрузки модели в Папке моделей создается файл, одноименный с моделью — например, «base.en.bin», но он текстовый, а не бинарный, его содержимое — фраза «Invalid username or password.»

Покопавшись по форумам, находим прямую ссылку на модели Wisper. Загружаем их, переименовываем так, как они называются в меню выбора моделей, например: «ggml-base.en.bin» в «base.en.bin», и копируем в «Папку моделей».

Теперь, выбрав модель, можно приступить к генерации субтитров из аудиоряда:

Subtitle Edit автоматическое распознавание аудиодорожки и перевод ее в текст субтитров с моделью Wisper medium.en
Subtitle Edit автоматическое распознавание аудиодорожки и перевод ее в текст субтитров с моделью Wisper medium.en

В случае универсальной модели можно получить одновременное распознавание и русского и английского языков, независимо от того, какой язык был выбран:

1
00:00:02,950 --> 00:00:07,520
Первый урок английского по методу
доктора Пимпслера. Второй уровень.

2
00:00:08,490 --> 00:00:10,120
Listen to this conversation.

Если выбрана модель исключительно английская, то получим следующий результат:

1
00:00:02,950 --> 00:00:08,000
[speaking in foreign language].

2
00:00:08,500 --> 00:00:10,000
Listen to this conversation.

Или вот так:

41
00:02:35,150 --> 00:02:40,000
C'c'do-ga-vis-dis-nachu-dis? - Это "Как долго вы здесь находитесь?":)

Размеры моделей от 77 Мб до 3 Гб — чем меньше модель, тем быстрее работает распознавание, но тем оно менее точное. Продолжительность преобразования аудиодорожки в текст субтитров фильма продолжительностью 1:18 с разными моделями:

tiny.en 74 Мб — 4 минуты
base.en 141 Мб — 8 минут
medium.en 1.42 Гб — 1 час 10 минут

Модель large даже для небольших файлов требует невероятного количества времени.

В окне «Аудио в текст» можно выбрать «Пакетный режим», загрузить туда необходимое количество файлов для преобразования в текст — и оставить компьютер работать на ночь, а с утра обнаружить рядом с каждым файлом одноименный текстовый файл субтитров:

Пакетный режим перевода аудио в текст в программе Subtitle Edit
Пакетный режим перевода аудио в текст в программе Subtitle Edit

Если же распознавался единичный файл, то после генерации субтитров они загружаются в программу и синхронизируются с видео — их можно править, а затем сохранить:

Subtitle Edit с автоматически сгенерированными субтитрами
Subtitle Edit с автоматически сгенерированными субтитрами

Как визуально сравнить версии субтитров между собой?

В зависимости от использованных моделей Whisper получили несколько версий субтитров — как выявить отличия?

Subtitle Edit также позволяет сравнить полученные субтитры — в меню «Файл» можно выбрать пункт «Сравнить»:

Пункт меню сравнения субтитров в программе Subtitle Edit
Пункт меню сравнения субтитров в программе Subtitle Edit

Откроется окно «Сравнение субтитров» — если в программе открыты субтитры, то они будут загружены в левую часть окна автоматически:

Subtitle Edit - при открытии модуля "Сравнение субтитров" загружаются активные субтитры
Subtitle Edit — при открытии модуля «Сравнение субтитров» загружаются активные субтитры

Нажав на клавишу с тремя точками сверху справа, можно загрузить субтитры для сравнения:

Cравнение автоматически сгенерированных субтитров при помощи разных моделей Whisper в Subtitle Edit
Cравнение автоматически сгенерированных субтитров при помощи разных моделей Whisper в Subtitle Edit

Модель medium.en за более часа работы распознала точнее, чем модель tiny.en — правильно Playboating, а не Playboarding. Зато модель medium.en игнорирует перевод песен, а tiny.en пытается переводить.

К сожалению, «Сравнение субтитров» в Subtitle Edit — отдельный модуль, программа в программе. Сколько раз нажмешь — столько раз он загрузится:

Сравнение субтитров - отдельный модуль Subtitle Edit
Сравнение субтитров — отдельный модуль Subtitle Edit

Было бы удобнее, если бы при сравнении субтитров происходила синхронизация с видео, можно было воспроизвести конкретный отрезок ролика, как в основном режиме работы программы.

Как выполнить перевод субтитров?

Да, субтитры — это текстовый файл, его можно загрузить в любой переводчик, но у Subtitle Edit есть свой модуль, отвечающий за перевод субтитров на другой язык:

Subtitle Edit автопереводчик субтитров
Subtitle Edit автопереводчик субтитров

При открытии модуля перевода в его левую часть загружается текст субтитров, которые в данный момент открыты в программе:

Subtitle Edit и встроенный модуль Переводчик Google
Subtitle Edit и встроенный модуль Переводчик Google

При нажатии на «Перевод» выходит сообщение о том, что перевод будет идти медленно:

Subtitle Edit сообщение встроенного Переводчика Google
Subtitle Edit сообщение встроенного Переводчика Google

Но все проходит достаточно быстро:

Результа работы  встроенного в Subtitle Edit Переводчика Google
Результа работы встроенного в Subtitle Edit Переводчика Google

После нажатия клавиши ОК перевод подгружается к остальным субтитрам в очень удобной форме: русский и английский текст стоят друг напротив друга, при нажатии на определенный фрагмент субтитров происходит переход к соответствующей позиции в видеоплеере — можно одновременно корректировать и оригинальный текст, слушая и сравнивая со звуковой дорожкой, и соответствующий ему фрагмент перевода:

Сгенерированные и переведенные субтитры в Subtitle Edit
Сгенерированные и переведенные субтитры в Subtitle Edit

После правки субтитры можно сохранить — и английские сгенерированные, и русские переведенные. Для сохранения русских субтитров нужно просто выбрать «Сохранить», а для английских субтитров — «Сохранить исходные субтитры»:

Сохранение английских сгенерированных субтитров и русских переведенных в программе Subtitle Edit
Сохранение английских сгенерированных субтитров и русских переведенных в программе Subtitle Edit

Как встроить полученные субтитры в видеофайл?

Встраивание субтитров в видеоролик возможно при помощи еще одного модуля «Создать видео со встроенными субтитрами»:

Как встроить субтитры в видео при помощи Subtitle Edit
Как встроить субтитры в видео при помощи Subtitle Edit

Если в программе открыт видеофайл и с ним открыты субтитры, то в открывшемся окне сразу предложат объединить именно эти файлы. Если вы уже сделали перевод и видите на экране два файла с субтитрами, то вам все равно предложат только один файл субтитров, исходный английский для присоединения. Поэтому перед встраиванием субтитров сохраните переведенные субтитры — тогда вы сможете их добавить, и в файл встроится две дорожки субтитров:

Встраивание субтитров в видео в программе Subtitle Edit
Встраивание субтитров в видео в программе Subtitle Edit

По нажатии клавиши «Создать» вам будет предложено создать новый видеофайл с именем, состоящим из имени исходного видео + «_embed». Измените имя, если необходимо, или сохраните файл с предложенным именем.

Как сохранить субтитры из видеофайла?

Первый пункт меню Subtitle Edit, «Файл», предназначен не только для открытия текстовых файлов — можно открывать и видеофайлы. Если в видео встроена одна дорожка субтитров, то она сразу загрузится, а в плеер загрузится видео. После загрузки дорожку можно сохранить. Если дорожек субтитров больше, то программа предложит выбрать, какую из дорожек загрузить:

Выбор необходимой дорожки субтитров при открытии файла со множественными встроенными субтитрами в Subtitle Edit
Выбор необходимой дорожки субтитров при открытии файла со множественными встроенными субтитрами в Subtitle Edit

Как удалить субтитры из видеофайла?

При встраивании субтитров в видеофайл при помощи Subtitle Edit все остальные встроенные субтитры удаляются — если вы не желаете их потерять, то сохраните их перед встраиванием.

Если нужно просто удалить субтитры из видео, то в окне «Создать видео со встроенными субтитрами» укажите только входной видеофайл, а субтитры не указывайте — программа забудет, что она перешла на русский язык, и спросит на английском: «Сгенерировать видео без встроенных субтитров?»

Удаление встроенных в файл субтитров при помощи Subtitle Edit
Удаление встроенных в файл субтитров при помощи Subtitle Edit

Согласившись, вы получите видеофайл, который не содержит дорожек субтитров. Вот такой неинтуитивный метод удаления субтитров при помощи создания файла с субтитрами:)

Как перевести аудиофайлы в текстовый файл в формате txt?

Так же, как распознается аудиодорожка в видео, так же может быть распознан и отдельный аудиофайл. И алгоритм работы такой же: открываем файл и переводим его в текст при помощи Whisper. Но снова не совсем очевидное действие — надо войти в меню «Видео», нажать «Открыть видеофайл», а в следующем окне выбора файла изменить Видеофайлы на Аудиофайлы:

Преобразование mp3 аудио  в текст в программе Subtitle Edit
Преобразование mp3 аудио в текст в программе Subtitle Edit

Судя по выбору, программа Subtitles Edit преобразует в текст следующие аудиоформаты: mp3(проверил сам), с wav, wma, ogg, mpa, m4a, ape, aiff, flac, aac, ac3, esc3, mka.

По завершении преобразования текст также открывается в виде субтитров с синхронизированным звуком в плеере.

Как убрать из субтитров служебную информацию — тайминги, строки?

Итак, текст из аудио получен — но в формате субтитров, с временными метками. Как убрать всю служебную информацию из субтитров, оставив только содержимое? Меню «Файл», «Экспортировать в», «Обычный текст»:

Сохранить субтитры в виде текста без служебной информации - номеров и временных меток в Subtitle Edit
Сохранить субтитры в виде текста без служебной информации — номеров и временных меток в Subtitle Edit

В открывшемся окне «Экспорт текста» можно настроить, как будет выглядеть текст, и в какой кодировке он будет сохраняться — для Windows выберите 1251: Кириллица (Windows):

Настройки экспорта субтитров в текст без таймингов в Subtitle Edit
Настройки экспорта субтитров в текст без таймингов в Subtitle Edit

Нажмите «Сохранить как…» — и сохраните файл.

Перевод аудио в текст для тех, кто любит попроще — WhisperDesktop

WhisperDesktop — максимально облегченная программа, так же работающая с моделями Whisper. На входе аудио или видео, на выходе — текстовый файл в одном из четырех форматов, никаких пакетных обработок и кучи модулей. Программа не поддерживает русский язык, но настолько проста, что это не усложняет ее использование.

При первом запуске программа предложит выбрать необходимую модель Whisper — можно взять ее прямо из каталога Subtittle Edit: WhisperDesktop позволяет выбрать путь к моделям; или загрузить отдельно — в окне выбора моделей указана та самая ссылка, что я нашел на форумах:

WhisperDesktop - бесплатная программа для перевода аудио в текст. Загрузка моделей Whisper
WhisperDesktop — бесплатная программа для перевода аудио в текст. Загрузка моделей Whisper

При последующих запусках будет использоваться модель, выбранная вначале.

Выпадающее меню «Model Implementation» работает только с одним пунктом — GPU, на другие ругается. Не стал разбираться, все работает при выбранном по умолчанию пункте.

Следующее окно программы — Транскрибация аудиофайла, именно оно будет открываться при последующих запусках, когда модель уже выбрана:

WhisperDesktop транскрибация аудиофайла
WhisperDesktop транскрибация аудиофайла

Если необходимо поменять модель, то нажимаем клавишу «Back» — это возврат на экран выбора моделей. Выбираем язык — в данном случае «Russian», задаем входной файл с аудиоконтентом (проверял формат mp3 и видео в mp4 -они поддерживаются оба) потом задаем выходной файл.

Возможен экспорт в 4 формата — заодно проверим, как работает распознавание русского языка у Whisper — модель large:

Text File:

38 лет Лёня Козлович честно прожил в коммунальной квартире на 25 человек.
Лёня привык к соседям к удобствам, которых не было.
И в своей комнатке площадью 22 не очень-то квадратных метра,
так она была вытянута коридорчиком за то, как просторно было под высоким лепным потолком.

Text with timestamps:

[00:00:00.000 --> 00:00:05.240]  38 лет Лёня Козлович честно прожил в коммунальной квартире на 25 человек.
[00:00:05.240 --> 00:00:09.480]  Лёня привык к соседям к удобствам, которых не было.
[00:00:09.480 --> 00:00:14.040]  И в своей комнатке площадью 22 не очень-то квадратных метра,
[00:00:14.040 --> 00:00:19.680]  так она была вытянута коридорчиком за то, как просторно было под высоким лепным потолком.

SubRip subtitles — субтитры *.srt
WebVTT subtitles — тоже субтитры в похожем формате.

Для сравнения — перевод на русский с моделью tiny: качество похуже, конечно:

38 лет Лёня Козлович, честно, прожил коммунальный квартире на 25 человек.
Лёня привык соседям к удауством, которую не было.
Их свои комнатки получили 22 не очень так водоратных метра.
Такая она была вытенна за коридорчиком за звук, как просторно было бы в высоким лепной потолком.

Перевод аудио в текст и создание субтитров в Adobe Premiere Pro

Многие используют для монтажа видео Adobe Premiere Pro — в версии 15.4, вышедшей в июле 2021 года, появилась функция перевода аудио в текст.

Создадим новый проект, вставим на таймлайн необходимый ролик — подробнее об этом рассказывать не буду, сейчас просто коротко о функции транскрибации. Откройте окно текст — Пункт «Окно» -> «Текст»:

Adobe Premiere Pro как открыть окно Текст с возможностью Транскрибации
Adobe Premiere Pro как открыть окно Текст с возможностью Транскрибации

Здесь слово «Транскрибирование», не «Транскрибация», но все понятно — запускаем преобразование аудио в текст:

Окно текст в Adobe Premiere Pro - здесь можно преобразовать аудио в текст субтитров
Окно текст в Adobe Premiere Pro — здесь можно преобразовать аудио в текст субтитров

Процесс транскрибирования пошел:

Процесс транскрибирования в Adobe Premiere Pro
Процесс транскрибирования в Adobe Premiere Pro

На преобразование аудиодорожки того же фильма продолжительностью 1 час 18 минут в текст ушло 6 минут, что находится ровно посередине между результатами при использовании модели tiny.en (4 мин.) и base.en (8 мин.) для Whisper.

Качество распознавания:

Adobe Premiere Pro Speech To Text:

«Welcome to the play Birding Basics here in Africa.
Between Zambia and Uganda on the Zambezi and Nile Rivers, let Team Jackson Kayak show you how to have more fun on the water.
Play boating is more than just doing tricks and freestyle.
Play boating is maximizing your fun on the river every day.
We’ll run you through some basic concepts that are make your play boating easier.»

Whisper, модель base.en:

«Welcome to Play-Boding Basics here in Africa.
Between Zambia and Uganda on the Zambisian Nile Rivers, let team Jackson Kayak show you how to have more fun on the water.
Play-Boding is more than just doing tricks and freestyle.
Play-Boding is maximizing your fun on the river every day.
We’ll run you through some basic concepts that will make your play-boding easier.»

Whisper, модель medium.en:

«Welcome to Playboating Basics here in Africa.
Between Zambia and Uganda on the Zambezi and Nile rivers, let team Jackson Kayak show you how to have more fun on the water.
Playboating is more than just doing tricks and freestyle.
Playboating is maximizing your fun on the river every day.
We’ll run you through some basic concepts that will make your playboating easier.»

Слово «Playboating» было правильно распознано только Whisper с моделью medium.en, зато артикль «the» в первой строчке правильно распознал только Adobe Premiere Pro SST. В любом случае, результаты схожи — бесплатная система дает результаты не хуже, чем платная.

Полученный в результате транскрибирования текст синхронизируется с видеофайлом — при проигрывании видео курсор удобно перемещается по тексту, выделяя звучащее в данный момент слово:

Adobe Premiere Pro синхронизация распознанного из аудио текста и видеофайла
Adobe Premiere Pro синхронизация распознанного из аудио текста и видеофайла

Текст можно править, нажав на карандаш:

Adobe Premiere Pro редактирование текста, полученного из аудио
Adobe Premiere Pro редактирование текста, полученного из аудио

Текст так же можно сохранить в трех форматах, но не формате субтитров:

Сохранение расшифрованного из аудио текста в Adobe Premiere Pro
Сохранение расшифрованного из аудио текста в Adobe Premiere Pro

Для того чтобы сохранить в Adobe Premiere Pro распознанный из аудио текст в виде субтитров в формате srt, надо сначала выполнить Создание подписей:

Создание подписей субтитров в Adobe Premiere Pro
Создание подписей субтитров в Adobe Premiere Pro

Субтитры появляются на экране просмотра видео, и их теперь можно экспортировать в файл *.srt:

Экспорт автоматически сгенерированных из аудио субтитров из Adobe Premiere Pro
Экспорт автоматически сгенерированных из аудио субтитров из Adobe Premiere Pro

Встроенного переводчика субтитров в Adobe Premiere Pro на сегодня нет, но можно перевести экспортированные субтитры и заново импортировать их в проект.

В интернете Премьер Про «распространяется» обычно без встроенных моделей от Adobe — так он весит чуть больше 2 Гб, а SST нужен далеко не всем. Speech.to.Text.for.Premiere.Pro. — это как раз те модели, без которых преобразование аудио в текст работать не будет, размер этого пакета приближается к 9 Гб. Так что если Adobe Premiere Pro зависает на распознавании аудио — ищите отдельный SST.

Заключение

Транскрибация — отдельная работа; те, кто выполняет ее, называются транскрибаторами. Буквально недавно распознавание аудио, перевод аудио в текст стало возможно программно, автоматически, на бытовом уровне — причем бесплатно, что, с одной стороны, упростило работу транскрибаторов, а с другой — возможно, в совсем недалеком будущем сделает ее ненужным. Для меня лично эта возможность открыла доступ к достаточно большому пласту информации, ранее трудно доступному.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *