Как упростить процесс транскрибации (расшифровки аудио- и видеозаписей)

Содержание статьи:

Транскрибация - это расшифровка аудио- и видеоматериалов, их содержимое, переведённое в текст. То, о чём говорится в таких материалах, дословно или с определённой степенью цензуры отображается в текстовом документе. В этой статье будем говорить о способах упрощения транскрибации на компьютере. Казалось бы, что сложного в процессе расшифровки? Берёшь удобный медиаплеер, периодически приостанавливаешь запись и переписываешь услышанное.

1. Сложности транскрибации

Но нет, всё не так просто. Иначе заинтересованные в такой услуге лица не искали бы удалённых сотрудников на биржах фриланса.

Во-первых, не каждый сможет выполнить такую работу. Нужен выдержанный, усидчивый, способный к длительной концентрации внимания человек. Для справки: на расшифровку 1-го часа записи уходит порядка 5-ти часов.

Во-вторых, не всегда для расшифровки поставляется качественный исходник, а это, соответственно, усложняет процесс транскрибации. В таких случаях исполнитель должен быть ещё и технически подкован, чтобы решить вопрос с устранением помех записи.

В-третьих, если речь идёт о создании расшифровки для публичных целей, за выполнение работы должен взяться человек грамотный, со знанием речи. В качестве исходника редко когда поставляются студийные записи с чёткой речью диктора. Чаще расшифровывать приходится рабочие материалы - интервью, семинары, вебинары, лекции, диктовки, прослушки, протоколы заседаний и т.п. Вживую же люди говорят так, как они говорят. Исполнителю нужно ещё и перефразировать их речь – убрать диалект, междометия, слова-паразиты, мат, построить предложения грамотно, оставив суть сказанного той же.

Транскрибация – процесс ресурсоёмкий. Постоянное переключение внимания от одной задачи к другой, от одного программного окна к другому быстро истощает силы. Можно ли как-то упростить этот процесс? Увы, идеального способа автоматизации этого процесса пока что не существует. Справиться с такой задачей может только человек. Но его работу можно упростить с помощью отдельных программных средств.

2. Windows Snap

Для удобства работы с двумя программными окнами – медиаплеера и текстового редактора – в среде современных версий Windows можно прибегнуть к функции эффективного задействования пространства экрана Snap. Окно плеера крепим к одной части экрана, окно редактора – к другой.

Совет: при расшифровке аудиоматериалов лучше использовать плееры с крупными элементами управления, как, например, приложение «Музыка Groove», поставляемое вместе с Windows 10.

3. Штатный видеоплеер Windows 10

При транскрибации видеозаписей можно задействовать компактный режим штатного видеоплеера Windows 10 – приложения «Кино и ТВ». В компактном режиме плеер превращается в закреплённое поверх других окон мини-окошко с ограниченным перечнем элементов управления. Но в этом перечне будут все нужные для работы кнопки – приостановка видео, шаги назад и вперёд.

Совет: если исходником является видео, чтобы не отвлекаться на видеоряд, можно извлечь звук в аудиофайл. И работать уже с ним. Такие операции умеют проводить программы-медиаконвертеры, к примеру, бесплатные Convertilla и Freemake Video Converter. А программы типа Adobe Audition или её бесплатного аналога Audacity помогут улучшить качество звучания, если исходное оставляет желать лучшего.

4. Сторонние видеоплееры

Сторонние видеоплееры для Windows, такие как, например, KMPlayer, GOM, VLC, предложат больший функционал, который, в частности, может быть задействован при транскрибации:

• Настраиваемые шаги вперёд и назад;
• Регулировка скорости воспроизведения;
• Установка закладок;
• Настраиваемая панель элементов управления;
• Настраиваемые горячие клавиши.

Совет: некоторые исполнители предпочитают не приостанавливать исходник, а замедлять его воспроизведение для написания под диктовку. Это не лучшая идея в целях оптимизации транскрибации. При написании диктанта важны паузы, разграничивающие даже части предложений. Плюс к этому, наше сознание входит в резонанс с замедленным воспроизведением, а это, соответственно, тормозит работу ума и набор текста.

5. Программа Express Scribe

Express Scribe – программа, специально созданная для транскрибации. В верхней части её интерфейса находится поле для добавления медиафайлов, в нижней – проигрыватель и текстовый редактор. В числе её преимуществ:

• Единое окно для работы с исходниками и текстом;
• Поддержка большого перечня медиаформатов;
• Функции замедления и ускорения проигрываемых файлов;
• Перемотка;
• Улучшение качества звучания;
• Горячие клавиши, а также возможность задействования для отдельных функций ножных педалей геймерского руля;
• Сохранение исходников и их расшифровки как проектов программы;
• Экспорт набранного текста в Microsoft Word.

Недостатки Express Scribe – отсутствие поддержки русского языка интерфейса и активное навязывание создателями программы платных её редакций при работе с бесплатной.

6. Сервисы голосового ввода данных

Веб-сервисы, предлагающие возможность голосового ввода данных – пожалуй, самый оптимальный способ упрощения транскрибации. Особенно подойдёт тем, чья скорость печати оставляет желать лучшего. Принцип работы здесь прост: запоминаем отрывки текста, повторяем их в микрофон и попутно проводим коррекцию текста – исправляем ошибки и вставляем знаки препирания.

Механизмом распознавания речи оснащён веб-сервис «Google Документы». Создаваемые в этом онлайн-редакторе документы можно надиктовывать с использованием инструмента «Голосовой ввод».

Инструмент поддерживает огромный перечень языков, включая русский. Однако он не предусматривает настройку автоотключения ввода данных. Если не говорить в микрофон пару секунд, голосовой ввод отключается. И его нужно постоянно включать вручную.

Другой веб-сервис – «Голосовой блокнот Speechpad.ru» - будет в разы эффективнее, поскольку это узкопрофильный проект, и распознавание речи является его основным направлением. Для ввода голосовых данных в форме сервиса необходимо нажать кнопку включения записи. Текст правится в результирующем поле. Внизу этого поля присутствует кнопка «+Транскрибация».

Она добавляет в форму сервиса возможность воспроизведения аудио- и видеоисходников для работы в одном программном окне. Например, чтобы сделать расшифровку ролика на YouTube, в форме сервиса необходимо выбрать его медиатип и вставить в соответствующее поле ID (часть веб-адреса после знака «=»).

Сервис кроме русского поддерживает ещё несколько других языков.

Совет: Speechpad.ru умеет распознавать два знака препинания – точку и запятую. Их можно проговаривать.

Недостаток такого способа транскрибации – несовершенство механизма распознавания человеческой речи. Сколькие из мобильных пользователей, вдоволь наигравшись с «Ок, Google» при вводе поисковых запросов, пришли к тому, что проще отыскать что-то по старинке, с помощью клавиатуры. Какой бы сервис ни использовался, всё равно в процессе работы придётся делать паузы и отслеживать распознанный текст мелкими блоками.

7. Автоматизация транскрибации

Процесс голосового ввода данных при транскрибации можно упростить по максимуму, настроив системное звучание в качестве источника звукозаписи и, соответственно, убрав из цепочки действий проговаривание услышанного в микрофон. Естественно, в случае с проблемными исходниками такой вариант не подойдёт. В итоге получим нечитаемую белиберду, которую проще будет переписать заново, чем редактировать. Если же запись более-менее качественная, попробовать стоит.

Вызываем контекстное меню на значке звука в области задач Windows, выбираем «Звуки». В появившемся окошке с помощью опций в контекстном меню отключаем микрофон и включаем стереомикшер.

Далее воспроизводим видео или аудио и расшифровываем его с помощью веб-сервиса Speechpad.ru.

Однако процесс всё равно нужно контролировать: вникать в суть информации, периодически приостанавливать воспроизведение для коррекции расшифровки, проставлять знаки препирания.

8. И самое главное …

Осуществлять транскрибацию на ноутбуке с его хрипящим динамиком проблематично. Однако в особо сложных случаях не поможет и хорошая аудиосистема. Для постоянной работы по расшифровке аудио лучше обзавестись наушниками. А если работа проводится путём распознавания речи, возможно, стоит присмотреть себе качественную гарнитуру Hands Free.

4 комментария

neon:

05.06.2021 в 14:40

Можно, также, использовать связку "Телефон" -> "Компьютер".
Т.е., производить голосовой ввод текста/данных с телефона (под Android) - в программы MS Word (Windows), MS Excel (Windows) и текстовый редактор (Windows).
См., например, здесь: http://roamer55.ru/!_info/spDSW/

Ответить
Роберт:

16.11.2022 в 14:52

Как фрилансер часто пользуюсь Спичпадом. Конечно пришлось научиться диктовать "качественно"! иначе потом приходилось много редактировать. А если надо наоборот, перевести текст в голос, использую https://voicebot.su. Реально удобная программа.

Ответить
- Елена:
  
  18.11.2022 в 15:35
  
  Тоже работаю с этой программой. Нравится, голоса и звуковые эффекты прикольные.
  
  Ответить
- Иван:
  
  23.12.2023 в 04:22
  
  Самый крутой сервис озвучки с огромным количеством виртульных голосов https://texttospeech.ru
  
  Ответить