Перевод аудиозаписей в текст – востребованная услуга, которой пользуются в разных сферах: для расшифровки семинаров и лекций, составления скриптов продаж, создания субтитров к видео и т.д.
Транскрибация – не такое простое дело, как кажется на первый взгляд. Этот процесс требует времени и усидчивости. В среднем на транскрибацию минуты записи вручную уходит 6-7 минут, и то если Вы достаточно быстро печатаете.
В этой статье рассмотрим, какие программы помогут Вам добиться качественного результата быстро и без лишних трудностей.
Варианты транскрибации
Существуют несколько способов перевода аудио и видео в письменный формат. Самый распространенный из них – программы-транскрибаторы. Их удобно использовать как онлайн в браузере с любого устройства, так оффлайн с персонального компьютера, ноутбука или планшета.
Транскрибаторам уступают в популярности сервисы голосового ввода из-за узкой специализации – они могут переводить в текст только надиктованные на микрофон в режиме реального времени записи. Если Вы не доверяете машинному распознаванию речи, но не хотите тратить собственное время – поручите эту работу фрилансеру.
1. Транскрибация аудио и видео в текст
Специальные инструменты упрощают процесс перевода видео и аудио в письменный формат. В каких-то сервисах обязательна регистрация, другими можно пользоваться свободно. Есть приложения, которые запускаются только с телефона, и десктопные программы.
- Онлайн
Эти сервисы не требуют установки на компьютер, но не функционируют без доступа к интернету. Рассмотрим несколько вариантов и сравним их преимущества и недостатки:
Сервис | Стоимость | Бесплатный период | Фишки | Минусы |
Google Keep | Бесплатно | Навсегда | -Распознавание текста с изображений; -Вставка заголовка или изображения; -Возможность совместной работы над заметками, добавление соавторов из контактов. |
Не подходит для больших записей. |
oTranscribe | Бесплатно | Навсегда | - Загрузка аудио- и видеофайлов, а также видео с YouTube; - Управление при помощи горячих клавиш; - Автоматическая вставка временных кодов; - Сохранение стенограммы в локальном хранилище браузера. |
Нет автоматической транскрибации записей. |
Speechpad | От 100 ₽ в месяц | 15 минут | - Возможность расшифровки видео с Youtube; - Редактирование текста в окне транскрибации; - Простановка заглавных букв анализатором Google; - Сохранение итоговых записей в личном кабинете. |
С трудом разбирает звук низкого качества. |
Transcribe | Ручная транскрибация 20$ в год Автоматическая транскрибация 20$ в год + 6$ за час записи |
7 дней, до 30 минут аудиозаписей | - Автоматическая вставка временных кодов; - Возможность создания субтитров к видео; - Определение акронимов наиболее распространенных слов и фраз (например, ООН) и перевод в полную форму. |
Требуется регистрация. |
RealSpeaker | 8 ₽/минута записи | Первые 1,5 минуты бесплатно. | - Максимальная длительность дорожки — 180 минут; - Встроенный текстовый редактор. |
- Нельзя надиктовать текст; - В течение 24 часов Ваш файл с записью доступен другим пользователям. |
Otter | От 8,33$ в месяц | Бесплатный базовый тариф на 600 минут с допуском к основным функциям на 28 дней | - Возможность присоединения к Zoom-встречам; - Встроенная повестка дня (план встреч и событий) синхронизируется с Вашим онлайн-календарем; - Запись аудио и расшифровка в прямом эфире; - Совместный доступ для команды (подходит для бизнес-использования); - Возможность загрузки итоговых файлов в Dropbox. |
- Поддерживает только английский язык; - Обязательно предоставление доступа к просмотру и скачиванию Ваших онлайн-календарей Google и Microsoft. |
- Десктоп
В отличие от онлайн-аналогов эти сервисы для обработки аудиофайлов устанавливаются на компьютер и могут работать без подключения к интернету. Они значительно облегчают процесс набора текста, поэтому чаще всего их используют профессиональные транскрибаторы.
В таблице ниже мы собрали основные программы для расшифровки записей.
Сервис | Стоимость | Бесплатный период | Фишки | Минусы |
LossPlay | Бесплатно | Навсегда | - Возможность работы без переключения между плеером и текстовым редактором); - Управление через горячие клавиши; - Добавление тайм-кодов. |
Для корректной работы требуется установить кодеки. |
Express Scribe | 50$ за неограниченную по времени лицензию | Есть бесплатная версия с ограниченным функционалом | -Подключение к текстовым редакторам (Word и др.); - Загрузка аудио с CD и DVD, из электронных писем, локальных сетей, FTP-серверов, внешних или внутренних жестких дисков; - Управление при помощи горячих клавиш; - Отправка файлов в сторонние приложения. |
Англоязычный интерфейс. |
VOCO | По запросу от 1867 ₽ в год | Есть пробная версия | - Расстановка знаков препинания; - Расширение словаря под Вашу тематику (сервис “выучивает” лексику и стиль любого загруженного документа). |
- Плохо распознаёт стереозвук; - Нет вставки временных кодов. |
2. Расшифровка у фрилансера
Сервисы облегчают расшифровку, но не заменяют человека. Полученный с их помощью текст требует корректировки. Иногда проще воспользоваться услугами фрилансера. Он не просто расшифрует аудио, но и отредактирует и оформит его для последующей публикации ─ вычитает ошибки, скорректирует структуру, расставит знаки препинания, распределит реплики по спикерам и укажет верные тайм-коды, если на записи разговаривает несколько человек или освещается несколько тем.
Найти специалиста можно через биржи фриланса, специальные бюро или группы в соцсетях.
Проще всего искать исполнителя на биржах. Скорее всего, на предложение откликнутся несколько человек, и Вы сможете выбрать наиболее подходящего. К тому же биржи осуществляют контроль за заказчиком и исполнителем и выступают гарантом сделки. Не волнуйтесь, что заплатите деньги, а задание не будет выполнено.
Примерная стоимость услуг фрилансера:
Биржа | Стоимость |
Kwork | от 500 ₽/30 мин. записи |
Workzilla | от 10 ₽/минута |
Weblancer | от 15 ₽/минута |
FL | от 10 ₽/минута |
На Подработку | от 7 ₽/минута |
Группа ВК "Набор текста "Клац-клац" | от 27 ₽/минута |
Бюро транскрибации Zapisano | от 19 ₽/минута |
3. Голосовой ввод
Журналисты, маркетологи, преподаватели чаще представителей других профессий взаимодействуют с текстом: записывают задачи, описывают концепции, пишут статьи, конспекты, планы занятий и т.д. Сервисы голосового ввода позволяют таким специалистам быстро делать заметки в ситуациях, когда нет возможности или времени записывать идеи вручную, а также упростят процесс работы, если у Вас низкая скорость печати,.
- Онлайн
В этой группе представлен большой выбор сервисов от бесплатных до платных. Функционал одинаковый: диктуйте сообщение, а программа сама переведет его в письменный формат.
Сервис | Стоимость | Бесплатный период | Фишки | Минусы |
Google Документы | Бесплатно | Навсегда | - Ввод пунктуации при помощи голосовых команд; - Запускается на десктопах и на мобильных. |
- Периодически зависает, медленно расшифровывает; - Распознает не все слова. |
Google Keep | Бесплатно | Навсегда | Возможность совместной работы над заметками, добавление соавторов из контактов | Голосовой ввод доступен только в мобильном приложении. |
Dictation | Бесплатно | Навсегда | - Более 100 языков озвучки; - Голосовой ввод знаков препинания и начала новой строки; - Инструменты для внесения правок и форматирования текста; - Результат сохраняется в браузере. |
Открывается не во всех браузерах |
Speechpad | От 100 ₽ в месяц | 15 минут | - Диктовка знаков препинания и новой строки; - Простановка заглавных букв анализатором Google; - Сохранение итоговых записей в личном кабинете; - Есть интеграция с Windows, Linux и macOS для голосового ввода текста напрямую в Word, Excel, в браузеры и т.д. |
Требуется качественный микрофон либо подключение через стерео-микшер. |
Speechnotes | Ручной ввод – бесплатно Автоматическая транскрибация – от 4,5$ за 45 минут |
10 минут бесплатно в качестве приветственного подарка | - Отправка надиктованного сообщения в сторонние приложения; - Голосовые команды для ввода пунктуации; - Печать набранного текста из интерфейса. |
Сохранение данных только на одно устройство с помощью браузера препятствует доступу к ним через другие устройства. |
- Десктоп
Следующие программы для установки на ПК созданы одним разработчиком – группой компаний “ЦРТ”, которая предлагает для них единую цену на лицензию от 1867 руб. в год. Все они запускаются без подключения к интернету, а также “выучивают” лексику и стиль любого загруженного документа.
Сервис | Бесплатный период | Фишки | Минусы |
VOCO | Есть пробная версия | Голосовые команды для постановки знаков препинания и переноса курсора на новую строку. | - Только для Windows; - Для увеличения точности распознавания речи нужны USB-микрофоны со встроенным функционалом подавления шумов и устранения прочих аудиодефектов. |
Цезарь-Р | Нет | - Управление процессом воспроизведения записи из документа MS Word без переключения на "Цезарь-Р"; - Функция очистки от шума. |
- Не поддерживает совместную работу с программами для переключения раскладки клавиатуры; - Оплата картой недоступна; - Только для юридических лиц и ИП. |
Voice2Med | Нет | - Распознавание как свободной речи, так и терминов; - Поддержка специализированных словарей; - Голосовое подтверждение результатов распознавания; - Возможность голосового управления печатью и сохранением документов. |
- Предназначена только для голосового заполнения медицинской документации; - Оплата картой недоступна; - Только для юридических лиц и ИП. |
Сравнительный тест сервисов
Мы сделали автоматическую расшифровку в нескольких сервисах и сравнили итоги.
Вот исходный фрагмент: “Транскрибация – это перевод аудиофайлов в текстовый формат. Проще говоря, слушаете запись и переписываете, что в ней говориться. Спрос на эту услугу достаточно высокий, ведь информация в виде текста лучше воспринимается и с ней удобнее работать.
Работа не сложная, но требует определённых навыков. Так, значительно упрощает задачу умение печатать «вслепую». В целом, это достаточно кропотливое занятие (хотя его можно оптимизировать). Но на сегодня ни одна программа не может заменить работу человека. Чаще всего автоматическая расшифровка требует серьёзного редактирования.
Сервис | Результат |
Google Документы | Транскрибация это перевод аудиофайлы в текстовый формат проще говоря слушаете запись и переписываетесь что в ней говорится спрос на эту услугу достаточно высокий ведь информации в виде текста лучше воспринимается из них удобнее работать работу несложное но требует определённых навыков так значительно упрощает задачу умение печатать вслепую в целом это достаточно кропотливая занятие Можно конечно оптимизировать но на сегодняшний день ни одна программа не может заменить работу человека чаще всего автоматическое расшифровка требует серьёзного редактирования текста |
Google Keep | кремация это перевод аудио файлов в текстовые формат проще говоря слушаете запись и переписываетесь что в ней говориться спрос на эту услугу достаточно высокие ведь информаии в виде текста лучше воспринимается из них удобнее работать работа несложная но требует определённых навыков так значительно упрощает задачу умение печатать вслепую в целом это достаточно кропотливая занятие Можно конечно оптимизировать но на сегодняшний день ни одна программа не может заменить работу человека чаще всего автоматическое расшифровка требует серьёзного редактирования текста |
Speechpad | Транскрибация это перевод аудио файлы в текстовый формат проще говоря слушаете запись и переписываетесь что в ней говорится спрос на эту услугу достаточно высокий вид информации в виде текста лучше воспринимается удобнее работать работа несложная но требует определённых навыков Так значит он упрощает задачу умение печатать В слепую в целом это достаточно кропотливая занятие Можно конечно оптимизировать за сегодняшний день ни одна программа не может заменить работу человека чаще всего автоматическое расшифровка требует серьёзного редактирования текста |
Transcribe | транскрибация это перевод аудио файлов в текстовый формат проще говоря слушаете запись и переписываетесь что в ней спрос на эту услугу достаточно высокий ведь информации в виде текста лучше воспринимается и с ней удобнее работать работа несложная но требует определённых навыков Так значит не упрощает задачу умение печатать вслепую в целом это достаточно кропотливое занятие можно оптимизировать но на сегодняшний день ни одна программа не может заменить работу человека чаще всего автоматическое расшифровка требует серьёзного редактирование текста |
RealSpeaker | транскрибация это перевод аудио файлов в текстовый формат проще говоря слушаете запись и переписываетесь что в ней спрос на эту услугу достаточно высокий вид информации в виде текста лучше воспринимается и с ней удобнее работать работа несложная но требует определённых навыков Так значит не упрощает задачу умение печатать вслепую в целом это достаточно кропотливое занятие можно оптимизировать но на сегодняшний день ни одна программа не может заменить работу человека чаще всего автоматическое расшифровка требует серьёзного редактирование текста |
Как видите, итоги похожи и даже вроде бы соответствует аудиозаписи. Но все же получился не связный текст, а скорее отдельный набор слов. Нет знаков препинания. Где-то неправильные окончания или частицы, что может менять смысл на противоположный.
На результат влияет качество записи. Если говорят чётко, нет посторонних шумов, то качество будет близким к исходному. Но чаще всего люди произносят слова быстро, неразборчиво, могут «проглатывать» окончания, сбиваться с мысли, перебивать друг друга. Машинный алгоритм не способен корректно обработать это. В результате приходится многое исправлять, расставлять пунктуацию, форматировать структуру.
Условно корректный перевод из аудио в письменный формат получается при голосовом вводе. Но и здесь нужно приспособиться – внятно произносить слова, не допускать повторов, междометий.
Для примера мы продиктовали тот же текст в сервисе Dictation:
Результат почти идеальный. Но учитывайте, что подобный способ требует времени. Не стремитесь вводить голосом все знаки препинания. Укажите точки в конце предложения, а потом вручную скорректируйте пунктуацию. В противном случае печатать на клавиатуре будет быстрее.
Коротко о главном
Какой же способ транскрибации выбрать? Однозначного ответа нет. Ориентируйтесь на свои задачи и возможности. Поэкспериментируйте с разными инструментами и выберите наиболее удобный.
Если нечасто приходится расшифровывать записи – нет смысла в платных сервисах. Попробуйте доступные бесплатные инструменты, которые не требуют скачивания, установки, вникания в функционал.
При низкой скорости печати сначала сделайте автоматическую расшифровку, а потом отредактируйте текст вручную. Или же воспользуйтесь голосовым вводом.
Если Вы владеете навыком слепого набора и быстро печатаете, то установите LossPlay – плеер, объединенный с редактором Word. А вот автоматическая расшифровка в этом случае только усложнит процесс, так как исправлять в готовом материале практически каждое слово сложнее, чем набирать его самостоятельно.
Если же услуги транскрибации нужны вам на постоянной основе, наймите специалиста. Фрилансер возьмет на себя редактирование и форматирование расшифрованной статьи, отметит реплики каждого спикера и расставит тайм-коды, если в записи присутствуют несколько голосов.
Я бы добавил в список dialogtotext.com который позволяет онлайн редактировать текст -- нажал на предложение, начал прослушивать его, и тут же исправляешь. Плюс делит текст по ролям