О звуке простыми словами42Производители Hi-Fi.
Истории и интервью111Репортажи с заводов65Репортажи с Hi-Fi выставок69"Сделай сам"44Готовые проекты Аудиомании42Пресса об Аудиомании50Видео496Фотогалерея100Интересное о звуке805Новости мира Hi-Fi2557Музыкальные и кинообзоры620Глоссарий
Word для человеческой речи: что он умеет
В Descript разработали аудиоредактор, который помогает получить не просто текстовые транскрипты подкастов, выступлений или переговоров, но и отредактировать сами аудиозаписи также легко как обыкновенный текст в Word.
В конце прошлого года Descript — стартап Эндрю Мэйсона (основателя Groupon) — привлек 5 млн долларов от венчурного фонда a16z (Andreessen Horowitz).
В этой статье мы расскажем подробнее о том, что из себя представляет новый продукт, и затронем другие разработки в области транскрибации.
/ фото / Victorgrigas / CC
Как появился Descript и какую проблему он решил
Descript запустился три года назад в качестве одного из внутренних инструментов еще одного приложения, которым занимается Эндрю. Это приложение — Detour — аудиогид, заменяющий экскурсовода заранее прописанными турами и рассказами о достопримечательностях.
Сейчас сервис предлагает более 150 аудиоэкскурсий по 17 крупнейшим городам мира. Запись и монтаж аудиозаписей — достаточно трудоемкий процесс, который требует времени и работы специалистов. С другой стороны, бизнес-модель компании предусматривает достаточно быстрое масштабирование и привлечение большого числа спикеров, которые не обладают необходимыми навыками для обработки записей.
Здесь и включается Descript — аудиоредактор с возможностью транскрибации. Он переводит рассказ в текстовую форму и позволяет редактировать аудиозапись уже в текстовом виде. Таким образом, компания оптимизирует процесс озвучки и обработки записей аудиоэкскурсий.
Последние два с половиной года команда Detour помогала производителям аудиоконтента работать с Descript. Опыт, накопленный в ходе такого взаимодействия, позволил компании доработать приложение и выпустить его в качестве самостоятельного продукта.
Что может этот аудиоредактор
Возможности Descript в его нынешнем состоянии таковы:
- Работает с записями в форматах .m4a, .mp3, .aiff, .aac ,and .wav — на обработку можно загружать сразу несколько аудиофайлов.
- Транскрибирует с точностью 93,3% — по словам компании, которая сравнивает его с конкурентами — Temi (88.3%), Trint (87.4%), Happyscribe (86.6%) — и приводит сравнительную табличку тематических сервисов с примерами аудиозаписей.
- Позволяет добавлять паузы и переставлять местами фрагменты, при этом правки синхронизируются с аудиозаписью, которую можно сразу прослушать — по принципу WYSIWYG.
- Может экспортировать проект в Apple Logic Pro X, AVID Pro Tools, Adobe Audition и дает возможность комментирования по аналогии с режимом правок в Word или Google Docs.
Аналоги сервиса используют тематические API от IBM Watson, Speechmatics, Nuance, Microsoft и Amazon. Команда Descript выбрала соответствующий API Google.
Основной аргумент в его пользу по словам команды — доступ к огромным объемам данных, необходимых для моделирования и точного распознавания речи — в случае с Google таким репозиторием речевых образцов выступает, например YouTube.
Кто еще делает что-то подобное
В 2016 году сотрудники Принстонского университета разработали еще один «фотошоп для аудио» — VoCo (кстати, alizar уже рассказывал о нем ранее). Этот инструмент похож на Descript, и позволяет не только редактировать аудиозаписи в текстовом виде, но и синтезировать новые слова или фразы голосом спикера (даже если они не фигурировали в оригинальной записи). Для этого необходима запись от 20 минут. VoCo учитывает контекст и добавляет соответствующий интонационный акцент на новые фрагменты.
Такие сервисы могут помочь не только журналистам, медиакомпаниям или предпринимателям, создающим тематические стартапы на основе использования аудиоконтента. Тем людям, которые в силу наличия специфических заболеваний могут общаться только с помощью систем синтеза речи, VoCo и аналоги помогут разговаривать менее «роботизированным» голосом. Один из наиболее известных примеров — система синтеза речи, разработанная Intel специально для Стивена Хокинга (об этой системе и более ранних аналогах рассказывали на GT здесь и вот тут).
/ фото / Intel Free Press / CC
Стартап Lyrebird, представленный в этом году, пошел по пути VoCo. Если сравнивать его возможности с проектом Принстонского университета, то Lyrebird достаточно проанализировать всего 60 секунд аудиозаписи для последующего синтеза речи.
В этом году о себе также заявил стартап Voysis, который нацелен на применение в нише аудиосервисов вроде Siri и Alexa. Еще один проект — сервис NowTranscribe, специализирующийся на прогнозировании тех фрагментов, которыми можно дополнить или скорректировать оригинальную аудиозапись. И очередной пример — Trint, способный понимать, какому из спикеров принадлежит та или иная фраза, произнесенная на записи. Этот проект работает с 13 языками и направлен на задачи, связанные с протоколированном конференций и переговоров.
Синтез речи и этический вопрос
Появление Descript и аналогичных сервисов поднимает вопрос этичности использования систем синтеза речи. С помощью таких инструментов любой человек может сфабриковать новую аудиозапись из разрозненных фрагментов речи другого человека. Это открывает возможность для различного рода мошеннических схем, атак с помощью методов социальной инженерии и нанесения прямого ущерба репутации спикеров.
Разработчики таких проектов прекрасно понимают эту ситуацию. На сайте стартапа Lyrebird есть целый раздел, посвященный этической стороне вопроса. А Эндрю Мэйсон, руководитель Descript, подчеркивает, что в скором времени доверие к любым аудиоматериалам может упасть по аналогии с фотографиями, которые можно изменить с помощью известных графических редакторов.
Интересное о звуке — другие материалы, которые мы подготовили для вас:
- «Идите на звук»: об играх, в которые хочется играть только ради аудио
- Дождь, лязг доспехов и жидкий металл: как создается звук для кино
- Радиоспектакли: очень хорошо забытое старое
- Звуки, которые нас раздражают: почему это происходит
- Надеть наушники и стать эффективнее: как музыка влияет на продуктивность