О звуке простыми словами42Производители Hi-Fi.
Истории и интервью111Репортажи с заводов65Репортажи с Hi-Fi выставок69"Сделай сам"44Готовые проекты Аудиомании42Пресса об Аудиомании50Видео496Фотогалерея100Интересное о звуке805Новости мира Hi-Fi2557Музыкальные и кинообзоры620Глоссарий
История синтеза речи: эпоха электрических решений
В прошлый раз мы рассказывали о механических устройствах для синтеза речи — голосовом тракте Кемпелена и «говорящей голове» Иосифа Фабера. На очереди электрические синтезаторы XX века.
Первые электрические установки
В 1850 году немецкий физик и врач-физиолог Герман фон Гельмгольц представил свою резонаторную теорию. Он заметил, что у гласных звуков разные резонансные частоты (форманты). Эти форманты образуются при прохождении звуковой волны от голосовых связок к губам. Некоторые волны отражаются от губ говорящего и идут к реципиенту, а часть — возвращается к источнику. Ученый предположил, что голосовой тракт человека можно представить как последовательность резонаторов.
В начале XX века начались попытки реализовать такую модель на основе электрических компонентов. Первый синтезатор такого типа разработал физик Джон Стюарт. Его схема (опубликованная в журнале Nature), включала в себя электрический зуммер для моделирования связок и пару индуктивно-емкостных резонаторов. Они эмулировали физические процессы, происходящие со звуком в горле.
Схема синтезатора, разработанного Джоном Стюартом
Устройство Стюарта могло издавать звуки, состоящие из двух формант. Это — несколько простых гласных, а также дифтонги. Но на этом его возможности заканчивались.
Первый электрический синтезатор, способный воспроизводить речь появился позже — в 1930 годах. Его разработал Гомер Дадли (Homer Dudley) из Bell Laboratories. В то время компания работала над вокодером — инструментом для сжатия речи и экономии частотных ресурсов радиолинии в телефонных сетях. Идея заключалась в том, чтобы вместо голоса абонента передавать его ключевые параметры. На принимающей стороне устанавливался специальный декодер, который по этим параметрам реконструировал и воспроизводил звук. Дадли понял, что с небольшими модификациями вокодер можно превратить в полноценный синтезатор. Так появилась система VODER — Voice Operating Demonstrator.
Устройство представили широкой публике на нью-йоркской всемирной выставке в 1939 году. В конструкцию VODER входили два источника звука: ламповый генератор шума для «глухих» фонем, и осциллятор — для «звонких». Также имелись десять параллельно соединенных полосовых фильтров — они составляли блок управления резонансами. Оператор руководил системой с помощью ручной клавиатуры, браслета на запястье и ножной педали.
Во время демонстраций аппарат говорил на разных языках, пел и отвечал на вопросы с различными интонациями. Но чтобы раскрыть потенциал системы, её оператору требовались годы тренировок.
.Вскоре после премьеры VODER началась Вторая мировая война, и Bell Labs пришлось свернуть дальнейшую разработку синтезатора. Однако знания, полученные во время работы над проектом, Гомер Дадли использовал для создания технологии шифрования телефонных разговоров.
Синтезаторы речи на спектрограммах
В 1946 году был изобретен акустический спектрограф. И возникла идея — использовать спектрограммы для управления речевыми синтезаторами. Одним из первых такое устройство представил Л. Шотт (L. Schott), американский инженер из Bell Labs. Он использовал линейный источник света, просвечивающий спектрографические шаблоны с разной степенью прозрачности. Специальные фотоэлементы, установленные напротив лампы, регистрировали изменения уровня освещенности и генерировали управляющие сигналы для полосовых фильтров. Точно такие же фильтры использовал Гомер Дадли для своего VODER.
Другую разработку в этой области представила группа американских ученых во главе с физиком Франклином Купером (Franklin Cooper). Их оптическая система — Pattern Playback — модулировала гармоники основного тона 120 Гц, считывая изображения на движущейся прозрачной ленте. Визуальная информация передавалась осциллятору, превращавшему её в звук.
В каком-то смысле система напоминала советские оптические синтезаторы — «Нивотон» и «Вариофон» — на которых писали музыку для мультфильмов. Однако Pattern Playback был изначально «заточен» под генерацию человеческой речи и умел воспроизводить целые предложения.
Устройства, подобные Pattern Playback и VODER, построили теоретический фундамент для проектирования формантных и артикуляционных синтезаторов. Они стали прототипом современного компьютерного синтеза. О них мы расскажем в следующий раз.