Принципы имитации объемного звучания, часть 2

Принципы имитации объемного звучания, часть 2

Илья Волков, https://gamedev.ru/sound/forum/?id=195231

Объемное звучание в развлекательной сфере

Прежде чем рассмотреть сам эффект объемного звука в развлекательной сфере, стоить упомянуть о первых попытках имитации 3D звука в обычной технологии 2D-панорамирования. Еще в игре DOOM от id Software, вышедшей 10 декабря 1993 года, каждый моно источник звука игрался как стерео, а позиционирование создавалось за счет изменения громкости левого или правого каналов. В такой системе возможна реализация эффектов, связанных с изменением звука — фильтрацией высоких частот, в случае, когда звук исходит сзади виртуального персонажа, применение реверберации.

По словам создателей игры «Half-Life 2» (Valve Corporation) «звук играет важную роль в создании реалистичного окружения, что очень заметно с первых минут игры». За эти слова данная игра и оказалась примером, а также по тому, что я полностью с ними согласен. Half-Life 2 так же имеет поддержку звука «5.1 Dolby» для создания максимально реалистичного ощущения происходящего.

Виртуальные источники звука в Half-Life 2 | Принципы имитации объемного звучания

Рис. 4 Изображение из игры Half Life 2 с пометками (зелеными кругами) виртуальных источников звука

В примере (рис. 4) постоянными источниками звука являются персонаж игрока и звуки окружения (ambience). Как мы видим на рисунке в моментах экшена появляются выстрелы, падение гильз (как правило, улетающих за пределы видимости экрана, что сразу отражается на характере изменения звука их падения), звуки пуль, попадающих в железную бочку (которые должны обрабатываться соответствующими эффектами). Дыхание, звон амуниции, звуки шагов, переговоры по рации способствуют локализации других персонажей игры на основе сравнения однотипных звуков. Для усиления ощущения пространства в игре присутствуют шумы воды, ветра, колыхание травы. Данный пример хорошо показывает, сколько одновременно источников звуков должно исказиться при вращении или перемещении персонажа слушателя. Помимо видимых источников звука неотъемлемой частью любой современной игры является музыкальное сопровождение, которое, как правило, является обычным стерео файлом.

Самое время обобщить основные звуковые источники:

Звуковые эффекты (Sound FX). Реалистичные звуковые эффекты, такие как выстрелы, взрывы, открывающиеся двери и т.д. Сюда же можно отнести нереалистичные абстрактные звуки передающие события в играх, видео роликах. Частный игровой случай — звуки интерфейса. Описанные звуки как правило точечные, исходящие от конкретного источника звука.

Foley. Шорохи одежды, шаги и прочие звуки человеческой жизнедеятельности. Процесс назван в честь Джека Фоли (Jack Foley) из Universal. Традиционно озвучивались синхронно под видеоряд специалистами-шумовиками. Типичной ошибкой (в том числе пространственной) является сделать такие звуки излишне громкими.

Шумовое окружение (amb). О необходимости такого шума с целью пространственной демаскировки шла речь еще в самом начале статьи. Сюда относятся звуки описывающие пространство: ветер, пение птиц, шум насекомых, звуки города, гул, завывание ветра. Такой шум задает атмосферу и дает прочувствовать пространство. Шум окружение должен обладать широкой стереобазой, что следует из названия, он должен окружать слушателя.

Речь. Обычно речь располагается в моно по центру звуковой картины. Другое дело, если речь идет о закадровом диалоге или отдаленном восклицании.

Музыка. В играх разных жанров, в мультипликации музыка может нести не только функцию создания атмосферы, но и выражать вполне конкретные действия и даже локализовываться по кадру, если подразумевается, что музыкальные звуки издает персонаж на экране. Такую «музыку» можно отности и к звуковым эффектам.

Прочитать подробней о игровом саунд дизайне можно в книге G. W. Childs — Creating Music and Sound for Games

В целом весь процесс озвучивания настолько связан, что конечную звуковую картину должен разрабатывать один человек или хорошо слаженная группа людей. Из личного опыта замечу, что при работе с заказчиком полезно объяснить ему специфику источников звука. Еще со времен работы на ТВ все называли звуки окружения шумом (а микрофоны «шумовые», с пометкой amb под фейдерами пульта). В обычном же общении я часто натыкаюсь на непонимание термина «шум». Так что при общении с заказчиком лучше объяснять что это за шум и зачем он нужен. Часто в ТЗ с списком звуков такой шум отсутствует.

Из всего вышесказанного можно сделать вывод, что объемный звук способствует погружению пользователя в виртуальный мир игры, за счёт усиления реализма происходящего. Для этого используются различные технологии, повторяющие или гиперболизирующие поведение звука в реальном мире – это заведомо усиленные эффекты реверберации, окклюзии, обструкции, моделирование дистанции до источника. Также используются эффекты (как в игровой индустрии, так и в кинематографе) невозможные в реальной жизни: источник звука начинает резко превалировать по интенсивности звука над другими источниками, тем самым акцентируя на нем внимание. Примером может быть неестественно выделяющийся диалог, тиканье часов или отсчетного механизма во взрывном устройстве.

Современные системы воспроизведения позиционируемого 3D звука, использующие HRTF функции, являются точечными источниками звука. В реальной жизни звук зачастую исходит от больших по размеру источников или от композитных источников, которые могут состоять из нескольких индивидуальных генераторов звука. Большие по размерам и композитные источники звука позволяют использовать более реалистичные звуковые эффекты, по сравнению с возможностями точечных источников звука. Так, точечный источник звука хорошо применим при моделировании звука от большого объекта удаленного на большое расстояние (например, движущийся поезд). Но в реальной жизни, как только поезд приближается к слушателю, он перестает быть точечным источником звука. Однако в модели DS3D поезд все равно представляется как точечный источник звука, а значит, страдает реализм воспроизводимого звука (то есть мы слышим звук скорее от маленького поезда, нежели от огромного состава, громыхающего рядом). Технология ZoomFX решает эту проблему, а также вносит представление о большом объекте, например поезде как собрания нескольких источников звука (композитный источник, состоящий из шума колес, шума двигателя, шума сцепок вагонов и т.д.). Для технологии ZoomFX создано расширение, с помощью которого разработчики игр могут воспроизводить новые звуковые эффекты и использовать такой параметр источника звука, как размер.

Из музыкальной сферы реализацию объемного звучания можно рассмотреть на надстройке Wave Arts Panorama 5 VST. Данная программа призвана создать эффект бинауральной записи, когда таковую сделать невозможно (то есть при записи отсутствует бинауральный микрофон). Основная функция программы — исказить исходный стерео сигнал с целью создания эффекта перемещения источника звука в пространстве в соответствии с выбранными настройками (рис. 5). Использует программа уже описанный алгоритм бинауральной локализации HRTF, а также алгоритм компенсации Cross-talk Cancellation.

Wave Arts Panorama 5 VST | Принципы имитации объемного звучания

Рис 5. Интерфейс программы Wave Arts Panorama 5 VST

В программу заложены эффекты реверберации (с контролем над размером виртуального помещения и материалом поверхностей помещения), изменения в сигнале в соответствии с изменением дистанции виртуального источника, моделирование эффекта Доплера. Настройки программы достаточно детализированы. Можно выбрать разнесенность источника звука с монофонического до источника с максимально расширенной стереобазой. Перемещать источник, как в горизонтальном радиальном измерении, так и в вертикальном. Выбирать, прослушивается ли обрабатываемый сигнал в наушниках или же он идет из колонок. А также настроить вероятную конфигурацию ушной раковины слушателя — усредненный вариант «человек», вариант манекена KEMAR и 9 вариантов для различных конфигураций ушных раковин, один из которых может подойти слушателю наилучшим образом, если выбрать его эмпирически. Наилучший результат по субъективной оценке достигается при прослушивании в наушниках.


Обзор существующих имитаторов человеческого слуха

Существуют два подхода в разработке устройств, имитирующий слух:

1) Использование специальных микрофонов, помещаемых в ушные раковины человека. Наибольший эффект при прослушивании достигается именно для того человека, с которым был проведен опыт записи. Основной минус такого подхода — строение уха и размер микрофонов не позволяют расположить их так, как если бы звук поступал в барабанную перепонку.

2) Разработка головы манекена, с воспроизведением всех характеристик органов, участвующих про локализации источника звука. Достаточно дорогое устройство, которое производится ограниченным количеством фирм. Например, фирма Neumann выпускает модель KU-100, фирма BRUELANDKJAER (Дания) – модель 4128, фирма G .R .A .S. (Дания) – модель KEMAR, фирма Head Acoustics (Германия) – модель HSUIII.2 и т.д. Все эти модели имеют свои подходы в разработке, начиная от различных форм головы манекена, заканчивая используемыми материалами.

Рассмотрим подробней наиболее известные модели манекенов, имитирующих человеческий слух:

Бинауральный микрофон немецкой фирмы Neumann KU-100 имеет конструкцию имитатора головы на подставке, предназначен для создания бинауральных музыкальных записей, радиопостановок, концертных выступлений, театральных постановок, записи звуков природы, измерение акустики помещений, анализа показателей шума. Диаграмма направленности микрофонов определяется формой искусственных ушных раковин, идентичных человеческим. Частотный диапазон микрофонов 20—20000 Гц. Среди функций манекена — двухкаскадный отключаемый обрезной фильтр НЧ.

Neumann KU 100 | Принципы имитации объемного звучания

Рис 6. Бинауральный микрофон Neumann KU 100

Имитатор головы и торса «BRUELANDKJAER 4128» — Брюль и Къер датская фирма, производитель измерительного оборудования. Имитатор 4128 сделан с математически определенными поверхностями и с конфигурацией и размерами, соответствующими средним антропометрическим данным головы взрослого человека.

Имитатор ушной раковины и уха | Принципы имитации объемного звучания

Рис. 7 Имитатор правой ушной раковины и имитатор правого уха, встроенные в 4128

Ушные раковины изготовлены из силиконового каучука и соединены с искусственным ушным каналом. Канал закончен закрытым имитатором уха, содержащим полудюймовый конденсаторный микрофон и соответствующий предусилитель. По совету изготовителя применяется данный манекен в исследовании и определении параметров электроакустического оборудования, в оценке параметров средств защиты слуха, наушников, электроакустического оборудования транспортных средств, а также в исследовании стереоэффектов в звуковых полях.

BRUELANDKJAER 4128 | Принципы имитации объемного звучания

Рис. 8 Имитатор головы и торса «BRUELANDKJAER 4128»

Манекен «Kemar» использовался для создания функций HTRF. Интересная особенность этого манекена в том, что в нем используются конденсаторные микрофоны фирмы BRUELANDKJAER. Основной упор манекена сделан на исследование различий приходящих на микрофоны сигналов в зависимости от конфигураций имитации ушных раковин.

Kemar | Принципы имитации объемного звучания

Рис. 9 Манекен «Kemar» (Knowles ElectronicsManikin for Acoustic Research)


Разработка имитатора слуха

За форму, имитирующую человеческую голову, была взята полая пластиковая болванка (манекен мужской головы). Расстояние от точки предполагаемой имитации барабанной перепонки левого уха до предполагаемой имитации барабанной перепонки правого уха равно 15 см. Для дополнительного эффекта фильтрации и реалистичности поглощения частот с тыла было решено прикрепить на имитатор парик, изготовленный из синтетического волокна, соответствующего по свойствам натуральным волосам.

В местах расположения имитаторов ушных раковин были вырезаны соответствующие проемы.

Ушная раковина: При разработке имитатора учитывались физиологические данные о конфигурации внешнего слухового канала. Длина внешнего слухового канала составляет от 2,5 см до 3,5 см, то есть в среднем 3 см [12]. Диаметр — 7 мм. Готовые ушные раковины были залиты компаундом органическим "пентэласт-710". После затвердевания получились готовые матрицы.

Ушные раковины были вылиты из натурального жидкого латекса (млечный сок каучуконосных растений) американского производства «Синема Сикретс — Флэш Латекс (CinemaSecrets — FleshLatex)». Выбор латекса обусловлен своей схожестью (не идеальной) с кожей. Его применяют в медицинском моделировании, в производстве трубок для переливания крови, протезов (например, искусственных клапанов сердца), для отделки натуральной и при получении искусственной кожи: латекс содержит большое количество поверхностно-активных веществ, таких, как жирные кислоты, белки и т.д.

После полного высыхания латекса в матрицах, что составило около 192 часов (я же им не дал столько времени, от чего уши стали похожи на реквизит к фильмам ужасов), готовые латексные ушные раковины были извлечены (рис. 10).

Ушная раковина из латекса | Принципы имитации объемного звучания

Рис. 10. Готовая ушная раковина из латекса

В качестве звукоизоляции внутри имитатора была выбрана звукоизоляционная минирализированная стекловата «Урса Глэсвул» (URSA GLASSWOOL) – Универсальные плиты.

Для записи сигнала был выбран оптимальный по своим габаритам и характеристикам цена-качество динамический монофонический микрофон SHURE SM58. Частотный диапазон которого от 50 Гц до 15.000 Гц. Кардиоидная направленность микрофона подходит имитации барабанной перепонки. Микрофоны внутри были расположены таким образом, чтобы имитировать положение барабанной перепонки (рис. 11).

Манекен с микрофоном | Принципы имитации объемного звучания

Рис. 11 Расположение микрофона внутри манекена

Помещенные внутрь манекена микрофоны были плотно обложены стекловатой, что удерживало их на одном месте вне зависимости от положения головы в пространстве. После установки микрофонов были приклеены ушные раковины. Центральная часть микрофона точно совпала с выходом внешнего ушного канала ушной раковины. Готовый манекен-имитатор был прикреплен на стойку с регулированием высоты.

Эксперимент по определению принципов изменения характеристик сигналов при радиальном перемещении источника звука относительно слушателя проводился в помещении репетиционной базы со звукоизоляцией стен. Исходя из данных, полученных в разделе обзора имитации объемного звучания, для эксперимента были выбраны следующие сигналы:

— синусоидальные сигналы частотой: 300 Гц, 500 Гц, 800 Гц, 1000 Гц, 1500 Гц, 2000 Гц, 3000 Гц, 4000 Гц, 5000 Гц, 6000 Гц, 7000 Гц, 8000 Гц, 9000 Гц, 10000 Гц, 11000 Гц, 12000 Гц.

— сложные сигналы: белый, розовый, коричневые шумы.

Эксперимент проводился на 0°, –45°, –90°, –135°, –180° источника (монитора) относительно слушателя (манекена), источник перемещался против часовой стрелки (отсюда было принято решение обозначать радиальное перемещение источника о центра влево со знаком «минус», положительные же значения означают перемещение источника звука от центра вправо) (рис.12) по радиусу равному 0,8 метров. Результаты же 45°, 90°, 135°соответствуют результатам –45°, –90°, –135° с инвертированием левого звукового канала на правый, а посему не нуждаются в выявлении по средствам опыта.

Источники звука и получатель | Принципы имитации объемного звучания

Рис. 12 Расположение источника и получателя при эксперименте

Чтобы не делать в статье третью часть, я принял решение не публиковать сами результаты, материала очень много (а интерес для широкой публики сомнителен — в основном, это набор цифр и спектрограмм).


Принципы имитации объемного звучания

Для получения хорошего результата рекомендуется использовать качественные исходные звуковые файлы с равномерными АЧХ, а также с наиболее широким частотным диапазоном. Обработку сигнала рекомендуется проводить в следующей последовательности: произвести сдвиг по фазе, осуществить частотную фильтрацию и лишь затем изменять интенсивность полученного сигнала.

Обрабатывать необходимо моно сигналы, без уже имеющейся информации о локализации объекта в пространстве, либо сужать стереобазу звука. Для наилучшей локализации статичного виртуального источника звука рекомендуется задавать искажения, меняющиеся во времени.

Обработку сигнала рекомендуется проводить в следующей последовательности: произвести сдвиг по фазе, осуществить частотную фильтрацию и лишь затем изменять интенсивность полученного сигнала. Если же произвести сдвиг по фазе, не применив, пример панорамирования (изменение интенсивности), то такой сдвиг будет воспринимать как пространственная демаскировка — эффект Хааса, что расширит стереобазу монофонического файла, но не даст полноценной локализации, так как в естественной локализации не может проявляться лишь один механизм. Так же не стоит злоупотреблять созданием не естественных пространств, так как для человеческого мозга это не типичное состояние и человеку может стать просто некомфортно.

Рекомендации по смещению во времени

Так как локализовывать в реальных случаях приходится сложные сигналы, то было решено формулировать конкретные значения по смещению в микросекундах, а не в градусах сдвига фазы, что подошло бы лишь для простых сигналов.

Для локализации виртуального источника звука в азимуте 0° и избавления от монофонического звучания рекомендуется произвести смещение на 50 мкс правого канала относительно левого при предполагаемом движении источника в азимутах от 0° до –180° или на 50 мкс левого канала относительно правого при предполагаемом движении источника в азимутах от 0° до 180°.

Для локализации в азимуте –45° рекомендуется произвести смещение правого канала относительно левого на 430—440мкспо временной шкале.

Для локализации в азимуте 45° рекомендуется произвести смещение левого канала относительно правого на 430—440 мкс по временной шкале.

Для локализации в азимуте –90° рекомендуется произвести смещение правого канала относительно левого на 630—640 мкс по временной шкале.

Для локализации в азимуте 90° рекомендуется произвести смещение левого канала относительно правого на 630—640 мкс по временной шкале.

Для локализации в азимуте –135° рекомендуется произвести смещение правого канала относительно левого на 430—440 мкс по временной шкале.

Для локализации в азимуте 135° рекомендуется произвести смещение левого канала относительно правого на 430—440 мкс по временной шкале.

Рекомендации по изменению амплитудно-частотных характеристик сигнала

К моему большому сожалению я не могу указать конкретные значения в dB, так как это должны бы были быть бесчисленные таблицы значений и ограничусь обозначением полученных пеленговых полос. Все описанное ниже я призываю выполнять полагаясь на свой слух, но учитывая описанные диапазоны (все модификации нужно делать стараясь не вносить искажения в тембр, не использовать узкие полосы). Для избавления от монофонического эффекта и имитации правого и левого уха, каждое из которых обрабатывает звук по-разному, рекомендуется произвести снижение амплитуды сигналов во всех азимутах на частотах 2000 Гц до 4000 Гц, 5000 Гц.

Для локализации виртуального источника звука в азимуте 0° рекомендуется произвести снижение амплитуды сигналов 7500 Гц и 9000 Гц. А также снижение амплитуды сигналов от 300 Гц до 2000 Гц для создания эффекта отдаленности источника.

Для локализации в азимуте –45° рекомендуется произвести снижение амплитуды сигналов от 7500 Гц до 8000 Гц на и 9000 Гц. В правом канале рекомендуется снизить амплитуду на частотах от 500 Гц до 2000 Гц и на 10000-11000 Гц, в левом же канале рекомендуется повысить амплитуду на частоте от 500 Гц до 2000 Гц.

Для локализации в азимуте 45° рекомендуется произвести снижение амплитуды сигналов от 7500 Гц до 8000 Гц на –9 дБ и 9000 Гц. В левом канале рекомендуется снизить амплитуду на частоте от 500 Гц до 2000 Гц и на 10000-11000 Гц, в правом же канале рекомендуется повысить амплитуду на частоте от 500 Гц до 2000 Гц.

Для локализации в азимуте –90° рекомендуется произвести снижение амплитуды сигналов на частоте 8000 Гц. В правом канале рекомендуется снизить амплитуду на частотах от 4000 Гц до 16000 Гц, в левом же канале рекомендуется повысить амплитуду на частотах от 2000 Гц до 6000 Гц.

Для локализации в азимуте 90° рекомендуется произвести снижение амплитуды сигналов на частоте 8000 Гц. В левом канале рекомендуется снизить амплитуду на частоте от 4000 Гц до 16000 Гц, в правом же канале рекомендуется повысить амплитуду на частотах от 2000 Гц до 6000 Гц.

Для локализации в азимуте –135° рекомендуется произвести снижение амплитуды сигналов на частоте 5000 Гц, 9000 Гц, 14000 Гц, рекомендуется снизить амплитуду на частотах от 13000 Гц до 16000 Гц.

Для локализации в азимуте 135° рекомендуется произвести снижение амплитуды сигналов на частоте 5000 Гц, 9000 Гц, 14000 Гц, рекомендуется снизить амплитуду на частоте от 13000 Гц до 16000 Гц.

Для локализации в азимуте –180° и 180° рекомендуется произвести снижение амплитуды сигналов на частоте 8500 Гц, рекомендуется снизить амплитуду на частотах от 14000 Гц до 16000 Гц.

Отходя от конкретных значений из личного опыта скажу, что простейшим способом приблизить звук является поднятие верхних частот спектра (если таковые имеются в составе АЧХ).

Рекомендации по изменению характеристик интенсивности сигнала

При локализации в азимуте 0° рекомендуется произвести снижение интенсивности сигнала на –1 дБ в произвольном канале, для избавления от монофонического эффекта и создания пространственной демаскировки, что соответствует значению 10% или –10% панорамного спектра (на практике речь идет о ползунке панорамы).

Для локализации в азимуте –45° рекомендуется произвести снижение амплитуды правого канала на –3 дБ и повышение левого на 3 дБ, что соответствует значению –50% панорамного спектра.

Для локализации в азимуте 45° рекомендуется произвести снижение амплитуды левого канала на –3 дБ и повышение правого на 3 дБ, что соответствует значению 50% панорамного спектра.

Для локализации в азимуте –90° рекомендуется произвести снижение амплитуды правого канала на –5 дБ и повышение левого на 4 дБ, что соответствует значению –65% панорамного спектра.

Для локализации в азимуте 90° рекомендуется произвести снижение амплитуды левого канала на –5 дБ и повышение правого на 4 дБ, что соответствует значению 65% панорамного спектра.

Для локализации в азимуте –135° рекомендуется произвести снижение амплитуды правого канала на –3 дБ и повышение левого на 3 дБ, что соответствует значению -50% панорамного спектра.

Для локализации в азимуте 135° рекомендуется произвести снижение амплитуды левого канала на –3 дБ и повышение правого на 3 дБ, что соответствует значению 50% панорамного спектра.

Для локализации в азимутах –180° и 180° изменений в уровне сигнала производить не рекомендуется, что соответствует значению 0% панорамного спектра. Хочу отметить, что такая локализация практически невозможна, если объект статичен.

Спасибо за внимание!


Список использованной литературы:

1. Меньшиков А. Современные звуковые технологии в играх, материалы с Конференции Разработчиков Игр 2003, 19 мая 2003 года.

2. Радионова Е.А. Анализ звуковых сигналов в слуховой системе, Л., 1987.

3. Преображенский Н.А. Тугоухость, М., 1978, с.10.

4. Альтман Я.А., Вайтулевич С.Ф., Локализация движущегося источника звука,Л.:Наука,Ленингр.отд-ние, 1983.

5. AltmanJ.A. // Exp. Neurol. 1968. V.22. №1. P.13—25.

6. Waugh W., Strybel T.Z., Perrott D.R. // J. Aud. Res. 1979. V.19. №2. P.259—266.

7. Марысаев В.Б. Атлас анатомии человека, 2009. стр. 532

8. Инструкция по обслуживанию имитатора головы и торса человека 4128

9. Семенов Э .В. Электроакустические устройства: Учебное пособие. — Томск: ТМЦДО, 2003

10. Ковалгин Ю. Бинауральные звуковые системы// «Звукорежиссер». 2004. №7.

11. Радзишевский А. Основы аналогового и цифрового звука, 2006. стр. 121

12. Майстренко Н.В. Мультимедийные технологии в САПР : учебное пособие– Тамбов : Изд-во Тамб. гос. техн. ун-та, 2009.

13. Зинченко В. П. Большой психологический словарь, 2005.

14. Алдошина И. Основы психоакустики, часть 4: Бинауральный слух и пространственная локализация// «Звукорежиссер». 1999. №10.

15. Соколов П. Технология создания позиционируемого 3D звука, 15 июля 1999 г.

16. Burkhard D. Kemar manikin handbook, 2003.

Report Page