Цифровые проблемы: Практические решения
Как получить от цифровой звукозаписи всё самое лучшее
Опубликовано в журнале «Sound on Sound» в феврале 2008 года
Конструкторы давно уже преодолели большинство врождённых проблем
цифровой звукозаписи, но, для многих из нас, впечатления от работы с
цифровыми технологиями всё ещё не стали абсолютно прекрасными. В этой
статье мы попытаемся ознакомить Вас с некоторыми важными вещами, и
развенчать некоторые мифы, связанные с цифровыми технологиями…
Хью Робджонс
Цифро-аналоговые дебаты продолжаются
уже так долго, что многие из аргументов потеряли какое-либо техническое
обоснование и перешли в мифологическую область. В этой статье я
исправлю некоторые неправильные представления и представлю Вам
некоторые звуковые примеры, чтобы продемонстрировать действительность.
Я надеюсь, что помогу Вам точно определить любые проблемы, которые Вы
можете испытывать в своей цифровой системе.
Цифра против аналога
По сути, цифровые и аналоговые системы
исполняют одну и ту же работу, но делают её по-разному и в своей работе
имеют определённые особенности. Мы можем уподобить эту ситуацию выбору
бензинового или дизельного двигателя для Вашего следующего автомобиля:
они оба приведут в движение машину, но в эксплуатации будут иметь
довольно значительные различия друг от друга. Так, в одних ситуациях,
дизельный двигатель может дать определённые преимущества, но зато в
других – бензиновый мог бы быть более предпочтительным. Короче, всё
зависит от того, для каких целей Вы его приобретаете и от личных
предпочтений.
Тоже самое верно и для сферы записи, микширования или обработки
звука. В некоторых случаях, врождённые искажения аналоговой записи
приносят в музыку дополнительную «вкусность», но в иных ситуациях, это
может и мешать. Большой динамический диапазон цифровых систем может
сослужить хорошую службу при работе над очень сложным музыкальным
производством – там, где аналоговые системы свалились бы в шумовое
месиво. Всё зависит от конкретных целей и областей применения – нельзя
абсолютно утверждать, что какая-то технология хороша или плоха, или
что-то правильно, а что-то – нет. Но мы должны правильно понять
практические и технические ограничения обоих систем, оценить силы их
«творческих вкладов» и узнать, в каких ситуациях та или иная система
имеет преимущества.
Непонятки с сэмплированием
Возможно, самые большие непонятки,
связанные с цифровой звукозаписью, окружают проблему сэмплирования
(дискретизации). Возможно, это связано с теми упрощениями, что
использует литература при попытках объяснить это чрезвычайно сложное
понятие.
Классическая ошибка состоит в том, что многие люди сравнивают
цифровую звукозапись с фильмом. Аудиосэмплирование работает совершенно
не так, как происходит захват кадров изображения при съёмке фильма.
Хоть кинематограф и можно назвать сэмплирующей системой, но
характеристики этого «сэмплирования» совершенно не адекватны
реальности. По сути – фильм создаёт только лишь иллюзию движения.
Захватывая и показывая относительно медленно меняющуюся
последовательность статических картинок, кино и телевидение полагаются
на инерционность человеческого зрения и способность мозга достроить (но
не восстановить) впечатление от как бы живого движения. Фильм не
передаёт и не восстанавливает (и не может сделать этого) всю
информацию, воплощённую в световых волнах отражённых от исходной сцены.
Даже эта иллюзия движения, зачастую, далека от реальности (вспомните
колёса, крутящиеся в обратную от движения сторону). Фактически,
достаточно просто немного отвести взгляд от экрана, чтобы понять
фликерную природу всего этого действа и ощутить, насколько оно далеко
от реальности (Фликерами называли старые немые кинофильмы, в
которых частота смены кадров составляла всего лишь 16 кадров в секунду.
Это создавало весьма заметное глазу мелькание – BVV).
В противоположность этому, аудисэмплирование/дискретизация – это
абсолютно точное (потенциально) средство для передачи полного звукового
сигнала от одного места до другого. Я не буду углубляться в
теоретические дебри, но могу сказать, что существует очень изящное и
неопровержимое математическое обоснование процесса сэмплирования. Кроме
того, сэмплирование (дискретизация) сигналов используется в очень
широком диапазоне отраслей науки и техники далеко за пределами наших
собственных, «звукозаписывающих» интересов.
Собственно говоря, сэмплирование – это теоретически совершенный
процесс, и если система спроектирована соответствующим образом, то при
обратном преобразовании Вы получите сигнал, полностью идентичный
исходному. Конечно, в ранние дни цифровой звукозаписи (около 25 лет
назад), у этой технологии были некоторые серьёзные слабости. Но со
временем, большинство всех этих детских проблем было успешно
преодолено. Но, тем не менее, память о тех слабостях всё ещё продолжает
пугать многих людей, решивших посвятить себя индустрии звукозаписи.
Совершенная модуляция
Сэмплирование – это, по сути дела,
просто процесс модуляции – наподобие обычной амплитудной модуляции
(АМ). Точно таким же образом АМ-радио, пользуясь соответствующей
средой, может точно передать звуковой сигнал из одного места в другое.
Все мы слушаем радио и знаем, как оно работает. Но почему же мы ставим
под сомнение тот же самый процесс, когда он используется в оборудовании
для цифровой звукозаписи?
При
частоте сэмплирования (дискретизации) 40кГц, звуковой сигнал с частотой
5кГц создаёт дополнительные боковые полосы на частотах 35 и 45кГц.
Возможно, тот факт, что для целей АМ-вещания требуется резко
ограничить частотный диапазон звукового сигнала, вызовет у Вас странные
чувства - но это действительно так. Типичный звуковой диапазон
АМ-вещания – это всего 4кГц! В то время как базовый частотный диапазон
цифровых систем – более 20кГц (на частоте дискретизации 44,1кГц).
Радиопередатчик использует непрерывную синусоидальную несущую волну,
и мы модулируем амплитуду этой высокочастотной несущей нашим звуковым
сигналом. В цифровой звукозаписи вместо этой непрерывной синусоиды
используется ряд коротких импульсов, которые «бегут» друг за другом со
скоростью, определяемой частотой дискретизации. Но мы модулируем
амплитуду этого потока импульсов таким же самым образом. Кроме того
факта, что одна система непрерывна, а другая – дискретна, оба процесса
математически идентичны, так что обе системы порождают одно и то же
явление – «боковые» полосы.
Любой процесс модуляции – хоть в аналоговом радиопередатчике, хоть в
цифровом звукозаписывающем устройстве – производит так называемые
«боковые» полосы. Наличие этих полос (особенно в сфере радио), требует
резкого сужения частотного диапазона передаваемого сигнала. Что же
такое боковые полосы? Это продукт суммирования и вычитания полезного
звукового сигнала и несущей частоты. По существу, процесс модуляции
создаёт «образы» нашего звукового сигнала по обеим сторонам несущей
частоты. Среди радиолюбителей это известно как верхняя и нижняя боковые
полосы.
Модуляция добавляет аудиосигнал к несущей частоте (а в
действительности, перемещает его частоту до частоты несущей волны), и
создаёт верхнюю боковую полосу. Также, она вычитает этот сигнал из
несущей частоты и создаёт нижнюю боковую полосу (по сути дела, это –
зеркальное отображение верхней полосы, расположенное ниже несущей
частоты). Обе эти полосы вместе с несущей частотой передаются в эфир.
Радиоприёмник обнаруживает эти боковые полосы в принятом
сигнале и «демодулирует» их, извлекая полезный звуковой сигнал. Эту
систему мы используем уже почти 100 лет и не находим в ней ничего
странного.
В случае с АМ-радио, размер боковых полос определяет частотный интервал между смежными радиоканалами.
Полнодиапазонный аудиосигнал генерирует боковые полосы, которые должны быть спектрально отделены от исходного звука.
Так
вот, в случае с радиовещанием, ширина полезного звукового диапазона (а
следовательно, и размер боковых полос), определяет минимальный интервал
между смежными несущими радиочастотами: чем уже спектр передаваемого
сигнала, тем меньше боковые полосы, и тем больше радиоканалов можно
уместить в отведённый радиодиапазон. Именно поэтому, каналы в
АМ-вещании расположены с шагом 9кГц (в США – 10кГц). Соответственно,
весь их звуковой диапазон – это всего лишь 4кГц.
В цифровой звукозаписи, боковые полосы – это нежелательный побочный
продукт процесса сэмплирования. Но, тем не менее, они всё ещё
определяют ширину звукового диапазона, который мы можем использовать.
Если мы будем оцифровывать с частотой дискретизации 44,1кГц, то
произведём пару боковых полос выше и ниже несущей частоты. Мы не
собираемся использовать их, но они, тем не менее, уже присутствуют в
оцифрованном сигнале. Так что, нам нужно как-то избавиться от них,
когда мы будем восстанавливать исходный сигнал из цифровой записи
(поскольку такие высокие частоты могут запросто поджарить «пищалки» в
колонках, либо вызвать значительные искажения в оборудовании, которое
не может корректно обращаться с таким высокочастотным содержимым).
К сожалению, в отличие от радио, эти боковые полосы достаточно
близки по спектру к полезному сигналу. Это происходит из-за того, что
частота дискретизации достаточно низка. К примеру, если оцифровывать
сигнал 20кГц с частотой дискретизации 44,1кГц, то нижняя боковая полоса
появится уже в области 24,1кГц (44,1кГц минус 20кГц). И что мы видим?
Полезный звуковой сигнал и паразитная боковая полоса отстоят друг от
друга менее чем на четверть октавы!
Чтобы удалить нежелательные боковые полосы и не затронуть полезный
сигнал, мы нуждаемся в очень крутом low-pass фильтре («реконструирующий
фильтр»). Так вот, если мы опять посмотрим на вышеописанный пример и
захотим уменьшить частоты боковых полос до уровня фонового шума, то нам
потребуется фильтр, который имеет наклон более 100dB в диапазоне менее
чем четверть октавы. У самых крутых фильтров на большинстве микшерных
пультов имеется наклон не больше 18dB на октаву – так что, Вы можете
оценить весь масштаб этого вызова!
Одно из решений состоит в том, чтобы повысить частоту дискретизации.
Это поможет переместить боковые полосы дальше от полезного звукового
сигнала. Однако, чем выше частота дискретизации, тем больше данных
придётся обработать и сохранить – даже 44,1кГц были очень тяжеловесны
для тех времён (25 лет назад), когда цифровая звукозапись стала
более-менее доступной. Low-pass фильтры, используемые в ранних цифровых
устройствах, не обеспечивали должного качества фильтрации, особенно в
сочетании с низкими частотами дискретизации того времени. Мало того,
что зачастую они не были в состоянии полностью удалить боковые полосы,
так эти фильтры ещё и затрагивали полезный звук. Всё это создавало
неприятные слышимые звуковые артефакты, которые описывались такими
словами, как резкость, стерильность, скрипучесть… Я уверен, что Вы все
слышали эти описания!
При воссоздании исходного аудиосигнала необходим очень крутой low-pass фильтр, удаляющий нежелательные боковые полосы.
Стоит заметить, что мы нуждаемся не только в выходном фильтре, но
нам требуется идентичный фильтр и во входных цепях аналого-цифрового
преобразователя. Это – фильтр «антиальясинга». Дело в том, что Вы не
сможете удалить боковые полосы, если позволите им наложиться на
полезный сигнал – так что, старайтесь держать их по раздельности. Чтобы
сделать это, частота дискретизации должна быть, как минимум, вдвое выше
самой высокой частоты нашего исходного звукового сигнала. Так вот, этот
фильтр должен гарантировать нам, что он не пропустит никакие частоты
выше ½ частоты дискретизации. Это обезопасит нас от того, что
нежелательные боковые полосы наложатся на слышимый звуковой сигнал.
Если этот входной low-pass фильтр спроектирован без надлежащей
тщательности, то он может предоставить те же самые проблемы, что и
выходной «реконструирующий» фильтр.
К счастью, технологии развиваются, и почти что всё современное
оборудование использует «дельта-сигма» конвертеры. Эти конверторы
работают с более высокой внутренней частотой дискретизации, чем
остальная система, и все «крутые» low-pass фильтры выполнены в них
полностью в цифровом виде. Это работает гораздо точнее и имеет
минимальные слышимые побочные эффекты.
Звуковые примеры
Мы поместили звуковые файлы на сайте SOS, которые наглядно
продемонстрируют Вам часть теории и проблем, описанных в этой статье.
Так, если Вы хотите знать, как звучат различные цифровые артефакты, или
услышать преувеличенный пример того, что фактически делает дизеринг, то
зайдите по следующему адресу: www.soundonsound.com/sos/feb08/articles/digitalaudiofiles.htm.
Построение по точкам
Другое распространённое заблуждение
связано с широко используемой диаграммой, показывающей оцифрованную
волновую форму. Каждый сэмпл на ней представлен в виде тонкого
столбика, который вместе со своими соседями создаёт этакий
«ступенчатый» рисунок. Люди в заблуждении ассоциируют эти ступеньки с
таким явлением, как ошибки квантования. Хочу обратить Ваше внимание на
то, что дискретизация (сэмплирование) и квантование – это абсолютно
отдельные и независимые элементы процесса оцифровки. Причём, то, что Вы
видите на рисунке, к квантованию не имеет никакого отношения! Ступеньки
на диаграмме означают не то, что чего-то там не хватает, а наоборот –
что кое-что было добавлено лишнее. Мы не хотим этого и не нуждаемся в
нём – и именно это и удаляет наш «реконструирующий» low-pass фильтр.
Фактически, эти ступени созданы добавлением боковых полос – и ничего
больше или меньше.
«Ступенчатая» природа реконструированных сэмплов вызвана присутствием высокочастотных боковых полос.
Чем
выше частота дискретизации, тем выше боковые полосы, и тем меньше
ступеньки. Отсюда следует, что чем выше частота дискретизации, тем
легче работать «реконструирующему» фильтру.
Если мы построим график сэмпла, записанного с более высокой частотой
дискретизации, то увидим, что ступеньки станут меньше. Люди по ошибке
предполагают, что запись с более высокой частотой дискретизации
приводит к более точным результатам. Отчасти это верно: но фактически,
это показывает, что «реконструирующему» фильтру просто легче работать,
поскольку боковые полосы находятся дальше от полезного звукового
сигнала.
К примеру, не имеет никакого значения, будем ли мы записывать тон
100Гц с частотами дискретизации 250Гц, 2500Гц, 25000Гц или 44,1кГц.
Если «реконструирующий» фильтр спроектирован должным образом, то при
обратном преобразовании мы получим тот же самый тон 100Гц и ничего
иного. Есть два файла на сайте, которые демонстрируют это: один файл
(100Hz_44.mp3) содержит синусоидальную волну 100Гц, засэмплированную с
частотой 44,1кГц; второй файл (100Hz_8k.mp3) содержит тот же самый
сигнал, но засэмплированный с частотой 8кГц. Если Ваш плеер работает
должным образом, то между этими двумя файлами не должно быть никакого
слышимого различия, поскольку обе частоты удовлетворяют критерию
Nyquist (Shannon). Согласно этому критерию, частота дискретизации
должна быть вдвое выше частоты исходного сигнала. Однако, очевидно, что
намного легче изготовить фильтр, спад которого начинается со 101Гц и
который удаляет боковые полосы, сосредоточенные в районе 44,1кГц, чем
сделать фильтр, который бы делал ослабление на 100dB в промежутке между
101Гц и 150Гц. Именно в таком фильтре Вы бы нуждались, если решили б
использовать частоту дискретизации 250Гц!
Таким образом, размер ступенек в этой диаграмме просто отражает
вызов, стоящий перед «реконструирующим» фильтром: чем выше частота
дискретизации, тем легче работать фильтру. Как только фильтр удалит
нежелательные боковые полосы, мы останемся с оригинальным звуком, к
которому ничего не добавлено и от которого ничего не убрано. Я не лгал
Вам, когда говорил, что сэмплирование (дискретизация) – это
теоретически совершенный процесс!
Альясинг
А теперь вспомните о едущих в обратную
сторону колёсах, о которых я говорил, сравнивая кинофильм с процессом
сэмплирования звука. Мы поговорили об эффекте, вызванном слишком низкой
частотой дискретизации (меньшей, чем удвоенная частота исходного
сигнала). Представьте себе колесо фургона, в котором одна из спиц
покрашена в красный цвет. Фургон перемещается, колесо вращается и
камера делает снимок первого кадра – скажем, когда эта спица стоит
вертикально (на 12 часов). Фургон продолжает ехать, и колесо делает
несколько оборотов прежде, чем камера снимет следующий кадр (1/24
секунды спустя). На сей раз, спица будет в положении, предположим, 9
часов. Следующий кадр – 6 часов, и так далее. Когда мы будем
просматривать отснятый материал, то нам будет казаться, будто бы колесо
медленно вращается против часовой стрелки, хотя, на самом деле, оно
вращалось по часовой стрелке и с куда большей скоростью. То, что мы
видим, является ложной информацией. Этот эффект называется «альясинг» (сделайте ксерокопию институтского диплома или денежной купюры – увидите похожий эффект: BVV).
Если частота
дискретизации будет меньше, чем удвоенная частота полезного сигнала, то
нижняя боковая полоса наложится на исходный звук и высокочастотные
компоненты входного сигнала будут услышаны как низкие частоты.
Даже
после того, как «реконструирующий» фильтр удалит верхнюю боковую
полосу, часть нижней полосы, которая наложилась на полезный сигнал,
останется и будет слышна.
В должным образом разработанной системе цифровой звукозаписи не
должно происходить никакого альясинга (другими словами, этот эффект ещё
называется «наложение спектров»). Частота дискретизации должна быть, по
крайней мере, вдвое выше, чем спектр исходного сигнала, и входной
«антияльясинговый» фильтр должен гарантировать, что на вход конвертера
не попадёт никакой сигнал, частота которого превышает ½ частоты
дискретизации. При выполнении этих требований, нижняя боковая полоса
будет отделена от полезного звука. Но что может случиться, если мы
подадим на вход конвертера сигнал со слишком высокой частотой, или
выберем слишком низкую частоту дискретизации?
В результате, часть нижней боковой полосы наложится на спектр
полезного сигнала и станет слышимой. Так как нижняя боковая полоса
спектрально перевёрнута, то исходные высокие частоты предстанут перед
нами в виде более низких – по сути дела, это звуковой эквивалент едущих
в обратную сторону колёс. К тому же, нет никаких музыкальных отношений
между этими наложенными частотами и исходным сигналом. Поэтому, всё это
звучит очень негармонично и неестественно.
Файл на сайте SOS (aliased piano.mp3) демонстрирует это на примере
простой фортепьянной музыки. Приблизительно после 10 секунд появляются
искажения в результате того, что я начал уменьшать частоту
дискретизации относительно стандартных 44,1кГц. Поскольку частота
дискретизации снижается, высокие фортепьянные гармоники начинают
проявляться в более низких диссонирующих частотах, и чем ниже
становится частота дискретизации, тем сильнее проявляется этот эффект.
В самом конце, когда частота понижена до 6кГц, красивое фортепьяно
становится похожим на очень противный электронный клавесин!
Как я уже сказал ранее, подобные проблемы не должны приключиться в
случае применения хорошего оборудования (по крайней мере, не на стадии
аналого-цифровой конверсии). Но это может произойти случайно, если
цифровые сигналы передаются между оборудованием, работающим с разными
частотами дискретизации. Либо, если преобразование частоты было
выполнено без должной аккуратности.
Если Вы когда-либо получали открытку с голосовым сообщением, Вы
могли услышать эффект альясинга, вызванный неподходящей частотой
дискретизации при оцифровке голоса. Оригинальный звук был оцифрован с
очень низкой частотой без применения соответствующего антиальясингового
фильтра. В итоге, частоты выше ½ частоты дискретизации проникли в
конвертер и вызвали эффект альясинга / наложения спектров (послушайте китайские говорящие и поющие игрушки: BVV).
Эта проблема также часто характерна для дешёвых компьютерных игр, а
также для аудио- и видеоклипов, транслируемых через Интернет.
Джиттер и клокинг
Много суеты всё ещё происходит вокруг
такого явления, как джиттер. Хотя это и потенциально серьёзная
проблема, но в наши дни она достаточно редко встречается в практике,
поскольку разработчики и изготовители нашли очень эффективные пути её
предотвращения.
Что же такое джиттер? Это очень краткосрочные изменения (девиации)
временных промежутков между отдельными сэмплами. В цифровой системе,
работающей на частоте дискретизации 48кГц, промежуток между каждым
пульсом часов должен быть 20,8333333333…микросекунд. Но если промежуток
между некоторыми импульсами, к примеру, 20.80мкс, а между другими –
20.85, то у нас имеются ошибки тайминга. Они приводят к ошибкам
амплитуды волновой формы, или, другими словами, к искажениям.
Это может случиться как в A –D стадии, так и в D – A. Но это более
серьёзно, если происходит в первом случае, поскольку эти искажения уже
как бы заперты в цифровой сигнал. Джиттер клока в аналого-цифровом
конвертере означает, что амплитуда в разных точках измерена или немного
раньше, или немного позже, чем положено, но при этом данные сохранены
так, как будто измерения произведены в точно правильное время. Таким
образом, получается, что эти сэмплы предоставляют нам ложное значение
амплитуды.
Этот
экстремальный пример джиттера показывает, что первый синий сэмпл
произведён слишком рано, а второй – слишком поздно. В итоге, исходная
(красная) волновая форма искажена (показано фиолетовым).
Подобная проблема может присутствовать и в цифро-аналоговом конвертере
при восстановлении аналоговых сэмплов из перевёдённых в цифровую форму
амплитудных данных. Если какие-то сэмплы обрабатываются немного раньше
или позже, чем это положено, то здесь снова могут возникнуть искажения
истинной волновой формы.
Если джиттер клока происходит случайным, хаотическим образом, то
получившееся искажение тоже будет случайно. А случайный сигнал – это
шум. Так как в высокочастотном сигнале за единицу времени происходит
больше изменений, чем в низкочастотном, то маленькие ошибки в тайминге
произведут большие ошибки в амплитуде высокочастотного сигнала. Таким
образом, случайный джиттер имеет тенденцию производить преимущественно
высокочастотное шипение. В принципе, это явление происходит в любой
цифровой системе, хотя, повторюсь ещё раз – современная аппаратура
настолько хороша, что джиттер перестал быть практической проблемой.
Хотя, с другой стороны, если джиттер будет иметь циклическую форму
или как-то будет связан с поступающим звуковым сигналом, то искажения
уже будут тональными (подобно альясингу) или гармоническими. Такие вещи
уже намного сильнее заметны на слух. Правда, ни на одной нормальной
цифровой аудиосистеме я не услышал подобных вещей, разве что только на
самых дешёвых и низкокачественных устройствах.
Другой источник джиттера (самый серьёзный в наши дни) – это
соединительные кабели. Если Вы передаёте сигналы через длинный кабель
(электрический или оптический), то «хорошие» входные сигналы
прямоугольной формы превращаются на выходе во что-то похожее на акульи
плавники. Такая деградация вызвана ёмкостью кабеля (или дисперсией
оптического волокна). Таким образом, чем длиннее кабель, тем сильнее
выражена деградация формы исходного цифрового импульса. Именно поэтому,
цифровые кабели должны обладать широкой полосой пропускания и иметь
малую ёмкость.
Это имеет большой значение, потому что большинство цифровых потоков
включает в себя не только аудиоданные, но и сигналы клока (тайминга).
Информация о тайминге определяется между фронтом и спадом
соответствующего синхронизирующего импульса. Если края этого импульса
являются вертикальными, то эта информация определяется строго
однозначно. Однако, если имеется нарушение формы этих клок-импульсов
(наклон краёв), то выбор времени становится уже неоднозначным. Таким
образом, в результате мы имеем вложенную клок-информацию, страдающую
джиттером!
Когда происходит передача данных между системами, работающими на
одной частоте дискретизации, прецизионный клок не столь необходим. Всё,
что требуется, так это то, чтобы устройства просто могли определить в
каждый момент времени правильное бинарное значение (ноль или единица)
каждого бита в каждом двоичном слове.
Однако, в процессе конвертации (A – D или D – A), точный тайминг
становится критически важным аспектом. Так, если цифро-аналоговый
конвертер полагается на использование страдающего джиттером вложенного
клока (сгенерированного A – D конвертером), то в восстановленном
аналоговом сигнале может присутствовать шум или искажение. К счастью,
современные D – A конвертеры включают сложные системы подавления
джиттера, обеспечивающие изоляцию между вложенным в сигнал клоком и
своими внутренними часами.
В большинстве случаев, A – D конверторы работают от внутренних
высокоточных генераторов клока. Обычно, внешний генератор требуется
только тогда, когда приходится одновременно использовать множество
аналого-цифровых преобразователей. Тогда, эти конверторы будут работать
в подчинённом режиме. Вообще, чтобы минимизировать вредоносный
потенциал джиттера, лучше всего, по возможности, использовать
внутренний генератор клока A – D конвертора для управления всей
системой. Если требуется использовать внешний генератор, то применяйте
самые короткие и самые качественные кабели для передачи клока между
устройствами.
Квантизация
Линейная система – это такая система, где отношение между уровнями входного и выходного сигналов имеет значение 1:1.
Другой камень преткновения в процессе перевода аналогового звука в
цифровую форму – это концепция «разрешения». Общий способ описать
квантизацию состоит в том, чтобы показать, что измерение амплитуды
аудиосэмплов – это неотъемлемо неточный процесс из-за ясно определённых
приращений квантования. Эти ошибки измерения уменьшаются с увеличением
длины цифрового слова. К примеру, 8 битов могут передать только 256
градаций уровня, 16 битов уже передают 65356, а 24 бита – 16777216.
Таким образом, кажется очевидным, что 24 бита дают большую точность,
чем 16 или 8 бит. Отчасти это верно, но это также может ввести в
заблуждение, поскольку звуковое квантование не осуществляется таким
упрощённым способом.
Если Вы построите график (часто называемый «передаточной кривой»),
показывающий отношение между уровнями входного и выходного сигнала в
аналоговой системе, работающей с единичным усилением, то Вы получите
прямую линию, расположенную под углом 45 градусов в системе координат.
Выходной уровень увеличивается в той же самой пропорции, что и входной.
Таким образом, наша система описана как «линейная» - т.е. она свободна
от искажений амплитуды.
В простой же квантующей системе мы получаем на графике лестницу.
Входной уровень повышается, но выходной остаётся на прежнем уровне,
пока не будет достигнут следующий порог квантования. В этом месте
выходной уровень резко подскакивает и остаётся неподвижным, пока снова
не будет достигнут следующий порог. Ясно, что это очень нелинейно, и
слышимый результат – искажённый звук. На сайте SOS есть файлы,
демонстрирующие это на примере простой фортепьянной музыки. Первый файл
(Piano_16.mp3) – оригинальная музыка, взятая с компакт-диска; второй
(Piano_8.mp3) квантуется к 8 битам; третий (Piano_3.wav) – к трём.
У
грубо квантующей системы имеется ступенчатая «передаточная кривая», в
которой уровень выходного сигнала увеличивается резкими скачками при
достижении порогов квантования.
Вы можете сами услышать, что чем меньше битов – тем больше шаги
квантования, тем нелинейнее становится система и тем больше возникает
искажений. В трёхбитном разрешении фортепьяно почти не опознаваемо.
Заметьте (по крайней мере в 8-битной версии), что когда уровень сигнала
весьма высок, то ошибки квантования происходят достаточно случайным
образом и похожи на шум. Но когда уровень сигнала понижается (в
распадах нот), то ошибки уже определяются слухом как искажения. Когда
уровень падает ниже самого низкого порога квантования, то на выходе
вообще нет ничего – даже никакого фонового шипения!
В этих примерах я сохранял исходную амплитуду оригинального звука и
только лишь уменьшал длину цифрового слова, чтобы сделать эффект более
очевидным. Но точно такие же эффекты случаются и в грубо квантующей
24-битной системе. Это может происходить в тех случаях, когда на вход
поступают тихие сигналы, не использующие все 24 бита её разрешения. И
эти сигналы могут квантоваться и восемью, и тремя битами…Эффекты
искажения будут не очень заметны, но всё равно они будут там. Эта
нелинейность абсолютно недопустима.
Дизеринг
Аналоговые системы не создают искажений
при уменьшении громкости сигналов, и мы не хотим, чтобы цифровые делали
это. Таким образом, мы должны линеаризовать процесс квантизации.
Решение – технология, названная «дизеринг». Многие слышали о нём, но
мало кто понимает его суть.
По существу, дизеринг вынуждает процесс квантизации случайно
(хаотически) перескакивать между смежными уровнями (порогами). Он
преднамеренно добавляет шум (хаотически изменяющийся сигнал) к
исходному аудиосигналу. В итоге, квантованный выходной сигнал
постоянно, случайным образом, перескакивает между смежными уровнями.
Получившаяся на графике «передаточная кривая» представляет собой этакую
«лохматую» прямую линию, а не чистую лестницу. В итоге, у нас теперь
есть линейная система с небольшим количеством шума, вместо нелинейной
системы без него.
Шум дизеринга заполняет каждый шаг квантизации.
Звуковой файл (introduceddither.mp3) на сайте демонстрирует слышимый
эффект дизеринга. Простая синусоидальная волна квантуется с низкой
длиной цифрового слова, и получившееся искажение весьма заметно. Но,
поскольку потом я ввожу дополнительный белый шум, то искажения
драматично уменьшаются. Когда я уменьшал уровень этого шума, то
искажения снова возвращались. Важно понять, что шум не маскирует
продукты искажения: он линеаризует систему так, чтобы это больше не
вызывало искажений.
В реальности, количество необходимого для корректного дизеринга шума
определяется уровнем одного шага квантизации. Так, в случае 3-битового
примера, шум должен быть -18dBFS (много шума!); а в 8-битной системе
требуется уже только -48dBFS (немного хуже, чем фоновый шум
компакт-кассеты среднего качества). Вы можете услышать примеры
корректного дизеринга для 8-битного (ditheredpiano_8.mp3) и 3-битного
(ditheredpiano_3.mp3) сигналов на нашем сайте. Использовалась та же
самая фортепьянная музыка. Заметьте, что нет никакого искажения вообще
– фортепьянные ноты плавно затухают в фоновом шуме. Это похоже на то,
как если бы Вы сделали запись с низким уровнем на аналоговую ленту
(даже при квантовании с 3-битным разрешением!) Хоть трёх-битная версия
и очень сильно шумит, но фортепьяно слышится вполне отчётливо.
Если увеличивать длину цифрового слова, то, соответственно,
уменьшается количество необходимого шума. Таким образом, 16-битная
система требует шума дизеринга с уровнем -96dBFS (немного выше, чем
фоновый шум обычного аналогового оборудования). 20- или 24-битное
оборудование удовлетворится уже шумом с уровнем -120dBFS (практически
на уровне теплового шума аналоговой электроники, стоящей на входах
конвертера).
Стоит отметить, что спектральное содержание слышимого шума менее
важно, чем его статистические свойства. Следовательно, можно так
сформировать спектральное содержание сигнала дизеринга, чтобы с
психоакустической точки зрения он стал менее заметным. Например, если
Вы уменьшите амплитуду шума в середине частотного диапазона, но
увеличите её в высоких частотах, то это даст шуму более «шипящий»
характер, но зато он будет казаться более тихим.
Некоторые производители использовали это свойство в своих продуктах,
таких, как Sony Super Bit Mapping или Apogee UV22. В случае системы от
Sony (которая использовалась в DAT-магнитофонах и других цифровых
продуктах), она имеет отношение аудиосигнал/сигнал дизеринга около 93dB
(как и ожидается для 16-битных систем), но воспринимается этот шум так,
как если бы он был на 20dB ниже.
Есть файлы на сайте, демонстрирующие этот эффект при 8-битовой длине
слова (noiseshapedpiano_8.wav) и 3-битовой (noiseshaped piano_3.wav). В
этих примерах мы усиливали энергию шума в высоких частотах и уменьшали
её количество в средних и низких. Это сделало шум более «шипящим», но
поскольку у фортепьяно имеются некоторые высокие гармоники, то это
сделало музыку более слышимой на фоне этого шипения. Особенно это
заметно в 3-битном примере, в котором ясно слышно и оригинальное
качество фортепьянной записи, и тонкий распад его нот. И всё это с
разрешением 3 бита!
Это показывает нам, что в системе с корректным дизерингом полезный
аудиосигнал может постепенно уменьшиться до уровня постоянного и
гладкого фонового шума, не потеряв при этом «разрешения» и не создав
артефактов искажения. Фактически, это работает точно так же, как и
постепенное уменьшение сигнала в аналоговой системе.
Длина цифрового слова фактически и определяет тот уровень, на
котором «сидит» этот фоновый шум: -93dBFS при 16 битах; -120dBFS при 20
или 24 битах. Теоретически, у 24-битной системы должен быть уровень
шума дизеринга -140dBFS, но очень немногие системы настолько хороши.
Это не связано с какими-либо цифровыми ограничениями: всё зависит от
врождённого шума аналоговой электроники. Аналог – это реально слабое
звено на этом уровне работы.
Высота (динамический запас)
Теперь давайте поговорим о таком
понятии, как headroom (высота, динамический запас). В старые добрые
времена аналогового звука и сделанной вручную студийной мебели, мы
работали с довольно щедрым количеством высоты выше номинального
референсного уровня системы (типично +4dBu или 0VU). И это условие
высоты подразумевалось само собой: ни один из наших стандартизированных
аналоговых измерителей не потрудился показывать это! Возможно, именно
из-за этого, немногие из молодых звукоинженеров знают об этом условии,
не говоря уж о том, зачем это там.
Как правило, если референсный уровень аналогового микшера или
магнитофона откалиброван к +4dBu, то скажу Вам, что система может
прекрасно справляться с пиками гораздо выше этого. Обычно, в
боль