Кое-что о человеческой психологии

В прошлом году Нил Янг*
и Стив Джобс обсуждали создание сервиса для скачивания аудио в «бескомпромиссном студийном качестве», а спустя некоторое время Нил Янг представил плеер Pono, который должен будет использоваться для воспроизведения этого аудио. В общем, эта идея нравится инвесторам, и они совсем недавно выделили $500,000 на популяризацию этого формата. По-сути, на что выделены эти деньги? На одурачивающий маркетинг. Почему этот
маркетинг работает
? Ну, он работает
из-за
существования
парочки факторов
.
Во-первых
, при восприятии таких новостей люди зачастую основываются на догадках о том, как работает цифровое аудио, а не на том, как на самом деле оно работает: они предполагают, что увеличение частоты дискретизации аналогично увеличению количества кадров в секунду в видео. На самом деле такое увеличение аналогично добавлению инфракрасных и ультрафиолетовых цветов, которые мы никогда не увидим и видеть не можем в принципе. (Об этом повествует центральная часть статьи, но она будет чуть-чуть дальше.)
Во-вторых
, люди могут считать, что слышат разницу в звуке, когда её на самом деле нет. Допускать такие ошибки мышления — это нормально для человека. Ошибки эти называются когнитивными искажениями. Подтверждение предубеждения, стадный инстинкт, эффект плацебо, доверие авторитету — это лишь некоторые когнитивные искажения, могущие заставить человека поверить в то, что он слышит разницу. Подтверждение предубеждения: «В 24/192 больше информации, значит я её должен слышать; о, слышу!» Стадный инстинкт вообще каким-то магическим образом заставляет людей верить в то, чего нет и быть не может. Доверие авторитету либо заставляет совершенно не критично относиться к информации, либо при сравнении со своим честным мнением отдавать предпочтение чужому мнению. В советском научно-популярном фильме «Я и другие» наглядно показываются некоторые социальные когнитивные искажения. Например, в фильме показывается следующий эксперимент: группе студентов показывают несколько портретов людей, и они должны сказать, на каких из двух портретов изображён один и тот же человек. Все студенты, кроме одного, — подставные и указывают на два портрета совершенно непохожих людей, а испытуемый, хоть изначально и не думал о таком варианте, зачастую соглашается с мнением большинства. Вы скажете: «Нет, ну я-то не такой». Вообще, вряд ли. Все мы люди, просто отличаемся тем, что в разной степени в чём-либо осведомлены. В любом случае, если бы люди не были подвластны таким когнитивным искажениям, то уже давно не работал бы маркетинг. Посмотрите кругом: люди покупают необоснованно дорогие товары и радуются этому. Итак, 24/192 обычно не улучшает качество и это звучит как плохая новость. Хорошая новость заключается в том, что качество звучания улучшить несложно — достаточно просто купить хорошие наушники
**
. В конце концов улучшение качества звучания от них заметно сразу, оно не иллюзорно и радует. По крайней мере взяв наушники хотя бы в ценовом диапазоне от $100 до $200, вы будете радоваться и скажете мне спасибо за мой совет купить хорошие наушники, если, конечно, вы не купите красивые и дорогие имиджевые наушники, предназначенные совсем не для качественного воспроизведения аудио. А теперь давайте перейдём к самому интересному.
*
Да, я тоже понятия не имел, кто такой Нил Янг. Оказывается, это известный канадский музыкант… уже 50 лет как известный.
**
Это моё личное мнение, я не являюсь представителем каких-либо магазинов и не преследую никакой коммерческой цели.

 

Теорема Найквиста-Шеннона

Для того, чтобы не оказаться в ловушке мышления, попробуем с самых азов понять, из-за чего работает цифровое аудио. Сначала чётко уясним термины (будем формулировать их так, будто они применяются только при анализе звуков). Сигнал
— функция, зависящая от времени. Например, как сигнал можно выразить электрическое напряжение в проводах аудиоаппаратуры или, скажем, давление звука на барабанную перепонку (в зависимости от момента времени).
Спектр
— представление сигнала в зависимости от частоты, а не времени. Это означает, что функция выражается не как «громкость», записанная во времени, а как набор громкостей бесконечного количества гармоник (косинусоид), включенных в один и тот же момент времени. То есть изначальный сигнал может быть представлен как набор гармонических сигналов разных частот и амплитуд («громкостей»). Да, физические величины зачастую (на деле почти всегда) можно представлять таким «странным» образом (проведя преобразование Фурье над изначальной функцией). (
Отображение значения спектра в произвольный момент времени — это один из самых наглядных способов изобразить визуально музыку в аудиоплеере
. Замечу, что тот спектр, о котором я говорю, содержит информацию о всем промежутке времени, а не о каком-то мгновенном значении, т.к. по набору гармоник (спектру) можно воссоздать весь звуковой отрывок.) Теорема Найквиста-Шеннона утверждает, что если сигнал имеет ограниченный спектр, то он может быть восстановлен по своим отсчётам, взятым с частотой, строго большей удвоенной верхней частоты
fc
:
f
> 2
fc
. Если мы будем увеличивать частоту отсчётов, то это повлияет лишь на то, что формат цифрового аудио начнёт позволять записывать более высокие частоты — те, которые мы никак не воспринимаем. Кстати, в этой теореме говорится о сигнале, состоящем не из конечного набора частот, а из бесконечного, как в реальном звуке. Если говорить простым языком, то смысл теоремы заключается в том, что если мы возьмём какой-нибудь звуковой сигнал, содержащий только частоты, меньшие fc, и запишем (в файл) его значения через каждые 1/f секунды, то мы сможем потом воссоздать изначальный звуковой сигнал по этим значениям. Да-да, воссоздать полностью, без потери какого-либо качества вообще. Но формулировка не объясняет, как воссоздать этот звук. Вообще, это теорема из работы Найквиста «Certain topics in telegraph transmission theory» за 1928 год, в этой работе ничего не сказано про то, как воссоздать звук. А вот теорема Котельникова, предложенная и доказанная В.А. Котельниковым в 1933 году, объясняет это довольно чётко.

Теорема Котельникова

Что же это означает? Во-первых, обратим внимание на функцию sinc(t) = sin(t)/t. Наглядно это просто мексиканская шляпа:


Вычитание
k
/(
2f1
) из
t
означает сдвиг шляпы в нужное место (в то самое место, где был записан отсчёт), а умножение на
Dk
означает растягивание этой шляпы по вертикали так, чтобы её макушка совпадала с точкой отсчёта. То есть теорема утверждает, что для воссоздания звука достаточно собрать шляпы в точках, соответствующих отсчётам, причём таким образом, чтобы вершины шляп совпадали с измерениями в отсчётах. Теорему оставим без доказательства — его можно найти в почти любой литературе по обработке сигналов. Однако обращу внимание на то, что воссоздание функции по теореме Котельникова не является просто сглаживанием. Да, шляпа не влияет на значения в соседних отсчётах, но влияет на значения между ними. И когда мы имеет низкочастотный сигнал, это может выглядеть как сглаживание,
но
если мы имеем, скажем высокочастотный косинус, то при его изображении в виде ступенек, мы даже не поймём, что это косинус — он будет казаться просто хаотичным набором отсчётов, однако, при восстановлении получится самый настоящий и идеально гладенький косинус. Ну что же, математически понятно, что восстановить звук возможно. Чисто теоретически. И это не значит, что устройства воспроизведения цифрового звука воссоздают звук неотличимым от оригинального, это лишь значит, что аудиоформат позволяет такое сделать. А вот как правильно подкидывать мексиканские шляпы на выход цифро-аналогового преобразователя и как донести полученный звук до уха с минимальными искажениями — это уже совсем другая магия, не имеющая отношения к данной статье. К счастью для нас, добрые инженеры уже тысячу раз подумали над тем, как им решить для нас эту задачу.

 

Заблуждения насчет семплирования

Теорему отсчетов (Котельникова / Найквиста — Шеннона) далеко не просто понять, не имея представления об обработке сигналов. Совсем не удивительно, что большинство людей, даже доктора наук, довольно часто имеют о ней ошибочное представление. Также не новость, что многие люди и представить себе не могут, что ошибаются.

Квантованный сигнал довольно часто представляется в виде ступенек (изображены красным), которые с виду весьма далеки от исходной формы сигнала. Однако, на самом деле, цифровое представление такого сигнала является математически совершенным и после восстановления обратно в аналоговый вид мы получим такую же гладкую синусоиду, какая была на входе (исходный сигнал изображен голубым цветом).

Самое распространенное заблуждение: квантование является заведомо грубым приближением с потерями. Квантованный сигнал часто представляется в виде угловатых ступенек — в противоположность исходной, совершенно гладкой кривой. Если вы представляете себе семплирование именно так, скорее всего вы также убеждены, что чем больше частота семплирования (и разрядность квантования), тем более цифровой ступенчатый сигнал будет совпадать по форме с исходным. Цифровой сигнал будет звучать всё ближе и ближе к аналоговому по мере того, как частота семплирования будет стремиться к бесконечности.

Также, если человеку далекому от DSP технологий (digital sound processing) показать следующее:

 

он воскликнет: «Ох!». Похоже, что цифровой сигнал плохо годится для представления сигналов с высокой частотой. Или по мере увеличения частоты качество семплирования стремительно падает, а частотная характеристика спадает или становится чувствительной к фазе.

Внешность обманчива. Эти утверждения ошибочны!

Добавлено 2013-04-04: В качестве ответа на многочисленные письма, касающиеся цифровых сигналов и ступенек, я организовал специальную демонстрацию работы реального цифрового оборудования в видео Digital Show & Tell, которая и является в данном случае подтверждением моих слов.

Сигналы, все частотные составляющие которых находятся ниже частоты Найквиста (половина частоты дискретизации), преобразовываются в цифровой вид с абсолютной точностью; бесконечная частота семплирования не нужна. Также квантование совершенно не влияет на АЧХ и ФЧХ. Аналоговый сигнал может быть без потерь восстановлен, причем будет иметь гладкую форму и в точности совпадать по фазе с исходным сигналом.

Что ж, матчасть безупречна, но как насчет неидеальности мира? Наибольшей сложностью является удовлетворение требованиям ограниченности частотной полосы. Сигналы с составляющими выше частоты Найквиста должны предварительно пройти через НЧ фильтр, дабы предотвратить шумы отражения (алиазинг); этот аналоговый ФНЧ — печально известный анти-алиазинговый фильтр. На практике антиалиазинг не может быть совершенным, но современные технологии максимально приблизили его к идеалу. …а мы тем временем переходим к оверсемплингу.

Что дают 24 бита

При обсуждении применения теоремы Котельникова к цифровому аудио мы для простоты забыли, что при квантовании (оцифровке) числа Dk
— это числа, записанные на компьютере, а, значит, это числа не любой точности, а какой-то определённой — той, что мы выберем для нашего аудиоформата. Это означает, что значения изначального сигнала записываются не точно, и это приводит к, вообще говоря, невозможности воссоздать оригинальный сигнал. Но как в реальности это влияет на воспринимаемый человеком звук при честном сравнении 16 и 24 битных сигналов? Проводились исследования, что лучше, 24/44 или 16/88 (да-да, именно так!), удвоение частоты качества не прибавило, а вот увеличение разрядности испытуемые определяли без проблем. В сторону 32 и 64 бит пока никто не смотрит, нет в природе устройств, которые бы могли реализовать потенциал 64-битного звука. А вот при внутренней обработке звука в музыкальных редакторах используют высокую разрядность под 64 бит и выше. Давайте поговорим о громкости звука. Громкость звука — это субъективная величина, возрастающая очень медленно при увеличении звукового давления и зависит от него, амплитуды и частоты звука. Уровень громкости звука — это относительная величина, которая выражается в фонах и численно равна
уровню звукового давления
, создаваемого синусоидальным тоном частотой 1 кГц такой же громкости, как и измеряемый звук.
Уровень звукового давления
(sound pressure level, SPL) измеряется в дБ относительно порога слышимости синусоидальной волны в 1 кГц для человеческого уха, а при возрастании звукового давления
в
2 раза, уровень звукового давления увеличивается
на
6 дБ. Приведу несколько значений звукового давления:

  • 20-30 дБ SPL – очень тихая комната (да-да, комната, в которой ничего не происходит).
  • 40-50 дБ SPL – обычный разговор.
  • 75 дБ SPL – крик, смех на расстоянии 1 метр.
  • 85 дБ SPL – опасная для слуха громкость — повреждение при длительном воздействии 8 часов в день, для некоторых людей эта величина может быть меньше . Примерно такая громкость на автостраде в час пик [Sound pressure levels]. Не знаю как вы, но я на такой громкости никогда не слушаю музыку — это становится понятно, когда иду в закрытых накладных/охватывающих наушниках мимо шоссе и пытаюсь слушать музыку.
  • 91 дБ SPL – повреждение слуха при воздействии 2 часа в день.
  • 100 дБ SPL – это максимальное допустимое звуковое давление для наушников по нормам Евросоюза.
  • 120 дБ SPL – почти невыносимо — болевой порог.
  • 140 дБ SPL и выше — разрыв барабанной перепонки, баротравма или даже смерть.

Эта сводная таблица уровней громкости рассчитана на воспроизведение с акустических систем, где негативное влияние оказывает высокое звуковое давление на все тело. В наушниках без особых проблем многие слушают под 130-140 дБ и никакого разрыва перепонки не случается. Слух попортить безусловно можно. Основные данные по болевым порогам получены от колонок, где наибольший вред наносят низкие частоты, которые действуют не столько на ухо, сколько на все тело, вводя в резонанс внутренние органы и разрушая их. Повредить грудную клетку от низких частот из наушников просто не реально. А вот в автомобиле от сабвуфера – в самый раз. Но более важно то, что таблица создавалась изначально под производственный шум на заводах. Ухо от наушников повредить можно на высокой громкости только в области верхних средних частот, где у уха есть собственный резонанс. Эффективный же динамический диапазон 16-битного аудио — 96 дБ. Сравнивая 130 и 96 дБ становится понятно, что разницу в звуке мы услышать можем. Но чисто теоретически. Во-первых, 96 дБ — это величина отношения сигнал/шум в типичных источниках звука. Во-вторых, для популяризации форматов высокого разрешения на студиях часто сводят звук для CD и DVD-Audio с несколько разным усердием и в итоге покупатель может слышать посредственно сведённый материал в первом случае и хорошо сведенный во втором. Последнее время стало модным выпускать ремастеры различных альбомов исполнителей. Но при этом большая часть таких ремастеров, сделанных на более новом оборудовании и в тяжеловесных форматах звучит существенно хуже, чем старые записи… Здесь возникает подозрение, что вместо качественного сведения талантливым звукорежиссером, все заменяется просто качественным оборудованием и уверенности, что это даст лучший результат, а если нет, то и так все раскупят. Получается, что с позиции технических параметров 24 бит всегда будут лучше, чем 16, но услышать это можно на качественно сделанных записях, если сделать запись с радио, то там различить 16 и 24 бита будет очень сложно. Таким образом стоит гнаться не за высокими форматами, а за качественно записанными и сведенными записями и стремится к повышению качества аппаратуры. Гонка к тяжеловесным форматам сопоставима с гонкой за мегапикселями фотоаппаратов, где любой профессионал знает, что итоговое качество от этого зависит довольно слабо. В дорогих системах порой используют отдельную обработку в виде SRC как в Colorfly C4 Pro, что при переводе 44.1/16>192/24 позволяет перевести ЦАП в другой режим работы и заменить его блок цифровой фильтрации сигнала (от альязинга) более совершенным внешним SRC конвертером. Так же отдельно сконвертированные файлы из 44.1/16 в 192/24 порой могут звучать лучше, но именно из-за особенностей используемого ЦАП и это дает повод задуматься над апгрейдом системы в целом. Надо отметить, что проверка различных DVD-Audio дисков порой выдавала удручающий результат, т.к. изначальный исходник для тяжеловесного формата был взят из стандартного CD-Audio.

 

 

###Вернемся к вашим ушам Мы обсудили диапазон частот, который способны распознавать уши, но что насчет динамического диапазона (это диапазон от наиболее тихого звука до самого громкого)?

 

Один из способов точно определить динамический диапазон – это снова посмотреть на кривые болевого порога и порога слышимости. Расстояние от наивысшей точки кривой болевого порога до самой низкой точки кривой слышимости составляет около 140 децибел – для молодого и здорового человека. Правда, слушать звук на такой громкости долго не получится, поскольку +130 дБ уже достаточно, чтобы повредить слух за несколько минут или даже секунд. Для справки скажу, что громкость отбойного молотка на расстоянии одного метра составляет 100-110 дБ.

Интересный момент: порог слышимости увеличивается с возрастом и потерей слуха, а болевой порог с возрастом уменьшается. Волосковые клетки улитки в ухе захватывают только часть всего диапазона в 140 дБ, поэтому мускулатура уха непрерывно регулирует количество звука, достигающего улитку, путем сдвига слуховых косточек – как радужка регулирует количество света попадающего в глаз . Механизм костенеет с возрастом, что ограничивает слуховой динамический диапазон и снижает эффективность защитных механизмов.

###Окружающий шум Немногие люди осознают, насколько тихим может быть звук на пороге слышимости человека.

Самое слабое звуковое давление, которое способен воспринимать человек, составляет -8 дБ SPL . По шкале А для измерения уровня шума, гул от лампы накаливания в 100 Вт на расстоянии одного метра составляет около 10 дБ SPL, что на 18 дБ громче. Гудение лампы будет намного громче, если подключить её к реостату.

Как пример звукового давления в 20 дБ SPL (что на 28 дБ громче самого тихого звука) часто приводится пустая студия звукозаписи или шумоизолированная комната. Найти место тише достаточно сложно, поэтому вы никогда не слышали шум, издаваемый лампочкой.

###Динамический диапазон 16 бит 16-битная линейная импульсно-кодовая модуляция имеет динамический диапазон в 96 дБ, в соответствии с наиболее общим способом подсчета, когда динамический диапазон вычисляется как (6*кол-во бит) дБ. Многие верят, что 16-битное аудио не передает произвольные звуки тише, чем -96 дБ. Это большое заблуждение.

Ниже я привел две ссылки на 16-битные аудиофайлы. Один содержит звук частотой 1 кГц, при громкости 0 дБ (где 0 дБ – самый громкий звук), а другой – также звук частотой 1 кГц, с громкостью -105 дБ.

  • Сэмпл 1: Звук 1 кГц при 0 dB (16 бит / 48 кГц WAV)
  • Сэмпл 2: Звук 1 кГц при -105 dB (16 бит / 48 кГц WAV)

Выше изображен график спектрального анализа звука громкостью -105 дБ перекодированный в формат 16/48 с помощью ИКМ. Громкость 16-битного аудио с применением ИКМ очевидно ниже 96 дБ, иначе -105 дБ нельзя было бы представить или услышать.

 

Как такое возможно? Закодировать этот сигнал без искажений так, чтобы он был значительно выше уровня шума, в то время как его амплитуда занимает треть бита?

Часть загадки разрешается за счет правильного псевдослучайного сигнала, что как бы делает шум квантования независимым от входного сигнала. Косвенно, это означает, что такой способ квантования не вносит искажений, а только некоррелированный шум. Это, в свою очередь, означает, что мы можем кодировать сигналы с произвольной битовой глубиной, включая сигналы с пиковыми амплитудами, менее чем одним битом . Тем не менее, псевдослучайный сигнал не меняет того факта, что если уровень сигнала опускается ниже уровня шума, то он практически исчезает. Как же звук громкостью -105 дБ по-прежнему различим на фоне шума в -96 дБ?

Ответ таков: мы неверно представляем характеристики шума в -96 дБ. Мы используем неприменимое определение динамического диапазона. Формула (6*кол-во бит) дБ дает нам среднеквадратичный шум всей полосы сигнала, а каждая волосковая клетка чувствительна только к узкому спектру от всей полосы частот. Поскольку каждая волосковая клетка слышит только часть общей энергии шумов, то уровень шума, принимаемый клеткой, будет намного ниже, чем весь диапазон частот громкостью -96 дБ.

16-битное аудио может обладать более глубокой модуляцией, чем 96 дБ, если использовать правильный псевдо-сигнал, который смещает энергию шума квантования в зону, где его сложнее расслышать. На практике 16-битное аудио может достигать громкости в 120 дБ.

120 дБ – это больше, чем разница между звуком комара в комнате и отбойным молотком в футе от вас. Или разница между пустой звуконепроницаемой комнатой и достаточно громким звуком, который способен повредить слух в секунды.

16 битов хватает, чтобы хранить весь слышимый спектр, и будет хватать всегда.

###Соотношение сигнал-шум Стоит сделать небольшое замечание о том, что соотношение сигнал/шум для уха меньше, чем динамический слуховой диапазон. Внутри заданной критической полосы, обычно, сигнал/шум составляет лишь 30 дБ. Отношение сигнал/шум не достигнет рамок диапазона слышимости, даже при условии расширения полосы частот. Это гарантирует, что формат 16 бит ИКМ обеспечивает разрешающую способность сверх необходимого.

Также стоит отметить, что увеличение битовой глубины звука с 16 бит до 24 не увеличивает разрешающей способности и «качество» звука. Это всего лишь расширит динамический диапазон – расстояние между самым тихим и самым громким звуком, за счет снижения уровня шума. Как бы то ни было, 16 бит уже обеспечивают уровень шума, который мы не в состоянии услышать.

 

###Когда 24 бита имеют значение? Профессионалы используют для записи музыки 24-битные сэмплы из-за меньшего уровня шумов и по соображениям удобства.

16 бит достаточно, чтобы охватить весь слышимый диапазон с запасом. Но он не охватывает весь возможный диапазон аудио-оборудования. Основная причина использования 24 бит во время записи – это избежание ошибок. Вместо того, чтобы осторожничать, выравнивая 16 бит по центру диапазона, рискуя отрезать верхние частоты или добавить шума, 24 бита позволяют оператору установить примерный уровень и более не думать об этом. Промах на пару бит не влечет за собой никаких последствий, а эффекты, которые динамически сжимают записанный спектр, имеют большее пространство для маневра.

Также инженеру требуется большее 16 бит при смешении сигналов и мастеринге. Современные рабочие процессы могут включать, буквально, тысячи эффектов и операций. Шум квантования и уровень собственных шумов 16-битной выборки могут быть незаметны при воспроизведении, но при увеличении такого шума в несколько тысяч раз, он сразу становится заметным, а 24-битный формат сохраняет накапливающийся шум на очень низком уровне. После того, как музыка готова к записи на диски, нет никаких причин оставлять больше чем 16 бит.

###Тесты на прослушивание Понимание живет там, где встречаются теория и реальность. Вопрос разрешается только тогда, когда они обе приходят в согласие.

Эмпирические данные, полученные из тестов на прослушивание позволили судить, что 44.1 кГц/16 бит обеспечивает максимально возможное качество воспроизведения. Множество контролируемых тестов подтвердили это, но я рекомендую недавнюю работу «Слышимость стандарта CD, аналогово-цифровое и цифро-аналоговое преобразование, использованное в воспроизведении аудио с высокой разрешающей способностью», проделанную местными ребятами из Бостонского аудио-сообщества.

К сожалению, для доступа к полному тексту работы нужно быть членом Общества звукоинженеров. Тем не менее, эта работа широко обсуждалась во многих статьях и на форумах, авторами, которые туда [в сообщество] входят. Вот несколько ссылок:

  • Новая частота дискретизации: насколько высоко качество современных CD?
  • Ветка форума Hydrogen Audio
  • Справочная информация со страницы Бостонского-аудио сообщества, включая перечень оборудования и список сэмплов

В ходе этой работы проводился эксперимент: были отобраны испытуемые, которые выбирали между записями на высококачественных аудио DVD/SACD, подобранными приверженцами звука высокой четкости, чтобы показать его превосходство, и теми же записями, но в CD формате 16/44.1 кГц. Слушателям нужно было выявить какие-либо различия между ними, используя методологию случайного выбора. Бостонское аудио-сообщество проводило эксперимент с использованием высокопрофессионального оборудования в шумоизолированной среде, как с обычными, так и с тренированными слушателями.

Среди 554 попыток, испытуемые выбирали «правильно» в 49.8% случаев. Другими словами, они пытались угадать. Ни один слушатель в течение всего теста не смог опознать, которая из записей была в формате 16/44.1, а какая была звуком высокой четкости . А 16-битный сигнал даже не был сглажен!

 

В еще одном недавнем исследовании изучалась возможность расслышать ультразвук, как предполагали более ранние исследования. Тест был построен таким образом, чтобы максимизировать возможность распознавания, для этого были добавлены интермодуляционные составляющие в места, где они были бы наиболее слышны. Было установлено, что нельзя услышать ультразвуковые волны… но оказалось, что искажения от интермодуляционных составляющих распознать можно.

Эта статья породила череду дальнейших исследований, результаты большей части которых противоречили друг другу. Некоторые неясности были разрешены, когда обнаружилось, что ультразвук может вызывать большее количество интермодуляционных искажений в усилителях мощности, чем ожидалось. Например, Дэвид Гризингер (David Griesinger) провел этот эксперимент и обнаружил, что его акустическая установка не вносила заметных интермодуляционных искажений, но зато их вносил усилитель.

###Читатель, будь осторожен Очень важно не вырывать отдельные работы или «комментарии экспертов» из контекста или брать их только с ресурсов, интересных вам. Не все статьи полностью соглашаются с этими результатами (а несколько даже не соглашаются с большей частью), поэтому легко наткнуться на мнение меньшинства, которое может доказывать любую точку зрения, которую вы можете вообразить. Несмотря ни на что, статьи и ссылки, приведенные выше, представляют большую важность и серьезный объем знаний и экспериментальных записей. Нет ни одной известной статьи, которая бы прошла испытание временем и поставила бы под сомнение состоятельность этих результатов. Споры происходят только среди потребителей и внутри сообществ меломанов.

Во всяком случае, количество неоднозначных, незаконченных и откровенно несостоятельных экспериментальных результатов, доступных в поиске Google, подчеркивает, насколько сложно провести точное и объективное исследование. Различные ученые ищут всякие мелочи, требуют проводить строгий статистический анализ, чтобы выявить подсознательные выборы, которые непреднамеренно делали испытуемые. Таким образом, мы скорее пытаемся доказать что-то, чего в принципе не существует, что делает положение вещей еще сложнее. Доказательство нулевой гипотезы сродни разрешению проблемы остановки – это нереально. Единственный вариант подтвердить что-то в этом случае – собрать достаточно много эмпирических данных.

Несмотря на это, работы, подтверждающие нулевую гипотезу – это действительно серьезное доказательство; подтвердить «не слышимость» экспериментально гораздо сложнее, чем обсуждать её. Неизвестные ошибки в тестовых методиках и оборудовании почти всегда дают ложноположительные результаты (из-за случайного внесения звуковых различий), а не ложноотрицательные.

Если профессиональные исследователи с таким трудом проводят исследование отдельных аудио-различий, то вы можете представить, как это трудно для любителей.

###Как (ненарочно) испортить результаты звукового эксперимента Самый «лучший» комментарий, который я слышал от людей, верящих в высококачественное аудио (перефразировано): «Я слышал высококачественный звук лично, и улучшение качества звучания очевидно. Вы серьезно хотите, чтобы я не верил своим ушам?»

Разумеется, вы можете верить собственным ушам. Но дело в том, что это мозг чересчур доверчив. Я не пытаюсь кого-то оскорбить, это проблема всех людей. ####Предвзятое мнение, эффект плацебо и двойное слепое тестирование Любое испытание, где слушатель может опознать два варианта по любым признакам, кроме как на слух, обычно приводит к результатам, которые слушатель ожидал заранее. Это называется предвзятостью и имеет схожесть с эффектом плацебо. Это означает, что люди «слышат» различия, из-за подсознательных сигналов и предпочтений, которые не имеют отношения к звуку – это как предпочесть более дорогой (или более привлекательный) усилитель более дешевому.

 

Человеческий мозг устроен таким образом, чтобы подмечать особенности и различия там, где их нет. И эту особенность нельзя отключить, просто попросив человека принимать объективные решения – это происходит на подсознательном уровне. Предвзятость нельзя ликвидировать скепсисом. Контролируемые эксперименты доказывают, что осознание принятия предвзятых решений лишь усиливает эффект! Тест, во время которого не было устранено влияние предвзятых суждений, ничего не стоит .

При одностороннем слепом тестировании слушатель ничего не знает заранее о вариантах и не получает никакой обратной связи в ходе испытания. Такое тестирование лучше прямого сравнения, но не исключает предвзятости экспериментатора. Тот, кто проводит тест, может непреднамеренно повлиять на его ход или передать свою собственную предвзятость слушателю неосторожными репликами (например: «Вы уверены, что это то, что вы слышите?», язык тела также может указать на «неправильный» выбор, и заставить сомневаться, и так далее). Влияние предвзятости человека, проводящего тест, на результаты слушателя также было подтверждено экспериментально.

Двойные слепые тесты – это стандарт, в таких тестах ни экспериментатор, ни слушатель не получают какой либо информации о содержании теста и текущих результатах. Наиболее известный пример – это ABX-тесты, проводимые компьютером, которые есть в свободном доступе – их можно запустить на вашем собственном ПК [19]. ABX-тесты подразумевают минимальное количество результатов слухового теста, до достижения которых они считаются неполноценными. Имеющие хорошую репутацию аудио-форумы, такие как Hydrogen Audio, часто запрещают любые обсуждения результатов слуховых тестов, если они не соответствуют минимальным требованиям объективности [20].

Выше изображено рабочее окно Squishyball – простой командной строки инструмента ABX, запущенного в xterm.

Лично я не проводил ни одного качественного сравнительного теста в процессе исследований (неважно, насколько серьезных) без применения ABX. Наука есть наука, тут нет места нерадивости.

####Проделки громкости Человеческое ухо может сознательно различать амплитудные различия громкости примерно в 1 дБ, и эксперименты показывают возможность определения различий в пределах 0,2 дБ на подсознательном уровне. Люди практически повсеместно считают громкий звук лучше, и 0,2 дБ достаточно, чтобы человек выказал предпочтение. По результатам любого сравнения, в котором неаккуратно выставлены амплитуды, будет наблюдаться явно выраженное предпочтение громкому звуку, даже если различия в громкости малы для того, чтобы осознать это. Продавцы аудио знают об этом трюке уже очень давно.

Профессиональный стандарт тестирования требует различия амплитуд на величину, не превышающую 0,1 дБ. Это часто требует использования осциллографа или анализатора сигналов, потому что подгадывать и крутить ручки, пока звук не совпадет, достаточно нерационально.

####Отсечение сигнала Отсечение сигнала – это еще одна ошибка (иногда проявляющаяся только с течением времени), которую легко допустить. Может оказаться, что несколько обрезанных сэмплов и их производные сигналы сравниваются с необрезанным сигналом.

 

Опасность отсечения части сигнала особенно разрушительна в тестах, которые дискретизируют, передискретизируют цифровые сигналы и управляют ими «на лету». Допустим, мы хотим сравнить качество звучания сигналов с частотой дискретизации 48 кГц и 192 кГц. Обычный способ провести такой эксперимент – обеспечить субдискретизацию из 192 кГц в 48 кГц, а затем снова провести повышающую дискретизацию до 192 кГц, после чего сравнить два этих сигнала в ABX-тесте [21]. Такой порядок позволяет нам исключить любую возможность изменения параметров оборудования или подмены сэмплов, влияющую на результаты. Мы можем использовать тот же ЦАП для воспроизведения обоих сэмплов и переключаться между ними без каких-либо изменений в режиме работы оборудования.

К сожалению, большинство сэмплов используют весь цифровой диапазон. Невнимательное применение передискретизации часто может привести к случайному обрезанию звука. Очень важно или следить за отсечением (и отбрасывать обрезанный звук), или избегать его, применяя различные методы: например, ослабление (аттенуацию) звука.

####Другой носитель – другая мастер-копия Я просмотрел несколько статей и блогов, которые утверждали о достоинствах 24 бит или 96/192 кГц, путем сравнения CD и аудио-DVD с «одинаковыми» записями. Такое сравнение несостоятельно, потому что для этих записей используются разные мастер-диски.

####Непреднамеренные сигналы Непреднамеренные аудио-сигналы практически неизбежны в старых аналоговых и гибридных цифро-аналоговых тестовых установках. Очевидно, что цифровые установки могут полностью устранить проблему в некоторых формах тестирования, но могут и увеличить количество потенциальных ошибок программного обеспечения. Такие ограничения и баги уже достаточно давно дают ложноположительные результаты в тестированиях [22].

Статья «Цифровые испытания – больше о ABX-тестировании» рассказывает увлекательную историю об удивительном тестировании слуха, проведенном в 1984 году, призванном опровергнуть авторитет меломанов того времени, которые поначалу утверждали, что CD уступает винилу. Статья касается не столько результатов испытания (я подозреваю, вы сможете догадаться, какими они были), сколько хаотичности мира, вовлеченного в проведение такого теста. Например, ошибка со стороны организаторов теста случайно показала, что приглашенный эксперт по прослушиванию делал выбор, основываясь не на качестве звучания, а скорее на различных потрескиваниях, которые производили реле коммутаторов.

Анекдотические истории не заменяют реальные данные, но эта история показывает, с какой легкостью скрытые недостатки могут влиять на слуховые тесты. Некоторые из убеждений меломанов тоже довольно забавны, например кто-то надеется, что многие из современных исследований будут считаться глупыми через 20 лет.

#####Примечания к Части 3

  1. Все знают это чувство, когда перепонки «разжимаются» после выключения громкой музыки.
  2. Несколько отличных графиков можно найти на сайте HyperPhysics.
  3. 20 мПа обычно принимаются за 0 дБ для удобства измерения. Это приблизительно равно порогу слышимости на частоте 1 кГц. На частотах от 2 до 4 кГц ухо настолько же чувствительно как на 8 дБ.
  4. В приведенной ниже статье описано лучшее объяснение сглаживания, что я встречал, хотя она [статья] больше о сглаживании изображений. Но первая половина охватывает теорию и практику сглаживания в аудио, перед тем как перейти к теме изображений. Кэмерон Николас Кристов, статья «Оптимальное сглаживание и ограничение шума на изображениях».
  5. Инженеры, занятые в цифровой обработке сигналов, могли заметить, как это сделал мой всезнающий соотечественник, что 16-битное аудио, в теории, может иметь бесконечный динамический диапазон для чистого звука, если вы воспользуетесь бесконечным рядом Фурье, чтобы преобразовать его. Эта концепция очень важна для радиоастрономии. Хотя работа уха не сильно отличается от преобразования Фурье, его разрешение относительно ограничено. Это накладывает ограничение на максимально возможную битовую глубину 16-битных сигналов.
  6. В производстве цифровой музыки используют 32-битные числа с плавающей точкой, потому что это очень удобно для современных процессоров, и потому что это полностью устраняет вероятность того, что случайное обрезание останется незамеченным и погубит композицию.
  7. Несколько читателей хотели узнать как тест Майера и Морана в 2007 году мог дать нулевой результат, если ультразвук может вызывать интермодуляционные искажения? Должно быть очевидно, что «мог» и «иногда» не то же самое что «смог» и «всегда». Интермодуляционные искажения от ультразвуковых волн могут появиться, а могут и не появиться в любой системе, при любом наборе условий. Нулевой результат Майера и Морана означает, что интермодуляционные искажения были неслышны на системах, которые они использовали во время теста. Вниманию читателей предлагается ознакомиться с простым тестом на определение интермодуляционных искажений, и определить интермодуляционный потенциал их собственного оборудования.
  8. Кару и Шого (Karou and Shogo), статья «Определение порога для звука, частотой выше 22кГц» (2001). Материал номер 5401, представленный на 110 собрании 12-15 мая 2001 года в Амстердаме.
  9. Дэвид Грезингер, статья «Восприятие средних частот и интермодуляционные искажения высоких частот в динамиках, и их взаимодействие с аудиозаписями высокого разрешения».
  10. Со времени публикации несколько комментаторов отправили мне похожие версии одного анекдота (перефразировано): «Я как-то слушал какие-то наушники/ усилители/ записи ожидая результат А, но был очень удивлен, когда пришел к результату Б! Доказано: предвзятость – это чушь!» Я могу сказать две вещи. Во-первых, предвзятость суждения не заменяет все верные результаты на неверные. Она склоняет результаты в труднопредсказуемом направлении на неизвестную величину. Как вы можете утверждать, что верно, а что – нет, наверняка, если тест был сфальсифицирован вашим подсознанием? Скажем, вы ожидали услышать большую разницу, но были удивлены, услышав малую разницу. Что если там не было разницы совсем? Или разница есть, но будучи осведомлённым о возможной предвзятости, ваш благонамеренный скептицизм скомпенсировал ваше мнение? Или, может быть, вы были совершенно правы? Объективное тестирование, например ABX, устраняет все эти неопределенности. Во вторых: «Вы думаете, что вы не судите предвзято? Отлично! Докажите это!» Значимость объективного теста заключается не только в его способности убедить нас, но и в способности убедить в этом других. Заявления требуют доказательств. Чрезвычайные заявления требуют экстраординарных доказательств.
  11. Наверно, самые простые инструменты для ABX-тестирования: Foobar2000 с ABX-плагином Squishyball и инструмент командной строки Linux, которым пользуемся мы в Xiph
  12. На Hydrogen Audio, аббревиатура TOS8 (objective testing requirement) обозначает необходимое условие тестирования, цифра 8 обозначает восьмой пункт условий предоставления услуг.
  13. Принято считать, что передискретизация наносит непоправимый вред сигналу. Это совсем не так. По крайней мере, до тех пор, пока кто-то не допустит ошибку, например, обрезав сигнал. Субдискретизированный, а потом дискретизированный снова сигнал будет неотличим от оригинала. Это обычный тест, используемый для установки более высоких параметров дискретизации, что не обязательно.
  14. Это, может быть, не связано напрямую со звуком, но… нейтрино что, быстрее скорости света, серьезно?

Дополнительно

Ну что же, если наша цель заключается в том, чтобы наслаждаться звучанием, то осталось понять, что новость про бессмысленность 24/192 даже и не плохая вовсе — она, на самом деле говорит о том, что качество звука улучшить можно, но для этого не надо гнаться за тяжеловесными форматами. Но раз существует как минимум два мнения по поводу «16/44.1 против 24/192», то, может быть есть и ещё какие-то иные и интересные мнения? Да, есть. Как минимум есть ещё две интересные статьи с неожиданными выводами: «Coding High Quality Digital Audio» от J. Robert Stuart (статья на английском) и «24/192 Music Downloads… and why they make no sense» от Monty, разработчика формата OGG (эта статья тоже на английском, она утверждает, что 24 бита тоже бессмысленны).

 

Резюме

  • Нет смысла хранить аудио в 24/192, поскольку это не улучшит качество звука просто так.
  • 192 кГц бессмысленны потому, что позволяют записывать звуки с частотами, которые мы не слышим, а все слышимые звуки есть в 44.1 кГц.
  • Кстати, если бы на этих частотах содержалась какая-нибудь информация, и если бы она воспроизводилась цифро-аналоговым преобразователем, то она бы вносила дополнительные искажения (шумы) в слышимом диапазоне частот. А вы знаете причины такого поведения аудиосистемы?
  • 24 бита позволяют записывать звуки такой громкости, какую мы не можем слышать на обычной аппаратуре (или позволяет записывать громкость слышимых звуков с такой точностью, которая неотличима от 16 бит).
  • Из-за когнитивных искажений мы можем считать, что разница между 16/44.1 и 24/192 существует и заметна.
  • Многие маркетинговые ходы и стратегии основываются на когнитивных искажениях и незнании.
  • Качество звучания можно улучшить, но другими способами.

Автор:
Другие авторы:
Роман Кузнецов 14.12.2012

Нашли опечатку в тексте?

Выделите и нажмите
Ctrl+Enter
. Это не требует регистрации. Спасибо.

Соотношение сигнал/шум

Стоит вкратце упомянуть, что соотношение сигнал/шум для ушей меньше, чем их абсолютный динамический диапазон. В заданной узкой полосе типичное значение составляет всего лишь ~30 дБ. Относительное значение сигнал/шум не достигает полного динамического диапазона, даже если рассматривать широкую полосу частот. Это гарантирует, что 16-битная ИКМ обеспечивает даже большее разрешение, чем это необходимо.

Примечание переводчика: под динамическим диапазоном подразумевается разница между самым громким и самым тихим воспринимаемым звуком. Соотношение же сигнал/шум характеризует разницу между воспринимаемым сигналом и сопутствующим ему шумом. Таким образом, по видимому, орган слуха в процессе восприятия вносит свои шумы, которые по уровню находятся примерно на 30 дБ ниже воспринимаемого сигнала.

Также надо сказать, что увеличение разрядности аудио с 16 до 24 бит никоим образом не влияет на «прозрачность» его звучания. Это лишь увеличит динамический диапазон, т.е. разницу между самым тихим и самым громким звуком, за счет снижения шумовой полки. Причем шумовая полка 16 бит — уже за пределами возможностей нашего слуха.

От admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *