Вероятно, среди читателей этой страницы нет ни одного, кто бы не слышал музыку восстановленную из оцифровки (MP3, WAV, WMA, MP4, AVI, AI). Скорее всего, многие читатели встречали, хотя бы на картинках, и аппаратуру Hi-END класса - высококачественные усилители, CD проигрыватели с заявкой на "высший класс".
Большинство, так или иначе сталкивалось и с такими фразами, как "тёплый ламповый звук" и "сухое цифровое звучание", некоторые скорее всего даже смеялись над фразой "при воспроизведении с этого CD флейта гуляет по сцене".
Сегодня я открою вам, господа заседатели глаза на суровую правду оцифрованного звука, вернее я просто покажу, что нет никакого качественного и тем более высококачественного звука в цифре и быть не может.
Вы воочию увидите, что не важно на какой частоте оцифровывать: 48000 или 44100, совершенно не важно 8, 12 или 16 бит.
Принцип оцифровки звука
При оцифровке звука электроника делает N выборок уровня сигнала в секунду и каждая выборка представляет M бит значения уровня напряжения на сигнальном входе в момент когда делается выборка.
Для 8 бит, это 256 уровней сигнала;
Для 12 бит, это 4095 уровней;
Для 16 бит это 65536 уровней напряжения входного сигнала.
То есть всё работает так - если система обладает частотой дискретизации 44100 и имеет дискретность 16 бит, то это значит она 44100 раз в секунду измеряет напряжение на входе по шкале из 65536 значений.
При воспроизведении весь процесс происходит в обратном порядке, система 44100 раз в секунду изменяет уровень напряжения на своём выходе устанавливая его в одно из 65536 возможных значений.
Для лучшего понимания, пара иллюстраций (красные точки отмечают где во времени мы запоминали значение напряжения на входе).
Так мы оцифровываем звук:
Так мы воспроизводим оцифрованный звук:
Очевидно, что чем больше число бит (больше градаций уровня), тем точнее мы сможем записать и воспроизвести звук, в частности на иллюстрациях видны погрешности воспроизведения, которые возникли из за того, что при записи было слишком мало градаций возможных значений и системе приходилось записывать ближайшие значения, а не точно те, которым напряжение соответствовало на входе.
Действительно важная информация применительно к качеству оцифрованного звука
Обычно очень мало внимания уделяется частоте дискретизации, а это чертовски важный параметр!
По теореме Котельникова, она же теорема Найквиста - Шеннона выходит, что для записи сигнала на частоте F минимум надо сделать F*2 выборок сигнала, вот только мало кто думает головой и продолжает мысль того же Котельникова, а если бы продолжили, то поняли, что утверждение F*2 справедливо для однобитной записи!
Проиллюстрирую это, в данном примере, предположим что частота сигнала аккурат равна Fдискретизации / 2, то есть если 44100 частота дискретизации то на рисунке сигнал частотой 22050Гц.
Вот здесь мы записывали:
А вот здесь воспроизводили:
Совершенно очевидно, что не особо важно, сколько по вертикали было уровней, сигнал испортило то, сколько выборок было по горизонтали!
Теперь продолжим мысль товарища Котельникова, господина Найквиста и господина Шеннона:
для записи сигнала на частоте F с числом градаций уровня M нужна частота дискретизации:
F * 2 * M
То есть для записи звука частотой 22050Гц с разрядностью 8 бит (256 уровней) нам потребуется частота дискретизации:
22050 * 2 * 256 = 11 289 600 Гц
А для записи полноценного 16-ти битного звука уже:
22050 * 2 * 65536 = 2 890 137 600 Гц
или 2.8 гигагерца!
Для сравнения - сигнал телепередачи 1 канала телевизора излучается в эфир на частоте 229 мегагерц, сотовые телефоны передают сигналы в эфир на частоте 1900 мегагерц или 1.9 гигагерца, а микроволновые печи разогревают еду сигналом частотой порядка 2458 мегагерца или 2.458 гигагерца.
Получается что для поистине качественной записи всего на 8 бит нам уже нужна частота дискретизации уже в области радиочастот, частот, на которых радиоволны передаются!
Скажу несколько слов об усилителях класса D, то есть о тех, которые сначала преобразуют сигнал в цифру, обычно в последовательность ШИМ (PWM) а затем обратно путём интеграции преобразуют ШИМ в звук.
Этим усилителям, для качественного воспроизведения потребуется генерировать ШИМ с длительностью импульсов 1/11289600 секунды, то есть средняя частота, которую создаёт их ШИМ генератор, в то время когда напряжение на его входе равно нулю, должна быть точно те самые 11 мегагерц или выше.
Любой человек знакомый с электроникой понимает, что на 2 гигагерца работать с цифрой сложно, не говоря уже про то, какой ценой и сложностью можно будет сгенерировать сигналы достаточной мощности на этой частоте (хотя бы 1 ... 10 ватт).
Кстати, теперь, надеюсь вы понимаете, почему в начале я сказал, что совершенно не важно 44100 или 48000 частота дискретизации вашей звуковой карты, CD плеера или иного устройства, эта разница просто блекнет рядом с числом 2890137600.
Да и к слову, объёмы записи для таких систем были бы огромны, например если бы мы пожелали создать систему поистине качественной цифровой записи 16-ти битного звука, то на каждую секунду записи потребовалось бы расходовать 5.7 гигабайта места.
Наверно тебе, уважаемый читатель, интересно, как же мы спокойно слушаем записи на 44100 х 16 бит и слышим не хрипение и шипение, а вполне качественный звук?
Всё очень просто - наши уши не идеальный инструмент и мозг знает об этом, он выработал способы расшифровки сигналов, которые ему выдаёт ухо, вот нам и кажется что всё в порядке хотя даже звуки на частоте 5000 герц пройдя через оцифровку лучшего CD диска и проигрывателя превратились в ужасные искажения их оригинальной формы.
Любой желающий может взять любой звуковой редактор, записать звук, скажем синусоидальной формы частотой 5000гц, на тех же 44100х16бит и посмотреть, что каждое колебание представлено в горизонтальной оси (оси времени) всего лишь 9-ю точками, в то время как по вертикальной оси оно будет представлено одним из 65536 значений.
Где спрятан тёплый ламповый звук?
В начале текста я говорил о "тёплом ламповом звуке" и других призвуках усилителей, вернусь к этому и обращу внимание на то, что и без всякой оцифровки потребовались бы очень широкополосные усилители для воспроизведения оригинальной, истиной формы звука. По крайней мере, они должны были бы без малейших искажений усиливать частоты от 20 Гц до примерно 10 000 000 Гц.
Ещё нам бы потребовались и излучатели звука с таким же диапазоном и звукосниматели и микрофоны.
В связи с ужасающей сложностью создания таких систем, их нет и не будет никогда.
Так вот, все призвуки и окраски звука, спрятаны как раз там, где усилителю приходится сталкиваться с изменениями напряжения на входе, такими быстрыми, что если бы они происходили непрерывно, то их частота была бы гораздо выше 22050 Гц или 44100 Гц и даже 1 000 000 Гц.
Собственно так как у одних людей уши более качественный инструмент а у других менее качественный, у одних мозг выработал более простые алгоритмы коррекции не идеальности ушей а у других сложнее, одни могут услышать разницу между ламповым звуком воспроизводимым с грампластинки, другие не слышат этой разницы, считая что 48кГц при 24 битном звуке это уже высшее качество.
Лично я не слышу никакой разницы между двумя достаточно качественными усилителями одной ценовой группы, но благодаря арифметике, товарищу Котельникову, господам Найквисту, Шеннону и личному здравому смыслу я знаю - она, разница, есть.
|