Физиологическая акустика и психоакустика

Высота тона и центральный процессор

Восприятие высоты тона для сложных музыкальных сигналов, как указано выше, начинается с анализа в периферической слуховой системе, где производится их частотный и временной анализ, а затем полученная информация передается в высшие отделы мозга – “центральный слуховой процессор”, где полученная информация определенным образом группируется и осмысливается.

Мозг группирует несколько тонов (гармоник) с одинаковым частотным интервалом в одно ощущение высоты тона. Это принципиальное свойство слухового процессора (высших отделов коры головного мозга): из сложного внешнего звукового мира он выделяет звуки и группирует их по определенным признакам: по месту, по времени начала и конца, по периодичности повторений и т.п. Это связано с тем, что кратковременная память оперирует только шестью-семью символами и без группировки мозг не может принимать быстрых решений.

Современная психология утверждает, что мозг мыслит образами. По-видимому, музыкальные звуки также запоминаются в виде некоторых гармонических эталонов (шаблонов – template), которые формируются в детстве, аналогично звукам речи.

В настоящее время принята гипотеза, что центральный процессор, получив информацию от периферической слуховой системы о наличии компонент с кратными периодами в музыкальном звуке, группирует их и сравнивает с гармоническим шаблоном, в котором имеются все последовательные гармоники. Для каждого входного сигнала подбирается по фундаментальной частоте гармонический шаблон, который ему лучше подходит. В соответствии с этой моделью наиболее соответствующая фундаментальная частота подобранного шаблона и будет воспринимаемой высотой тона. Если два шаблона с разными фундаментальными частотами подходят к данному сигналу, можно ожидать услышать или неопределенную высоту или две высоты. В случае отсутствия фундаментальной частоты, сравнение производится по отдельным гармоникам. Если удается подобрать хотя бы несколько гармоник, которые подходят под эталон, то по повторяющемуся интервалу между ними присваивается высота тона (виртуальная высота тона слышится, например, в звуке колоколов). Наиболее важными для синтеза ощущения высоты тона являются первые три – шесть развернутых гармоник. Компоненты сигнала, которые ведут себя аномально (например, одна гармоника включается-выключается или резко отличается от шаблона), выделяются центральным процессором и им присваивается отдельная высота.

Имеется много доказательств в поддержку данной гипотезы: например, при подаче разных гармоник в разные уши через телефоны (600 Гц в одно ухо и 800 Гц в другое), отчетливо слышен разностный тон высотой, соответствующей частоте 200 Гц, т.е. центральная система синтезирует высоту из гармоник в разных ушах. Другое доказательство, когда гармоники предъявляются неодновременно: при последовательном включении третьей, четвертой и пятой гармоники по 40 мс с интервалом10 мс, отчетливо слышался низкий тон с фундаментальной частотой и т.п.

Таким образом, в соответствии с этой моделью, гармоники собираются вместе, сравниваются центральным процессором с гармоническим эталоном (шаблоном) и по нему синтезируется высота музыкального тона.

Говоря о высоте комплексного тона, можно сказать, что “высота – великий консолидатор”. Начиная с большого количества гармоник, процессор высоты объединяет их вместе в одно ощущение высоты. Слуховая организация определения высоты – основная часть осмысления звуков окружающего мира.

Важность определения высоты для слуховой системы не случайна и, вероятно, вовсе не результат стремления всего человечества сочинять музыку. Восприятие высоты играет центральную роль в определении индивидуальных объектов в акустическом мире и отделении их друг от друга

Окружающий мир наполнен конкурирующими звуками: интересными, угрожающими, шумовыми и др., все смешано вместе и слуховая система несет ответственность за их выделение и идентификацию. Высота есть главный идентификатор, позволяющий отделять данный звук от других объектов.

Примечания

  1. . Дата обращения: 4 февраля 2013.
  2. Fletcher H., Munson W. A. Loudness, its definition, measurement and calculation // J.Acoust. Soc Am.5, 82-108 (1933)
  3. Robinson D. W., Dadson R. S. A re-determination of the equal-loudness relations for pure tones // Br. J. Appl. Phys. 7, 166—181, 1956)
  4. Тигранян Р. Э., Шорохов В. В. Физические основы слухового эффекта СВЧ / Ответственный редактор — д-р физ.-мат наук проф. Л. П. Каюшин. — Пущино: ОНТИ Пущинского научного центра АН СССР, 1990. — 131 с. — 370 экз.
  5. Zölzer U. Digital audio signal processing. – New York: Wiley, 2008. – Т. 9. – C. 280-284
  6. M. R. Schroeder, B. S. Atal, J. L. Hall: Optimizing Digital Speech Coders by ExploitingMasking Properties of the Human Ear, J. Acoust. Soc. Am., Vol. 66, No. 6, pp. 1647–1652, December 1979.
  7. ↑ J. D. Johnston: Transform Coding of Audio Signals Using Perceptual Noise Criteria, IEEE J. Selected Areas in Communications, Vol. 6, No. 2, pp. 314–323, February 1988.
  8. ↑ J. D. Johnston: Estimation of Perceptual Entropy Using Noise Masking Criteria, Proc. ICASSP-88, pp. 2524–2527, 1988.
  9. R. P. Hellman: Asymmetry in Masking between Noise and Tone, Perception and Psychophys., Vol. 11, pp. 241–246, 1972.
  10. R. Kapust: A Human Ear Related Objective Measurement Technique Yields Audible Error and Error Margin, Proc. 11th Int. AES Conference – Test & Measurement, Portland, pp. 191–202, 1992.

Современная теория восприятия высоты тона

Согласно современным теориям мозг принимает информацию от периферийной слуховой системы как за счет индикации места (частотный анализ), так и за счет информации о форме звуковой волны (временной анализ). Самостоятельно каждая теория, по-видимому, не может объяснить восприятие высоты полностью, т.к. та и другая информация передается по одним и тем же нервным волокнам.

Современная модель для восприятия высоты тона, объединяющая оба метода, показана на рисунке 11: сначала идет фильтрация сигнала по частоте с помощью развертки по месту, затем – анализ по межимпульсным интервалам (до шестой-седьмой гармоники они соответствуют периоду каждой гармоники), выше – по периоду огибающей. Поскольку период огибающей равен периоду основной частоты, то здесь различие высоты тона определяется только по месту возбуждения. Так определяется общий период, и по нему данному звуку присваивается определенная высота. Таким образом, обе теории дополняют друг друга.

Анализ восприятия высоты музыкального тона с помощью предложенной модели позволил получить ряд интересных результатов:

а) для музыкальных тонов с основной частотой от 100 до 400 Гц (с уровнем звукового давления не менее 50 дБ) основную роль в определении высоты тона играют первые пять-шесть гармоник (если их уровень превышает 10 дБ), т.е. те гармоники, которые разворачиваются слуховыми фильтрами;

б) звуковые сигналы, содержащие только очень высокие гармоники (свыше двадцатой), не вызывают ощущения высоты тона;

в) музыкальные сигналы, содержащие очень низкие частоты (с основной частотой ниже 50 Гц, например, звуки органа) вызывают ощущение высоты тона только по гармоникам, т.к. такие низкие частоты не вызывают смещений базилярной мембраны – они на ней не размещаются, им не хватает места. При этом наиболее существенную роль играют пятые-шестые гармоники;

г) основная частота звука, если она выше 1000 Гц, является доминантной компонентой в определении высоты тона;

д) музыкальные звуки, содержащие только неразвернутые гармоники (свыше шестой) могут дать ощущение высоты тона по огибающей, при этом слух дает достаточно тонкую дифференциацию сдвига максимума огибающей, т.е. точно чувствует высоту.

е) фазовые соотношения различных гармоник в музыкальном сигнале оказывают влияние на восприятие высоты, т.к. их изменение приводит к изменению структуры огибающей для высших неразвернутых гармоник. Для музыкальных сигналов, содержащих много низких и высоких гармоник, изменение фазовых соотношений может привести к улучшению четкости восприятия высоты, не вызывая ее сдвига (т.к. они не влияют на оценку низших развернутых гармоник). Для сигналов, содержащих в основном высокие гармоники, изменение их фазы может вызвать сдвиг высоты тона и изменение его четкости, т.к. может привести к сдвигу пиков в огибающей, по которым и определяется высота тона.

Таким образом, фазовые соотношения в музыкальном сигнале оказывают существенное влияние на звуковысотные отношения, что особенно важно учитывать в звукорежиссерской практике

Фундаментальная наука [ править ]

Хотя способ взаимодействия звука с окружающей средой часто бывает чрезвычайно сложным, существует несколько идеальных вариантов поведения звуковых волн, которые имеют основополагающее значение для понимания акустического дизайна. Сложное поведение звуковой волны включает поглощение , реверберацию , дифракцию и преломление . Поглощение – это потеря энергии, которая происходит, когда звуковая волна отражается от поверхности. Подобно тому, как световые волны отражаются от поверхностей, звуковые волны также отражаются от поверхностей, и каждое отражение приводит к потере энергии. Поглощение относится как к звуку, который проходит через материал, так и к энергии, рассеиваемой им. Реверберация – это стойкость звука, вызванная повторяющимися граничными отражениями после прекращения источника звука. Этот принцип особенно важен в закрытых помещениях. Звуковые волны не только отражаются от поверхностей, но и огибают поверхности на своем пути. Этот изгиб известен как дифракция. Преломление – это еще один вид изгиба звуковой волны. Однако этот тип изгиба вызван изменениями в среде, через которую проходит волна, а не наличием препятствий на пути звуковой волны. Например, перепады температуры вызывают искривление звуковых волн. Инженеры-акустики применяют эти фундаментальные концепции вместе со сложным математическим анализом для управления звуком в различных приложениях.

Литература

  • Гельмгольц Г. Учение о слуховых ощущениях как физиологическая основа для теории музыки. Пер. с нем. СПб., 1875.
  • Алдошина И. Основы психоакустики. Оборонгиз., Москва, 2000.
  • Штумпф К., Tonpsychologie, 1883, Bd. 1, 1890, Bd. 2 («Психология музыкального восприятия»).
  • Meyer M. F., Contributions to a psychological theory of music (1901).
  • Мейер М., The Musician’s Arithmetic (1929).
  • Мейер М., How we hear: How tones make music (1950).
  • Roederer J.G. Introduction to the physics and psychoacoustics of music. N.Y.: Springer, 1975
  • Howard D., Angus J. Acoustics and psychoacoustics. Oxford: Focal Press, 2001.

Инженер-акустик (профессионал) [ редактировать ]

Инженеры-акустики обычно имеют степень бакалавра или более высокую квалификацию в области акустики , физики или другой инженерной дисциплины. Практика инженера-акустика обычно требует степени бакалавра со значительным научным и математическим содержанием. Инженеры-акустики могут работать в консалтинговой компании по акустике, специализируясь в определенных областях, таких как архитектурная акустика , шум окружающей среды или контроль вибрации . В других отраслях инженеры-акустики могут: проектировать автомобили.звуковые системы; исследовать реакцию человека на звуки, например звуковые пейзажи городов и бытовые приборы; разрабатывать программное обеспечение для обработки аудиосигналов для микшерных пультов, а также проектировать громкоговорители и микрофоны для мобильных телефонов. Акустики также участвуют в научных исследованиях и изучении звука. Некоторые должности, такие как факультет, требуют наличия доктора философии .

В большинстве стран диплом по акустике может представлять собой первый шаг к профессиональной сертификации, а программа на получение степени может быть сертифицирована профессиональным органом . После завершения сертифицированной программы получения степени инженер должен удовлетворить ряд требований, прежде чем будет сертифицирован. После сертификации инженер получает звание дипломированного инженера (в большинстве стран Содружества ).

Пределы восприятия звука

Человек номинально слышит звуки в диапазоне от 16 до 20 000 Гц. Верхний предел как и нижний имеет тенденцию снижаться с возрастом. Большинство взрослых людей не могут слышать звук частотой выше 16 кГц. Ухо само по себе не реагирует на частоты ниже 20 Гц, но они могут ощущаться через органы осязания.

Диапазон громкости воспринимаемых звуков огромен. Но барабанная перепонка в ухе чувствительна только к изменению давления. Уровень давления звука принято измерять в децибелах (дБ). Нижний порог слышимости определён как 0 дБ (20 микропаскаль), а определение верхнего предела слышимости относится скорее к порогу дискомфорта и далее — к нарушению слуха, контузии и т. д. Этот предел зависит от того, как долго по времени мы слушаем звук. Ухо способно переносить кратковременное повышение громкости до 120 дБ без последствий, но долговременное восприятие звуков громкостью более 80 дБ может вызвать потерю слуха.

Более тщательные исследования нижней границы слуха показали, что минимальный порог, при котором звук остаётся слышен, зависит от частоты. График этой зависимости получил название абсолютный порог слышимости. В среднем, он имеет участок наибольшей чувствительности в диапазоне от 1 кГц до 5 кГц, хотя с возрастом чувствительность понижается в диапазоне выше 2 кГц.


Зависимость уровня громкости от звукового давления и частоты (кривые равной громкости)

Кривая абсолютного порога слышимости является частным случаем более общих — кривых одинаковой громкости, изофонов: значения звукового давления на разных частотах, при котором человек ощущает звуки одинаково громкими. Кривые были впервые получены Флетчером и Мансоном (H. Fletcher and W. A. Munson) и опубликованы в 1933 году в труде «Loudness, its definition, measurement and calculation». Позже более точные измерения выполнили Робинсон и Датсон (D. W. Robinson and R. S. Dadson). Полученные кривые значительно различаются, но это не ошибка, а разные условия проведения измерений. Флетчер и Мансон в качестве источника звуковых волн использовали наушники, а Робинсон и Датсон — фронтально расположенный динамик в безэховой комнате.

Измерения Робинсона и Датсона легли в основу стандарта ISO 226 в г. В 2003 году стандарт ISO 226 был обновлён с учётом данных, полученных в результате измерений при проведении 12 новых международных исследований.

Существует также способ восприятия звука без участия барабанной перепонки — так называемый микроволновый слуховой эффект, когда импульсное или модулированное излучение в микроволновом диапазоне воздействует на ткани вокруг улитки, заставляя человека воспринимать различные звуки.

Временная теория

Временная теория восприятия высоты базируется на анализе временной структуры звуковой волны (теория места на ее спектральном анализе). Эта теория использует синхронизацию разрядов нейронов органа Корти с фазой колебания базилярной мембраны (эффект запирания фазы). При смещениях определенной точки мембраны в сторону расположения волосковых клеток в них возникает электрический потенциал, при смещении в противоположную сторону – потенциал отсутствует. Благодаря фазовому запиранию время между импульсами в любом отдельном волокне будет равно целому числу 1, 2, 3… умноженному на период в основной звуковой волне. Нервные волокна кооперируются, чтобы кодировать частоты выше 300 Гц.

Основа временной теории – анализ формы волны в различных частях базилярной мембраны. Если рассматривать механизм частотного анализа на базилярной мембране как работу линейки фильтров различной ширины, то форма волны звукового сигнала, выходящего из этого набора фильтров, должна иметь вид, показанный на рисунке 10а. Например, если анализируется музыкальный тон с основной частотой 200 Гц, то выход из фильтра с центральной частотой 200 Гц имеет форму синусоидальной волны, т.к. эта гармоника разворачивается анализирующим фильтром. Аналогично разворачиваются этими фильтрами и все гармоники до пятой (около 1300 Гц). На выходе они имеют синусоидальную волну. Шестая гармоника (около 1560 Гц) имеет уже вариации амплитуды, но индивидуальные циклы еще видны. Волновая форма выходного сигнала для фильтра, центральная частота которого (в данном примере) выше шестой, не синусоидальная, т.к. гармоники не разворачиваются индивидуально, демонстрируя, что частотный диапазон полосового фильтра шире, чем расстояния между ними. По меньшей мере две гармоники комбинируются на выходе этого фильтра. Известно, что если две частоты находятся достаточно близко друг от друга, между ними возникают биения, т.е. одно колебание со средней частотой, равной разности частот. В данном случае, когда взаимодействуют две гармоники, этот период определяется фундаментальной частотой T=1/f0. Таким образом, период всех волн, выходящих после фильтров с центральной частотой выше шестой гармоники и состоящих из соседних гармоник, будет одинаковым и равным 1/f0.

Минимальное время между импульсами от различных мест на базилярной мембране определяется периодом волны, выходящей от соответствующего фильтра. Для мест, которые соответствуют частотам от основной до шестой гармоники, минимальное время равно периоду данной гармоники. Для мест, соответствующих более высоким гармоникам, промежутки между импульсами равны периоду огибающей, т.е. основному тону (Рис. 10б). Таким образом, выше шестой гармоники разряды нейронов синхронизированы с формой огибающей, и период разрядов совпадает с периодом для фундаментальной частоты. Иными словами, для всех гармоник периоды разрядов или равны, или отличаются в целое число раз от частоты основного тона.

Это основа временной теории восприятия высоты тона: мозг определяет периодичность разрядов и по ним восстанавливает частоту основного тона.

Восприятие музыкальной высоты связано с оценкой временной формы звукового сигнала (за счет использования эффекта “фазового запирания”).

Временная теория позволяет понять, как найти фундаментальную частоту на основе анализа временных интервалов между нервными импульсами от различных мест на базилярной мембране и по ней определить высоту тона. Однако, временная теория не объясняет восприятия высоты тона на частотах выше 5000 Гц, т.к. эффект фазового запирания не срабатывает на этих частотах. Вероятно, в этой области частот меняется механизм восприятия высоты тона.

Необходимо отметить, что на частотах выше 5 кГц в слуховой диапазон (до 20 кГц) попадают только две-три слышимых гармоники, этого слишком мало для слуха, поэтому, как уже было показано выше, восприятие высоты тона существенно обедняется и практически заканчивается восприятие музыкальной высоты (chroma pitch) тона (интонации). Вероятно, по этой причине, которая была интуитивно известна музыкантам, на большинстве музыкальных инструментов (рояль и др.) клавиатура заканчивается в области 5 кГц. На органе есть трубы, которые дают тон 8 кГц, но они употребляются только вместе с другими.

Психоакустика в программном обеспечении

Психоакустические модели слуха позволяют с высоким качеством производить компрессию сигнала с потерей информации
(когда восстановленный сигнал не совпадает с исходным), за счет того, что позволяют точно описать,
что можно безопасно удалить из исходного сигнала — то есть без значительного ухудшения качества звука.
На первый взгляд может показаться, что вряд ли это позволит обеспечить сильное сжатие сигнала, однако программы,
использующие психоакустические модели, позволяют добиться уменьшения объёмов файлов с музыкой в 10—12 раз[неопределённость], и при этом разница в качестве будет не очень значительна.

К таким видам компрессии относятся все современные форматы сжатия звука с потерями:

  • MP3 — практически то же самое что и Musicam, который используется для цифрового аудиовещания в некоторых странах, и считающийся более профессиональным алгоритмом сжатия (также известен как MPEG-1 Layer 3).
  • Ogg Vorbis
  • WMA
  • AAC
  • Musepack
  • ATRAC — используется в формате MiniDisc и в некоторых портативных MP3-плеерах Sony

Эффект маскировки

В определённых случаях один звук может быть скрыт другим звуком. Например, разговор рядом с железнодорожными путями может быть совершенно невозможен, если мимо проезжает поезд. Этот эффект называется маскировкой. Говорят, что слабый звук маскируется, если он становится неразличимым в присутствии более громкого звука.

Различают несколько видов маскировки:

  • По времени прихода маскирующего и маскируемого звука:
    • одновре́менное (моноуральное) маскирование
    • вре́менное (неодновременное) маскирование
  • По типу маскирующего и маскируемого звуков:
    • чистого тона чистым тоном различной частоты
    • чистого тона шумом
    • речи чистыми тонами
    • речи монотонным шумом
    • речи импульсными звуками и т. п.

Одновременная маскировка


Пример маскирования одного тона другим тоном более высокой частоты. В данном случае низкочастотный тон не будет слышен, так как значение его уровня давления не превышает порог маскирования (masking threshold).

Любые два звука при одновременном прослушивании оказывают влияние на восприятие относительной громкости между ними. Более громкий звук снижает восприятие более слабого, вплоть до исчезновения его слышимости. Чем ближе частота маскируемого звука к частоте маскирующего, тем сильнее он будет скрываться. Эффект маскировки не одинаков при смещении маскируемого звука ниже или выше по частоте относительно маскирующего.

Для математического описания границ влияния тона на соседние частоты в литературе используется понятие функции распространения (spreading function), с помощью которой задается порог маскирования:

10log10B(Δi)=15.81+7.5(Δi+0.474)−17.51+(Δi+0.474)20.5dB{\displaystyle 10log_{10}=15.81+7.5(\Delta _{i}+0.474)-17.5^{0.5}}

где Δi{\displaystyle \Delta i} – это расстояние между двумя критическими диапазонами по шкале Барков.

На основе функции распространения может быть вычислено маскирование критического диапазона i критическим диапазоном j:

Sm(i)=∑j=24B(i−j)Sp(i)W{\displaystyle S_{m}(i)=\sum _{j=0}^{24}B(i-j)S_{p}(i)}

где Sp(i){\displaystyle S_{p}(i)} – это мощность сигнала в i-том критическом диапазоне.

Чтобы определить степень маскирования в ситуации, когда маскирующих тонов много, используют понятие глобального порога маскирования:

Tm(i)=10log10Sm(i)−O(i)10W{\displaystyle T_{m}(i)=10^{log_{10}S_{m}(i)-O(i)/10}}

где O(i)=α(14.5+i)+(1−α)avdB{\displaystyle O(i)=\alpha (14.5+i)+(1-\alpha )a_{v}} – это смещение между уровнем сигнала и порогом маскирования, α{\displaystyle \alpha } – это индекс тональности, показывающий степень периодичности аудио сигнала (для шумоподобных сигналов α={\displaystyle \alpha =0}), av=−2−2.05arctan⁡(f4)−0.75arctan⁡(f22.56){\displaystyle a_{v}=-2-2.05\arctan {(f/4)}-0.75\arctan {(f^{2}/2.56)}} – индекс маскирования, а f{\displaystyle f} – это частота в килогерцах. Индекс маскирования часто заменяется константой равной 5.5 дБ.

Данные об одновременной маскировке используются, например, при сжатии аудиофайлов на этапе квантования.

Низкочастотный звук маскирует высокочастотные

При этом важно отметить, что высокочастотные звуки не могут маскировать низкочастотные.

Вре́менная маскировка

Это явление похоже на частотную маскировку, но здесь происходит маскировка во времени. При прекращении подачи маскирующего звука маскируемый некоторое время продолжает быть неслышимым. Время маскировки зависит от частоты и амплитуды сигнала и может достигать 100 мс. В обычных условиях эффект от временной маскировки длится значительно меньше.

В случае, когда маскирующий тон появляется по времени позже маскируемого, эффект называют пост-маскировкой. Когда маскирующий тон появляется раньше маскируемого (возможен и такой случай), эффект называют пре-маскировкой.

Постстимульное утомление

Нередко после воздействия громких звуков высокой интенсивности у человека резко снижается слуховая чувствительность.
Восстановление обычных порогов может продолжаться до 16 часов. Этот процесс называется «временный сдвиг порога слуховой чувствительности» или «постстимульное утомление». Сдвиг порога начинает появляться при уровне звукового давления выше 75 дБ и
соответственно увеличивается при повышении уровня сигнала. Причём наибольшее влияние на сдвиг порога чувствительности оказывают высокочастотные составляющие сигнала.

Поделитесь в социальных сетях:FacebookXВКонтакте
Напишите комментарий