Психоакустическая модель

Психоакустическая модель

Психоаку́стика — наука, изучающая психологические и физиологические особенности восприятия звука человеком.

Содержание

Предпосылки

Во многих приложениях акустики и обработки звуковых сигналов необходимо знать, что люди слышат. Звук, который образуют волны давления воздуха, может быть точно измерен современным оборудованием. Однако понять, как эти волны принимаются и отображаются в нашем головном мозге — задача не такая простая. Звук это непрерывный аналоговый сигнал, который (в предположении, что молекулы воздуха бесконечно малы) может теоретически переносить бесконечное количество информации (может быть бесконечное число частот, содержащих информацию об амплитуде и фазе).

Понимание процессов восприятия позволит учёным и инженерам сосредоточиться на возможностях слуха и не учитывать менее важные возможности других систем. Важно также отметить, что вопрос «что человек слышит» не только вопрос о физиологических возможностях уха, но во многом также вопрос психологии, чёткости восприятия.

Пределы восприятия звука

Человеческое ухо номинально слышит звуки в диапазоне от 16 до 20 000 Гц. Верхний предел имеет тенденцию снижаться с возрастом. Большинство взрослых людей не могут слышать выше 16 кГц. Ухо само по себе не реагирует на частоты ниже 20 Гц, но они могут ощущаться через органы осязания.

Частотное разрешение звука в середине диапазона около 2 Гц. То есть изменение частоты более чем на 2 Гц ощущается. Однако есть возможность слышать ещё меньшую разницу. Например, в случае, если оба тона приходят одновременно, в результате сложения двух колебаний возникает модуляция амплитуды сигнала с частотой, равной разности исходных частот. Этот эффект известен также как биение.

Диапазон громкости воспринимаемых звуков огромен. Наша барабанная перепонка в ухе чувствительна только к изменению давления. Громкость звука принято измерять в децибелах (дБ). Нижний порог слышимости определён как 0 Дб, а определение верхнего предела слышимости относится скорее к вопросу, при какой громкости начнётся разрушение уха. Этот предел зависит от того, как долго по времени мы слушаем звук. Ухо способно переносить кратковременное повышение громкости до 120 дБ без последствий, но долговременное восприятие звуков громкостью более 80 дБ может вызвать потерю слуха.

Более тщательные исследования нижней границы слуха показали, что минимальный порог, при котором звук остаётся слышен, зависит от частоты. Этот график получил название абсолютный порог слышимости. В среднем, он имеет участок наибольшей чувствительности в диапазоне от 1 кГц до 5 кГц, хотя с возрастом чувствительность понижается выше 2 кГц.

Кривая абсолютного порога слышимости является частным случаем более общих — кривых одинаковой громкости. Кривые одинаковой громкости — это линии, на которых человек ощущает звук разных частот одинаково громкими. Кривые были впервые получены Флетчером и Мэнсоном (H Fletcher and W A Munson), и опубликованы в труде «Loudness, its definition, measurement and calculation» в J.Acoust. Soc Am.5, 82-108 (1933). Позже более точные измерения выполнили Робинсон и Датсон (D W Robinson and R S Dadson «A re-determination of the equal-loudness relations for pure tones» in Br. J. Appl. Phys. 7, 166—181 ,1956). Полученные кривые значительно различаются, но это не ошибка, а разные условия проведения измерений. Флетчер и Мэнсон в качестве источника звуковых волн использовали наушники, а Робинсон и Датсон — фронтально расположенный динамик в безэховой комнате.

Измерения Робинсона и Датсона легли в основу стандарта ISO 226 в 1986 г. В 2003 году стандарт ISO 226 был обновлён с учётом данных, собранных из 12 международных студий.

Существует также способ восприятия звука без участия барабанной перепонки — так называемый микроволновый слуховой эффект, когда модулированное излучение в микроволновом диапазоне (от 1 до 300 ГГц) воздействует на ткани вокруг улитки, заставляя человека воспринимать различные звуки.

Что мы слышим

Человеческий слух во многом подобен спектральному анализатору, то есть, ухо распознаёт спектральный состав звуковых волн без анализа фазы волны. В реальности фазовая информация распознаётся и очень важна для направленного восприятия звука, но эту функцию выполняют ответственные за обработку звука отделы головного мозга. Разница между фазами звуковых волн приходящих на правое и левое ухо позволяет определять направление на источник звука, причём информация о разности фаз имеет первостепенное значение, в отличие от изменения громкости звука воспринимаемого разными ушами. Эффект фильтрации передаточных функций головы также играет в этом важную роль.

Эффект маскировки

В определённых случаях один звук может быть скрыт другим звуком. Например, разговор на автобусной остановке может быть совершенно невозможен, если подъезжает шумный автобус. Этот эффект называется маскировкой. Говорят, что слабый звук маскируется, если он становится неразличимым в присутствии более громкого звука.

Различают несколько видов маскировки:

  • По времени прихода маскирующего и маскируемого звука:
    • одновре́менное (моноуральное) маскирование
    • вре́менное (неодновременное) маскирование
  • По типу маскируещего и маскируемого звуков:
    • чистого тона чистым тоном различной частоты
    • чистого тона шумом
    • речи чистыми тонами
    • речи монотонным шумом
    • речи импульсными звуками и т. п.

Одновре́менная маскировка

Любые два звука при одновременном прослушивании оказывают влияние на восприятие относительной громкости между ними. Более громкий звук снижает восприятие более слабого, вплоть до исчезновения его слышимости. Чем ближе частота маскируемого звука к частоте маскирующего, тем сильнее он будет скрываться. Эффект маскировки не одинаков при смещении маскируемого звука ниже или выше по частоте относительно маскирующего. Более низкочастотный звук сильнее маскирует высокочастотный.

Вре́менная маскировка

Это явление похоже на частотную маскировку, но здесь происходит маскировка во времени. При прекращении подачи маскирующего звука маскируемый некоторое время продолжает быть неслышимым. В обычных условиях эффект от временной маскировки длится значительно меньше. Время маскировки зависит от частоты и амплитуды сигнала и может достигать 100 мс.

В случае, когда маскирующий тон появляется по времени раньше маскируемого, эффект называют пост-маскировкой. Когда маскирующий тон появляется позже маскируемого (возможен и такой случай), эффект называют пре-маскировкой.

Постстимульное утомление

Нередко после воздействия громких звуков высокой интенсивности у человека резко снижается слуховая чувствительность. Восстановление обычных порогов может продолжаться до 16 часов. Этот процесс называется «временный сдвиг порога слуховой чувствительности» или «постстимульное утомление». Сдвиг порога начинает появляться при уровне звукового давления выше 75 дБ и соответственно увеличивается при повышении уровня сигнала. Причём наибольшее влияние на сдвиг порога чувствительности оказывают высокочастотные составляющие сигнала.

Фантомы

Иногда человек может слышать звуки в низкочастотной области, хотя в реальности звуков такой частоты не было. Так происходит из-за того, что колебания базилярной мембраны в ухе не являются линейными и в ней могут возникать колебания с разностной частотой между двумя более высокочастотными.

Этот эффект используется в некоторых коммерческих звуковых системах, чтобы расширить область воспроизводимых низких частот, если невозможно адекватно воспроизвести такие частоты напрямую.

Психоакустика в программном обеспечении

Психоакустические модели слуха позволяют с высоким качеством производить компрессию сигнала с потерей информации (когда восстановленный сигнал не совпадает с исходным), за счет того, что позволяют точно описать, что можно безопасно удалить из исходного сигнала — то есть, без значительного ухудшения качества звука. На первый взгляд может показаться, что вряд ли это позволит обеспечить сильное сжатие сигнала, однако программы, использующие психоакустические модели позволяют добиться уменьшения объемов файлов с музыкой в 10—12 раз, и при этом разница в качестве будет не очень значительна.

К таким видам компрессии относятся все современные форматы сжатия звука:

  • Ogg Vorbis
  • WMA
  • Musepack
  • ATRAC используется в формате Sony
  • Musicam (используется для цифрового аудиовещания в некоторых странах)

См. также

Ссылки



Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное


Смотреть что такое "Психоакустическая модель" в других словарях:

  • Цветовая модель — Цветовая модель  термин, обозначающий абстрактную модель описания представления цветов в виде кортежей чисел, обычно из трёх или четырёх значений, называемых цветовыми компонентами или цветовыми координатами. Вместе с методом интерпретации… …   Википедия

  • Xiph Vorbis — Vorbis Расширение файла: .ogg Тип Разработчик: Xiph.Org Foundation Тип формата: Аудиокодек Содержится в: Стандарт: Спецификация …   Википедия

  • Vorbis — Расширение .ogg MIME audio/x ogg Разработан Xiph.Org Foundation Тип формата Аудиокодек …   Википедия

  • Цветовые модели — Цветовая модель  термин, обозначающий абстрактную модель описания представления цветов в виде кортежей чисел, в обычном случае трёх или четырёх значений, называемых цветовыми компонентами или цветовыми координатами. Вместе с методом интерпретации …   Википедия

  • Алгоритм сжатия PPM — У этого термина существуют и другие значения, см. Ppm. PPM (англ. Prediction by Partial Matching  предсказание по частичному совпадению)  адаптивный статистический алгоритм сжатия данных без потерь, основанный на контекстном… …   Википедия

  • PPM — У этого термина существуют и другие значения, см. Ppm. PPM (англ. Prediction by Partial Matching  предсказание по частичному совпадению)  адаптивный статистический алгоритм сжатия данных без потерь, основанный на контекстном… …   Википедия

  • Сжатие данных — Возможно, эта статья содержит оригинальное исследование. Добавьте ссылки на источники, в противном случае она может быть выставлена на удаление. Дополнительные сведения могут быть на странице обсуждения. (26 мая 2012) …   Википедия

  • ROLZ — (от англ. Reduced Offset LZ алгоритм Лемпела Зива с сокращёнными смещениями)  словарный алгоритм сжатия данных, близкий к LZ77, но использующий некоторые контекстные приёмы для уменьшения числа активных смещений. Само понятие ROLZ… …   Википедия

  • Арифметическое кодирование — Арифметическое кодирование  один из алгоритмов энтропийного сжатия. В отличие от алгоритма Хаффмана, не имеет жесткого постоянного соответствия входных символов  группам бит выходного потока. Это даёт алгоритму большую гибкость в… …   Википедия

  • Видео — (от лат. video  смотрю, вижу)  электронная технология формирования, записи, обработки, передачи, хранения и воспроизведения сигналов изображения, основанная на принципах телевидения, а также аудиовизуальное произведение, записанное …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»