Представление звука в памяти ЭВМ

Автор работы: Пользователь скрыл имя, 05 Ноября 2013 в 18:13, лекция

Краткое описание

Звук, в широком смысле — упругие волны, продольно распространяющиеся в какой-либо упругой среде и создающие в ней механические колебания. Чтобы ее представить в виде, читаемом компьютером, необходимо выполнить следующие преобразования (рисунок 3): звуковой сигнал преобразовывают в электрический аналог звука с помощью микрофона. Электрический аналог затем отцифровывают при помощи аналого-цифрового преобразователя (АЦП). При воспроизведении происходит обратное преобразование – цифро-аналоговое (ЦАП). Во время оцифровки сигнал дискретизуется по времени и по уровню (

Скачать в ZIP архиве (36.07 Кб) Сколько стоит заказать работу?

Вложенные файлы: 1 файл

Predstavlenie_zvuka_v_pamyati_EVM.doc

— 74.50 Кб (Скачать файл)

Представление звука в памяти ЭВМ

Оцифровка звука

Рисунок 3

Дискретизация по времени выполняется следующим образом: весь период времени T разбивается на малые интервалы времени . Предполагается, что в течение этого интервала уровень сигнала изменяется незначительно и может с некоторым допущением считаться постоянным. Величина называется частотой дискретизации. Она измеряется в герцах.

Дискретизация по уровню называется квантованием и выполняется так: область изменения сигнала от самого малого значения до самого большого значения разбивается на N равных квантов, промежутков величиной:

Рисунок 4

Каждый квант связывается с его порядковым номером, т.е. целым числом, которое легко может быть представлено в двоичной СС. Если сигнал после дискретизации по времени попадает в промежуток (), то ему в соответствие ставится код i.

При оцифровке звука возникает две задачи:

С какой частотой измерять сигнал;
С какой точностью надо измерять сигнал, чтобы получить при воспроизведении звук удовлетворительного качества.

Ответ на первую задачу дает теорема Найквиста, которая утверждает, что, если сигнал оцифрован с частотой , то высшая слышимая частота будет не более .

Вторая задача решается подбором числа уровней та, чтобы не имел высокого уровня шума и «электронного» оттенка звучания (что характеризуется уровнем нелинейных искажений). Число уровней берется как . При этом n может равняться 8, 16, т.е. каждое измерение занимает один или 2 байта.

Высокое качество воспроизведения получается в формате лазерного аудиодиска при следующих параметрах оцифровки: частота дискретизации – 44,1 кГц, квантование – 16 бит. Таким образом, 1 сек стереозвука займет 2 байта*44100 байт/c*2 кан*1 сек = 176 400 байт дисковой памяти. Качество звука при этом будет достаточно высокое.

Для телефонных переговоров удовлетворительное качество получается при частоте дискретизации 8 кГц и частоте квантования 255 уровней.

Способы хранения цифрового звука

Для хранения цифрового звука существует много различных способов. Как мы говорили, оцифрованный звук представляет собой набор значений амплитуды сигнала, взятых через определенные промежутки времени.

Во-первых, блок оцифрованной аудио информации можно записать в файл «как есть», то есть последовательностью чисел (значений амплитуды). В этом случае существуют два способа хранения информации:

Импульсно-кодовая модуляция PCM (Pulse Code Modulation) - способ цифрового кодирования сигнала при помощи записи абсолютных значений амплитуд. Именно в таком виде записаны данные на всех аудио CD.
Адаптивная относительная импульсно-кодовая модуляция (ADPCM (Adaptive Delta PCM) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд (приращениях).

Во-вторых, можно сжать или упростить данные так, чтобы они занимали меньший объем памяти, нежели будучи записанными «как есть». Тут тоже имеются два пути:

Кодирование данных без потерь (lossless coding) - это способ кодирования аудио, который позволяет осуществлять стопроцентное восстановление данных из сжатого потока. К такому способу уплотнения данных прибегают в тех случаях, когда сохранение оригинального качества данных критично. Например, после сведения звука в студии звукозаписи, данные необходимо сохранить в архиве в оригинальном качестве для возможного последующего использования. Существующие сегодня алгоритмы кодирования без потерь (например, Monkeys Audio) позволяют сократить занимаемый данными объем на 20-50%, но при этом обеспечить стопроцентное восстановление оригинальных данных из полученных после сжатия. Подобные кодеры – это своего рода архиваторы данных (как ZIP, RAR и другие), только предназначенные для сжатия именно аудио.
Кодирование данных с потерями (lossy coding). Цель такого кодирования - любыми способами добиться схожести звучания восстановленного сигнала с оригиналом при как можно меньшем объеме упакованных данных. Это достигается путем использования различных алгоритмов «упрощающих» оригинальный сигнал (выкидывая из него «ненужные» слабослышимые детали), что приводит к тому, что декодированный сигнал фактически перестает быть идентичным оригиналу, а лишь похоже звучит.

Методов сжатия, а также программ, реализующих эти методы, существует много. Наиболее известными являются MPEG-1 Layer I,II,III (последним является всем известный MP3), MPEG-2 AAC (advanced audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC, и прочие.

В среднем, коэффициент сжатия, обеспечиваемый такими кодерами, находится в пределах 10-14 (раз).

Некоторые форматы звуковых файлов:

Формат AU. Этот простой и распространенный формат на системах Sun и NeXT (в последнем случае, правда, файл будет иметь расширение SND). Файл состоит из короткого служебного заголовка (минимум 28 байт), за которым непосредственно следуют звуковые данные. Широко используется в Unix-подобных системах и служит базовым для Java-машины.

Формат WAVE (WAV). Стандартный формат файлов для хранения звука в системе Windows. Является специальным типом другого, более общего формата RIFF (Resource Interchange File Format); другой разновидностью RIFF служат видеофайлы AVI. Файл RIFF составлен из блоков, некоторые из которых могут, в свою очередь, содержать другие вложенные блоки; перед каждым блоком данных помещается четырехсимвольный идентификатор и длина. Звуковые файлы WAV, как правило, более просты и имеют только один блок формата и один блок данных. В первом содержится общая информация об оцифрованном звуке (число каналов, частота дискретизации, характер зависимости громкости и т.д.), а во втором — сами числовые данные. Каждый отсчет занимает целое количество байт (например, 2 байта в случае 12-битовых чисел, старшие разряды содержат нули). При стереозаписи числа группируются парами для левого и правого канала соответственно, причем каждая пара образует законченный блок — для нашего примера его длина составит 4 байта. Такая, казалось бы, излишняя структурированность позволяет программному обеспечению оптимизировать процесс передачи данных при воспроизведении, но, как в подобных случаях всегда бывает, выигрыш во времени приводит к существенному увеличению размера файла.

Формат MP3 (MPEG Layer3). Это один из форматов хранения аудиосигнала, позднее утвержденный как часть стандартов сжатого видео. Природа получения данного формата во многом аналогична уже рассмотренному нами ранее сжатию графических данных по технологии JPEG. Поскольку произвольные звуковые данные обратимыми методами сжимаются недостаточно хорошо, приходится переходить к методам необратимым: иными словами, базируясь на знаниях о свойствах человеческого слуха, звуковая информация “подправляется” так, чтобы возникшие искажения на слух были незаметны, но полученные данные лучше сжимались традиционными способами. Это называется адаптивным кодированием и позволяет экономить на наименее значимых с точки зрения восприятия человека деталях звучания. Приемы, применяемые в MP3, непросты для понимания и опираются на достаточно сложную математику, но зато обеспечивают очень значительный эффект сжатия звуковой информации. Успехи технологии MP3 привели к тому, что ее применяют сейчас и во многих бытовых звуковых устройствах, например, плеерах и сотовых телефонах.

Формат MIDI. Название MIDI есть сокращение от Musical Instrument Digital Interface, т.е. цифровой интерфейс для музыкальных инструментов. Это довольно старый (1983 г.) стандарт, объединяющий разнообразное музыкальное оборудование (синтезаторы, ударные, освещение). MIDI базируется на пакетах данных, каждый из которых соответствует некоторому событию, в частности, нажатию клавиши или установке режима звучания. Любое событие может одновременно управлять несколькими каналами, каждый из которых относится к определенному оборудованию. Несмотря на свое изначальное предназначение, формат файла стал стандартным для музыкальных данных, которые при желании можно проигрывать с помощью звуковой карты компьютера безо всякого внешнего MIDI-оборудования. Главным преимуществом файлов MIDI является их очень небольшой размер, поскольку это не детальная запись звука, а фактически некоторый расширенный электронный эквивалент традиционной нотной записи. Но это же свойство одновременно является и недостатком: поскольку звук не детализирован, то разное оборудование будет воспроизводить его по-разному, что в принципе может даже заметно исказить авторский музыкальный замысел.

Формат MOD. Представляет собой дальнейшее развитие идеологии MIDI-файлов. Известные как “модули программ воспроизведения”, они хранят в себе не только “электронные ноты”, но и образцы оцифрованного звука, которые используются как шаблоны индивидуальных нот. Таким способом достигается однозначность воспроизведения звука. К недостаткам формата следует отнести большие затраты времени при наложении друг на друга шаблонов одновременно звучащих нот.

Информация о работе Представление звука в памяти ЭВМ