Руководство по выбору форматов аудиофайлов: век сегодняшний и немножко прошлый

Аудио-форматы — это разновидности файлов, предназначенные для хранения цифровых аудиоданных в компьютерной системе. Битовая компоновка аудиоданных (за исключением метаданных) называется форматом кодирования аудио и может быть несжатой или сжатой. Сжатие используется для того, чтобы уменьшить размер файла, что часто сочетается с потерей качества звука. Звук также может быть сырым битовым потоком в формате кодирования аудио, но обычно он встраивается в формат аудиоданных с определенным слоем хранения.

Что они собой представляют?

Аудиофайл — это набор информации, который состоит из данных о частоте и амплитуде звука, сохраненный для последующих воспроизведений.

Аудио-форматы могут играть роль контейнера для необработанных данных, а также использовать аудиокодеки. Зачастую эти понятия смешивают и путают.

Кодек выполняет кодирование и декодирование необработанных аудиоданных, в то время как эти закодированные данные обычно хранятся в файле-контейнере. Несмотря на то что большинство форматов звуковых файлов поддерживают только один тип данных кодирования аудио (созданных с помощью аудиокодера), формат мультимедийного контейнера (например, Matroska или AVI) может поддерживать несколько типов аудио- и видеоданных.

MQA и Hi-Res

Одна из вещей, которую потоковая передача не может осилить, это передача звука с высоким разрешением. В последнее время понятие «Hi-Res» стало немного расплывчатым. Каждый производитель аудиосистем хочет претендовать на то, что его аппаратура предоставляет слушателям звук наилучшего качества, указывая в спецификациях «поддержку Hi-Res аудио».

На самом деле, аудио высокого разрешения – это звук с максимально возможной детализацией и точностью. Мы немного сомневаемся в заявлениях большинства производителей о том, что их продукция обрабатывает файлы hi-res. В основном мы полагаемся на свое звуковое восприятие (чаще всего отсутствие hi-res является более чем очевидным). Итак, оставим маркетинговые трюки производителей и вернемся к нашему разбору.

В 2014 году в деле Hi-Res аудио произошел большой прогресс, благодаря которому мы с вами можем слушать записи в высоком разрешении через потоковые сервисы. Эта прогрессивная технология была названа MQA (Master Quality Authenticated). По сути, этот аудиокодек обеспечивает передачу сжатых файлов с абсолютно несоразмерным качеством звука, используя новые алгоритмы оцифровки, чтобы упаковать весь сигнал в контейнер FLAC или WAV и доставить вам его по Wi-Fi.

С одной стороны, это, безусловно, отличные новости для современных ценителей качественного аудио. С другой стороны, новые технологии не стали причиной «потоковой революции», как предполагали создатели. MQA доступен на многих платформах, но этот формат получил очень много негативных отзывов и критики в сторону применяемых технологий цифровой обработки. Поэтому, большинство слушателей отдают предпочтение более распространенным форматам.

Мы любим экспериментировать со звуком, поэтому не имеем ничего против MQA. Если вы заинтересованы, то вы можете послушать MQA-аудио на Tidal прямо сейчас, благодаря их новой программе Tidal Masters. TIDAL сотрудничает с MQA, чтобы предоставить вам лучшее воплощение любимых песен, а именно – их аутентифицированную и неискаженную версию (стандартные параметры: 96 кГц / 24 бит).

Вам также понадобится совместимое оборудование, чтобы воспроизводить аудиофайлы MQA – как и в случае DSD, для его работы требуются довольно специализированные внутренние компоненты. К счастью, плееры для потокового аудио становятся все более доступными. Читайте нашу подборку лучших сетевых аудио проигрывателей.

Разновидности по объему и качеству

Форматы аудио-файлов могут быть выделены в следующие группы:

1. Несжатые – такие как WAV, AIFF, AU или необработанные PCM без заголовков.

2. Форматы со сжатием без потерь – к примеру, FLAC, AudioMonkey’s (расширение файла .ape), WavPack (расширение файла .wv), TTA, ATRAC AdvancedLossless, ALAC (расширение имени файла .m4a), MPEG-4 SLS, MPEG-4 ALS, MPEG-4 DST, WindowsMediaAudioLossless (WMA без потерь) и Shorten (SHN).

3. Форматы с компрессией с потерями качества – например, Opus, MP3, Vorbis, Musepack, AAC, ATRAC и Windows Media Audio Lossy (сжатые WMA).

Объем звуковой информации

Чем больше по объему аудио файл, тем лучше будет качество его воспроизведения. Объем более качественного файла всегда меньше объема файла с низким качеством, при равной их продолжительности.

Для расчета объема информации, занимаемого аудио файлом с одной звуковой дорожкой, используют нижеприведенную формулу:

\(V = N * f * k\),

где \(N \) — общее время звучания аудио файла, сек,

\(f\) — частота дискретизации аудио файла, Гц,

\(k\) — глубина кодирования аудио файла, бит.

Рассмотрим пример, когда время звучания аудио файла 5 минут с высоким качеством воспроизведения с частотой дискретизации 48000 Гц и глубиной кодирования 64 бит, то объем такого файла будет составлять:

\(V = 5 * 60 * 48000 * 64 = 921600000 бит,\)

что составляет 115200000 байт, или 115200 Кбайт, или 115,2 Мбайт.

Для стереозвука расчет объема производится по той же формуле, лишь только с той разницей, что нужно еще умножить на два, так как файл со стереозвуком обычно занимает в два раза больше места из-за того, что процесс дискретизации во время кодирования стереозвука проводится для каждой дорожки отдельно.

WAV и AIFF

Цифровой аудиоформат AIFF основан на формате файла обмена (IFF), а WAV — на аналогичной разновидности файла обмена ресурсами (RIFF). WAV и AIFF предназначены для хранения широкого спектра аудиоформатов как без потерь качества, так и с потерями. Они просто добавляют небольшой заголовок, содержащий метаданные, перед звуковой составляющей, чтобы обозначить формат аудио (например, LPCM с конкретной частотой дискретизации, битовой глубиной, порядковыми номерами и количеством каналов). Поскольку WAV и AIFF широко поддерживаются и могут хранить LPCM, они являются подходящими файловыми форматами для хранения и архивирования оригинальной записи.

Какой аудиоформат выбрать? MP3 WMA FLAC WAV CDA

решил я написать статью про аудиоформаты и человеческим языком попытаться объяснить тем, кто не в курсе. Постараюсь избежать заумных терминов и описания характеристик, чтобы лишний раз не травмировать мозг читающих.
Сразу же признаюсь, что не буду петь дифирамбы в честь какого-то конкретного аудиоформата, равно как и «опускать» никого не собираюсь. Пускай каждый сам решает. Не буду залезать в «дебри» и пробегусь по наиболее известным форматам.

Я считаю, что споры эти ведут люди, мягко говоря, не сведущие в этой теме. Так как профессионалы (то есть люди, которые знают, что они делают и зачем они это делают) не будут заниматься подобной мурой. При нынешнем изобилии аудиоформатов любой нуждающийся найдет то, что ему нужно. Согласитесь, глупо будет выглядеть спор тракториста и шофера, на тему что лучше — трактор или машина. Для одних целей — трактор, для других — машина. Вот и здесь так же.

WAV — справедливо считается основным форматом звука. Используется при записи и обработке звука, так как запись в WAV происходит без сжатия. Кодируется в любой другой аудиоформат. Ну и как результат — довольно много «весит», поэтому используется преимущественно при звукозаписи.

Далее идут различные «интерпретации», которые можно разделить на:

Сжатие звука с потерями Начну со всем известного и всеми применяемого (хоть и не всегда любимого) формата MP3. Этот аудиоформат активно используется везде и всюду, где надо и где не надо. Но это не значит, что он недостоин места, которое занимает в своей нише. Очень даже достоин. Хоть «сидит» он в своей нише уже около двух десятков лет, никто его пока оттуда не «вышиб». А желающих было много надо сказать. И главный фаворит из них WMA (Windows Media Audio), который задуман был Microsoft, как альтернатива MP3. В итоге он альтернативой и является, не смотря на старания разработчиков. Следующий персонаж — OGG. Несмотря на более широкие возможности, чем MP3, например, так и не получил массового признания. Хоть и поддерживается многими операционными системами. Пожалуй, стоит упомянуть еще аудиоформат AAC, который должен был в эстафете сменить MP3. В нем улучшено качество кодирования и уменьшены потери при сжатии. Но… увы.

Главным преимуществом этих форматов является небольшой размер. Из минусов — потеря качества.

Сжатие звука без потерь FLAC — пожалуй, самый популярный кодек кодирования звука без потерь. Меломаны постепенно переходят на этот формат. WavPack составляет ему достойную конкуренцию, но не так популярен. Такая же история и с Apple Lossless, в котором размер сжимается до 60%. Скептики утверждают, что на слух практически невозможно отличить MP3 (320 кбит/c) от Losless. «А если разницы нет, зачем платить больше?». Действительно, на обычной аппаратуре почувствовать разницу аудиоформатов достаточно сложно, даже меломанам. Но есть и такие, которые эту разницу сразу чувствуют (лично присутствовал на эксперименте). А вот при прослушивании на хорошем аппарате разница огромная. Вся беда в том, что хороший аппарат далеко не все себе могут позволить.

Источник

Новое поколение

BWF (Broadcast Wave Format) — это стандартный аудиоформат, созданный Европейским радиовещательным союзом в качестве преемника WAV. Он имеет массу улучшений, в числе которых возможность хранить более надежные метаданные в файле. Это основной формат записи, используемый во многих профессиональных рабочих станциях в телевизионной и киноиндустрии. Файлы BWF включают в себя стандартизированную метку времени, которая позволяет легко синхронизировать звук с отдельным элементом изображения. Автономные многодорожечные рекордеры AETA, Sound Devices, Zaxcom, HHB Communications Ltd, Fostex, Nagra, Aaton, и TASCAM всегда используют BWF как предпочтительный формат.

Что такое аудиокодек и как он работает?

После того, как введение будет завершено, мы должны перейти к сути вопроса, для этого мы должны понять, что слово «кодек» является сокращением термина «кодирование-декодирование». Это процессор, который из закодированного потока входных данных генерирует другой из выполнения некоторых правил, которым он следует для декодирования этих данных. Упомянутые правила могут быть записаны в форме программы во внутренней памяти процессора или могут быть подключены к микросхеме. Таким образом, различий между аудиокодеком и видеокодеком вне формата, с которым они имеют дело, не существует, в конце концов, поток данных — это не что иное, как накопление битов, которые нужно обработать.

Так в чем разница? Что ж, это способ, которым эти данные становятся для пользователя чем-то осязаемым. Видео кодеки должны передаваться через видеосигнал и оттуда на экран. С другой стороны, в видеокодеке созданный файл будет передан на аудиовыход. Конечно, есть графические процессоры, которые используют свой вычислительный конвейер для декодирования и генерации звука. Что они делают благодаря тому, что выход HDMI передает как аудио, так и видеосигналы.

Аудио Считалось, что кодеки экономят место, чтобы иметь возможность передавать данные по очень медленным интерфейсам связи, но когда пространство и скорость сети перестали быть проблемой, их дизайн изменился. Возможность кодировать аудиосистемы в 3D или позиционный звук, чтобы иметь возможность использовать системы с несколькими динамиками в мультимедийном контенте. Для этого потребуется часть мощности процессора.

Аудиоформаты со сжатием и без

Такая разновидность сохраняет данные в меньшем объеме без потери информации. Исходные данные при этом могут быть воссозданы из такой версии.

Несжатые аудио-форматы кодируют звук и тишину с одинаковым количеством битов в единицу времени. Кодирование минуты абсолютной тишины создает файл такого же размера, как и минуты музыки. Однако в сжатом формате музыка будет занимать меньший файл, чем оригинальная запись, а тишина почти не будет занимать места.

Форматы аудио-файлов такого типа включают в себя FLAC, WavPack, AudioMonkey, ALAC (Apple Lossless). Они обеспечивают коэффициент сжатия около 2:1 (то есть файлы занимают половину пространства PCM). Разработка в форматах сжатия без потерь направлена ​​на сокращение времени обработки при сохранении хорошего качества звука.

Несжатые аудиоформаты

Существуют и другие форматы аудиофайлов, в которых не используется сжатие данных. Это так называемые несжатые аудиоформаты. Эти типы файлов действуют как контейнер для необработанных аудиоданных, никоим образом не уменьшая их размер или качество.

Это самые большие файлы для работы, но они обеспечивают высочайший уровень детализации аудиоинформации. Несжатые аудиофайлы – это тип, наиболее часто используемый для записи и микширования музыки в DAW.

Даже в этом случае несжатые аудиофайлы также бывают разных уровней качества. Они основаны на точности и точности, с которой аналоговый аудиосигнал был преобразован в цифровой. Чем выше частота дискретизации и битовая глубина, тем больше информации захватывается в процессе преобразования.

Битовая глубина представляет собой точность аналого-цифрового преобразователя для измерения амплитуды или уровня громкости сигнала. Вы можете думать об этом как о количестве делений на линейке – чем ближе они расположены, тем реже измерение будет попадать между двумя отметками.

Частота дискретизации означает количество измерений, выполняемых за секунду. Более высокая частота дискретизации означает выполнение большего количества индивидуальных измерений.

Несжатые аудиофайлы – это тип, наиболее часто используемый для записи и микширования музыки в DAW.

Вот список распространенных уровней качества для несжатого звука:

Сжатый аудиоформат с потерями

Это позволяет еще больше уменьшить размер файла, удалив часть аудиоинформации и упростив данные. Это, конечно же, приводит к тому, что качество аудио-форматов становится значительно хуже. При этом используются различные методы (чаще путем использования психоакустики), чтобы удалить части звука, которые наименее влияют на воспринимаемое качество, и минимизировать количество слышимого шума, добавленного во время процесса сжатия. Популярный MP3-формат, пожалуй, выступает самым известным примером. Кроме того, AAC, который можно найти в iTunesMusicStore, также широко распространен. Большинство форматов предлагают разный диапазон степеней сжатия, обычно измеряемый в битовой скорости. Чем ниже скорость, тем меньше файл, и тем значительнее потеря качества.

Стандарт AMR

Что касается этого формата, он, пожалуй, относится к самым низкопробным. Его возникновение связано с появлением первых неуклюжих мобильных телефонов, которые все еще не могли устанавливать на звонок мелодии в формате .mp3.

AMR тогда еще мог заменить натуральный звук с известной долей потери качества. Но это качество не идет ни в какое сравнение с тем, что предлагается более «продвинутыми» форматами.

Какие форматы известны в настоящее время?

.3GP — формат мультимедийного контейнера, который может содержать собственные форматы AMR, AMR-WB или AMR-WB+, а также некоторые открытые разновидности.

.AAC (Advanced Audio Coding) — основан на стандартах MPEG-2 и MPEG-4. Файлы AAC обычно представляют собой контейнеры ADTS или ADIF.

.AAX (Audible.com) — формат аудиокниги, который представляет собой файл M4B с изменяемым битрейтом (обеспечивающий высокое качество), зашифрованный с помощью DRM. MPB содержит AAC- или ALAC-кодированный звук в контейнере MPEG-4.

.AIFF — стандартный формат аудиофайла, используемый Apple. Его можно считать эквивалентом WAV.

.AMR (AMR-NB) – тип аудио, используемый в основном для записи речи.

.APE (Ashland Monkey’s) – формат аудио со сжатием без потери качества.

.M4A — аудио в MPEG-4, используемый Apple для незащищенной музыки, загруженной из iTunes Music Store. Аудио в файле M4A обычно кодируется AAC, хотя ALAC также может использоваться без потерь качества.

.M4P — Apple-версия AAC с патентованным управлением цифровыми правами, разработанная Apple для использования в музыке, загруженной из iTunes Music Store.

.MMF– вид аудио от Samsung, используемый в мелодии звонка. Он был разработан Yamaha и представляет собой формат мультимедийных данных.

.MP3 -формат MPEG Layer III Audio. Это самый распространенный вид звукового файла, используемый сегодня. Также он известен как MPEG-1 или MPEG-2 и представляет собой своеобразный формат аудиокодирования для цифрового звука. Он использует форму сжатия данных с потерями для кодирования информации с применением неточных приближений и отбрасывания частичных данных. Все это выполняется с целью уменьшения размеров файлов, как правило, в 10 раз, по сравнению с компакт-диском. При этом сохраняется качество звука, сравнимое с несжатым. По сравнению с цифровым аудиокачеством CD, качество сжатия MP3 обычно достигает 75-95 % по уменьшению размера. Таким образом, файлы этот типа составляют от 1/4 до 1/20 размера исходного цифрового аудиопотока. Это важно для обеспечения передачи и хранения файлов, особенно в наши дни, когда обмен информацией распространен очень широко. Основой для такого сравнения является формат цифрового аудио CD, который требует 1411200 бит/с. Обычно используемой настройкой кодирования MP3 является CBR 128 кбит/с, в результате получается файл размером 1/11 (= 9 %) от размера исходного файла качества CD, то есть с 91 % сжатием.

Сжатие MP3 с потерей работает, уменьшая (или приближая) точность некоторых частей непрерывного звука, которые считаются недоступными для слухового разрешения большинства людей. Этот метод обычно называют перцепционным кодированием или «психоакустикой». Он использует психоакустические модели для отбрасывания или уменьшения точности компонентов, менее слышимых для человеческого слуха, а затем записывает оставшуюся информацию эффективным образом.

.MPC (ранее известный как MPEGplus, MPEG+ или MP+) — представляет собой аудиокодек с открытым исходным кодом, специально оптимизированный для прозрачного сжатия стерео/аудио с битрейтом 160-180 Кбит/с.

Формат .OGG, .OGA, MOGG — свободный открытый контейнерный тип, поддерживающий множество других видов, самым популярным из которых является аудиоформат Vorbis. Он предлагает сжатие, подобное MP3, но менее популярное. VJGG (Multi-Track-Single-Logical-StreamOgg-Vorbis) является многоканальным или многодорожечным файловым форматом OGG.

.WAV — стандартный формат файла звукового файла, используемый в основном на ПК с ОС Windows. Обычно используется для хранения несжатых (PCM) звуковых файлов качества CD, что означает, что они могут быть большими по размеру — около 10 МБ в минуту. Эти файлы могут также содержать данные, закодированные с помощью различных кодеков, для уменьшения размера (например, перевода в формат GSM или MP3). WAV-файлы используют структуру RIFF. Этот формат наиболее хорошо сохраняет качество файлов.

.WMA — формат Microsoft Windows Media Audio. Разработан с возможностями управления цифровыми правами (DRM) для защиты от копирования. Ранее был распространен так же широко, как формат OGG или MP3.

.WV — формат, созданный для видео в формате HTML5.

Секции WAV-файла

Для WAV-файлов, определено довольно много типов секций, но большинство файлов содержат только две из них – секцию формата («fmt «) и секцию данных («data»). Это именно те секции, которые необходимы для описания формата выборок аудиоданных, и для хранения самих аудиоданных.

Итак, в простейшем случае в WAV-файле должна быть обязательная секция формата («fmt «), которая содержит важные параметры, описывающие сигнал, такие как частота дискретизации, и секция данных («data»), которая содержит непосредственно данные сигнала (рисунок 1). Все остальные секции необязательны.

Среди необязательных секций могут быть те, которые определяют ключевые точки, перечисляют параметры инструментов, хранят информацию о приложении и т.д. Все эти секции подробно описаны ниже.

Все приложения, использующие WAV-файлы, должны иметь возможность читать 2 обязательных секции и выборочно игнорировать необязательные секции. Программа, копирующая WAV-файл, должна копировать все секции WAV-файла, даже те, которые она не интерпретирует.

На порядок секций в WAV-файле нет никаких ограничений, за исключением того, что секция формата должен предшествовать секции данных. Некоторые жестко написанные программы ожидают, что секция формата будет первым секцией (после заголовка RIFF), хотя они не должны этого делать потому, что спецификация этого не требует.

Все секции формата RIFF и соответственно секции WAVE сохраняются в следующем формате (таблица ниже). Заметьте, что даже вышеупомянутая секция RIFF соответствует этому формату.
Формат секций RIFF и WAVE

СмещениеРазмерНазваниеОписание
04Chunk IDID секции
44Chunk Data SizeРазмер данных секции
8Байты данных секции

Остальная часть этой статьи посвящена описанию различных типов секций Wave, их формату данных и что эти данные означают.

Секция формата «fmt «

Секция формата содержит информацию о том, как сохранены аудиоданные и как они должны воспроизводиться. Информация включает в себя тип используемой компрессии, количество каналов, частоту дискретизации, разрядность выборок и другие атрибуты.
Структура секции формата

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«fmt » (0x666D7420)
44Chunk Data SizeРазмер данных секции16 + размер дополнительных данных
82Compression CodeКод типа сжатия аудиоданных1 — 65 535
102Number of channelsКоличество каналов1 — 65 535
124Sample rateЧастота дискретизации1 — 0xFFFFFFFF
164Average bytes per secondКоличество байт в секунду1 — 0xFFFFFFFF
202Block alignРазмер блока1 — 65535
222Significant bits per sampleКоличество значащих бит на выборку2 — 65 535
242Extra format bytesРазмер дополнительных данных формата0 — 65 535
26Дополнительные данные формата

Идентификатор секции (Chunk ID) и объем данных (Data Size)
Идентификатор секции всегда «fmt » (0x666D7420).

Поле размера данных равно размеру стандартного формата WAV (16 байт) плюс размер всех дополнительных байтов формата, необходимых для поддержки специфических форматов звука, если он не содержит несжатых данных PCM. Обратите внимание, что идентификатор секции «fmt » оканчивается на символ пробела (0x20).

Код формата сжатия (Compression Code)

Первое слово в данных формата указывает на тип сжатия, используемого для данных звука. В таблице приведен список примеров кодов сжатия.
Коды форматов сжатия аудиоданных

КодОписание
0 (0x0000)Неизвестный формат
1 (0x0001)PCM / несжатые данные
2 (0x0002)Microsoft ADPCM
6 (0x0006)ITU G.711 a-law
7 (0x0007)ITU G.711 µ-law
17 (0x0011)IMA ADPCM
20 (0x0016)ITU G.723 ADPCM (Yamaha)
49 (0x0031)GSM 6.10
64 (0x0040)ITU G.721 ADPCM
80 (0x0050)MPEG
65,535 (0xFFFF)Экспериментальный формат

Количество каналов (Number of Channels)
Количество каналов указывает, сколько отдельных аудиосигналов закодировано в секции данных звука. Значение 1 означает монофонический сигнал, 2 означает стерео, и т.п.

Частота дискретизации (Sample Rate)

Число выборок аудиосигнала, приходящихся на секунду.

Количество байт в секунду (Average Bytes Per Second)

Величина, показывающая, сколько байт данных должно быть пропущено за секунду через цифро-аналоговый преобразователь во время воспроизведения файла. Эта информация полезна, чтобы определить, могут ли данные поступать от источника с нужной скоростью, чтобы не отставать от воспроизведения. Эта величина просто вычисляется по формуле:

Количество байт в секунду = Частота дискретизации × Размер блока

Размер блока (Block Align)

Количество байт на одну выборку. Эта величина может быть вычислена по формуле:

Размер блока = Количество значащих бит на выборку / 8 × Количество каналов

Количество значащих бит на выборку (Significant Bits Per Sample)

Значение указывает количество бит, формирующих каждую выборку сигнала. Обычно эта величина 8, 16, 24 или 32. Если число бит не выровнено по байту (не делится на 8 без остатка), количество используемых байт на выборку округляется вверх. Неиспользуемые биты устанавливаются в 0 и игнорируются.

Размер дополнительных данных формата (Extra Format Bytes)

Указывает, сколько далее идет дополнительных данных, описывающих формат. Если код сжатия равен 1 (файл с несжатыми PCM данными), то дополнительных данных о формате нет. Для других типов сжатия дополнительные данные могут присутствовать и иметь любой размер, зависящий от количества необходимых для декодирования данных. Если размер дополнительных данных не выровнен на слово (не делится на 2 без остатка), то в конец данных должен быть добавлен дополнительный байт; но при этом значение в поле размера не меняется.

Секция данных «data»

Секция данных Wave (Wave Data Chunk) содержит данные цифровых выборок аудиосигнала, которые можно декодировать с использованием формата и метода компрессии, указанных в секции формата Wave (Wave Format Chunk). Если код сжатия равен 1 (несжатый PCM), то данные представлены в виде сырых, необработанных (raw) величин выборок. Данная статья описывает, как сохраняются несжатые данные PCM, и не вдается в подробности форматов с компрессией.

WAV-файлы обычно содержат только одну секцию данных, но таких секций может быть несколько, если они содержатся в секции списка Wave (Wave List Chunk «wavl»).
Структура секции данных

СмещениеДлинаНазваниеОписаниеЗначение
04Chunk IDID секции«data» (0x64617461)
44Chunk Data SizeРазмер данных секциизависит от количества выборок и формата сжатия
8Данные выборок

Аудиовыборки многоканального цифрового звука сохраняются как чередуемые данные, которые просто означают последовательные аудиовыборки нескольких каналов. Выборки каналов сохраняются последовательно друг за другом, перед тем как произойдет переход к следующему времени выборки. Это сделано, чтобы можно было проигрывать файл без необходимости перед этим прочитать этот файл целиком. Значения в таблице ниже были бы сохранены в WAV-файле в порядке, как они перечислены в столбце «Значение» (сверху вниз).
Пример порядка записи выборок при многоканальном звуке

Момент времениКаналЗначение
01 (левый)0x0053
2 (правый)0x0024
11 (левый)0x0057
2 (правый)0x0029
21 (левый)0x0063
2 (правый)0x003C

Когда выборки представлены 8 битами, они определены как значения без знака. Все другие битовые размеры указываются как значения со знаком. Например, выборка 16 бит может иметь значение в диапазоне от -32768 до +32767, где средняя точка (тишина, напряжение сигнала равно 0) соответствует значению 0.

Как уже было указано ранее, все секции RIFF (включая секции WAVE «data») должны быть выровнены по размеру на слово (2 байта). Если данные выборок содержатся в нечетном количестве байт, то в конец данных должен быть добавлен выравнивающий нулевой байт. За заголовке секции «data» размер не должен учитывать этот выравнивающий байт.

Секция «fact»

Секция fact содержит информацию о содержимом WAV-файла, зависящую от формата сжатия. Она требуется для всех форматов WAVE со сжатием и, если данные аудиосигнала содержатся внутри секции списка «wavl», но не требуется для несжатого формата PCM WAVE (код формата сжатия — 1), который содержит аудиоданные в секции «data».
Структура секции «fact»

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«fact» (0x66616374)
44Chunk Data SizeРазмер данных секциизависит от формата
8Format Dependant DataДанные, зависящие от формата

Данные, зависящие от формата (Format Dependant Data)
В настоящий момент задано только одно поле для данных, зависящих от формата. Это единственное 4-байтное значение, которое указывает число выборок в секции данных аудиосигнала. Эта значение может использоваться вместе с количеством выборок в секунду (Samples Per Second value), указанным в секции формата, для вычисления продолжительности звучания сигнала в секундах.

По мере появления новых форматов WAVE секция fact будет расширяться добавлением полей после поля числа выборок. Приложения могут использовать размер секции fact для определения, какие поля представлены в секции.

Секция списка Wave – «wavl»

Секция списка Wave (wave list chunk) используется для указания нескольких чередований секций «slnt» и «data». Эти секции могут помочь уменьшить размер файла путем указания слышимых сегментов выборок, когда поток аудиоданных содержит несколько интервалов тишины.

Этот тип секции, по мнению многих программистов, является злоупотреблением в формате WAV-файла, и его использование не рекомендуется. Также много приложений не будут распознавать этот тип секции, просто игнорируя его. Этот формат сжатия без надобности усложняет структуру WAV-файла и может быть выгодно реализован другими способами, включая несколько существующих форматов компрессии.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«wavl» (0x736C6E74)
44Chunk Data SizeРазмер данных секциизависит от размера секций «data» и «slnt»
8Список чередования секций «slnt» и «data»

Секция тишины – «slnt»

Секция тишины (silent chunk) используется для указания сегмента паузы звучания, которая имеет некоторую продолжительность в выборках сигнала. Секция тишины всегда содержится только внутри секции списка Wave (wave list chunk). Когда эта секция объявляет тишину, не нужно задавать нулевую громкость или базовую выборку. Она фактически удерживает последнюю выборку сигнала, считанную из предыдущей секции данных (Wave Data Chunk) секции списка Wave (wave list chunk). Если предыдущих секций данных не было, то необходимо использовать базовое значение выборки, равное 127 для 8-битных данных, 0 для 16-битных данных и всех данных с большим количеством бит на выборку. Эти требования могут казаться тривиальными, но если их не выполнить, то в аудиосигнале могут появиться нежелательные щелчки и хлопки.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«slnt» (0x736C6E74)
44Chunk Data SizeРазмер данных секции4
84Number of Silent SamplesКоличество выборок тишины0 — 0xFFFFFFFF

Количество выборок тишины (Number of Silent Samples) Эта величина указывает число выборок тишины, которое должно появиться в аудиосигнале в этой точке списка wave (wave list chunk).

Секция ключевых точек – «cue «

Секция «cue » определяет одно или более смещения выборок, которые часто используются, чтобы отметить ключевые разделы аудиоданных. Например, у начала и конца куплета в песне могут быть установлены метки, по которым их легче найти. Секция ключевых точек является необязательной, и если она добавлена, то одна секция ключевых точек должна указать все ключевые точки секции «WAVE». Внутри секции «WAVE» не допускается содержание более одной секции «cue «.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«cue » (0x63756520)
44Chunk Data SizeРазмер данных секцииЗависит от количества ключевых точе
84Num Cue PointsКоличество ключевых точек в списке
12List of Cue PointsСписок ключевых точек

Идентификатор секции и объем данных (Chunk ID и Chunk Data Size) Идентификатор секции для секции ключевых точек всегда «cue » (0x666D7420). Обратите внимание, что строка ID оканчивается на символ пробела (0x20). Размер данных секции равен размеру поля Num Cue Points (4 байта) плюс количество последующих ключевых точек, помноженное на размер данных каждой точки (24 байта). Для вычисления размера данных секции ключевых точек может использоваться следующая формула: ChunkDataSize = 4 + (NumCuePoints × 24) Количество ключевых точек (Num Cue Points) Эта величина указывает количество последующих ключевых точек в этой секции. Список ключевых точек (List of Cue Points)
Список ключевых точек – это просто набор описаний последовательных точек, который имеет следующий формат.

СмещениеРазмерНазваниеЗначение
04IDУникальный идентификатор
44PositionПозиция порядка воспроизведения
84Data Chunk IDRIFF ID соответствующей секции данных
124Chunk StartБайтовое смещение секции данных
164Block StartБайтовое смещение к выборке первого канала
204Sample OffsetБайтовое смещение к байту выборки первого канала

ID Каждая ключевая (cue) точка имеет уникальный идентификатор, используемый для связи ключевых точек с информацией в других секциях. Например, секция метки (Label chunk) содержит текст, который описывает точку в WAV-файле со ссылкой на связанную с ней ключевую точку. Позиция (Position) Определяет смещение выборки, связанное ключевой точкой, с точки зрения позиции выборки в заключительном потоке выборок, сгенерированных списком воспроизведения. Другими словами, если указана секция списка воспроизведения (play list chunk), значение позиции равно номеру выборки, на которой эта ключевая точка встретится при воспроизведении всего списка (play list) в заданном порядке. Если нет секции списка воспроизведения (play list chunk), то значение позиции должно быть равно 0. ID секции данных (Data Chunk ID) Указывает ID из 4 байт, используемый секцией, содержащей выборку, которая соответствует этой ключевой точке. В WAV-файле без списка воспроизведения (play list chunk) это значение всегда «data». В WAV-файле, имеющем список воспроизведения (play list chunk) с секциями данных и тишины, это значение может быть либо «data», либо «slnt». Начало секции (Chunk Start) Указывает байтовое смещение в секции списка Wave (Wave List Chunk) секции, содержащей выборку, соответствующую этой точке. Это та же самая секция, описанная значением ID секции данных (Data Chunk ID). Если в WAV-файле нет секции списка Wave (Wave List Chunk), это значение равно 0, иначе это значение равно смещению в секции «wavl». Первая секция в секции списка (Wave List Chunk) указывается значением 0. Начало блока (Block Start) Указывает смещение в байтах в секции «data» или секции «slnt» для начала блока, содержащего выборку. Начало блока задает первый байт несжатых аудиоданных PCM или последний байт в сжатых данных звука, где для нахождения соответствующего значения выборки может начаться декодирование. Смещение выборки (Sample Offset) Указывает смещение в блоке (указанном в Block Start) для выборки, соответствующей ключевой точке. В несжатых аудиоданных PCM это просто байтовое смещение в секции «data». В сжатых данных звука это значение равно количеству выборок (которое может и не быть в байтах) от Block Start до выборки, соответствующей ключевой точке.

Секция списка воспроизведения (плейлиста) – «plst»

Секция плейлиста указывает порядок воспроизведения последовательности ключевых точек (cue points). Эти точки заданы в секции «cue «, где-то в другом месте файла. Плейлист состоит из массива сегментов, каждый из которых содержит информацию о том, с какой выборки сегмент должен начать проигрывание, длительность сегмента (в выборках), и сколько раз должен повториться сегмент перед переходом к следующему по списку сегменту.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«plst» (0x736C6E74)
44Chunk Data SizeРазмер данных секцииколичество сегментов × 12
84Number of SegmentsКоличество секменнтов1 — 0xFFFFFFFF
12List of SegmentsСписок секментов

Количество сегментов (Number of Segments) Задает количество последующих сегментов в секции плейлиста. Список сегментов (List of Segments)
Список сегментов – просто набор следующих друг за другом описаний сегментов, которые составлены по формату, приведенному в таблице ниже. Сегменты не должны идти в каком-то определенном порядке потому, что для определения порядка воспроизведения используется позиция ключевой точки, связанной с сегментом.

СмещениеРазмерНазваниеОписаниеЗначение
0x004Cue Point IDИдентификатор ключевой точки0 — 0xFFFFFFFF
0x044Length (in samples)Длина (в выборках)1 — 0xFFFFFFFF
0x084Number of RepeatsКоличество повторений1 — 0xFFFFFFFF

ID ключевой точки (Cue Point ID) Указывает начальную выборку для этого сегмента путем указания значения ключевой точки, заданного в списке ключевых точек. ID связывающий этот сегмент с ключевой точкой, должен быть уникальным по отношению к ID ключевых точек у всех других сегментов. Длина (Length) Указывает количество выборок для воспроизведения от начальной выборки, заданной в Cue Point ID. Количество повторений (Number of Repeats) Определяет, сколько раз должно повториться воспроизведение сегмента, перед переходом к следующему сегменту.

Секция связанного списка данных – «list»

Секция связанного списка данных (Associated Data List Chunk) используется для задания текстовых меток и имен, которые связаны с ключевыми точками, для предоставления для каждой позиции текстовой метки или имени.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«list» (0x6C696E74)
44Chunk Data SizeРазмер данных секциизависит от содержащегося текста
84Type IDИдентификатор типа«adtl» (0x6164746C)
12Список текстовых меток и имен

Type ID Идентификатор типа используется для обозначения типа связанного списка данных и всегда имеет значение «adtl». Список текстовых меток и имен Просто список сортированных секций, которые определяют текст различными способами. В файлах WAVE используются три основных типа секций – секция метки (Label Chunk), секция примечания (Note Chunk) и секция помеченного текста (Labeled Text Chunk).

Секция метки – «labl»

Секция метки (Label Chunk) всегда содержится внутри секции связанного списка данных (Associated Data List Chunk). Она используется для связывания текстовой метки с ключевой точкой (Cue Point). Эта информация часто отображается на маркерах или флажках в аудиоредакторах.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«labl» (0x6C61626C)
44Chunk Data SizeРазмер данных секциизависит от содержащегося текста
84Cue Point IDID ключевой точки0 — 0xFFFFFFFF
12текст

Cue Point ID Указывает точку расположения выборки, соответствующей этой текстовой метке, путем предоставления ID ключевой точки, заданной в списке ключевых точек (Cue Point List). ID, который связывает эту метку с ключевой точкой, должен быть уникальным по отношению к идентификаторам ключевых точек (Cue Point ID) всех других меток. Текст Строка символов, оканчивающихся нулем. Если количество символов в строке нечетное, к строке должен быть добавлен один байт заполнения. Добавленное заполнение не учитывается в поле размера секции метки.

Секция примечания или комментария – «note»

Секция примечания (Note Chunk) всегда содержится внутри секции связанного списка данных (Associated Data List Chunk). Она используется для связывания текстового комментария с ключевой точкой. Эта информация сохраняется тем же способом, что и метки в секции метки.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«note» (0x6E6F7465)
44Chunk Data SizeРазмер данных секциизависит от содержащегося текста
84Cue Point IDID ключевой точки0 — 0xFFFFFFFF
12текст

Cue Point ID Указывает точку расположения выборки, соответствующей этому текстовому примечанию, путем предоставления ID ключевой точки, заданной в списке ключевых точек (Cue Point List). ID, который связывает это примечание с ключевой точкой, должен быть уникальным по отношению идентификаторам ключевых точек всех других примечаний. Текст Строка символов, оканчивающихся нулем. Если количество символов в строке нечетное, к строке должен быть добавлен один байт заполнения. Добавленное заполнение не учитывается в поле размера секции примечания (комментария).

Секция помеченного текста – «ltxt»

Секция помеченного текста (Labeled Text Chunk) всегда содержится внутри секции связанного списка данных (Associated Data List Chunk). Она используется для связывания текстовой метки с областью или секцией данных звука. Эта информация часто отображается в помеченных областях звука в аудиоредакторах.

СмещениеРазмерНазваниеОписаниеЗначение
04Chunk IDID секции«ltxt» (0x6C747874)
44Chunk Data SizeРазмер данных секциизависит от содержащегося текста
84Cue Point IDID ключевой точки0 — 0xFFFFFFFF
124Sample LengthКоличество выборок0 — 0xFFFFFFFF
164Purpose IDID назначения0 — 0xFFFFFFFF
202CountryСтрана0 — 0xFFFF
222LanguageЯзык0 — 0xFFFF
242DialectДиалект0 — 0xFFFF
262Code PageКодовая страница0 — 0xFFFF
28текст

Cue Point ID Указывает начальную выборку, которая соответствует этой текстовой метке, с помощью предоставления ID ключевой точки, заданного в списке ключевых точек (Cue Point List). ID ключевой точки, связанный с этой меткой, должен быть уникальным по отношению к ID ключевых точек остальных меток. Sample Length Задает, сколько выборок входит в область или интервал секции, начиная с ключевой точки. Purpose ID Указывает, для чего используется текст. Например, значение «scrp» означает текст скрипта, «capt» означает «close caption» (субтитры). Существует большее количество значений Purpose ID, но они предназначены для использования с другими типами файлов формата RIFF и обычно не используются в файлах WAVE. Country, Language, Dialect, Code Page Эти поля (страна, язык, диалект, кодовая страница) используются для указания информации о месторасположении и языке, используемых в тексте. Обычно они нужны для запросов о получении информации от операционной системы. Текст Строка символов, оканчивающихся нулем. Если количество символов в строке нечетное, к строке должен быть добавлен один байт заполнения. Добавленное заполнение не учитывается в поле размера секции.

Секция семплера – «smpl»

Секция семплера (Sampler Chunk) задает основные параметры инструмента, как например семплер MIDI, который должен использоваться для воспроизведения данных звука. Наиболее важно, что она включает в себя информацию о зацикливаниях звука во время воспроизведения. Конечно, вы можете решить, что это является дублированием информации, которую можно найти в секциях ключевых точек и списка воспроизведения формата WAVE, но, к счастью, в секции семплера это сделано более гибко, непротиворечиво, и более задокументированным способом.

СмещениеРазмерНазваниеЗначение
04Chunk ID«smpl» (0x736D706C)
44Chunk Data Size36 + (Num Sample Loops * 24) + Sampler Data
84Manufacturer0 — 0xFFFFFFFF
124Product0 — 0xFFFFFFFF
164Sample Period0 — 0xFFFFFFFF
204MIDI Unity Note0 — 127
244MIDI Pitch Fraction0 — 0xFFFFFFFF
284SMPTE Format0, 24, 25, 29, 30
324SMPTE Offset0 — 0xFFFFFFFF
364Num Sample Loops0 — 0xFFFFFFFF
404Sampler Data0 — 0xFFFFFFFF
44List of Sample Loops

Manufacturer
Поле производителя указывает код MIDI Manufacturer’s Association (MMA) для семплера предназначенного для приема звука этого файла. Каждый производитель продуктов MIDI имеет свой уникальный ID, который идентифицирует компанию. Если не указан конкретный производитель, то должно быть уставлено значение 0.

В значении имеется некоторая дополнительная информация, которую можно использовать для трансляции в значение, используемое в передаче на семплер формата MIDI System Exclusive. Старший байт показывает количество младших байт (1 или 3), которые значимы для кода производителя. Например, значение для Digidesign будет 0x01000013 (0x13), и значение для Microsoft будет 0x03000041 (0x00, 0x00, 0x41).

Product Поле продукта указывает ID модели MIDI, заданный производителем. Для получения идентификаторов продукта связывайтесь с производителем семплера. Если не указан конкретный продукт производителя, то должно быть уставлено значение 0. Sample Period Период выборки указывает длительность времени воспроизведения одной выборки в наносекундах (обычно равно 1 / количество выборок в секунду, где количество выборок в секунду равно величине, указанной в секции формата). MIDI Unity Note Величина, имеющая то же самое значение, как и MIDI Unshifted Note секции инструмента (instrument chunk). Поле MIDI Unshifted Note указывает музыкальную ноту, на которой выборка будет воспроизведена с её исходной частотой дискретизации (частота дискретизации указана в секции формата). MIDI Pitch Fraction Указывает доли полутона вверх от величины, указанной в поле MIDI Unity Note. Значение 0x80000000 означает 1/2 полутона (50 cents), и значение 0x00000000 означает неточную настройку между полутонами. SMPTE Format

Указывает формат времени Society of Motion Pictures and Television E, используемый в следующем поле SMPTE Offset. Если установлено значение 0, SMPTE Offset также должно быть равно 0.

ЗначениеSMPTE Format
0нет смещения SMPTE offset
2424 кадра в секунду
2525 кадров в секунду
2930 кадров в секунду с выпадением кадра (30-ый выпадает)
3030 кадров в секунду

SMPTE Offset Величина, указывающая на смещение времени, используемое для синхронизации/калибровки первой выборки звука. Используется формат 0xhhmmssff, где hh – число со знаком, указывающее количество часов (-23 .. 23), mm – беззнаковая величина количества минут (0 .. 59), ss – беззнаковая величина количества секунд (0 .. 59), и ff – беззнаковая величина количества кадров (0 .. -1). Sample Loops Поле циклов выборок указывает количество определений зацикливания выборок в последующем списке (см. List of Sample Loops). Это значение может быть установлено в 0, что означает отсутствие последующих зацикливаний. Sampler Data Указывает количество байт, которые последуют за этой секцией (включая весь список List of Sample Loops). Это значение больше нуля, когда приложение нуждается в сохранении дополнительной информации. Эта величина влияет на значение поля размера секции. List of Sample Loops
Список зацикливаний – простой набор последовательных описаний циклов, которые следуют нижеописанному формату. Зацикливания не имеют какого-либо определенного порядка, поскольку каждый цикл выборок связан с ключевой точкой, позиция которой используется для определения порядка воспроизведения. Секция семплера не является обязательной.

СмещениеРазмерНазваниеЗначение
04Cue Point ID0 — 0xFFFFFFFF
44Type0 — 0xFFFFFFFF
84Start0 — 0xFFFFFFFF
124End0 — 0xFFFFFFFF
164Fraction0 — 0xFFFFFFFF
204Play Count0 — 0xFFFFFFFF

Cue Point ID Идентификатор ключевой точки указывает уникальный ID, который соответствует одной из заданных в списке ключевых точек. Кроме того, этот ID соответствует любой из меток, заданных в связанной секции данных, которая позволяет назначать текстовые метки различным циклам выборок. Type
Поле типа задает, каким образом зацикливаются выборки звука.

ЗначениеLoop Type (тип зацикливания)
0Цикл вперед (обычный)
1Альтернативный цикл (впере↔назад, известный также как Ping Pong)
2Цикл назад (обратный)
3 — 31Зарезервировано для будущих стандартных типов
32 — 0xFFFFFFFFСпецифические типы, относящиеся к семплеру (задаются производителем)

Start Значение старта указывает байтовое смещение на аудиоданные первой выборки, проигрываемой в цикле. End Значение окончания указывает байтовое смещение на аудиоданные последней выборки, проигрываемой в цикле. Fraction Дробное значение указывает дробную часть выборки, которая принадлежит циклу. Это позволяет точно настроить длительность цикла с точностью выше, чем позволяет одна выборка. Величина может находиться в диапазоне 0x00000000 .. 0xFFFFFFFF. Значение 0 означает отсутствие дробной части, значение 0x80000000 означает 1/2 от длительности выборки. Значение 0xFFFFFFFF соответствует минимальной дробной части выборки, которую можно задать. Play Count Значение счетчика воспроизведений определяет количество проигрываний цикла. 0 означает бесконечный цикл, который не прервется, пока не произойдет принудительное внешнее вмешательство (например, музыкант отпустит клавишу). Все другие значения указывают абсолютное количество проигрываний цикла.

Секция инструмента – «inst»

Секция инструмента (instrument chunk) используется для описания, каким образом звук должен быть проигран как звук инструмента. Эта информация полезна для обмена музыкальной информацией между музыкальными редакторами-семплерами, основанными на выборках (семплах), трекерами или программными таблицами звука. Эта секция является необязательной, и не может встречаться в WAVE-файле больше одного раза.

СмещениеРазмерНазваниеЗначение
04Chunk ID«ltxt» (0x6C747874)
44Chunk Data Size7
81Unshifted Note0 — 127
91Fine Tune (dB)-50 — +50
101Gain-64 — +64
111Low Note0 — 127
121High Note0 — 127
131Low Velocity1 — 127
141High Velocity1 — 127

Unshifted Note Поле несмещенной ноты имеет то же самое предназначение, что и у MIDI Unity Note секции семплера – указывает музыкальную ноту, на которой выборка будет проиграна с её оригинальной скоростью (частотой дискретизации, указанной в секции формата). Fine Tune Значение точной настройки указывает, насколько подача выборки должна быть изменена, когда звук воспроизведен в центах (1/100 полутона). Отрицательное значение означает, что высота тона должна быть снижена, а положительное значение означает, что высота тона должна быть повышена. Gain Значение усиления указывает количество децибел для настройки выходного сигнала при проигрывании. Значение 0 дБ означает отсутствие изменений, 6 дБ означает удвоение амплитуды каждой выборки, -6 дБ означает уменьшение амплитуды каждой выборки вдвое. Каждые дополнительные +/- 6 дБ удваивают или делят амплитуду надвое соответственно. Low Note и High Note Поля нот указывают диапазон нот MIDI, в которых звук должен быть проигран, когда происходит событие приема ноты MIDI (от программного обеспечения или команды контроллера MIDI. Контроллером может выступать, например, клавиатура MIDI). Этот диапазон необязательно должен включать значение Unshifted Note. Low Velocity и High Velocity Поля скорости указывают диапазон скоростей MIDI (MIDI velocity), с которыми должен проигрываться звук. 1 относится к самому медленному проигрыванию, 127 к самому быстрому.

Разработанные для определенной цели

.ACT — это сжатый аудиоформат ADPCM до 8 кбит/с. В нем происходит запись с большинства китайских MP3- и MP4-плееров и диктофонов.

.AU — стандартный формат аудиофайла, используемый Sun, Unix и Java. Аудио в файлах AU может быть в виде PCM или же сжатым с помощью кодеков μ-law, a-law или G729.

.AWB (AMR-WB) — аудио, используемое в основном для речи, аналогично спецификации ITU-T G.722.2.

.DCT – его использует программное обеспечение NCH. Это формат переменных кодеков, предназначенных для диктовки. Он имеет информацию заголовка диктовки и может быть зашифрован (как того требуют медицинские законы конфиденциальности). Можно также сказать, что это проприетарный формат программного обеспечения NCH.

.DSS — файлы Olympus DSS являются собственными форматами Olympus. Это довольно старый и плохой кодек. GSM или MP3, как правило, предпочтительнее, если их позволяет использовать рекордер. Это дает возможность хранить дополнительные данные в заголовке файла.

.DVF — это собственный формат Sony для сжатых голосовых файлов, обычно используемый диктофонами этой компании.

.GSM — разработанный для использования в телефонии в Европе. Это лучший аудио-формат для качественного звучания голоса по телефону. Хороший компромисс между размером и качеством файла. Также стоит отметить, что WAV-файлы иногда могут быть закодированы с помощью кодека GSM.

.MSV — собственный формат Sony для сжатых голосовых файлов Memory Stick.

Распространенные форматы аудио файлов

Аудио файлы бывают различных форматов. Рассмотрим самые распространенные из них:

  • MP3 — цифровой формат, позволяющий записывать и хранить аудио информацию, а также обеспечивающий довольно высокое качество ее воспроизведения.
  • MIDI — этот формат поначалу использовался лишь в процессе управления музыкальными инструментами. На сегодняшний день его используют для электронных музыкальных инструментов и компьютерных модульных систем.
  • WAV — этот формат произвольного звука, представленного в виде колебания или аудио волны. Он используется во всех стандартных звуках в системе Windows.

Интернет-форматы

.FLAC — формат файла для Free Lossless Audio Codec, кодек сжатия аудио без потерь качества.

.IKLAX – это многодорожечный цифровой аудиоформат, позволяющий выполнять различные действия с музыкальными данными, например, при размешивании и компоновке томов.

.IVS — проприетарная версия с Digital Rights Management, разработанная компанией 3D Solar UK Ltd для использования в музыке, загружаемой из музыкального магазина Tronme, а также для интерактивной музыки и видеоплеера.

.OPUS (Internet Engineering Task Force) — формат сжатия аудиоданных с потерями качества, разработанный рабочей группой Internet Engineering Task Force (IETF) и созданный специально для интерактивных приложений реального времени через интернет. Представлен в качестве открытого типа, стандартизованного с помощью RFC 6716, его эталонная реализация предоставляется в соответствии с лицензией BSD на 3 раздела.

.RA, .RM — формат Real Audio, предназначенный для потоковой передачи звука через интернет. При этом .RA позволяет хранить файлы в автономном режиме на компьютере со всеми аудиоданными, содержащимися в самом файле. Программы для аудио-форматов этого типа в настоящее время считаются устаревшими.

Все современные аудиоформаты в порядке улучшения качества звучания

В цифровую эпоху вопрос «какой формат для прослушивания выбрать» кажется довольно странным. Ведь на рынке полно потоковых сервисов, стриминга – подписался, отыскал любой альбом, нажал кнопочку, все играет. Это не то, что раньше – иди в магазин, покупай физический носитель… В конце концов, если хочется роскошного качества – есть онлайн маркеты Hi-Res контента. Однако, что мы получаем на самом деле, прослушивая музыку в таких форматах? И что теряем? Редакция Hi-Fi.ru публикует абсолютный рейтинг качества всех современных способов прослушивания музыки – надеемся, что данный материал расставит точки над «i» в этом непростом вопросе и поможет понять, почему винил до сих пор живее всех живых, а некоторые аудиофилы предпочитают магнитную ленту.

MP3, AAC и другие сжатые форматы

Оценка качества – 5%

Старый-добрый MP3 был разработан в эпоху, когда высокие скорости Интернета нам только снились, а терабайтные хранилища информации казались делом далекого будущего. Сейчас формат подойдет лишь для ознакомления с мелодией – искаженные тембры, сдвинутый тональный баланс, плохая детализация вряд ли могут быть интересны любителям высокой верности воспроизведения.

+Огромная библиотека трековКачество имеет слабое отношение к оригинальному замыслу

Вердикт – «зашазамил» – «ознакомился»

FLAC, PCM 16/44 – несжатые форматы

Оценка качества – 15%

+Массовый формат для стримингаЗначительные потери во всех смыслах

Вердикт – наслаждения не случится, но общее представление о треке формат дает

CD (компакт-диск)

Оценка качества – 20%

Зачем мы упомянули в списке CD, когда выше уже описали данный подход «в цифре»? Ответов два. Во-первых, многие аудиофилы имеют коллекции из тысяч «компактов», так что, пластмассовые кружочки послужат еще долго. Во-вторых, как ни странно, на хорошем транспорте или проигрывателе https://www.hi-fi.ru/magazine/audio/top50-cd/ CD «одной левой» кладет на лопатки его цифровой образ – предлагая лучшую нижнюю середину и разрешение. А если мы добавим различные варианты «улучшенных» дисков (например, gold), то получим неплохое поле для экспериментов.

+Звучит лучше, чем цифра 16/44Потери все равно велики – бас обрезан, динамика страдает

Вердикт – выбор коллекционеров

Hi-Res PCM, FLAC 24/96 – 24/192

Оценка качества – 25%

Высокое разрешение таки пришло в наши дома – на сегодня в Сети полно магазинов с подобным контентом, а большинство стриминговых сервисов имеют опции вещания с разрешением 24 бита. По сравнению с CD здесь куда лучше пространственная картина и детализация.

+При хорошем мастеринге явно лучше компакт-дискаВсе ещё ограниченные басовые таланты

Вердикт – формат постепенно становится массовым и заменяет все вышеперечисленные схемы, однако, он не идеален

DVD-Audio

Оценка качества – 25%

DVD-Audio быстро взлетел и точно так же быстро покинул сцену. На сегодня эта версия Hi-Res на дисках стала уже коллекционной редкостью – или битами в файлах соответствующего продаваемого цифрового контента.

+Все преимущества высокой битности сигналаКачество звучания не лучше «обычного» Hi-Res, плееров для воспроизведения не найти

Вердикт – только для любителей самого редкого

Оценка качества – 25%

Детище Боба Стюарта из Meridian, предложившего комбинацию сжатия с потерями и форму отпечатка для восстановления исходной последовательности. Схема прижилась в стриминге и предложила как неплохое качество, так и лучшую оптимизацию для трансляций.

+Звучит интересноВсе те же, что и описаны выше у Hi-Res

Вердикт – чуда не произошло, но как вариант послушать музыку на пробежке в наушниках, почему бы и нет?

Компакт-кассета

Оценка качества – 40%

Компакт-кассета, хотя и имеет ряд существенных недостатков (низкое соотношение «сигнал-шум», например), но обеспечивает очень пластичный и натуральный саунд. Искрометных ВЧ здесь нет, но лента, даже в такой усеченной схеме, имеет свою магию. А учитывая, что сейчас много релизов выходит на кассетах – есть повод обратить внимание на формат. Новые кассетные деки тоже выходят – но можно обратить внимание и на винтаж.

+Живое, ртутное звучаниеДетализация не хватает звезд с неба

Вердикт – можно снова окунуться в былую эпоху

DSD128

Оценка качества – 40%

Однобитный студийный формат Sony на сегодня щеголяет достаточно большой библиотекой и предлагает существенно лучшее разделение каналов и динамический диапазон, чем «младшие» версии Hi-Res PCM.

+Изысканное звучание, которое может впечатлитьПлотность звуковых образов не всегда на высоте

Вердикт – явный шаг вперед

Оценка качества – 45%

Как обычно, дисковый носитель играет чуть лучше, чем его цифровой слепок – так и в случае с SACD, физический формат предложит вам несколько лучшую пространственную картину. Но и обойдется дороже.

+Неплохая библиотека, приятное звучаниеЗвук все еще недостаточно плотный

Вердикт – если вы коллекционер дисков, стоит обратить внимание

Hi-Res PCM 32/384 – 32/768

Оценка качества – 50%

Самые продвинутые варианты Hi-Res 32- битные. Записей таких совсем немного, но они, наконец-то, обеспечивают должную глубину баса и все богатство тембральных оттенков.

+Маленький шаг для человечества, но значительный – для отраслиСкудный выбор записей

Вердикт – цифровой звук, который, наконец-то, вызывает немного нареканий

DSD256 – DSD512 – DSD1024

Оценка качества – 50%

«Продвинутые» форматы DSD, которые демонстрируют полноценное физическое ощущение звуковых образов. Вместе с роскошными басами и динамическими всплесками такой DSD кажется наиболее впечатляющим цифровым решением для музыки.

+«Почти» студийный звукНебольшая библиотека, некоторое ощущение отстраненности в подаче

Вердикт – выбор аудиофилов

Винил (новодел)

Оценка качества – 60%

Современные пластинки избавились от множества недостатков, заметных на рубеже XXI века, теперь они предлагают, как правило, и добротный мастеринг, и абсолютно натуральное звучание, расцвеченное всей гаммой эмоций.

+Если запись качественная, вы получите всю гамму красокВиниловая система окажется дороже цифровой

Вердикт – аплодируем ренессансу аналога!

Винил (первопрессы)

Оценка качества – 70%

Оригинальные версии LP до сих являются эталонными для виниловых пластинок. Другие версии не могут сравниться с их динамическим диапазоном, мощью и слитностью подачи.

+Роскошные басы, дух эпохи перед вамиСложности с поисками пластинок в идеальном состоянии

Вердикт – за первопрессами стоит поохотиться

Магнитная лента

Оценка качества – 100%

Эталон на сегодня. Формат рекорд-лейблов, «Священный Грааль» музыки не так давно стал доступен и для массового пользователя – высококачественные записи на скорости 38 см/с наконец-то пришли в дома самых продвинутых аудиофилов. На рынке сейчас есть десятки компаний, продающих такие ленты – и, поверьте, один раз услышав подобное качество, понижать планку будет очень болезненно. Лента сразу же показывает всю нищету иных схем воспроизведения музыки – её динамика на голову превосходит все имеющееся на рынке, а эмоции авторского исполнения, кажется, проникают к вам прями в душу. Если хотите узнать, что вы теряли раннее – оцените запись reel-to-reel, но, помните, пути назад уже не будет. Да и с выбором бобинника придется повозиться.

Источник

Наиболее редкие

.RAW — необработанный файл может содержать аудио в любом формате, но обычно используется с аудиоданными PCM. Он используется редко, за исключением технических испытаний.

.SLN – утвержденный линейный формат PCM, используемый Asterisk. До версии v.10, стандартными типами аудио были 16-битные Signed Linea.

.Vox- чаще всего использует кодек Dialogic ADPCM (Adaptive Differential Pulse Code Modulation). Подобно другим форматам ADPCM, он сжимает данные до 4 бит. Файлы формата Vox подобны волновым файлам, за исключением того, что они не содержат информации о самом файле, поэтому форматы воспроизведения аудио могут отличаться. Для этого понадобится сначала указать частоту дискретизации кодека и количество каналов.

Заметка о типах данных

При чтении заголовка можно применять разные типы данных. Например, в Си (MSVS) вместо массива char[4] можно использовать __int32 или DWORD, но тогда сравнение с какой-либо строковой константой, к примеру может оказаться не очень удобным. Также хотелось бы предостеречь вас на тему 64-битных операционных систем. А именно: всегда стоит помнить, что в языке Си тип переменной int в 64-битной системе будет иметь длину 8 байт, а в 32-битной — 4 байта. В таких случаях можно воспользоваться вышеупомянутым типом переменной __int32 или __int64, в зависимости от того, какой размер переменной в памяти Вам необходим. Существуют типы __int8, __int16, __int32 и __int64, они доступны только для MSVC++ компилятора как минимум 7-й версии (Microsoft Visual Studio 2003.NET), но зато Вы не ошибетесь с выбором размера типа данных.

Где сегодня можно найти аппаратные аудиокодеки?

Это зависит от обстоятельств, вы должны принять во внимание, что сегодня мощность процессоров настолько велика по сравнению с тем, как это было не так давно, что многие функции, которые ранее зависели от выделенного оборудования, снова вернулись к процессору. Именно аудиокодек обычно находится на аудиоплатах, будучи небольшой микросхемой на плате. материнская плата или внутри какого-то другого компонента. Но поскольку это часть, на которую больше не обращают внимания, включение аппаратных аудиокодеков можно найти в высокопроизводительном оборудовании.

Возможно, центральный процессор вашего ПК сам управляет звуком вашей любимой игры или серии, а вы этого не осознаёте. В конце концов, для декодирования звука требуется лишь часть мощности процессора. Однако это не означает, что это не влияет на общую производительность системы. Но, учитывая тенденцию к сохранению аудиокодеков на многих ПК, большинство приложений сегодня склонны игнорировать их и спроектированы так, чтобы иметь возможность использовать исключительно ЦП пользователя.

В настоящее время аппаратные аудиокодеки настолько интегрированы и миниатюрны, что мы можем найти их в высококачественных динамиках и наушниках, выполняющих функции позиционной интерпретации звука в сочетании с датчиками движения пользователя или самого динамика в соответствии с их ориентацией.

Рейтинг
( 1 оценка, среднее 5 из 5 )
Понравилась статья? Поделиться с друзьями:
Для любых предложений по сайту: [email protected]