МР3 - Мои статьи - Каталог статей

Понедельник, 06.04.2026, 14:12
Приветствую ВасГость | RSS Code

Главная | Каталог статей | Регистрация | Вход

E-mail:
пароль:

Меню сайта

Категории раздела

Мои статьи [24]

Наш опрос

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Главная » Статьи » Мои статьи

МР3

Hесколько слов о формате MP3

Что такое MP3?

MP3 - сокращение от MPEG Layer3. Это один из цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMPSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является самой сложной из семейства MPEG Layer 1/2/3. Она требует больших затрат машинного времени для кодирования по сравнению с остальными и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.

Компрессия достигается при активном использовании известных особенностей человеческого слуха в плане восприятия аудиоинформации, что позволяет экономить на наименее значимых с точки зрения человеческого слуха деталях звучания. На проведенных тестах специально нанятые опытные прослушиватели не смогли различить звучание оригинального трека на CD и закодированного с коэффициентом сжатия 6:1.
Описание процесса кодирования
Подготовка к кодированию. Фреймовая структура

Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помещается к конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма.
Начало кодирования

Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны.
Работа психоакустической модели. Часть первая

Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем для данного диапазона порога слышимости, то данный диапазон не кодируется.
Работа психоакустической модели. Часть вторая

Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта, соответственно чему и производится пожертвование. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 dB.
Завершение кодирования

После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

На практике схема несколько сложнее, так как необходимо согласовываться с требованиями битрейта. В зависимости от кодера это приводит к разного рода релаксациям при повышении битрейта и ужесточению критериев при его понижении. Суть в том, что даже после обработки с помощью психоакустической модели оставшаяся аудиоинформация достаточно объемна, приходится идти на потери.

Кроме того, кодирование стереосигнала допустимо четырьмя различными методами:
1. Dual Channel

Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется на битрейтах от 256kbs (субъективно).
2. Stereo

Каждый канал кодируется отдельно, но когда кодер умудряется отбросить столько "лишнего" в одном канале, что код не заполняет полностью выделенный для данного канала объем, то кодер может использовать это место для кодирования другого канала. В документации говорится, что этим избегается кодирование "тишины" в одном канале, когда в другом есть сигнал.

Но документация, на мой взгляд, неясно объясняет, что именно происходит. Отсюда и рекомендация в предыдущем пункте.

Режим установлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs-160kbs.
3. Joint Stereo ( MS Stereo )

Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом.

Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD.

Режим выставлен по умолчанию продукцией FhG IIS для битрейтов от 112kbs до 192kbs.
4. Joint Stereo ( MS/IS Stereo )

Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.

В отличие от предыдущего, этот метод приводит уже к прямой потере информации, но выгоды в качестве от экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких битрейтах. Этот режим по умолчанию используется продукцией FhG IIS для высоких частот на битрейтах от 96kbs и ниже. В ISO-based кодерах возможен выбор диапазона. Фактически, MS Stereo - частный случай MS/IS Stereo, когда переменная, отвечающая за кодируемый таким образом диапазон, принимает нулевое значение.

При применении данного режима происходит потеря фазовой информации, а также имеет место меланхоличное превращение противофазного сигнала кодером в полное отсутствие оного (сигнала).
О граблях

Сразу следует заметить, что с оценкой качественности в головах большинства пользователей образовалась такая путаница, что распутать ее нелегко. Почему-то стало считаться, что мнение аудиофилов неприоритетно, а приоритетно мнение пользователей с никакой аппаратурой и соответствующим слухом. Некоторые также путают факт наличия низкого или высокого уровня шумов с высоким или низким качеством сигнала, такая прямолинейная оценка в принципе неверна, не только для MP3. Это лишь одна из характеристик традиционной аппаратуры, которую следует осторожно переносить на цифровое аудио.

Кроме того, по простым, но неудобным для изложения причинам сложилась такая ситуация, что абсолютное большинство пользователей MP3 пользуется теми программами, которые просто первыми попались на глаза, пользуясь рекомендацией столь же "образованных" друзей или своими первыми впечатлениями. (Выделенное курсивом - важно.) Ни к чему хорошему в плане качества это не приводит. (Правда, также бывает полезно перечитывать время от времени документацию - в предыдущей черновой неопубликованной версии обзора содержалась серьезная ошибка, основанная, тем не менее, на довольно логичном допущении. По такому случаю он был выверен весь.)

Например, благодаря высокой скорости очень популярны кодеры от XingTech, хотя они обеспечивают самое грубое кодирование на любом фиксированном битрейте по сравнению с другими кодерами. При переменном битрейте каждый фрейм закодирован хуже, чем был бы при использовании других кодеров.

Еще очень популярны кодеры, написанные самим разработчиком стандарта - Fraunhofer IIS, - хотя при всем их действительно высоком качестве они имеют небольшой ряд характерных существенных недостатков, проявляющихся на низких битрейтах, на которые, кстати, и ориентированы. Основной недостаток - непонятное отсутствие возможностей настройки, в частности, нет возможности отключить когда нужно режим Joint Stereo. Другое дело, что необходимость в такой перенастройке возникает лишь в меньшинстве случаев, но еще раз повторюсь, в это меньшинство входят практически все записи, оцифрованные с аудиокассет.

Проблема в том, что обо всем этом почти нигде не написано. Я имею в виду, на сайте производителя и других авторитетных.

Так и оказывается, что продукция самого авторитетного производителя кодеров - отнюдь не во всех случаях самый лучшая, но чтобы дойти до понимания этого, нужно целенаправленно искать нужную информацию. При том, что на большинстве основных сайтов буквально проходу не дает реклама XingTech и рекомендации ее кодеров.

Послужило основной причиной формирования и продолжает способствовать дальнейшему ухудшению ситуации то, что на традиционно устанавливаемой на компьютерах неважной аудиоаппаратуре, состоящей обычно из слабой аудиокарты и дешевых колонок, закодированные кодерами от XingTech MP3 звучат почти так же, как и сделанные любыми другими кодерами, а CD Audio звучит столь же неважно, как MP3 128kbs (сжатие 12:1). Поэтому последнему приписывается CD-качество, а кодеры от XingTech не перестают пользоваться популярностью.

В силу чего еще одной большой трудностью поначалу становится устоять перед соблазном использования в своей фонотеке таких популярных низких битрейтов, как 128kbs. Обычно забывают, что битрейты порядка 112kbs-128kbs по качеству применимы для трансляций и ознакомительного прослушивания, но не для создания архивов музыки качества CD Audio.

Из личного опыта могу заметить следующее. У меня тоже была одно время коллекция таких MP3, и слушал я их тоже на дурной аппаратуре. Но довольно скоро выучил все легко заметные недостатки звучания каждого файла, и они превысили все недостатки аппаратуры. В результате слушать перестал и прибил для экономии места. А искал их перед этим - долго. Выводы?

Кроме того, в большинстве учебников говорится о неспособности человека слышать частоты выше 16kHz. Во-первых, это и так неверно, многое зависит от мощности сигнала. Во-вторых, человек - чудное существо. Даже не слыша такие звуки с помощью уха осознанно, он ощущает их. Поэтому обрез частот выше 16kHz можно считать обоснованным на низких битрейтах, но их нельзя не брать в расчет, когда речь заходит о высоких битрейтах, приближающих качество сигнала к уровню CD Audio.

Кстати, речь в обзоре идет именно о кодировании CD Audio.
Несколько слов о разных битрейтах

Разные битрейты дают разное качество. Разные любители MP3 абсолютно по-разному оценивают степень приемлемости одних и тех же битрейтов и имеют свой взгляд на то, какой битрейт следует считать оптимальным. Кто-то выбирает 128kbs, другие 160kbs, третьи золотую середину - от 192kbs до 256kbs. А кому-то, как мне, этого мало.

Я, когда начинал разбираться с MP3, изначально искал именно и только полноценную замену CD Audio, с тем же качеством, но с меньшим объемом. Такую возможность MP3 дает. Любые же потери качества и нервов, пусть и с утешительным призом в виде дальнейшего уменьшения объема, меня всегда интересовали со знаком минус, и я пользуюсь и собираюсь продолжать пользоваться исключительно 320kbs MP3. Поясню, на чем основан мой выбор.

Тесты профессиональных прослушивателей, нанятых разработчиками формата, для выбранных тестовых композиций показали достаточность 256kbs для сохранения качества звучания, неотличимого человеческим слухом от исходного. В дополнение к этому, другие тесты, проведенные французом Gabriel Bouvigne, вебмастером MP3 Tech, показали недостаточность для этой цели битрейтов, меньших 256kbs. Вывод - запаса качества 256kbs не дает, этот битрейт следует считать пограничным. Так и получается - время от времени появляются местами заявления о недостаточности 256kbs для некоторых треков, что понятно - как и любой другой цифровой формат, MP3 имеет свои специфические узкие места, которые приводят к трудностям в кодировании некоторых композиций. Все это, несмотря на отсутствие документированных доказательств, наводит на мысль о необходимости все же обзавестись запасом.

С другой стороны, те же тесты определили MP3 160kbs-192kbs как в большинстве случаев вполне приемлемые для хранения аудио на компьютере, например, в компьютерных играх, когда внимание отвлечено.

Следующий после 256kbs битрейт - 320kbs, он же - максимальный для кодирования аудио с характеристиками CD Audio. Что логично, так как мы имеем в данном случае запас в 1/4 от 256kbs, который вполне можно считать достаточным в силу имеющихся данных о степени улучшения качества кодирования при кодировании на 160kbs вместо 128kbs.

Таким образом, любой может свободно уменьшить объем имеющегося у него CD Audio более чем вчетверо, используя 320kbs, и быть спокойным за качество. Или легким аутотренингом внушить себе спокойствие и использовать MP3 256kbs, имея сжатие в шесть раз, но безопасность этого битрейта в плане сохранения качества убедительно доказана не была, хотя разница в любом случае не может быть большой. И тем не менее.

Так или иначе, используя MP3 256kbs и 320kbs, мы можем без особых проблем создавать свои обширные фонотеки на CDR.

С другой стороны, самым популярным был и остается битрейт 128kbs. При нем мы имеем скорее качество аудиокассеты, записанной на не самом лучшем магнитофоне, хотя и с очень низким уровнем шумов. Романтически настроенные разработчики даже назвали это "CD качеством", хотя решительность такого заявления вызывает некоторое удивление. Тем более, что результаты официальных тестов совсем другие.

На самом деле различие между 128kbs и 256kbs - 320kbs принципиально. Первый к качеству уровня CD никакого отношения не имеет, в отличие от двух последних. (Разумеется, для тех, кому качество средней аудиокассеты кажется великолепным, данная оценка неверна, также она обычно неверна, когда внимание сильно отвлечено.) Добавить к этому особо нечего.

Но в Интернет, как правило, можно найти MP3 только битрейтов порядка 128kbs. Этот битрейт, помимо признания как любимый битрейт FhG IIS, был признан также оптимальным для использования в Интернет. Что печально, но логично - именно для передачи аудио по сетям MP3 и был первоначально предназначен, вот только самый желаемый битрейт в 112kbs, к сожалению, оказался маловат для кодирования CD Audio, и дополнительно закрепилась цифра 128kbs, которая обеспечивает значительно более высокое качество. При дальнейшем же повышении битрейта рост качества замедляется, поэтому 128kbs своей популярностью обязан именно высокому отношению качества к объему.

Вскоре после того, как народ осознал, что попало ему в руки, в Сети самообразовались обширные залежи нелегальных MP3-файлов, кампанию борьбы с которыми недавно провела RIAA, а осенью 98-го начали выпускаться аппаратные плееры MP3, в том числе модели для авто. Хотя вначале RIAA пыталась и этому помешать. В итоге MP3 стал первым массово признанным форматом хранения аудио после CD-Audio, а RIAA срочно ищет формат, который бы не допускал нелегального распространения аудиотреков через Интернет, и при этом в головах многочисленных любителей музыки занял бы место MP3.

Но если будет удачно осуществлена раскрутка Liquid Audio - одного из лучших вариантов другого формата, AAC, - то мы действительно сможем иметь приличное качество на 128kbs, при этом будет затруднено нелегальное распространение/кодирование.
VBR & XingTech

Все сказанное выше о битрейтах относится к постоянным битрейтам.

Недавно в XingTech был разработан кодер, использующий технику переменного битрейта (VBR), то есть разные участки трека кодируются с разным битрейтом. Предполагается, что кодер должен выбирать битрейт индивидуально для разных участков трека, исходя из степени их сложности для кодирования. Это в значительной степени реабилитирует репутацию фирмы, которую та предыдущей серией своих MP3 кодеров изрядно подпортила (а также продолжает портить качеством своих кодеров при работе в режиме постоянного битрейта, который тоже сохранен).

Но из самой сути нововведения следует, что тестирование качественности такого кодера должно быть крайне затруднено. С чем мы и имеем дело в действительности. Приемлемых тестов так никто и не провел, хотя кодер вышел уже, можно считать, несколько месяцев назад. А их требуется много, так как возможно наличие слабых мест анализатора, приводящих к неверным решениям о достаточности выбранного битрейта. Особенно это касается тихих сигналов, которые все же важны, несмотря на все теоретические результаты. Учитывая вышесказанное и то, что сам алгоритм кодирования от Xing не является лучшим (грубо кодирует) по сравнению с аналогичными других производителей (хотя теперь и перестал подчистую резать частоты выше 16kHz), приходим к весьма скептическому настрою.

В целом, использование VBR в реализации XingTech аудиофилам не рекомендуется, по меньшей мере пока. Увеличение коэффициента сжатия не революционно, при этом можно напрасно извести массу нервов без существенной выгоды. Кодеры от XingTech стали известны благодаря своей скорости, достигаемой за счет посредственного кодирования, а разрекламированное повышение частоты среза с 16kHz до 20kHz, само собой, не устраняет погрешностей кодирования, что само по себе может служить достаточным основанием для рекомендации не пользоваться такими кодерами. Хотя раньше, когда частоты выше 16kHz в закодированном сигнале практически отсутствовали, было еще хуже.

С другой стороны, для пользователей, для которых скорость важнее всего другого, VBR, даже в реализации XingTech, - лучшее решение. Берите AudioCatalyst 1.5 или MusicMatch JukeBox 3.0 и не читайте дальше. Неплохое качество обеспечено, отличное - есть основания полагать, что нереально. Точно сказать пока нельзя, но похоже, что другие кодеры превосходят AudioCatalyst по качеству, даже когда их постоянный битрейт кодирования превосходит средний по результатам кодирования с применением VBR.

Остается надеяться на выход поддерживающего VBR кодера от FhG IIS, хотя, полагаю, там все же предпочтут заняться более перспективными форматами. Также, конечно, возможна модификация кода ISO, даже понятно, в каком направлении. Только едва ли кто-нибудь будет этим заниматься.
Способы хранения MP3

Стандарт MP3 не определяет точного стандартного математического алгоритма кодирования, это целиком и полностью на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последовательности фреймов могут передаваться потоком (streaming) или храниться в файлах.

MP3 файл, как и поток, состоит из последовательно расположенных фреймов, между которыми может содержаться произвольная информация. Главное, чтобы не было совпадений с сигнатурой начала фрейма, хотя плеер NAD способен справляться и с этим (но то, как он это делает, приводит к бессилию перед переменным битрейтом).

Часто к последовательности фреймов добавляют стандартный заголовок мета-аудиоформата WAV, и получается то, что называют WAV-MP3. Немного подробнее о последнем будет сказано ниже, когда будет описываться ACM pro codec. Еще чаще к MP3 файлу добавляется информационный блок ID3v2, содержащий информацию о исполнителе, жанре, названии композиции, и другую подобную информацию о треке. Он добавляется в конце файла. В середину пока никто ничего ставить не придумал. Хотя, вообще говоря, может представлять некоторый интерес вставка спецтега для VBR с информацией о том, в какой части трека мы, собственно, находимся.
Каков характер потерь?

На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие которых может серьезно менять эмоциональную окраску композиции, придавать или лишать ее таких эффектов, как ощущение "кристальной" чистоты звука. Кроме того, в соответствии с психоакустической моделью высшие (выше 16kHz) частоты на низких битрейтах кодируются с очень небольшим приоритетом. Плюс имеют место разные особенности кодеров - так, у кодеров от FhG IIS на 128kbs получаются "смазаны" верхи, наблюдается эффект "шепелявости", в то время как у ISO-based вместо этого - "звон". Причем одним неприемлемо первое, другим - второе, поэтому выбор кодеров всегда спорен.

Нелюбимое место схем компрессии класса MPEG - участки с резкими изменениями сигнала. В случае MP3 задержка может достигать величин порядка 160ms, теоретический минимум - 59ms.
На высших битрейтах другая проблема – качественность.

Категория: Мои статьи | Добавил: T-90 (29.07.2009)

Просмотров: 436 | Рейтинг: 0.0/0 |