MP3, AAC, WAV, FLAC: объяснение всех форматов аудиофайлов

MP3, AAC, WAV, FLAC: объяснение всех форматов аудиофайлов
На чтение
155 мин.
Просмотров
16
Дата обновления
11.11.2024
источник>

Организуя свою коллекцию цифровой музыки, вы можете быть поражены количеством различных форматов аудиофайлов в вашей библиотеке. Почти все слышали о MP3, но как насчет OGG, AIFF или MQA?

Если список оставляет вам вопрос, все ли эти песни изучались в разных университетах, чтобы получить такие официальные буквы после их имен, не волнуйтесь. Мы здесь, чтобы раскрыть значение наиболее распространенных форматов музыкальных файлов, различия между ними и причины, по которым вам следует это волновать.

Независимо от того, слушаете ли вы файлы MP3 низкого качества, возможно, лучше треки AAC или аудио высокого разрешения в форматах FLAC или WAV, пора точно понять, что вы получаете — и что — лучший формат файла для вас.

Прочтите, чтобы узнать о плюсах и минусах каждого формата аудиофайлов …

Форматы файлов и кодеки at-a -glance

Хотите сразу перейти к делу? Вот удобное руководство по всем форматам файлов и различиям между ними. Если вы хотите узнать больше, прочтите ниже, чтобы подробнее узнать о различиях в размере, качестве звука и совместимости.

AAC (без высокого разрешения): альтернатива MP3 от Apple. Сдавлено и сжато, но звучит лучше. Используется для загрузок iTunes и потоковой передачи Apple Music.

AIFF (высокое разрешение): альтернатива Apple WAV с улучшенной поддержкой метаданных. Он работает без потерь и без сжатия (такие большие размеры файлов), но не очень популярен.

DSD (высокое разрешение): однобитовый формат, используемый для Super Audio CD. Он доступен в вариантах с частотой 2,8, 5,6 и 11,2 МГц, но из-за высокого качества кодека он (в настоящее время) непрактичен для потоковой передачи. Без сжатия.

FLAC (высокое разрешение): этот формат сжатия без потерь поддерживает частоту дискретизации высокого разрешения, занимает примерно половину места WAV и сохраняет метаданные. . Это бесплатный формат и считается предпочтительным форматом для загрузки и хранения альбомов в высоком разрешении. Обратной стороной является то, что он не поддерживается Apple (поэтому несовместим с iTunes).

MP3 (без высокого разрешения): популярный формат со сжатием с потерями обеспечивает небольшой размер файла, но далеко не лучшее качество звука. Удобно для хранения музыки на смартфонах и iPod.

(высокое разрешение): формат сжатия без потерь, который упаковывает привет -res файлы для более эффективной потоковой передачи. Используется для Tidal Masters потоковой передачи в высоком разрешении.

OGG (не в высоком разрешении): иногда называется по его полному имени , Ogg Vorbis. Альтернатива MP3 и AAC с потерями и открытым исходным кодом, не ограниченная патентами. Формат файла, используемый (320 кбит/с) в потоковой передаче Spotify.

WAV (высокое разрешение): стандартный формат, в котором закодированы все компакт-диски. Отличное качество звука, но без сжатия, что означает огромный размер файлов (особенно для файлов с высоким разрешением). У него плохая поддержка метаданных (то есть информации об обложке альбома, исполнителе и названии песни).

WMA Lossless (hi-res): воплощение Windows без потерь Media Audio, но больше не поддерживается смартфонами или планшетами.

  • Лучшие сервисы потоковой передачи музыки: бесплатные потоки в аудио высокого разрешения
  • MQA audio: все, что вам нужно знать
  • Что такое DSD audio?

Сжатые и несжатые аудиофайлы

Во-первых, давайте поговорим о трех категориях, в которые можно сгруппировать все аудиофайлы. Все сводится к тому, насколько сжаты данные (если они вообще есть), и, как следствие, насколько качественны или «потеряны» вы, как слушатель.

Если для сжатия звука в вашем файле не использовался алгоритм сжатия (или кодек), происходят две вещи: нулевая потеря качества звука и, достаточно скоро, предупреждение «загрузочный диск заполнен». на вашем ноутбуке.

По сути, несжатая дорожка — это воспроизведение исходного аудиофайла, где реальные сигналы преобразуются в цифровой звук.

WAV против AIFF против FLAC: несжатые форматы файлов

WAV и AIFF, возможно, самые популярные несжатые форматы аудиофайлов, оба основаны на PCM (импульсной кодовой модуляции), который широко известен как самый простой механизм хранения аудио в цифровой области. В файлах WAV и AIFF используется аналогичная технология, но данные хранятся немного по-разному. Они могут хранить аудиофайлы CD-качества или высокого разрешения.

WAV был разработан Microsoft и IBM, поэтому он используется на платформах Windows и является стандартным форматом, в котором закодированы все компакт-диски.

AIFF был разработан Apple как альтернатива WAV, и хотя он не так широко популярен, файлы AIFF имеют лучшую поддержку метаданных, что означает, что вы можете включать обложки альбомов, названия песен и т. д.

Недостаток? Эти малышки большие. Файл с качеством компакт-диска (16 бит, 44,1 кГц) будет занимать около 10 МБ на жестком диске в минуту.

ALAC против FLAC против WMA Lossless: аудиоформаты без потерь

Все любят FLAC. Файл без потерь, FLAC (Free Lossless Audio Codec) сжимается почти до половины размера несжатого WAV или AIFF эквивалентной частоты дискретизации, но не должно быть «потерь» с точки зрения звучания. Файлы FLAC также могут обеспечивать разрешение до 32 бит, 96 кГц, что лучше, чем качество CD.

Другие форматы аудиофайлов без потерь включают ALAC (Apple Lossless) и WMA Lossless (Windows Media Audio). ). Первый вариант является хорошей альтернативой FLAC, совместимой с iOS и iTunes, хотя файлы немного менее компактны, чем FLAC. Однако проверьте совместимость смартфонов и планшетов.

AAC против MP3: аудиоформаты с потерями

Кто слышал о MP3? Конечно, есть. MP3 — это наиболее распространенный аудиоформат, который удобен для хранения музыки на iPod или планшетах и ​​работает практически на всех устройствах воспроизведения. Но чтобы сделать это, вы должны в процессе потерять массу информации. Чтобы сделать аудиофайлы в десять раз меньше, чем файлы качества компакт-диска, некоторые исходные данные должны быть отброшены, что приведет к потере качества звука.

Скорость передачи данных в формате MP3 также влияет на качество звука. MP3-файлы, закодированные со скоростью 128 кбит/с, несут больше потерь звука, чем MP3-файлы, закодированные со скоростью 320 кбит/с (килобит в секунду, где каждый «бит», по сути, является «частью» песни). Теперь, когда хранилище стало намного дешевле, мы бы любой ценой избежали 128 кбит/с, хотя MP3 со скоростью 320 кбит/с по-прежнему имеют свое предназначение, если ваше хранилище ограничено — и они остаются стандартом для магазинов загрузки.

Еще одна потеря с потерями. формат — AAC (Advanced Audio Coding), который сжимается так же, как MP3, но он немного более эффективен и звучит лучше. AAC используется для загрузок iTunes, потоковой передачи Apple Music (со скоростью 256 кбит/с) и потоковой передачи YouTube.

Формат Vorbis, часто называемый Ogg Vorbis из-за своего контейнера Ogg, является альтернативой MP3 и AAC с открытым исходным кодом с потерями, не ограниченной патентами. Ogg Vorbis — это формат файла, используемый (со скоростью 320 кбит/с) в потоковой передаче Spotify.

Если вы придерживаетесь режима с потерями, стоит помнить следующее: хотя больше «битов» обычно означает лучший звук, это зависит от эффективности кодека в вашем файле. Хотя вы можете заметить, что большая часть музыки в вашей коллекции закодирована со скоростью 128 кбит/с, поэтому MP3, вероятно, будет звучать немного хуже (посмотрите, что мы там сделали?), Чем файл AAC или Ogg Vorbis, из-за к неэффективности кодека в MP3.

А как насчет аудио высокого разрешения?

В отличие от видео высокой четкости, нет единого универсальный стандарт, когда дело доходит до звука высокого разрешения.

Однако, говоря простыми словами, звук высокого разрешения имеет тенденцию относиться к музыкальным файлам, которые имеют более высокую частоту дискретизации и/или битовую глубину, чем компакт-диски. — который указан как 16 бит/44,1 кГц. Таким образом, файлы с высоким разрешением могут иметь формат 16 бит/96 кГц или 24 бит/192 кГц, например.

Так зачем вам это нужно? Проще говоря, аудиофайлы высокого разрешения со всей этой дополнительной аудиоинформацией должны звучать намного лучше, чем сжатые аудиоформаты, которые теряют информацию в процессе сжатия. Они будут занимать больше места для хранения, но мы определенно думаем, что это того стоит.

Несжатые файлы, такие как AIFF и WAV, имеют высокое разрешение, как и файлы в форматах FLAC и ALAC без потерь.. DSD (несколько нишевый формат, используемый для Super Audio CD) также имеет высокое разрешение, но не так широко поддерживается. Когда дело доходит до потоковой передачи, MQA — это формат упаковки файлов, используемый такими компаниями, как Tidal Masters, который помогает передавать аудио высокого разрешения в потоковые службы, используя как можно меньшую полосу пропускания.

Что касается воспроизведения. аудио высокого разрешения, теперь его поддерживает все большее количество продуктов. Беспроводные динамики HEOS от Denon поддерживают воспроизведение 24-битных файлов, как и портативные музыкальные плееры премиум-класса, такие как отмеченные наградами Cowon Plenue D2 и Astell & Kern A & norma SR15.

Аудио высокого разрешения также можно воспроизводить на большинстве флагманских смартфонов Android, таких как пятизвездочный Samsung Galaxy S10 +, но вы не можете воспроизводить звук высокого разрешения на свежем в коробке iPhone. Мы нашли способы обойти это , но стоит помнить, что аудио высокого разрешения еще не так портативно, как его собратья с потерями. Дополнительную информацию о том, какие продукты Hi-Fi поддерживают аудио высокого разрешения, можно найти здесь.

  • Аудио высокого разрешения: наука за цифрами

Какой формат аудиофайла вам больше всего подходит?

Выбранный вами формат файла будет зависеть от того, что вас волнует — хранилище или качество звука. , а также какие устройства вы собираетесь использовать для воспроизведения.

MP3 стали чрезвычайно популярными, когда хранилище было в цене. Теперь, когда у телефонов, музыкальных плееров и ноутбуков гораздо больше места для хранения данных, мы думаем, что вам действительно стоит стремиться использовать файлы с качеством лучше, чем компакт-диск.

Если вы архивируете свои аудиофайлы, Тем не менее, FLAC или другой файл без потерь может быть хорошим подспорьем для копирования вашей музыки. Файлы без потерь обеспечивают хороший баланс между сжатием и качеством звука, позволяя вам слушать цифровую музыку наилучшего качества, не занимая все место на диске. Просто убедитесь, что все ваши устройства совместимы с выбранным форматом файлов.

  • Звук высокого разрешения: все, что вам нужно знать
  • Музыка высокого разрешения: лучшие магазины загрузки
  • Лучшие портативные музыкальные плееры 2020 года: от бюджетных до высоких res music


Руководство по веб-аудиокодекам

Даже скромное качество, высокое -fidelity стерео звук может использовать значительный объем дискового пространства. Для веб-разработчиков еще большее беспокойство вызывает пропускная способность сети, необходимая для передачи звука, будь то потоковая передача или загрузка для использования во время игры. Обработка аудиоданных для их кодирования и декодирования осуществляется с помощью аудиокодека ( CO der/ DEC или) . В этой статье мы рассмотрим аудиокодеки, используемые в Интернете для сжатия и распаковки звука, их возможности и варианты использования, а также дадим рекомендации по выбору аудиокодеков для использования в вашем контенте..

Кроме того, реализации WebRTC обычно используют подмножество этих кодеков для кодирования и декодирования мультимедиа, а также могут поддерживать дополнительные кодеки для оптимальной межплатформенной поддержки видео- и аудиоконференций, а также для лучше интегрироваться с устаревшими телекоммуникационными решениями. Подробнее см. Кодеки, используемые WebRTC.

Для получения информации о фундаментальных концепциях, лежащих в основе работы цифрового звука, см. Статью Концепции цифрового звука.

Общие кодеки

В приведенном ниже списке указаны кодеки, наиболее часто используемые в Интернете, и какие контейнеры (типы файлов) их поддерживают. Если все, что вам нужно знать, это то, какие кодеки вообще можно использовать, это для вас. Конечно, отдельные браузеры могут поддерживать или не поддерживать все эти кодеки, и их поддержка того, какие типы контейнеров могут их использовать, также может различаться. Кроме того, браузеры могут выбрать поддержку дополнительных кодеков, не включенных в этот список.

Название кодека (короткое) Полное имя кодека Поддержка контейнера
AAC Расширенное кодирование звука MP4, ADTS, 3GP
ALAC Аудиокодек Apple Lossless MP4, QuickTime (MOV)
AMR Адаптивный мульти- Скорость 3GP
FLAC Бесплатный аудиокодек без потерь MP4, Ogg, FLAC
G.711 Импульсно-кодовая модуляция (PCM) голосовых частот RTP/WebRTC
G.722 Кодирование звука 7 кГц в пределах 64 кбит/с (для телефонии/VoIP ) RTP/WebRTC
MP3 MPEG-1 Audio Layer III MP4, ADTS, MPEG 1 , 3GP
Opus Опус WebM, MP4, Ogg
Vorbis Vorbis WebM, Ogg

[1] Когда данные кодека MPEG-1 Audio Layer III хранятся в файле MPEG, и в файле нет видеодорожки, файл обычно называется файлом MP3, даже если он все еще является файлом формата MPEG.

Факторы, влияющие на кодированный звук

Есть две общие категории факторов, которые влияют на кодированный звук, который выводится аудиокодеком. кодировщик: подробные сведения о формате и содержимом исходного звука, а также о кодеке и его конфигурации во время процесса кодирования.

Для каждого фактора, влияющего на кодированный звук, существует простое правило, которое почти всегда верно : поскольку точность цифрового звука определяется степенью детализации и точностью выборок, взятых для преобразования его в поток данных, чем больше данных используется для представления цифровой версии аудио, тем точнее выборка звука будет соответствовать исходному материалу.

Влияние формата исходного звука на закодированный аудиовыход

Поскольку кодированный звук по своей сути использует меньше битов для представления каждого образца, исходный аудиоформат может иметь меньшее влияние на размер закодированного аудио, чем можно было бы ожидать. Однако ряд факторов все еще влияет на качество и размер закодированного звука. В таблице ниже перечислены несколько ключевых факторов формата исходного аудиофайла и их влияние на закодированный звук.

Влияние формата и содержимого исходного аудио на качество и размер закодированного звука
Функция Влияние на качество Влияние на размер
Количество каналов Количество каналов влияет только на восприятие направленности, но не на качество. Каждый канал может существенно увеличить размер закодированного звука, в зависимости от содержимого и настроек кодировщика.
Шум/шипение Нежелательный фоновый шум или шипение имеют тенденцию к снижению качества звука как напрямую (за счет маскировки деталей звука переднего плана), так и косвенно (за счет усложнения формы звуковой волны и, следовательно, ее трудно уменьшить в размере при сохранении точности). Шипение, статический или фоновый шум увеличивает сложность звука, что обычно снижает установка сжатия, которое возможно.
Частота дискретизации Чем больше выборок доступно в секунду, тем выше результирующая точность кодирования звука скорее всего будет. Увеличение частоты дискретизации увеличивает размер закодированного аудиофайла.
Размер выборки Чем больше сэмплы, тем больше деталей может содержать каждый сэмпл, что приводит к более точному представлению каждого сэмпла. Зависит от кодека; кодеки обычно имеют внутренний формат выборки, который может совпадать или отличаться от исходного размера выборки. Но более подробная информация об источнике может увеличить размер закодированного файла; он никогда не сделает его меньше.

Конечно, эти эффекты могут быть изменены решениями, принятыми при кодировании звука. Например, если кодировщик настроен на снижение частоты дискретизации, влияние частоты дискретизации на выходной файл будет уменьшено.

Для получения дополнительной информации об этих и других функциях аудиоданных см. Формат и структура аудиоданных в понятиях цифрового аудио.

Влияние конфигурации кодека на кодированный аудиовыход

Аудиокодеки обычно используют умно разработанные и очень сложные математические алгоритмы для получения исходных аудиоданных и их сжатия, чтобы занять существенно меньше места в памяти или пропускной способности сети. Помимо выбора типа используемого кодировщика, у вас может быть возможность настроить кодировщик, используя параметры, которые выбирают определенные алгоритмы, настраивают эти алгоритмы и указывают, сколько проходов применять при кодировании..

Влияние конфигурации аудиокодера на качество и размер
Feature Влияние на качество Влияние на размер
Сжатие без потерь Без потери точности Маловероятно получить более 40-50% сжатия
Сжатие с потерями Всегда некоторая потеря верности; чем выше степень сжатия, тем больше потери Возможное сжатие до 80-95%
Настройка качества Чем выше качество, тем лучше точность закодированного звука Чем выше точность, тем больше становится итоговый файл, хотя степень изменения варьируется от кодека к кодеку
Скорость передачи Чем выше скорость передачи данных, тем выше может быть качество Чем выше скорость передачи данных, тем больше, вероятно, будет закодированный файл
Полоса пропускания звуковой частоты Если есть звук в удаленных частотных диапазонах может наблюдаться заметная потеря точности. Удаление частотных диапазонов означает меньшее количество данных для кодирования, следовательно, кодированные файлы меньшего размера
Стерео кодирование Простое стерео и среднее стерео кодирование не влияет на качество; Однако интенсивное стереофоническое кодирование приводит к потере деталей. Совместное стерео может до некоторой степени уменьшить размер закодированного звука

Доступные параметры и диапазон возможных значений варьируются от кодека к кодеку и даже среди различных утилит кодирования для одного и того же кодека, поэтому прочтите документацию, которая поставляется с программным обеспечением кодирования, которое вы используете, чтобы узнать больше.

Возможности, влияющие на размер закодированного аудио

На размер закодированного аудио влияют несколько факторов. Некоторые из них зависят от формы исходного звука; другие связаны с решениями, принимаемыми при кодировании звука.

Кодеки без потерь и кодеки с потерями

Есть две основные категории сжатия звука. Алгоритмы сжатия без потерь уменьшают размер звука без ущерба для качества или точности звука. При декодировании аудио, сжатого с помощью кодека без потерь, такого как FLAC или ALAC, результат во всех отношениях идентичен исходному звуку, вплоть до бит.

Lossy кодеки, с другой стороны, используют тот факт, что человеческое ухо не является идеальным интерпретатором звука, и тот факт, что человеческий мозг может извлекать важную информацию из несовершенного или шумного звука. Они удаляют звуковые частоты, которые используются нечасто, допускают потерю точности декодированного вывода и используют другие методы для потери аудиоконтента, качества и точности для создания меньшего количества кодированных носителей. После декодирования результат в разной степени все еще понятен.. Конкретный используемый кодек и выбранная конфигурация сжатия определяют, насколько близким к исходному несжатому аудиосигналу будет выход, когда его слышит человеческое ухо.

Из-за различий в том, как кодеки с потерями работают по сравнению с кодеками без потерь, особенно тот факт, что кодеки без потерь должны быть гораздо более консервативными в отношении сжатия, кодеки с потерями почти всегда приводят к значительно меньшему сжатому аудио, чем кодеки без потерь.

В общем, Наиболее распространенные причины выбора аудио без потерь заключаются в том, что вам требуется хранилище архивного качества или потому, что образцы аудио будут повторно микшироваться и повторно сжиматься, и вы хотите избежать усиления артефактов в аудио из-за повторного сжатия. Для потоковой передачи звука в реальном времени обычно требуется кодек с потерями, чтобы поток данных мог не отставать от скорости воспроизведения звука независимо от производительности сети.

Максимальное количество каналов

Звук, доставляемый на каждый динамик в звуковой системе, обеспечивается одним аудиоканалом в потоке. Монофонический звук — это один канал. Стереозвука — два. Объемный звук 5.1 имеет пять аудиоканалов и один канал Low Frequency Enhancement ( LFE ).

Каналы LFE специально разработаны для хранения низкочастотных аудиоданных и обычно используются для передачи аудиоданных, например, для сабвуферов. Когда вы видите количество аудиоканалов, записанных в форме X.Y (например, 2.1 или 5.1), число после десятичной точки Y — это количество каналов LFE. Например, MP3 поддерживает один канал LFE, в то время как AAC поддерживает до 16.

Помимо предоставления звука для определенных динамиков в звуковой системе, некоторые кодеки могут позволять использовать аудиоканалы для обеспечения альтернативы. аудио, например вокал на разных языках или описательное аудио для людей с ослабленным зрением.

Полоса пропускания звуковой частоты

полоса звуковой частоты кодека указывает диапазон звуковых частот, который может быть представлен с помощью кодека. Некоторые кодеки работают специально, удаляя звук, выходящий за пределы заданного частотного диапазона. Существует корреляция между частотой дискретизации и максимальной частотой звука, которая может быть представлена ​​формой волны, представленной кодеком. На теоретическом уровне максимальная частота, которую может представить кодек, равна частоте дискретизации, деленной на два; эта частота называется частотой Найквиста. На самом деле максимум немного ниже, но он близок.

Полоса пропускания звуковой частоты особенно ярко проявляется, когда кодек разработан или настроен для представления человеческой речи, а не широкого диапазона звуков. Человеческая речь обычно находится в диапазоне звуковых частот от 300 Гц до 18 кГц.. Однако подавляющее большинство человеческих вокализаций существует в диапазоне от 300 Гц до 8 кГц, и вы можете записать достаточно человеческих вокализаций в частотном диапазоне от 500 Гц до 3 кГц, чтобы их можно было понять.

по этой причине кодеки, специфичные для речи, часто начинают с пропуска звука, выходящего за пределы установленного диапазона. Этот диапазон — полоса пропускания звуковой частоты. G.722, например, удаляет звуки, выходящие за пределы полосы звуковой частоты от 50 Гц до 7 кГц. Это сокращает объем данных, которые необходимо кодировать с самого начала.

Сведения о кодеке

Ниже мы кратко рассмотрим для каждого из этих кодеков, глядя на их основные возможности и основные варианты использования.

AAC (Advanced Audio Coding)

Кодек Advanced Audio Coding ( AAC ) определен как часть стандарта MPEG-4 (H.264); в частности, как часть MPEG-4 Part 3 и MPEG-2 Part 7. Разработанный для обеспечения большего сжатия с более высокой точностью воспроизведения звука, чем MP3, AAC стал популярным выбором и является стандартным форматом для звука во многих типах носители, включая диски Blu-Ray и HDTV, а также формат, используемый для песен, приобретенных у онлайн-продавцов, включая iTunes.

AAC имеет ряд профилей, которые определяют методы сжатия звука для конкретного использования случаях, в том числе все, от высококачественного объемного звука до звука с низким качеством воспроизведения только для речи.

В качестве запатентованного формата поддержка AAC несколько менее предсказуема. Например, Firefox поддерживает AAC только в том случае, если поддержка предоставляется операционной системой или внешней библиотекой.

Поддерживаемые скорости передачи данных Произвольный, до 512 кбит/с
Поддержка переменной скорости передачи данных (VBR) Да
Поддерживаемые форматы примеров 32-битное целое число
Поддерживается частоты дискретизации 8 кГц — 96 кГц
Рекомендуемый минимальный битрейт для стереозвука 96 кбит/с при частоте дискретизации 48 кГц
сжатие Lossy
Максимальное количество аудиоканалов 48 (плюс 16 низкочастотных каналов улучшения)
Полоса пропускания звуковой частоты 0 Гц — 96 кГц (стандартные аудиоканалы)
0 Гц — 120 Гц (каналы LFE)
Задержка от 20 мс до 405 мс
Совместимость с браузером
Функция Chr ome Edge Firefox Internet Explorer Opera Safari
Поддержка AAC Да[2pting Да Да[1ght 9 Да 3. 1
Поддержка контейнеров MP4, ADTS, 3GP
Совместимость с RTP/WebRTC Да
Лицензирование Для потоковой передачи или распространения контента в кодировке AAC: лицензия не требуется; разработчики кодеков должны получить патентную лицензию через VIA Licensing

[1] Из-за проблем с патентами Firefox не поддерживает AAC напрямую. Вместо этого Firefox полагается на встроенную поддержку AAC платформой. Эта возможность была представлена ​​на каждой платформе в разных выпусках Firefox:

Поддержка AAC в Firefox с использованием внешней библиотеки, по платформам
Платформа Первая версия Firefox
с поддержкой AAC
Windows (Vista и новее) 22
Android 20
Linux (зависит от GStreamer) 26
macOS 35

[2] Chrome поддерживает AAC только в контейнерах MP4 и поддерживает только основной профиль AAC. Кроме того, AAC недоступен в сборках Chromium.

ALAC (Apple Lossless Audio Codec)

Аудиокодек Apple Lossless ( ALAC или Apple Lossless ) — кодек без потерь, разработанный Apple. Изначально это был закрытый формат, но Apple открыла его по лицензии Apache.

Кросс-платформенная и браузерная поддержка ALAC не очень сильна, что делает его менее чем идеальным выбором для общего использования. Однако, если ваша цель — в первую очередь пользователи macOS и iOS, возможно, стоит подумать, поскольку операционные системы имеют встроенную поддержку ALAC. В противном случае, FLAC, вероятно, будет лучшим выбором, если вы должны использовать кодек без потерь.

Однако имейте в виду, что кодеки без потерь требуют значительно большей пропускной способности и емкости хранилища и могут быть не лучшим выбором вне очень специфических случаев использования.

Поддерживаемые битрейты На основе формата выборки и частоты дискретизации , а также уровень сжатия
Поддержка переменной скорости передачи данных (VBR) Нет
Поддерживаемые форматы примеров 16-битный, 20-битный, 24-битный и 32-битный целочисленный
Поддерживаемые частоты дискретизации от 1 Гц до 384 000 Гц
Рекомендуемая минимальная скорость передачи данных для стереозвука n/a
Compression Без потерь; до 45-60%
Максимальное количество аудиоканалов 8 (до 7. 1 объемный)
Полоса пропускания звуковой частоты ?
Задержка ?
Совместимость с браузером
Функция Chrome Edge Firefox Internet Explorer Opera Safari
поддержка ALAC Нет Нет Нет Нет Нет Да
Поддержка контейнера MP4
Совместимость с RTP/WebRTC Нет
Лицензирование Открытая лицензия (Apache License 2.0); исходный код доступен на GitHub

AMR (Adaptive Multi-Rate)

Адаптивный многоскоростной аудиокодек оптимизирован для эффективного кодирования человеческой речи. Он был стандартизирован в 1999 году как часть стандарта звука 3GPP, используемого как для сотовой телефонии GSM, так и UMTS, и использует многоскоростной узкополосный алгоритм для кодирования звуковых частот с уровнем качества телефонного уровня около 7,4 кбит/с. Помимо использования для телефонии в реальном времени, звук AMR можно использовать для голосовой почты и других коротких аудиозаписей.

Звук AMR, который хранится в файлах, может быть набран .amr , но также может быть инкапсулирован в файлы .3gp .

Как кодек для речи, AMR по существу бесполезен для любого другого контента, включая аудио, содержащее только певческие голоса. Кроме того, поскольку AMR разработан для минимизации требований к емкости, он захватывает только ту часть полной полосы звуковой частоты человеческой речи, которая абсолютно необходима для понимания того, что говорится, поэтому качество соответственно снижается. Если вам нужна возможность записывать звук с минимальным влиянием на сеть и/или емкость хранилища, AMR может стать отличным выбором. Однако, если вам нужно воспроизведение человеческой речи с высокой точностью — или даже воспроизведение музыки низкого качества — вам нужно выбрать другой формат.

Поддерживаемые скорости передачи данных Половинная скорость (HR) и полная скорость (FR): 1,8 кбит/с, 4,75 кбит/с, 5,15 кбит/с, 5,9 кбит/с, 6,7 кбит/с, 7,4 кбит/с, 7,95 кбит/с
Только полная скорость (FR): 10,2 кбит/с и 12. 2 кбит/с
Поддержка переменной скорости передачи данных (VBR) Нет
Поддерживаемые форматы выборки 13-битное целое число
Поддерживаемые частоты дискретизации 8 кГц
Рекомендуемый минимальный битрейт для стереозвука n/a
Сжатие Lossy
Максимальное количество аудиоканалов 1
Полоса пропускания звуковой частоты от 200 Гц до 3400 Гц
Задержка 25 мс
Совместимость с браузером
Функция Chrome Edge Firefox Internet Explorer Opera Safari
Поддержка AMR Нет[1ght ? Нет [2] ? Нет ?
Поддержка контейнеров AMR, 3GPP
Совместимость с RTP/WebRTC Нет
Лицензирование Несвободно; Применяются лицензионные сборы и годовые роялти. Подробнее см. Лицензирование VoiceAge

[1] Хотя браузер Chrome не поддерживает AMR, Chrome OS поддерживает AMR-NB (узкополосный) и AMR- WB (широкополосный).

[2] Браузер Firefox не поддерживает AMR; однако платформа Boot to Gecko поддерживает как узкополосный, так и широкополосный AMR в контейнерах 3GP.

FLAC (Free Lossless Audio Codec)

FLAC ( Free Lossless Audio Codec ) — это аудиокодек без потерь, опубликованный Xiph.org Foundation. Он обеспечивает хорошую степень сжатия без потери качества звука; то есть распакованный звук идентичен оригиналу. Поскольку алгоритм сжатия специально разработан для аудио, он дает лучшие результаты, чем были бы достигнуты с использованием алгоритма сжатия общего назначения.

FLAC — отличный выбор для небольших файлов звуковых эффектов, где нетронутое качество и тональность точность желательна, а также для архивирования музыки.

Поддерживаемые битрейты
Поддержка переменной скорости передачи данных (VBR) Нет
Поддерживаемые форматы выборки Целые числа от 4 до 24
Поддерживаемые частоты дискретизации от 1 Гц до 65 535 Гц (с шагом 1 Гц) или от 10 Гц до 655350 Гц с шагом 10 Гц
Рекомендуемая минимальная скорость передачи данных для стереозвука й>
Сжатие Без потерь; уменьшение размера до 40-50%
Максимальное количество аудиоканалов 8
Полоса пропускания звуковой частоты Полный спектр
Задержка От 4,3 мс до 92 мс при 46. Типичное среднее значение — 4 мс
Совместимость с браузером
Функция Chrome Edge Firefox Internet Explorer Opera Safari
Поддержка FLAC Да Да 51 (настольный компьютер)
58 (мобильный)
Нет Нет 11
Поддержка контейнеров MP4, Ogg, FLAC
Совместимость с RTP/WebRTC Нет
Лицензирование Полностью открытый и свободный от каких-либо лицензионных требований

G.711 (Импульсно-кодовая модуляция голосовых частот)

Спецификация G.711 , опубликованная Международным союзом электросвязи (ITU ), изначально был создан в 1972 году для определения стандартов кодирования голосовых частот на телефонных линиях в цифровую форму. Аудио кодируется с использованием импульсной кодовой модуляции (PCM) с кодированием по закону µ или A.

Основным преимуществом кодирования по закону µ является то, что байт 0x00 никогда не появляется в кодированном аудио, что может быть полезно в определенных приложениях или сетевых средах. µ-закон в основном используется в Северной Америке и Японии, а A-закон преобладает в других местах.

Недостатки G.711 очевидны: небольшие 8-битные отсчеты и узкая полоса звуковой частоты. При этом он использовался десятилетиями, «достаточно хорош» для голосовых приложений и жизненно важен, если вам может потребоваться интерфейс со стандартной телефонной сетью. Этот кодек должен поддерживаться всеми решениями WebRTC, потому что это простой, легкий в реализации, широко используемый и совместимый кодек.

Как правило, большинство современных приложений будут использовать G.711 только в качестве резервный вариант, если ограничения не имеют особого значения для их вариантов использования. Opus, например, предлагает узкополосное кодирование со скоростью передачи данных 40 кбит/с. Тем не менее, G.711 обеспечивает наименьший общий знаменатель, к которому можно прибегнуть при необходимости.

Поддерживаемые скорости передачи данных 64 кбит/с
Поддержка переменной скорости передачи данных (VBR) Нет
Поддерживаемые форматы примеров 14-битовое целое число со знаком (µ-закон) или 13-битовое целое число без знака (A-закон); кодированный звук — 8 бит на отсчет
Поддерживаемые частоты дискретизации 8 кГц (± 50 частей на миллион
Рекомендуемый минимальный битрейт для стереозвука n/a (стерео не поддерживается)
Сжатие Нет
Максимальное количество аудиоканалов 1
Полоса пропускания звуковой частоты 300 Гц — 3400 Гц
Задержка 0. 125 мс
Совместимость с браузером
Функция Chrome Edge Firefox Internet Explorer Opera Safari
Поддержка G.711 23 [1] 15[1ght 22 [1] Нет 43[1] ] 11 [1 ]
Поддержка контейнеров 3GP
Совместимость с RTP/WebRTC Да
Лицензирование Срок действия всех применимых патентов истек, поэтому G.711 можно использовать без ограничений

[1 ] G.711 поддерживается только для соединений WebRTC.

G.722 (кодирование звука 64 кбит/с (7 кГц))

Кодек G.722 , опубликованный Международным союзом электросвязи (ITU), разработан специально для сжатия голоса. Его полоса звукового кодирования ограничена диапазоном от 50 Гц до 7000 Гц, который покрывает большую часть диапазона частот типичной человеческой вокализации. Это делает его непригодным для обработки любого звука, который может выходить за пределы диапазона человеческой речи, например музыки.

Аудио G.722 кодируется с использованием адаптивной дифференциальной импульсной кодовой модуляции (ADPCM), в которой каждый образец представлен не своим абсолютным значением, а значением, показывающим, насколько новый образец отличается от предыдущего.

G.722 в основном используется с соединениями WebRTC, поскольку он является одним из аудиокодеки, требуемые спецификацией WebRTC.

Поддерживаемые скорости передачи данных G.722: 48 кбит/с , 56 кбит/с и 64 кбит/с; однако на практике всегда используется 64 кбит/с
G.722 Annex B Super Wide-Band: 64 кбит/с, 80 кбит/с и 96 кбит/с
G.722 Annex D Stereo Wide-Band: 64 кбит/с и 80 кбит/с
G.722 Annex D Stereo Super Wide-Band: 80 кбит/с, 96 кбит/с, 112 кбит/с и 128 кбит/с


переменная Поддержка битрейта (VBR) Нет
Поддерживаемые форматы выборки 14-битное целое число
Поддерживаемые частоты дискретизации 16 кГц (ADPCM позволяет разрешить 8 кГц, 11,025 кГц, 22,05 кГц, 44,1 кГц, но G.722 использует 16 кГц)
Рекомендуемая минимальная скорость передачи для стереозвука 128 кбит/с при частоте дискретизации 44,1 кГц
Сжатие Lossy
Максимальное количество аудиоканалов 2
Полоса пропускания звуковой частоты 50 Гц — 7 кГц
Задержка 4 мс
Совместимость с браузером
Fea ture Chrome Edge Firefox Internet Explorer Опера Safari
G. Поддержка 722 Да[1] ] Да #sup>[1] Да[1ght Нет Да [1] Да[1ght
Поддержка контейнеров 3GP, AMR-WB
Совместимость с RTP/WebRTC Да
Лицензирование Срок действия всех применимых патентов истек; G.722 можно использовать без ограничений

[1] Только WebRTC.

MP3 (MPEG-1 Audio Layer III)

Из аудиоформатов, определенных стандартами MPEG/MPEG-2, MPEG-1 Audio Layer III — иначе известный как MP3 — на сегодняшний день является наиболее широко используемым и известным. Кодек MP3 определен в MPEG-1, часть 3 и MPEG-2, часть 3, и был представлен в 1991 году (и завершен в 1992 году).

Когда звук в формате MP3 хранится внутри контейнера MPEG , результирующий файл также называется просто «MP3-файл» или «MP3». Файлы с повсеместным расширением .mp3 хранятся в том, что, возможно, является наиболее широко распространенным форматом аудиофайлов в мире, который в значительной степени ответственен за революцию цифрового аудио в конце 1990-х и начале 2000-е.

Аудио MPEG-1 MP3 поддерживает более высокую скорость передачи данных, а также более высокую частоту дискретизации, чем звук MP3 в файлах MPEG-2. Формат MPEG-1 MP3 обычно лучше всего подходит для музыки или другого сложного звука, в то время как звук MP3 в режиме MPEG-2 приемлем для речи и других более простых звуков.

Срок действия патентов на MP3 истек, поэтому многие или большинство лицензионных проблем, связанных с использованием файлов MP3 в ваших проектах. Это делает их хорошим выбором для многих проектов.

Поддерживаемые битрейты Режим MPEG-1: 32 кбит/с, 40 кбит/с, 48 кбит/с, 56 кбит/с, 64 кбит/с, 80 кбит/с, 96 кбит/с, 112 кбит/с, 128 кбит/с, 160 кбит/с, 192 кбит/с, 224 кбит/с, 256 кбит/с, 320 кбит/с
режим MPEG-2: 8 кбит/с, 16 кбит/с, 24 кбит/с, 32 кбит/с, 40 кбит/с, 48 кбит/с , 56 кбит/с, 64 кбит/с, 80 кбит/с, 96 кбит/с, 112 кбит/с, 128 кбит/с, 144 кбит/с, 160 кбит/с
Поддержка переменной скорости передачи данных (VBR) Да
Поддерживаемые форматы примеров 16-битное целое число
Поддерживаемые частоты дискретизации Режим MPEG-1: 32000 Гц, 44100 Гц, 48000 Гц
Режим MPEG-2: 16000 Гц, 22050 Гц, 24000 Гц (половина частоты поддерживаемых режимов MPEG-1)
Рекомендуемый минимальный битрейт для стереозвука 128 кбит/с при частоте дискретизации 48 кГц
Сжатие Lossy
Максимальное количество аудиоканалов MPEG-1 режим: 2 [2.0]
Режим MPEG-2: 5 (плюс 1 дополнительное низкочастотное улучшение канал) [5. 1]
Полоса пропускания звуковой частоты Зависит от скорости передачи данных и психоакустического анализа
Задержка Не менее 100 мс
Совместимость с браузером
Функция Chrome Edge Firefox Internet Explorer Opera Safari
Поддержка МР3 Да Да Да[1pting 9 Да 3.1
Поддержка контейнеров MPEG-1, MPEG-2, MP4, ADTS, 3GP
Совместимость с RTP/WebRTC Нет
Лицензирование Не имеет патентов в ЕС по состоянию на 2012 год; без патентов в США с 16 апреля 2017 г .; теперь можно использовать бесплатно

[1] По причинам патента Firefox напрямую не поддерживал MP3 до версии 71; вместо этого для поддержки MP3 использовались собственные библиотеки платформы. Эта возможность была представлена ​​на каждой платформе в разных выпусках Firefox:

Поддержка MP3 с внешней библиотекой, в зависимости от платформы, в Firefox
Платформа Первая версия Firefox
с поддержкой MP3
Windows (Vista и новее) 22
Android 20
Linux (зависит от GStreamer) 26
macOS 35

Opus

Аудиоформат Opus был создан Xiph.org Foundation как полностью открытый аудиоформат; он был стандартизирован IETF как RFC 6716. Это хороший аудиокодек общего назначения, который может эффективно обрабатывать как аудио низкой сложности, например речь, так и музыку и другие звуки высокой сложности.

Opus поддерживает несколько алгоритмов сжатия и даже может использовать более одного алгоритма в одном аудиофайле, поскольку кодировщик может выбирать скорость передачи данных, полосу пропускания звука, алгоритм и другие детали настроек сжатия для каждого кадра звука.

Opus — хороший универсальный аудиокодек для использования в ваших веб-приложениях, и его можно использовать для любых звуковых задач, которые вы имеете в виду.

Поддерживаемые скорости передачи данных 6 кбит/с — 510 кбит/с
Переменная скорость передачи данных (VBR) поддержка Да
Поддерживаемые форматы выборки 16-битное целое число и 32-битное число с плавающей запятой (От -1,0 до 1. 0)
Поддерживаемые частоты дискретизации
Профиль Эффективная частота дискретизации
Узкополосный (NB) 8 кГц
Средняя полоса (МБ) 12 кГц
Широкополосный (WB) 16 кГц
Сверхширокополосный (SWB) 24 кГц
Полнодиапазонный (FB) 48 кГц [1]
Рекомендуемый минимальный битрейт для стереозвука 96 кбит/с при выборке 48 кГц скорость
Сжатие Lossy
Максимальный звук каналы 255 (до 1 канала LFE)
Полоса пропускания звуковой частоты
Профиль Полоса пропускания звука
Узкополосный (NB) 4 кГц
Средний диапазон (МБ) 6 кГц
Широкополосный (WB) 8 кГц
Сверхширокополосный (SWB) 12 кГц
Полнополосный (FB) 20 кГц [3]
Задержка от 5 мс до 66,5 мс
Совместимость с браузером
Функция Chrome Edge Firefox Internet Explorer Opera Safari
Поддержка Opus 33 14 15 Нет 20 11 [2]

Эта информация относится к поддержке Opus в HTML и , а не в WebRTC.

Поддержка контейнера Ogg, WebM, MPEG-TS, MP4
Совместимость с RTP/WebRTC Да
Лицензирование Полностью открытый и свободный от любых l Требования к лицензированию

[1] Указанные частоты дискретизации — это эффективные частоты дискретизации . Opus использует алгоритм, основанный на полосе пропускания звука, а не на частоте дискретизации. Подробнее см. RFC 6716, раздел 2. Кроме того, есть необязательная часть спецификации Opus (Opus Custom), которая допускает нестандартные частоты дискретизации, но использование этой функции не рекомендуется.

[2] Safari поддерживает Opus в элементе только в том случае, если он упакован в файл CAF и только в macOS High Sierra (10.13) или iOS 11.

[3] Хотя теорема выборки Найквиста – Шеннона показывает, что полоса пропускания звука может составлять половину частоты дискретизации, Opus не позволяет кодировать за пределами диапазона звуковых частот максимум 20 кГц, поскольку человеческое ухо может В любом случае не воспринимаю ничего выше 20 кГц. Это экономит место в закодированном аудио..

Vorbis

Vorbis — это открытый формат от Xiph.org Foundation, который поддерживает широкий спектр комбинаций каналов, включая монофонический , стерео, полифонический, квадрофонический, объемный 5.1, амбизонический или до 255 дискретных аудиоканалов. В зависимости от настроек качества, используемых во время кодирования, итоговая скорость передачи данных может варьироваться от 45 до 500 кбит/с. Vorbis изначально использует кодирование с переменной скоростью передачи данных; скорость передачи данных может меняться от одного сэмпла к другому по мере необходимости в процессе сжатия.

Как правило, Vorbis более эффективен с точки зрения размера и скорости передачи, чем MP3 при аналогичных уровнях качества. Это и его бесплатная открытая лицензия делают его хорошим выбором для многих видов аудиоданных, если высокая задержка не является проблемой.

Поддерживаемые скорости передачи 45 кбит/с — 500 кбит/с
Поддержка переменной скорости передачи данных (VBR) Да
Поддерживаемые форматы примеров 16-битное целое число
Поддерживаемые частоты дискретизации 8 кГц — 192 кГц
Рекомендуемая минимальная скорость передачи данных для стерео звук 192 кбит/с при 48 кГц; обычно это достигается путем установки уровня качества от 6 до 8.
Compression Lossy
Максимальное количество аудиоканалов 255
Полоса пропускания звуковой частоты
Задержка Не менее 100 мс
Совместимость с браузером
Feature Chrome Edge Firefox Internet Explorer Opera Safari
Поддержка Vorbis 4 17 3.5 Нет 11.5 Нет

Эта информация относится к поддержке Vorbis в элементах HTML и , а не к WebRTC.

Поддержка контейнеров Ogg, WebM
Совместимость с RTP/WebRTC Да
Лицензирование Полностью работает n и без каких-либо лицензионных требований

Выбор аудиокодека

Как правило, независимо от того, какой кодек вы используете, он обычно выполняет свою работу, даже если это не идеальный выбор, если вы выбираете кодек, специально не предназначенный для совершенно другого типа исходного звука. Например, выбор голосового кодека и попытка использовать его для музыки не принесет полезных результатов.

Однако некоторые кодеки могут ограничивать совместимость, а другие могут быть более оптимальными для ваших нужд, чем другие. Здесь мы предоставим рекомендации, которые помогут вам выбрать подходящий кодек для вашего варианта использования..

Выбирая кодек для звука, вы должны сначала рассмотреть следующие вопросы:

  • Будет ли закодированный звук подвергаться повторному микшированию или повторному сжатию ? Если это так, избегайте сжатия с потерями, которое может усугубиться повторным сжатием звука; или, по крайней мере, используйте как можно меньшее сжатие.
  • Если аудио необходимо передать в файл определенного типа, имейте это в виду, поскольку медиа-контейнеры обычно поддерживают определенное подмножество доступных кодеков.
  • Какой аудиоконтент будет обрабатывать кодек? Некоторые кодеки специально разработаны для голосового контента (они используют преимущества уменьшенного частотного диапазона, необходимого для человеческой речи). Другие могут иметь алгоритмическую тенденцию хуже работать при кодировании определенных жанров музыки.
  • Какие битрейты и другие настраиваемые свойства есть у каждого кодека, которые могут сделать его хорошим (или плохим) выбором?
  • Насколько задержка имеет значение для ваших нужд? Если вам нужен звук с очень точной синхронизацией, чем меньше задержка, тем лучше.
  • Какой степени сжатия вам нужно достичь?

Давайте рассмотрим несколько распространенных сценариев, позволяющих почувствовать процесс принятия решений.

Пример: Музыка для потоковой передачи

Для потоковой передачи музыки , вы хотите выбрать кодек, который сводит к минимуму использование полосы пропускания в максимально возможной степени, вводя как можно меньше артефактов в звук посредством сжатия. Это необходимо, потому что скорость загрузки музыки не должна превышать доступную полосу пропускания в сети, и в идеале должно оставаться место для колебаний скорости сети и использования сети другими приложениями.

Если нет особой потребности в сжатии без потерь или если пропускная способность сети гарантированно будет достаточно высокой для его поддержки, схема сжатия с потерями является хорошим выбором. Какой из них вы выберете, зависит от совместимости браузера и наличия каких-либо специальных функций, для поддержки которых может потребоваться кодек.

Обычно задержка не особенно важна при потоковой передаче Музыка. Возможные исключения включают зацикленную музыку, когда вам нужно, чтобы музыка могла воспроизводиться непрерывно снова и снова, или когда вам нужно иметь возможность воспроизводить песни подряд без промежутков между ними. Это может быть особенно важно для классической музыки, театральных саундтреков и фоновой музыки во время игры.

Для обычного воспроизведения музыки тремя наиболее вероятными кандидатами являются MP3, AAC и Vorbis.

  • AAC в контейнере MP4 поддерживается всеми основными браузерами, что делает его отличным выбором.
  • Vorbis почти всегда используется в файлах Ogg, но в контейнерах Ogg не поддерживаются повсеместно. Даже Microsoft Edge, который поддерживает оба Vorbis, пока не поддерживает контейнеры Ogg.
  • MP3 (MPEG-1 Audio Layer III) поддерживается всеми основными браузерами.. Эти файлы представляют собой файлы MPEG-1, содержащие дорожку Audio Layer III.

Если вам нужно минимизировать задержку во время воспроизведения музыки, вам следует настоятельно рекомендовать Opus, который имеет наименьший диапазон задержек для кодеков общего назначения (от 5 мс до 66,5 мс, по сравнению с не менее 100 мс для других).

Примечание. Информация о совместимости, описанная здесь, в целом верна на момент написания этой статьи; однако могут быть оговорки и исключения. Обязательно ознакомьтесь с таблицами совместимости, прежде чем переходить к определенному формату мультимедиа.

Исходя из этого, AAC, вероятно, ваш лучший выбор, если вы можете поддерживать только один аудиоформат. Конечно, если вы можете предоставить несколько форматов (например, используя элемент в ваших и ), вы можете избежать многих или всех этих исключений.

Пример: Музыка для загрузки

Музыка, загружаемая пользователем, может быть сжата до большего общего размера файла, чем потоковая музыка, поскольку (в отличие от потоковой передачи) не имеет значения, медленнее ли скорость загрузки, чем скорость воспроизведения мультимедиа. Это означает, что вы можете рассмотреть возможность использования сжатия с потерями при более высокой скорости передачи данных, что приведет к увеличению размера файлов, но с меньшей потерей точности. Или вы можете выбрать формат без потерь. Выбор во многом зависит от сочетания требований вашего приложения и предпочтений пользователей.

Для реальной службы загрузки музыки вы можете предлагать песни для загрузки в виде файлов MP3 со скоростью 128 кбит/с, файлов AAC с 256 кбит/с (в контейнерах MP4) или файлы FLAC, в зависимости от предпочтений, выбранных пользователем. Если вам нужно выбрать только один формат, выберите тот, который имеет смысл с учетом ваших требований и типа загружаемого аудиоконтента.

Как правило, конечно, MP3 является наиболее распространенным форматом, используемым для музыки; если возможно, выберите битрейт не менее 192 кбит/с. Магазин iTunes, с другой стороны, распространяет музыку в формате AAC 256 кбит/с.

Пример: запись и воспроизведение голоса

Специфические характеристики человеческой речи позволяют кодекам, специфичным для речи, сжимать звук в гораздо большей степени, чем это может сделать большинство кодеков общего назначения. Это потому, что, хотя люди слышат частоты в диапазоне от 20 до 20 000 Гц, а звуки человеческой речи — от 300 до 18 000 Гц, большинство звуков речи, которые нам нужны, чтобы понять, что говорится, находятся в частотном диапазоне От 500 Гц до 3000 Гц или около того. Это означает, что кодеки только для голоса могут отбросить все остальное.

Однако все кодеки, предназначенные только для голоса, по своей природе имеют очень большие потери, и любой звук со значительной информацией в частотных диапазонах за пределами записываемого вокального диапазона будет быть полностью потерянным. Это делает эти кодеки совершенно непригодными для чего-либо, кроме произнесенных слов.. Даже звук, который содержит только голоса, но поет, а не говорит, скорее всего, не будет иметь приемлемого качества в одном из этих форматов.

Запись и воспроизведение голоса обычно должны выполняться с малой задержкой для синхронизации с видеодорожками или во избежание перекрестных помех или других проблем. К счастью, характеристики, которые приводят к тому, что речевые кодеки являются настолько эффективными с точки зрения памяти, также приводят к очень низкой задержке. Если вы работаете с WebRTC, G.722, например, имеет задержку 4 мс (по сравнению с более чем 100 мс для MP3), а задержка AMR составляет около 25 мс.

Примечание. Дополнительные сведения о WebRTC и кодеках, которые он может использовать, см. в разделе Кодеки, используемые WebRTC.

Кодеки, обычно используемые в Интернете, которые для кодирования только голоса используются G.722 и AMR. AMR — это узкополосный кодек, кодирующий только частоты между 200 Гц и 3400 Гц при скорости передачи данных обычно около 7,4 кбит/с, в то время как G.722 — это широкополосный кодек, который расширяет полосу пропускания звука до 50–7000 Гц при гораздо более высоких скоростях передачи данных — обычно 64 кбит/с.

Если у вас достаточно пропускной способности сети, с которой вы можете работать, и вы достаточно уверены, что ваши пользователи тоже, то G.722 — лучший выбор. Чтобы максимизировать эффективность хранения и сети в ограниченной среде, выберите AMR.

Пример: аудиоклипы для профессионального микширования

Когда при сжатии звука, который будет микшироваться или ремикшироваться, обычно требуется нулевая или близкая к нулю потеря точности, что предполагает использование кодека без потерь. Однако, поскольку кодирование без потерь, естественно, имеет гораздо более низкий уровень сжатия, чем кодирование с потерями, вы можете обнаружить, что если ваш исходный звук достаточно велик, вам все равно, возможно, придется выбрать кодировщик с потерями, особенно в веб-среде, в которой вы не можете контролировать скорость загрузки мультимедиа.

Предполагая, что сжатие без потерь является нашим лучшим вариантом (что обычно так и есть, если аудиофайлы небольшие), с точки зрения кодеков, три наиболее сильных кандидата: FLAC, Apple Lossless (ALAC) и MPEG-4 ALS. Что мы выберем, будет зависеть от поддержки браузера и поддерживаемых ими форматов медиа-контейнеров.

Для целей этого примера мы предположим, что все браузеры имеют тот же кодек и поддержку контейнеров, что и Firefox (хотя это далеко не так). Принимая решение, учитывайте широту фактической поддержки кодеков.

  • Firefox поддерживает FLAC в собственных контейнерах FLAC, а также в файлах Ogg и MPEG-4 (MP4).
  • Firefox поддерживает Apple Lossless только благодаря поддержке QuickTime для конкретной платформы.
  • Firefox не поддерживает MP4 ALS.

В этом случае кажется, что FLAC, скорее всего, лучший кодек; ALAC практически не поддерживает прямую поддержку браузером.

Программное обеспечение для кодирования звука

Для кодирования звука доступно множество инструментов.. Самыми простыми из них являются те, которые предназначены для копирования компакт-дисков или извлечения аудиофайлов и быстрого и автоматического преобразования их в формат MP3 или AAC для хранения в библиотеке, такой как iTunes. Но при разработке веб-приложений, которые используют звук в качестве компонента приложения, например игр, вам потребуется больше контроля над процессом кодирования и дополнительные параметры, связанные с форматом, используемым при кодировании звука.

A несколько популярных вариантов:

FFmpeg
Возможно, самый известный и наиболее широко известный из доступных пакетов кодеков с открытым исходным кодом, FFmpeg поддерживает большинство популярные аудиоформаты и предоставляет инструменты и библиотеки командной строки для кодирования, декодирования и преобразования форматов аудио и видео. Бинарные файлы доступны для macOS, Linux и Windows.
Handbrake
Очень популярный интерфейс с открытым исходным кодом для FFmpeg, который добавляет графический пользовательский интерфейс, который делает его намного легче контролировать широкий спектр опций, которые предлагает FFmpeg при кодировании аудио и/или видео. Двоичные файлы доступны для macOS, Linux и Windows.
Audacity
Аудиоредактор с открытым исходным кодом, который поддерживает загрузку звука из многих различных форматов, редактирование, фильтрацию и настройку аудио и сохраните его в исходном или новом формате. Доступно для macOS, Linux и Windows.
LAME
Высококачественный кодировщик MP3 с открытым исходным кодом с поддержкой кодировок CBR, ABR и VBR, а также различных других вариантов. Распространяется только в исходной форме проектом LAME, но может быть установлен с помощью Homebrew или аналогичных инструментов.
  • Форматы медиа-контейнеров
  • Элементы и
  • WebRTC API
  • Руководство по веб-видеокодекам
  • Кодеки, используемые WebRTC
0 Комментариев
Комментариев на модерации: 0
Оставьте комментарий