MP3(오디오 코덱)
1. 개요
[image]
MPEG-1 / MPEG-2 / MPEG-2.5 Part.3
독일의 프라운호퍼社가 주도적으로 개발한 오디오 코덱이다.
2. 역사
1993년에 발표한 MPEG-1의 오디오 규격에 맞게 개발되고 MPEG-2와 MPEG-2.5로 확장된 '''손실 압축''' 포맷으로서, 압축이 전혀 되어 있지 않은 PCM 음원보다 용량을 1/10 가량으로 줄일 수 있기 때문에[1] 1997년에 일반인들에게 처음 공개되어 등장했던 당시에는 말 그대로 '센세이션' 이었다. 비교적 적은 용량에 CD와 가까운 음질로 들을 수 있었으니... 한국에서는 이 MP3 형태의 음악을 1997년 말에 휴대용 기기로 재생할 수 있는 기술을 잽싸게 개발하고, 그것 또한 빠르게 대중화가 되었다. 해외에서는 1999년 6월에 P2P 기반으로 서비스했던 냅스터를 통해 MP3 파일 공유가 본격적으로 대중화하고 있었다.
하지만 이 때문에 음악 파일의 불법 공유가 늘어나게 되는 부작용 또한 생겼다. MP3를 공유하는 대표적인 P2P로 2000년에 처음 서비스했던 소리바다가 있었지만 불법 공유를 방조했다는 이유로 소송을 당해, 배상금을 지불하고 유료 서비스로 전환했다.
MP3 포맷에 대해서는 독일의 프라운호퍼(Fraunhofer) 연구소에서 특허를 가지고 있었다. 따라서 하드웨어나 상용 소프트웨어를 개발할 때 MP3 포맷을 지원하려면 프라운호퍼 연구소에 로열티를 지불해야 한다. 그래서 많은 응용 소프트웨어(특히 게임)에서는 로열티가 필요없는 Vorbis(ogg)나 Opus를 사용하기도 한다. 2017년 4월 23일, 미국과 유럽에서 특허가 만료되었다. 연합뉴스
MP3 포맷 개발 당시 어떤 개발자가 라디오에서 우연히 수잔 베가의 Tom's Diner란 노래를 듣고 그 가수의 목소리에 매료되어 한번 그걸 인코딩했더니 목소리가 이상하게 나오는 문제점이 드러나 포맷의 구조를 수정해야 했다는 에피소드가 있다. 따라서 수잔 베가는 'MP3의 어머니'라는 별명을 얻게 되었다고.
한때 한국의 피처폰들을 MP3폰이라고 불렀는데 실제로는 MP3가 아닌 DCF(멜론), KMP(KT뮤직), ODF[2] (LG U+) 등의 형태로 변환해야 재생이 가능한 전혀 다른 형태였다. MP3 파일 자체를 재생하지 못하는 것은 아니기 때문에 전송할 수만 있다면 재생이 가능하기는 하다. 한때는 일반 MP3 플레이어도 DCF를 지원할 만큼 퍼져나갔지만, 아이팟을 필두로 마침내 iPhone의 출시, 이후 안드로이드의 확대로 인해 DCF는 유명무실해졌다. 현재는 모든 음원 유통사가 DRM이 걸리지 않은 MP3를 판매하고 있으며, DRM은 무제한 요금제 같은 제한이 필요한 경우에 사용되고 있다. 스마트폰에서도 특정 앱을 사용하여 DCF를 비롯한 DRM이 걸린 음원 재생이 가능하다.
3. 특징
처음에는 32/44.1/48kHz에 고정 비트레이트로만 인코딩할 수 있었지만, 이후에는 8~24kHz 샘플링 레이트가 추가되고 가변 비트레이트(VBR - Variable Bit Rate)로 인코딩해서 구간마다 비트레이트가 변하게 되어[3] 좀 더 효율적으로 용량 관리를 할 수 있게 되었다. 다만 이 때문에 옛날에 나온 MP3 플레이어에서는 제대로 재생이 되지 않거나, 재생 시간이 잘못 표시되는 경우가 많았다.
MP3는 '''손실 압축 포맷'''이다. 즉 CD에서 리핑한 노래를 MP3로 변환을 한 뒤 다시 WAV로 변환해도 MP3로 변환했을 때의 손실된 부분은 이미 되돌릴 수 없다. 같은 이유로 192kbps짜리 MP3를 320kbps로 변환해 봐야 음질이 좋아질 일은 절대 없다. 오히려 한 번 더 손실이 일어난다. 원본 소스를 처음에 320kbps로 인코딩해야 손실 부분이 적다. 그러니 번거롭더라도 일단 CD나 LP에서 곧바로 WAV나 FLAC으로 추출을 하고, 그 다음에 WAV 파일을 MP3로 별도 복사 변환하도록 하자.
MP3 파일은 스피커나 헤드폰 그리고 '''음원'''[4] 의 영향을 꽤 받는 편이다. 굳이 구분해보고 싶다면 이퀄라이저를 적용해보면 티가 좀 나기는 한다.
사실 점수를 매기는 방식인 다른 블라인드 테스트에서는 '''고난이도 음원까지 고려해보면 256kbps는 가야 무손실과 비등하다'''라는 결론이 나기도 했으며, 320kbps에서는 내로라 하는 음향 전문가들조차도 구분하기 힘들 정도로 차이가 적어진다. 즉, 256kbps 이상의 음원이라면 일반인들은 더 이상 음질의 차이를 구분해 내지 못한다고 봐도 좋다.
더불어 MP3의 음질을 크게 결정하는 것이 비트레이트임에는 분명하나 인코더의 종류와 설정에 따른 영향도 지대한 것으로 알려져 있다. 판정의 편의를 위해 명백하게 음질열화가 일어나는 수준[5] 으로 인코딩 해 보면 비교적 간편하게 차이를 느낄 수 있다. 흔히들 사용하는 LAME은 꽤 좋은 인코더다. 원래 프라운호퍼 같은 다른 MP3 인코더에서는 압축 효율성이 비교적 나쁘다.# 황금귀들이 320Kbps로 인코딩하면 v3.94 이후의 LAME이 20KHz에서 자른다고 불평할 때 다른 인코더는 16KHz에서 자르는 모습을 보여준다. LAME이 없었더라면 MP3는 빠르게 AAC나 Vorbis로 대체되었을지도 모른다.
물론 MP3 코덱 자체는 현재 기준으로는 기술 자체가 어느정도 낡았기에 당연히 압축 효율성은 그 이후에 나온 WMA, Vorbis, AAC, Opus 등에 비해 떨어진다. 더구나 AAC는 MP3의 압축효율성을 높이기 위해 개선된 직계자손뻘인 코덱. 그런데도 MP3 포맷이 이미 오래전부터 널리 퍼져 많이 쓰이고 있는 보편화된 포맷이고, 우수한 성능을 가진 LAME 인코더의 힘으로 2020년 현재에도 사장되기는 커녕 잘만 쓰이고 있다. 물론 어디까지나 음악이나 음성 부분에서 그렇지 유튜브 같은 영상 분야에서는 AAC가 보편화된 2010년대부터는 거의 사용하지 않는다.
64kbps 이하 저음질의 경우 이 코덱 이외에는 거의 언급되지 않는다. 가령 HE-AAC/Opus 24kbps와 MP3 64kbps의 음질은 서로 비슷하지만 전자는 언급되지 않는다.
샘플링 레이트(kHz)가 높은데 비트 레이트(kbps)가 낮은 경우 소리가 뭉개지며, 반대의 경우 높은 비트 레이트에 비해 고음이 들리지 않는다. 채널 및 비트 레이트별 권장 샘플링 레이트는 대체로 다음과 같다.
태그 방식으로 ID3 tag를 사용한다. ID3v1은 파일의 끝부분에 태그 정보를 저장하며, 고정된 필드 길이를 이용하기 때문에(TITLE 32바이트 등) 일정 길이 이상을 저장하지 못하며, 파일 전송이 완료되어야만 태그정보를 볼 수 있는 문제점이 존재한다. ID3v2는 파일의 첫부분에 태그 정보를 저장하며, 가변 필드길이, 사용자 필드, 바이너리 필드, 유니코드 등을 지원하며 태그길이나 언어 제약이 없고, 앨범아트 등도 MP3 파일 내부에 저장할 수 있다. ID3v2 규약상 파싱하지 못하는 프레임은 무시하고 건너뛰어야 하는데, 이를 제대로 지키지 않은 일부 플레이어에서는 이를 제로샘플로 디코드하는 문제가 있다.
'''MP1'''(MPEG-1 Audio Layer I)과 '''MP2'''(MPEG-1 Audio Layer II)도 있다. MP1은 MP2, MP3와 함께 모두 1993년에 규격이 발표되었으나, 너무 일찍 나온데다 구조도 너무 단순한 나머지 활성화되지 못했고 MP2와 MP3에 자리를 내 주어야 했다. MP2는 나온 지 오래되었음에도 불구하고 라디오 방송 장비용으로 쓰이고 있었다.
AVI, MKV, MPEG, MP4 컨테이너에서 지원하고 있다.
4. 사양
- 샘플링 레이트: MPEG-2.5(8, 11.025, 12 kHz), MPEG-2(16, 22.05, 24 kHz), MPEG-1(32, 44.1, 48 kHz)
- 비트 레이트(CBR): 8 ~ 320 kbps
- MPEG-2.5: 8, 16, 24, 32, 40, 48, 56, 64 kbps
- MPEG-2: 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbps
- MPEG-1: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 kbps
- VBR: LAME 인코더 기준 Q0~Q9까지 있는데, 숫자가 작을수록 고음질이다. 44.1kHz 스테레오 기준 Q0은 약 245kbps, Q2는 약 190kbps, Q5는 약 130kbps, Q7은 약 100kbps, Q9는 약 65kbps 정도이다.
5. 고음질 논쟁
320Kbps만 돼도 가청 주파수 영역 전체를 포함하고 있기 때문에 전문가들도 256Kbps 이상부터는 구분하지 못한다. 실제 실험에서 참가한 전문가 중 '''어릴 적 사고로 특정 영역대의 고음만 구별할 수 있게 된 사람만'''이 정확하게 구분해 냈다고 한다. 잡지기사(독일어)
비트레이트에 따른 고주파 손실 그래프
320Kbps MP3의 경우 20000㎐ 이상의 대역이 손실된다. 사람의 가청 주파수가 20~20000㎐이라는 걸 감안하면 들리지도 않는 가청 주파수 밖의 고주파음만을 없앨 뿐이다. 게다가 20000㎐라는 것도 청신경이 완전한 어린이나 듣는 것이 일반적이고, 본래 사람은 성장하면서 빠른 속도로 고주파 청취능력을 상실한다. 초등학생, 중학생, 고등학생, 청년, 중년의 가청 한계 주파수가 모두 다르다. 괜히 틴 버즈가 있는게 아니다. 일반적으로 각각 20000㎐, 19000㎐, 18000㎐, 17000㎐, 16000㎐까지 들을 수 있다. 거기에 더해 음질까지 신경쓰면서 음악감상을 하는 사람들 귀라면 이미 수많은 음악을 들으며 청세포를 손상시켰을 테니 일반적인 경우보다 더 하향시켜 생각해야 한다.[8] FLAC와 비교해서 차이를 느끼는 게 더 이상하다. 유의미한 차이가 느껴진다면 그건 MP3 디코더와 FLAC 인/디코더의 성능차이일 가능성이 높다.
이런 맥락에서 멜론, 벅스뮤직 등 음원 다운로드 사이트에서 MP3 대신 FLAC를 찾는 건 그다지 합리적이지 않다고 생각할 수 있다. 단지 인코더 별로 압축성능에 차이가 상당하고, 인코더가 맛탱이가 갈 수도 있는 MP3와 달리 FLAC은 그 어떤 인코더를 써도 인코딩이 느리고 빠르고, 용량이 크고 작고의 차이가 있을 뿐 확실한 무손실 압축을 해준다는 측면은 있다. 즉 FLAC 음원의 목적은 음원의 신뢰성 확보 측면이 크다.
간혹 음악 관련 커뮤니티에 무손실이 더 듣기 좋다는 주장이 종종 보이는데, 초고역대는 믹싱할 때 프로듀서나 엔지니어도 신경 안 쓰고 대부분 잘라내거나 그냥 방치해두는 영역이다. 비유하면 화가가 캔버스에 그림을 열심히 그려놨는데 캔버스 밖 영역을 보면서 그림이 이렇다 저렇다 분석하는 꼴이다. 설사 정말 예민하고 특별한 고막을 가져서 320Kbps과 무손실을 구분한다고 하더라도 그 구분이 '음악이 더 좋게 들린다' 를 의미하지 않으므로 무의미하다고 할 수 있다. 종종 등장하는 무손실 vs 손실 abx 블라인드 테스트를 통과하는 사람들도 반복청음을 통해서 얻은 기교에 가까운 기술로 분간을 할 따름이지 무손실이 명백히 우월하다고 말하진 않는다. 초고역대 주파수를 활용해서 고주파 영역의 지분이 큰 악기의 잔향 등으로 구분해 내는데 실제 음감에선 매우 무의미함 영역이다. "10번쯤 들어보니 무손실 음원의 하이햇 잔향이 미묘하게 오래 남는다" 같은 구분이 무슨 의미가 있겠는가? 오히려 초고역대를 많이 들으면 귀에 쉽게 피로감이 와서 음악이 더 안 좋게 들릴 수 있다. 또 '귀로는 안 들려도 몸으로 느낀다'라고 주장하는 사람들도 종종 보이는데 세상 그 어떤 믹싱 엔지니어도 파동이 우리 몸에 주는 물리적 영향까지 고려해가면서 믹싱을 하지 않는다.
결론적으로 일반인은 올바르게 직출된 256Kbps부터는 인체의 한계로 원본과 구분이 불가능하다. foobar2000에서 플라시보 퇴치에 큰 도움을 주는 ABX 테스트 컴포넌트가 있으니 한번 테스트해보자.
반면 MP2, WMA, AAC, Vorbis, Opus 등 다른 코덱에는 이런 논쟁이 거의 없으며 실용 오디오와 황금귀에 우호적인 커뮤니티 양쪽으로부터 무시받는다.
6. 파생 코덱
2010년대 들어 사장되었다.
- MP3HD (무손실)
HD 지원 기기에 파일을 넣고 재생하면 무손실, 일반 기기에 넣고 재생하면 손실 320kbps로 재생되는 대단한 호환성을 가지고 있다.[9] 그러나 압축률, 일반 MP3 포맷과의 구분이 어려움 등의 비효율성으로 인해 망했다. 원본 WAV가 336MB라면 기본설정 FLAC 142MB, mp3HD 175MB 수준이고 디코딩 속도도 느리다고 한다.참고(영어)
이 포맷의 강점인 호환성 역시 비판의 소지가 있는데, 외부기기에 포맷 변환해 넣기 귀찮다고 한 앨범당 몇십 메가씩 더 사용하자는 건 손해가 더 큰 노릇이다. 또한 전용 기기가 아니면 어차피 320kbps로 재생되는데 음질상의 이득도 없다. 따라서 애초에 MP3 플레이어 등 외부기기를 FLAC이나 ALAC이나 APE(Monkey's Audio) 등의 포맷이 지원되는 제품으로 사고, 균일한 포맷으로 구성하는 게 훨씬 이득이라는 걸 알아두자. 호기심에 사용해보고 싶은 위키니트들은 윈앰프 플러그인 등으로[10] 실험하면 된다. 변환 후 원본 무손실 음원을 지웠더라도 데이터는 온전하기 때문에 다시 MP3HD → 다른 무손실 포맷으로 변환해도 손실 걱정은 전혀 없으니 안심해도 된다.
이 포맷의 강점인 호환성 역시 비판의 소지가 있는데, 외부기기에 포맷 변환해 넣기 귀찮다고 한 앨범당 몇십 메가씩 더 사용하자는 건 손해가 더 큰 노릇이다. 또한 전용 기기가 아니면 어차피 320kbps로 재생되는데 음질상의 이득도 없다. 따라서 애초에 MP3 플레이어 등 외부기기를 FLAC이나 ALAC이나 APE(Monkey's Audio) 등의 포맷이 지원되는 제품으로 사고, 균일한 포맷으로 구성하는 게 훨씬 이득이라는 걸 알아두자. 호기심에 사용해보고 싶은 위키니트들은 윈앰프 플러그인 등으로[10] 실험하면 된다. 변환 후 원본 무손실 음원을 지웠더라도 데이터는 온전하기 때문에 다시 MP3HD → 다른 무손실 포맷으로 변환해도 손실 걱정은 전혀 없으니 안심해도 된다.
- mp3PRO (고효율): MP3에 SBR 대역을 추가한 코덱으로, 낮은 비트레이트(20~96kbps)에서의 효율을 높였다. 역시 지원하지 않는 프로그램에서는 SBR 대역을 읽지 못해서 낮은 비트레이트의 음질로 재생된다. 이 역시 지원하는 프로그램은 거의 없다. Cool Edit Pro나 Nero WaveEditor 정도나 지원한다.
- MP3 Surround (다중채널): 최대 5.1채널을 지원한다. 지원하지 않는 프로그램에서는 스테레오로 다운믹스되어 재생된다.
7. 여담
- 음성의 경우 보통 스테레오 128kbps로 인코딩되지만 배경음악을 제외하고는 모노인 경우가 대다수이다. 2000년대에는 16~64kbps도 많이 사용되었다.
- 샤우트 캐스트 등 MP3/WMA/OGG 등의 방송에서는 음질이 안 좋다는 평가가 많은데 이것은 코덱 자체 문제라기보단 해당 방송 인코더의 레코딩 알고리즘의 특성이다. 초기 인터넷 방송은 인터넷 속도가 빠르지 않아서 저음질로 시작했었다. 64kbps/22.1kHz 스테레오로 방송하는 경우가 많았는데 음질이 매우 떨어지고 라디오틱한 음질이 나온다. 그래서 이런 음질을 보완하기 위해 저음의 양을 많이 늘리고 고음을 낮추고 부드럽게 표현하는 레코딩 알고리즘을 적용해서 들어줄만한 음질로 했었는데 문제는 인터넷 전송속도가 늘어나자 고음질로 방송하는 시대가 오자 이런 알고리즘이 고음질에도 그대로 적용되어서 원본 음원과는 다른 저음이 많고 중, 고음이 낮은 형태로 그대로 전송되었다.
[1] 128kbps 기준. 참고로 PCM의 비트레이트는 44.1kHz, 16bit, Stereo(스테레오) 기준 1411.2kbps이다. 그러나 기본적으로 128Kbps는 극고음역에서 인지할 수 있는 차이가 있기 때문에 별로 권장하지는 않는다.[2] Open Document File과 확장자가 같다. 이것말고 *.mp3.roz도 있다. Windows Media Player 전용 플러그 인을 설치하면 재생할 수 있다.[3] 소리가 많이 나오는 부분에서는 높은 비트레이트로, 소리가 거의 없을 때엔 낮은 비트레이트로 바뀌는 식.[4] 어떤 음원은 MP3 128kbps와 무손실 음원을 변별할 수 없는 경우도 있다. 압축하기 어려운 음원을 꼽자면, 대역폭을 적나라하게 보여주는 전자 음악, 전체적인 음의 경향이 복잡한 끝판왕 박수, 복잡함에 더해 정말 음이 많기까지도 한 헤비메탈이 있다.[5] 64~96kbps 정도.[6] 어도비 애니메이트의 기본 설정이다.[7] 대부분의 MP3 음원에서 사용하는 음질이다.[8] 요리를 다양하게 먹을 수록 발달하는 미각과 후각과는 달리 청각은 음악을 많이, 자주 들을수록 손상된다. 그 이유는 소리를 듣는 원리가 굉장히 소모적이기 때문이다. 특히 미각의 주체인 미뢰는 재생력도 굉장하지만, 청각은 세포가 소모되면서 들리는 원리인 동시에 그 세포가 다시 생기는 일이 거의 없다시피하다.[9] 즉 사용 가능한 모든 MP3 지원 기기에서 아무런 손도 안 대고 이 파일을 재생해 볼 수 있다! 물론 음질은 전용 기기가 아니므로 320kbps로 나오고 실제 음질도 그렇다.[10] 플러그인을 지원해주는 플레이어 자체가 얼마 없을 정도로 심각하다.