Video Compression 자료…

오늘(어제?) 신입생 교육 때문에 만들었던 자료인데, 개인적으로 프레젠테이션 파일에 설명을 덕지덕지 붙여놓는 걸 좋아하지 않다보니 설명 없이 보기엔 조금 허전할 지도 모르겠다.

http://mytears.org/video_compression.mov

전해져 오는 자료들도 있었지만, Information theory라던가 energy compaction 등을 보여주는 자료들이 없는 등 개인적으로 맘에 들지 않아서 새로 자료를 만들어 버렸다. 어쩌면 이 정도까지 관심있는 사람들도 없었는지 모르겠지만…

그래도 만들어놓은거 2시간만에 버려지는 건 조금 아까워서 퀵타임으로 export!

간단하게 설명하자면 아래 정도?

1. 컬러 스페이스는 여러가지가 있다. RGB는 각 채널에 정보들이 고르게 분배되어 있는데 반해 YUV(Luminance + Chrominance)의 경우 Y(Luminance)성분에 대부분의 정보가 몰려있고, UV에는 상대적으로 정보가 적기 때문에 압축하는데 사용하기가 용이하다.

그렇기 때문에 영상을 압축하는데는 흔히 YUV가 사용된다.

2. 정보량을 나타내는 단위로 Entropy라는 것이 있으며, 이는 우리가 최대로 압축할 수 있는 값이라고도할 수 있다.

엔트로피에 최대한 가깝게 압축을 하기 위한 방법으로는 Shannon-Fano coding, Huffman coding, Arithmetic coding 등이 있으며, 대체로 Shannon-Fano coding보다는 Huffman coding이, Huffman coding보다는 Arithmetic coding이 엔트로피에 더 근접한 결과를 보인다.

Huffman coding은 AAC 등에, Arithmetic coding은 jpeg2k, h.264, AAC 등에 활용되고 있다.

3. Spatial 영역에서의 데이터는 어떤 위치에 얼마나 중요한 정보가 있는지를 나타낼 수 없지만 Transform을 통해 특정 위치에 중요한 정보를 위치시키는 것이 가능하다.

얘를 들어 Fourier/Cosain transform 등을 이용할 경우 저주파 성분에 대부분의 에너지를 집중 시킬 수 있고, wavelet을 사용할 경우 LL 성분에 대부분의 에너지가 모이게 된다.

4. 사람의 눈은 저주파 부분보다 고주파 부분에 민감하므로 Fourier/Cosain transform 등을 통해 도메인을 주파수 영역으로 전환시킨 뒤 저주파 영역은 여러 레벨로 quantization을 수행하고, 고주파 영역은 적은 레벨로 quantization을 수행할 경우 정보량을 줄이면서도 실제 주관적 화질에서는 큰 차이를 보이지 않게 만들 수 있다.

5. Inter frame correlation을 이용하기 위한 방법으로 motion estimation, motion compensation 등의 기법이 있으며, motion estimation을 통해 motion vector를 구하고, 앞에서 구한 motion vector를 이용 motion compensation을 수행하면 이전 프레임을 가지고 현재 프레임과 아주 유사한 프레임을 재구성해낼 수 있고, 이를 현재 프레임에서 빼줄 경우 정보량을 매우 많이 줄일 수 있다.

6. Fourier/Cosain transform을 수행한 뒤 quantization을 수행하게 되면 고주파 영역에는 0이 나올 확률이 아주 높아진다. 그렇기 때문에 Re-ordering을 수행하여 저주파->고주파 영역으로 값들을 정렬시키게 되면 특정 주파수 이후로는 0이란 값밖에 존재하질 않게 되고, 이 0들을 전부 보내기 보다는 N.C(Not coded)란 부호를 대신 보냄으로써 압축 효율을 증가시킬 수 있다.

7. 팩시밀리나 Reorder 된 transform coefficient들을 더 효율적으로 압축하기 위한 방법으로 Run Length Coding이란게 있으며, 0000011122222 같은 값을 Run Length Coding으로 압축하게 되면 051325 (값,반복된 횟수 형식)같은 식으로 표현된다.

이런 방식은 실제 RLE(BMP 압축 포멧), 비디오 코덱 등에 활용되고 있다.

Published by

2 thoughts on “Video Compression 자료…”

  1. 간결하게 정리 잘 되어 있네요. 잘 보고 갑니다.
    그런데 한가지 애매한 부분이 있어 여쭤봅니다. 엔트로피란 개념은 데이터의 혼잡도를 나타내는 개념으로 알고 있었는데요, 가령 데이터가 고르게 분포되어 있을 경우 엔트로피가 높고, 특정한 부분에 데이터가 몰려 있을 경우 엔트로피가 낮은 식으로요. 그래서 데이터를 압축하기 위한 변환(transformation)을 거칠 때에 데이터의 분포를 특정 부위로 집중시키는 방법을 써서 엔트로피를 낮추려는 것으로 알고 있었거든요.

    1. 데이터가 고르게 분포되어 있을 경우라기보다 각 데이터의 값들이 나올 확률이 고를 경우 엔트로피가 높다고 하는게 더 맞을 것 같습니다.

      spatial/time domain에 있는 값들은 각 위치에 있는 값들이 균등한 의미를 가지고 있습니다. 이미지를 기준으로 말씀드리면 0,0 위치에 있는 값이 1,1에 있는 값보다 더 중요하다고 얘기를 할 수 없는거랑 같은거죠.

      하지만 cosain domain이라거나 fourier domain에서 봤을 경우 각 위치에 있는 값들에 대한 중요도는 동일해지지가 않습니다. human visual system은 low freq. 성분에는 민감하게 반응하지만 high freq. 성분엔 민감하게 반응하지 않기 때문에 생기는 현상으로 이를 이용 low freq.는 더 많은 레벨로 quantization을 하게 되고, high freq.는 더 적은 레벨로 quantization을 하는 방법을 통해 엔트로피(정보량)을 줄이는 겁니다.

      그냥 transform만 하게 되면 정보량은 동일합니다. 다만 사람이 민감한 부분에 대한 정보는 더 많이 살려두고 사람이 민감하지 않은 부분에 대한 정보는 일부만 살림으로써 정보량을 줄이는 것이죠.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">