Video Compression 자료…

오늘(어제?) 신입생 교육 때문에 만들었던 자료인데, 개인적으로 프레젠테이션 파일에 설명을 덕지덕지 붙여놓는 걸 좋아하지 않다보니 설명 없이 보기엔 조금 허전할 지도 모르겠다.

http://mytears.org/video_compression.mov

전해져 오는 자료들도 있었지만, Information theory라던가 energy compaction 등을 보여주는 자료들이 없는 등 개인적으로 맘에 들지 않아서 새로 자료를 만들어 버렸다. 어쩌면 이 정도까지 관심있는 사람들도 없었는지 모르겠지만…

그래도 만들어놓은거 2시간만에 버려지는 건 조금 아까워서 퀵타임으로 export!

간단하게 설명하자면 아래 정도?

1. 컬러 스페이스는 여러가지가 있다. RGB는 각 채널에 정보들이 고르게 분배되어 있는데 반해 YUV(Luminance + Chrominance)의 경우 Y(Luminance)성분에 대부분의 정보가 몰려있고, UV에는 상대적으로 정보가 적기 때문에 압축하는데 사용하기가 용이하다.

그렇기 때문에 영상을 압축하는데는 흔히 YUV가 사용된다.

2. 정보량을 나타내는 단위로 Entropy라는 것이 있으며, 이는 우리가 최대로 압축할 수 있는 값이라고도할 수 있다.

엔트로피에 최대한 가깝게 압축을 하기 위한 방법으로는 Shannon-Fano coding, Huffman coding, Arithmetic coding 등이 있으며, 대체로 Shannon-Fano coding보다는 Huffman coding이, Huffman coding보다는 Arithmetic coding이 엔트로피에 더 근접한 결과를 보인다.

Huffman coding은 AAC 등에, Arithmetic coding은 jpeg2k, h.264, AAC 등에 활용되고 있다.

3. Spatial 영역에서의 데이터는 어떤 위치에 얼마나 중요한 정보가 있는지를 나타낼 수 없지만 Transform을 통해 특정 위치에 중요한 정보를 위치시키는 것이 가능하다.

얘를 들어 Fourier/Cosain transform 등을 이용할 경우 저주파 성분에 대부분의 에너지를 집중 시킬 수 있고, wavelet을 사용할 경우 LL 성분에 대부분의 에너지가 모이게 된다.

4. 사람의 눈은 저주파 부분보다 고주파 부분에 민감하므로 Fourier/Cosain transform 등을 통해 도메인을 주파수 영역으로 전환시킨 뒤 저주파 영역은 여러 레벨로 quantization을 수행하고, 고주파 영역은 적은 레벨로 quantization을 수행할 경우 정보량을 줄이면서도 실제 주관적 화질에서는 큰 차이를 보이지 않게 만들 수 있다.

5. Inter frame correlation을 이용하기 위한 방법으로 motion estimation, motion compensation 등의 기법이 있으며, motion estimation을 통해 motion vector를 구하고, 앞에서 구한 motion vector를 이용 motion compensation을 수행하면 이전 프레임을 가지고 현재 프레임과 아주 유사한 프레임을 재구성해낼 수 있고, 이를 현재 프레임에서 빼줄 경우 정보량을 매우 많이 줄일 수 있다.

6. Fourier/Cosain transform을 수행한 뒤 quantization을 수행하게 되면 고주파 영역에는 0이 나올 확률이 아주 높아진다. 그렇기 때문에 Re-ordering을 수행하여 저주파->고주파 영역으로 값들을 정렬시키게 되면 특정 주파수 이후로는 0이란 값밖에 존재하질 않게 되고, 이 0들을 전부 보내기 보다는 N.C(Not coded)란 부호를 대신 보냄으로써 압축 효율을 증가시킬 수 있다.

7. 팩시밀리나 Reorder 된 transform coefficient들을 더 효율적으로 압축하기 위한 방법으로 Run Length Coding이란게 있으며, 0000011122222 같은 값을 Run Length Coding으로 압축하게 되면 051325 (값,반복된 횟수 형식)같은 식으로 표현된다.

이런 방식은 실제 RLE(BMP 압축 포멧), 비디오 코덱 등에 활용되고 있다.

CG: Perspective Projection

HCI 과제 덕에 심심찮게 프로그래밍을 하게 되네요. 첫 과제 였던 3D rotation 관련을 구현하는 것도 상당히 흥미로웠지만, 두번째 과제인 Perspective Projection 를 구현하는 것은 정말 멋진 경험이었다고 생각합니다.

지난 며칠간 꽤나 재밌게 프로그래밍을 했던 관계로 블로그에도 살짝 정리해보는게 어떨까 하는 생각이 들었는데, 막상 쓸려니 내용이 잘 전해질지 의문이네요.

What is the Perspective Projection?

Perspective Projection 이란 아래의 왼쪽 이미지를 오른쪽 이미지 처럼 변화시키는 것을 얘기합니다. 꼭 저렇게 비뚜러진 이미지를 바로잡는것은 아니고, 이미지가 투영되는 면을 변화시키는 것이라고 생각하시면 됩니다.

이해를 돕기 위해 wikipedia 에서 이미지를 하나 가져왔습니다. 아래 이미지의 연보라색 면이 상이 맺히는 곳이라고 할 때, perspective transform 은 그 보라색 면을 이동시킨 것 같은 효과를 주기 위해 사용합니다.

How to get a projection matrix.

기본 적으로 Perspective Transform 을 위한 식은 다음과 같습니다.

homogenious coordinate 를 사용하고 있으니 x’ 와 y’ 에 관한 식은 아래와 같이 바꿔쓸 수 있습니다.

이를 정리하면 다음과 같은 꼴로 만들 수 있고,

우리가 값을 알고 싶은 변수들은 a, b, c, d, e, f, g, h 이렇게 8 개이므로, (x, y) 와 그에 대응되는 (x’, y’) 쌍을 4개만 알고 있으면 projection matrix 를 구할 수 있습니다. 이를 구하기 위한 매트릭스는 아래와 같습니다.

남은 건 8×8 matrix 의 inverse matrix 를 구한 뒤 뒤 쪽의 매트릭스에 곱해주는 것 뿐이군요.

Implementation of Perspective projection

이제까지 Perspective Transform 을 위한 매트릭스에 대해 알아봤습니다. 이제는 실제 구현을 해보는 것만 남았네요. 위에서 알아봤듯이 Perspective matrix 를 구하려면 matrix multiplication 과 inverse 를 위한 인터페이스가 필요합니다.

matrix multiplication 의 경우 서로 곱할 수 있는 형식인지를 체크한 뒤 단순한 계산을 하면 되고, inverse 는 gauss elimination 을 이용 reduced row echelon form 으로 만들어주는 것을 통해 쉽게(?) 구해낼 수 있습니다.

위의 두 가지까지 구현했다면, 이제 warping 만을 구현하면 되겠습니다. 이 warping 은 크게 두가지 방법을 통해 구현할 수 있습니다.

forward mapping

forward mapping 은 말 그대로 src 의 x, y 좌표에 대하 dst 의 x’, y’ 를 계산 한 뒤 값을 채워주는 방식입니다. 간단히 pseudo code 로 표현하면 다음과 같이 표현할 수 있겠네요.

근데 막상 구현을 해놓고 보면 pixel 이 정수단위이기 때문에 아래와 같이 hole 이 발생하는 것을 확인할 수 있습니다.

backward mapping

위에서 얘기한 hole 을 방지하기 위한 방법 중 하나로 backward warping 이란 것이 있습니다. forward warping 에서 src 의 좌표를 기준으로 dst 의 좌표를 계산했다면, backward warping 에서는 dst 의 좌표를 기준으로 src 의 좌표를 계산하게 됩니다.

간단하게 pseudo code 로 표현하면 아래와 같이 되겠습니다.

간단히 코드만 봐도 예상할 수 있겠지만 backward_warping 을 해주게 되면 hole 은 확실하게 없앨 수 있습니다. 결과 이미지는 아래와 같은데, 아주 깔끔한 결과가 나오지는 않았습니다.

forward (or backward) warping with interpolation

forward warping 을 하게 되면 hole 이 생기게 되고, 단순한 backward warping 을 하게 되면 이미지의 화질 저하가 발생하게 되는데, interpolation 을 사용하게 되면 이를 조금 더 개선할 수 있습니다.

전 linear-interpolation 을 사용해보았는데, 설명하기는 복잡하니 관심있으신 분은 저 아래 첨부할 소스를 참고해보시면 좋겠습니다. 결과는 아래와 같이 나옵니다.

우선 interpolation 을 이용한 forward warping 입니다. 복잡하게 하기는 귀찮고 해서 대강 구현했더니, hole 이 줄기는 했지만 여전히 존재하고 있습니다.

다음은 backward warping 에 linear interpolation 을 적용한 결과입니다. hole 도 없고, 보기에 상당히 괜찮아진 것을 확인할 수 있습니다.

소스코드:
https://github.com/Tee0125/snippet/tree/master/perspective_projection

참고자료:

http://en.wikipedia.org/wiki/Perspective_%28graphical%29

http://en.wikipedia.org/wiki/Gaussian_elimination

p.s) 부동 소숫점 연산에서 x – x/x*x = 0 이라는 것이 보장되질 않더군요. 코드 한 줄 줄일려다가 디버깅을 30분동안 해야했습니다. -_ㅜ