태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

한국 MPEG 워크샵 오디오 관련 내용 정리

2009/12/22 14:06
지난 12월 초, 한국 MPEG 포럼에서
개최하는 워크샵이 있어 참석하였습니다.
오디오 코딩과 관련해서는 현재 진행중인 이슈가 2개가 있어
follow-up하는 의미에서 참석을 하였고요.

내부적으로 정리해놓은 내용이 있는데,
본 블로그에서는 오디오나 음성 코딩 부분만 다루니,
그 부분만 띄어서 써봅니다. :)

1-1 SAOC
MPS에 사용된 기술을 이용하여 object audio를 처리하는데 낮은 비트율에서 제공하기 위한 solution 제공을 목표로 개발이 되는 코덱.

물론 객체들이 방향성은 살아있지만, 완벽하게 분리되지 않음.

특히, 보컬이나 특정 음원을 지우는 것은 크게 문제가 되지 않지만,
보컬이나 특정 음원만 재생하는 경우 성능의 열화가 분명함.

이를 해결하기 위해 residual channel이라는 것을 만들어서,
이를 보상해주는 방식을 사용하고 있음.
(하지만 이 경우에 결국 비트율이 올라가는 문제점이 있어,
특별히 SAOC가 낮은 비트율에서 서비스 제공한다라는 장점을
역으로 감쇄시키는 부분임. 옵션이 있다는 정도가 장점)

알고리즘적으로는 MPS에서 사용된 기술이
그대로 사용하고 있기 때문에 기술적으로 추가된 부분은 없으며,
구조적으로 어떻게 configuration하였지가 이슈로 보임.


1-2 USAC
음성과 오디오 신호를 동시에
잘 처리할 수 있는 통합된 코덱을 개발하는 것을 목적으로 함.

현재 baseline인 reference software는 release 된 상태이고,
성능 및 음질 향상을 위한 개발을 하고 있음.

실질적으로는 음성의 경우 AMR-WB+가,
오디오의 경우 AAC로 처리하는 방식을 따르고 있음.
즉, 음성의 경우 TCX 기법을 사용하며,
AAC의 경우 MDCT 도메인에서 처리하는 방식을 사용.

전처리단으로 MPS와 eSBR이 사용되어 있고,
core codec의 입력으로는 stereo or mono 채널을 사용함.
특히, core codec에서는 voiceage와 fraunhoffer에서
encoder 등을 완벽히 오픈하지 않아,
다른 업체에서 core codec의 성능 향상에 접근하지 못함.

삼성 및 기타 업체에서 품질 향상을 위해 contribution 한 부분은
MPS 나 eSBR과 같은 전/후처리 모듈에 대한 부분.
특히 삼성에서는 MPS 성능을 높이는 부분에서
기존에 ILD 및 ICC 와 함께 사용되는 parameter인
IPD와 OPD의 비트율을 반으로 줄임으로써
(실질적으로는 OPD를 ILD와 ICC에서 예측)
비트효율을 높여 음질을 향상시키는 방법으로 접근하고 있음.
(관련 논문 이미 published 된 것으로 보임, 언제 보긴 했는데;;)

AMR-WB+ 모듈에서는 기존의 방식과 달리 LPC 압축을 위해
AVQ 방식을 사용하고 있음.
(기존에는 ISF 방식으로 압축, (LSF)와 유사)

현재 논의 point로는 각 모듈이 transition될 때
overlap-add를 해야하는데,
이 부분과 관련하여 어떻게 처리를 하는 것이
음질 열화를 최소화할지를 고민하고 있음.

표준화 진행사항으로는 CD를 내년에 제출할 상태이고
2011년 초까지 FDIS를 제출할 예정으로 있다.

그 외에 video 코딩에 대한 설명들이 있어서 재미있게 들을 수 있었습니다.
그리고 시스템적인 입장에서도 접근할 부분이 많이 있어 보이네요.
결국 다양한 서비스를 창출하기 위해서는 시스템이나 포맷에서 지원해주어야 하는 부분이 있으니까요. 하지만 (여지껏 그랬고 지금도 그런 문제이지만) 가장 큰 문제는 시장을 만들어내지 못하면서 표준이 범람하는데 있지 않나 합니다. 게다가 큰 업체들은(예를 들면, 구글이나..) 구지 표준을 쓰기보다는 개별적인 솔루션을 개발하는 경우들도 많고요.

그리고 지금 슬슬 ffmpeg을 보고 있는데,
이 부분에 대해서 정리를 함 해볼까 합니다.
물론 사용법보단, 코덱개발 입장에서 전체적을 프로그램 구조를 보는 것이 주가 되겠지요. :)
그럼 또 다음에 뵙도록 하지요.
이제 트위터는 줄일 예정이니, 블로그에서 더 자주 볼 수 있을겁니다. :)
저작자 표시 비영리 동일 조건 변경 허락
Creative Commons License
Creative Commons License

Beckgom 분류없음

blog comments powered by Disqus

최근 ITU-T 표준 코덱 진행 사항

2009/10/28 22:49
어쩌다보니 1달만에 글을 남기네요.
그동안 참 많은 일이 있었습니다. :)
암튼 이번에 논문을 쓰면서 ITU-T 표준 코덱 동향을 정리하게 되었는데
그 내용에 대해 써볼까 합니다.
현재 SG16에서 음성코덱 표준화를 진행중이고,
대부분의 activity가 Q10에서 진행중입니다.
(Q9에서는 새로운 코덱에 대해 표준화하는데,
최근의 표준은 확장코덱쪽이라서요)
아무튼, 크게 정리를 하면 4가지 정도 됩니다.

G.729/G.718 SWB
G.722/G.711.1 SWB
G.711 LLC(lossless coding)
G.711 extension

보시면 알겠지만, G.711에 대한 내용이 많습니다. 우선 현재 PSTN에서 사용하는 코덱이기도 하거니와 특허도 말소되서 baseline으로 사용하는데 전혀 무리가 없다는 것도 장점이지요. 게다가 알고리즘 지연이나 계산량 측면에서보면 매우 나이스하기 때문에 (대신 비트율이 높지만 네트워크야 요즘 좋잖아요 :) )인기가 많은 모양입니다.
anyway, 광대역 확장은 이미 다 끝났고, SWB에 대해서 진행이 거의..최종단계에 돌입했습니다. G.729/G.718은 진짜 거의 끝난 상태이고, G.722/G.711.1에 대한 확장은 optimization 단계입니다. 두 candidate이 통합하는 중이지요.

G.711 LLC (G.711.0)도 이미 끝나가는 상태입니다. LLC이기 때문에 qualification 단계는 skip하고 selection 단계로 바로 가는 것이었는데, 두 candidate 중에 하나가 포기하면서(게다가 남은 하나의 candidate에서 모토로라도 빠졌다죠) 거의..하나만 제출되고 그게 정해지는 상황이 되었습니다. 아마 내년 conference에서 LLC에 대한 논문들을 찾아보실 수 있을겁니다. (아마도 ICASSP, EUSIPCO, Interspeech를 뒤지면 찾을 수 있을듯..)

G.711 extension이라고 조금 생소한 녀석이 있는데, 이 부분은 pre/post processing에 대한 내용입니다. G.711.1에 보면 noise shaping filter로 음질을 향상시키는 부분이 있죠. 이러한 부분을 따로 모아서 G.711 자체의 음질을 향상시키는 부분을 표준화하고 있습니다.

앞으로는 어떤 것들을 진행할까요?
G.729에 대한 LLC도 기대할 수 있을것이고요.
하다고 멈춘 stereo coding에 대한 부분도 진행할 수 있겠지요.
근데 ITU-T에서 진짜 어디까지 갈지 궁금합니다.
이러다가 비디오 코딩처럼 MPEG하고 joint로 뭔가 나올지도 모르겠고요.^^

저작자 표시 비영리 동일 조건 변경 허락
Creative Commons License
Creative Commons License

Beckgom 분류없음

blog comments powered by Disqus

다른 곳에다 글을 쓰다가..

2009/09/30 10:53
제 블로그 폭파된지 어언...몇일이 지나가는군요.
블로그가 너무 난잡해져서 정리할 필요가 있겠다싶어 폭파한 후
재정리중입니다.
제 글, 자료 정리, smalltalk 등은 따로 정리할 필요가 있겠다 싶어서,
여기에는 최대한 자료 정리를 하는 공간으로 사용하려고 합니다.
글은 wp에 쓰고 있고요.
아직 간단한 내용들을 어디에 쓸지 고민이네요. 트위터에 쓰자니 너무 정리가 안되고,
흐음..조금 더 고민해봐야겠습니다.
아무튼, 전공관련된 내용은 주기적으로 이 곳에 업데이트할 테니 기대해주세요 :)
저작자 표시 비영리 동일 조건 변경 허락
Creative Commons License
Creative Commons License

Beckgom 분류없음

blog comments powered by Disqus