Multimedia Processing에 적합한 파이프라인 멀티프로세서에 관한 연구
A Study on Pipelined Multi-processor for Multimedia Processing
- 발행기관 서강대학교 일반대학원
- 지도교수 김영록
- 발행년도 2011
- 학위수여년월 2011. 2
- 학위명 석사
- 학과 및 전공 일반대학원 전자공학과
- 실제URI http://www.dcollection.net/handler/sogang/000000046379
- 저작권 서강대학교의 논문은 저작권 보호를 받습니다.
초록/요약
본 문서에서는 고성능 멀티미디어 기기를 위한 빠르고 효율적인 멀티프로세서 구조를 새롭게 제안한다. 제안된 구조는 CPU를 포함하는 여러 개의 기본 프로세서 모듈(BPM)을 파이프라인 형태로 연결하여 병렬 처리를 통해 실행 속도를 향상시킨다. 또한, 적용되는 어플리케이션에 따라 각각의 BPM을 선택적으로 이용하여 효율성을 높일 수 있으며, 전용 하드웨어 가속기를 사용하는 방법에 비해 하드웨어의 교체 없이 소프트웨어 개발로 필요한 기능을 구현할 수 있는 유연성을 갖는다. 제안된 구조를 Verilog HDL을 사용하여 구현하였고, 그 복잡도와 수행 속도를 분석하여 성능을 기존의 방식과 시뮬레이션을 통해서 비교한다. 네 개의 BPM이 적용된 구조는 멀티코어 CPU 방식에 비하여 20% 정도 복잡도가 증가하지만 52% 정도의 속도 향상을 보여준다. 위 성능 결과는 숫자 카운트라는 단순한 작업을 기반으로 복잡도와 수행시간을 기존의 구조와 제안된 구조를 비교하였다. 제안된 방식에 JPEG decoder의 dequantizer와 inverse discrete cosine transform (IDCT)를 적용한다. JPEG decoder에서 IDCT 부분은 가장 큰 복잡도와 연산량을 가지고 있어서 수행시간이 긴 단점을 가지고 있다. 각각의 basic processor module (BPM)에 적절히 일을 할당하여 기존의 구조들 보다 수행시간이 빠름을 확인한다. ARM core 를 target으로 하는 compiler 상의 시뮬레이션을 통해 수행 속도를 분석한다. 네 개의 BPM이 적용된 구조는 싱글코어 CPU 방식에 비하여 35% 정도의 속도 향상을 보여준다.
more초록/요약
This paper proposes a fast and efficient multi-processor architecture for devices a requiring high speed performance. The proposed method connects four basic processor modules (BPM) including CPU’s in a pipeline shape to enhance execution speed. Also, using a specific BPM selectively regarding to multimedia applications increases the efficiency, and has more flexibility by software implementation for needed functions without hardware replacement than using a hardware accelerator. This has been implemented using Verilog HDL and its performance is compared and analyzed in terms of complexity and speed of execution. Even the complexity of the proposed architecture increases 20% compared with the multi-core CPU method, speed increases 52%. The performance results above were applied simple operation that counts the number and we have compared complexity and execution time between existing architecture and proposed architecture. Inverse discrete cosine transform (IDCT) and dequantizer of JPEG decoder were applied to the proposed architecture. IDCT has the highest complexity lots of operations so it needs long execution time. We applied IDCT and dequantizer to the proposed and existing architecture. Each BPM has assigned work and perform the whole operation in parallel. Therefore, the proposed pipelined multi-processor has shorter execution time than existing methods. The compiler that targets ARM core can verify the execution time of each method. In terms of execution time, pipelined multi-prosessor (PMP) that connects four BPM has shown 35% faster completion speed over the single-core method.
more

