-嵌入式系统部分
中国计算机学会微机专业委员会(2005.6)
二、嵌入式DSP广泛应用
DSP是数字信号处理的专业CPU。数字信号处理,在时域上处理的是离散的有限、无限冲击响应(IIR、FIR)的信号;在频域,处理的是离散的FFT和IFFT变换。它们的共有特点是必须快速地进行大量乘法-累加运算,尤其是实时处理的嵌入式DSP在语音、图像、和高速实时控制领域是DSP的主要应用方面,如,MP3、数码相机、H.264(MPG4)、网络视频应用、精密马达控制等方面。DSP技术是构成嵌入式系统产品的核心之一。为此,DSP需要如下的一些机制:
* 需要算术逻辑单元(ALU)+乘法累加单元(MAC)的CPU。为加速运算成倍增加ALU+MAC单元。有能做40位的定点计算和64位浮点计算的MAC。
* DSP都是RISC结构。
* 内部使用较多寄存器,大量节约LOOP时访问存储器的时间,提高性能、降低功耗。
* 片内集成高速运行的程序和数据存储器和附加一级到两级的程序和数据高速缓存(Cache)。
* 采用多级指令流水线。为减少转移指令时的流水线重装,使用超流水线。
* 采单指多数据指令(SIMD)、或超长指令字(VLIW)、或可配置长指令字(CLIW)的指令系统。每条指令字形实践多为单时钟周期。
* VLIW指令在单个时钟周期内由超标量硬件结构并行执行多条指令(最高达8条),可以提高指令密度。
* CLIW见于Carmel DSP内核。指令长144位,其中48位是常用的标准DSP指令部分,放在只读的单向存储器内;另96位则是用户可配置的指令部分,放在双向可配置存储块内。存储块最多存放1024个用户配置的指令部分。48位常规指令部分中有10位用来标识可配置存储块的地址。两部分合起来就是一条VLIW指令。可配置部分的每一单元可配置出6个并行指令(MAC、ALU、存储器访问各占两个),这相当于使用廉价SIMD指令获得VLIW指令的高性能。
* 内置PLL, 使片内工作于高频时钟,而片外则处于低频,减少干扰。
* 为适应网路与多媒体的特殊需要可附加特需的硬件功能单元。
* 为适应流数据的需要,增加分组数据的支持硬件和指令扩展,以获得多倍的运行性能。
* DSP的软件开发语言已转向C/C++。
* 仿真与调试使用边缘扫描技术(JTAG)、进行无探头非侵入的真实时调试。实行片上调试(OCD on-chip debug),设有断点/观察点和跟踪功能,通过DSP内部串行扫描链实施实时数据交换(RTDX),获取高速屏幕更新。另有仿真暂停事件,供更深细的控制代码执行。
* 在提高性能的基础上降低功耗。使用低功耗CMOS工艺, DSP内核部分使用0.9~1.5伏供电,其他部分包括外设接口为3.3伏。从工艺和结构设计获得高性能与低功耗的双赢。如专门设计的TMS320C55x有极低的功耗比和很高的性能(0.05mW/MIPS和800 MIPS @400MHz)。
* 当前DSP的性能极限为高档:6400 MIPS @800MHz, 中档:800 MIPS @400MHz, 低档几十个MIPS 。
* DSP著名生产厂家有TI、ADI、StarCore等公司。TI的专业历史最久,技术一流。ADI公司的研发结合通信与计算,其Blackfin DSP核具有动态功率管理,运行中飞调频率和电压,千方百计延长电池的寿命。首例Blackfin嵌入式DSP 21535,频率从300MHz提高到1GHz; MAC(运算速度从6000 MIPS提高到20000 MIPS(每秒200亿次),外设接口丰富,有USB、PCI、DMA等。StarCore是一家专业开发DSP核的公司。技术精益求精,确保在低功耗和紧凑代码密度等方面满足便携式的苛刻要求;硬件与编译器相配合保证编译的极高效率;同时承诺花费永远处于留有净空的低价位上。其提供的SC140 DSP核类似VLIW结构,但保证指令永远填满执行单元,不再加空操作指令;支持分组数据;执行单元的无用部分时钟暂停。工作电压:0.9~1.5 伏,钟频:120 MHz. @0.9 V,有4个MAC部件,每秒MAC执行4亿8千万次。核的峰值功率低于40mW @0.9 V。使用C/C++编译器和源级调试工具。
* DSP与PLD 用PLD可以构造积木化的DSP的功能模块,如FIR滤波器、FFT、纠错DSP模块等乃至生成完整的DSP处理器。PLD比传统的DSP功耗肯定要大,但是灵活,故有可取之处。使用单片PLD构成多DSP可代替板级的多片DSP,则功耗会有显著的降低,而且小型、廉价和高性能。
* DSP与ASIC 将低功耗的DSP IP核嵌入于ASIC,在功耗方面肯定优于PLD。
1楼
0
0
回复