ADI Blackfin的Mem DMA高速通信收藏

wj321 | 当前状态：离线 总积分：1211 2026年可用积分：0 注册时间： 2003-05-12 最后登录时间： 2009-11-05 空间发短消息加为好友: ADI Blackfin的Mem DMA高速通信收藏

wj321 发表于 2008/10/7 14:56:57 1105 查看 0 回复 [上一主题] [下一主题]

手机阅读

如果你还没有看过《嵌入式内功．葵花宝典》，那么在阅读本这篇推荐的文章之前有必要先去看看吧，你会有新的体会的。

ＡＤＳＰ－２１５３５Ｂｌａｃｋｆｉｎ是美国ＡＤ公司和Ｉｎｔｅｌ公司于２００１年底联合推出的一款定点ＤＳＰ，ＲＩＳＣ指令结构，运作高效，具有十分优异的性能。该ＤＳＰ具有３００ＭＨｚ的主频，２个４０ｂｉｔ的ＭＡＣ（乘加器）和２个３２ｂｉｔ的ＡＬＵ（算术逻辑单元），４个８ｂｉｔ的视频处理单元，１６个地址寻址单元。该ＤＳＰ内部集成了３０８ＫＢ的ＲＡＭ，并具有丰富的外部接口，如ＰＣＩ、ＵＳＢ、ＳＰＩ、同步和异步串口等。同时，芯片内部设计了看门狗和多种定时器，充分满足软件工程稳定性的设计要求。值得一提的是，２１５３５可以动态地控制电压输入，调整运行频率，减少芯片功耗，十分适用于移动产品的设计。

２００２年底，ＡＤ公司在中国开始大规模推广Ｂｌａｃｋｆｉｎ系列的ＤＳＰ，２１５３５成为该系列的旗舰产品。由于该ＤＳＰ推出时间不长，相关文献几乎没有报道；而且，在许多接口性能方面，ＡＤ公司也没有对其给出准确的指标。根据通常的设计经验可知，新产品通常在某些方面没有达到设计要求。笔者所设计的高速通信板数据交换速度必须达２０ＭＷｏｒｄ／ｓ以上，因此对该ＤＳＰ的高速通信必须进行准确仔细的评估和设计。

ＡＤＳＰ－２１５３５的内存访问支持Ｉ／Ｏ方式、内存映射和多种ＤＭＡ方式，其中ＭｅｍＤＭＡ（ＭｅｍｏｒｙｔｏｍｅｍｏｒｙＤＭＡ）方式是最快的一种并行通信方式。因此，笔者在设计时选择了ＭｅｍＤＭＡ作为高速通信方式。由于２１５３５支持多种内存，因此在设计ＭｅｍＤＭＡ时，必须对２１５３５的内存管理有一个详细的了解。

１ＡＤＳＰ－２１５３５的内存管理

２１５３５的内存管理十分强大。它把存储器视为一个统一的４ＧＢ的地址空间，使用３２位地址。所有的资源，包括内部存储器、外部存储器、ＰＣＩ地址空间和Ｉ／Ｏ控制寄存器，都具有独立的地址空间。此地址空间的各部分存储器按照分级结构排列，以提供较高的性能价格比。一些快速、低延迟的存储器（如Ｌ１）的位置接近处理器核心，而低成本低性能的存储器远离核心。芯片内部的３０８ＫＢＲＡＭ中，其中Ｌ１（一级缓存）５２ＫＢ，Ｌ２（二级缓存）２５６ＫＢ；外部地址访问空间可以高达７６８ＭＢ，通过ＥＢＩＵ（ＥｘｔｅｒｎａｌＢｕｓＩｎｔｅｒｆａｃｅＵｎｉｔ，外部总线接口单元）进行管理。ＥＢＩＵ支持多种内存，如ＳＤＲＡＭ、ＳＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ、ＦＩＦＯ等。内存地址的具体配置空间如图１所示。

Ｌ１作为ＤＳＰ的一级缓存，可以与ＤＳＰ的内核一样，运行在３００Ｍｂｐｓ的高速上。它分为三部分：１６ＫＢ的ＩｎｓｔｒｕｃｔｉｏｎＲａｍ（指令存储器）、，两块１６ＫＢ的ＤａｔａＲａｍ（数据存储器）、４ＫＢ的ＳｃｒａｔｃｈｐａｄＲａｍ（中间结果缓存）。指令存储器既可以作为ＳＲＡＭ，也可以配置为４路联合设置的Ｃａｃｈｅ。数据存储器能够配置成双路联合设置的Ｃａｃｈｅ或者ＳＲＡＭ；中间结果缓存只能作为ＳＲＡＭ使用。指令缓存和数据缓存都可以通过ＤＭＡ方式灌入数据，但是对于中间结果缓存这种方式不能使用。

Ｌ２作为ＤＳＰ的二级缓存，是一个统一的指令和数据存储器，能够根据系统设计要求同时存放代码和数据。Ｌ２具有ＤＳＰ核心同样的带宽，但是延迟时间较长，访问Ｌ２单个独立的地址时系统需要经过７个周期的延时，这时它的访问速度在４２．８Ｍｂｐｓ左右。所以如果程序比较大，必须在Ｌ２中编写程序时，通常将Ｌ１配置为Ｌ２的Ｃａｃｈｅ，这样，速度可以大大加快。

２１５３５支持的片外存储器种类很多，值得一提的是它的ＳＤＲＡＭ控制器。２１５３５集成的ＳＤＲＡＭ控制器能够以ｆＳＣＬＫ（系统时钟，为核心时钟的若干分频）的速度，与多达４个Ｂａｎｋ的工业标准ＳＤＲＡＭ或者ＤＩＭＭ接口。每个Ｂａｎｋ可以配置为１６ＭＢ～１２８ＭＢ的存储器，符合ＰＣ１３３ＳＤＲＡＭ的标准。

存储器的ＤＭＡ控制器提供高带宽的数据传输能力，它能够在内部Ｌ１／Ｌ２存储器和外部存储器（包括ＰＣＩ存储空间）之间执行代码或者数据的块传输。

２ＤＭＡ寄存器的配置

为了描述ＭｅｍＤＭＡ序列，ＤＭＡ控制器使用一套名为描述子块（Ｄｅｓｃｒｉｐｔｏｒ）的参数。当需要后继的ＤＭＡ序列时，这些描述子块被链接起来。这样，一个ＤＭＡ序列完成时能够自动初始化下一个序列，并将其启动。如果不需启动下一个序列，只要将其指向一个内容为０的地址空间即可。如果下一次链接指向原描述子块，则ＤＭＡ完成后暂停。为访问整个ＡＤＳＰ－２１５３５的地址空间，源地址和目的地址描述子块采用了全３２位地址的基指针。两个描述子块均为５个字的连续空间，需要注意的是该连续空间必须定义在Ｌ２范围内。描述子块内包含的内容如图２所示。

ＭｅｍＤＭＡ规定，描述子块所在的首地址必须传入相关的寄存器。描述子块首地址的高１６位装入ＤＭＡ＿ＤＢＰ寄存器（ＤＭＡＤｅｓｃｒｉｐｔｏｒＢａｓｅＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ描述子块基地址寄存器）内。由于该寄存器严格限定必须在０ｘＦ０００～０ｘＦ００３，这就限定了源和目的地址描述子块只能定义在Ｌ２存储器内，并且高１６位地址相同。

描述子块首地址的低１６位放在两个寄存器中，源地址描述子块低１６位装入ＭＤＳ＿ＤＮＤ寄存器（ＳｏｕｒｃｅＭｅｍｏｒｙＤＭＡＮｅｘｔＤｅｓｃｒｉｐｔｏｒＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ源地址下一个描述子块寄存器），而目的地址描述子块低１６位装入ＭＤＤ＿ＤＮＤ寄存器（ＤｅｓｔｉｎａｔｉｏｎＭｅｍｏｒｙＤＭＡＮｅｘｔＤｅｓｃｒｉｐｔｏｒＰｏｉｎｔｅｒＲｅｇｉｓｔｅｒ，ＤＭＡ目的地址下一个描述子块寄存器）。其说明如图３所示。

在描述子块的地址传入相应寄存器后，后面的四项先配置，然后设置第一项。也就是对管理ＤＭＡ启动参数的寄存器进行参数配置。两个配置寄存器的详细内容如图４所示。例如当目的地址寄存器为０ｘ８００３，源地址寄存器为０ｘ８００１时，传输的数据总长＝ＤＭＡ传输的长度×字。需要注意的是，虽然此时传输以１６位（字长）传输，但ＤＭＡ的带宽是３２位，剩下的带宽资源将被浪费。８位传输时，带宽资源利用率更低。

下面，以一个具体的３２位ＤＭＡ例子说明上面的描述子块和多个寄存器的使用方法。

图4 DMA源地址和目的地址配置寄存器

３３２位ＤＭＡ的例程

Ｒ０．Ｈ＝０ｘ８００９／／ＤＭＡ源配置字，设置为３２位传输

Ｒ０．Ｌ＝０ｘ８００／／ＤＭＡ长度

Ｒ１．Ｌ＝０ｘ２０００／／ＤＭＡ源地址低１６位

Ｒ１．Ｈ＝０ｘｆ０００／／ＤＭＡ源地址高１６位，这里指向Ｌ２

Ｒ２．Ｌ＝ＲＡＭ＿ＲＥＡＤ／／ＤＭＡ源描述子块首地址

低十六位，ＤＭＡ读

Ｒ２．Ｈ＝０ｘ８００ｂ／／ＤＭＡ目的配置字，设置为３２位传输

Ｒ３．Ｌ＝０ｘ００００／／ＤＭＡ目的地址低１６位

Ｒ３．Ｈ＝０ｘｆｆ９０／／ＤＭＡ目的地址高１６位，这里指向

Ｌ１数据存储器－ＢａｎｋＢ

Ｒ４．Ｌ＝ＲＡＭ＿ＷＲＩＴＥ／／ＤＭＡ目的描述子块首地址低

十六位，ＤＭＡ写

Ｐ０．Ｌ＝ＲＡＭ＿ＲＥＡＤ／／将３２位的源描述子块的地址

载入Ｐ０

Ｐ０．Ｈ＝ＲＡＭ＿ＲＥＡＤ

Ｐ１．Ｌ＝ＲＡＭ＿ＷＲＩＴＥ／／将３２位的目的描述子块的地

址载入Ｐ１

Ｐ１．Ｈ＝ＲＡＭ＿ＷＲＩＴＥ

ＷＰ０＋０ｘ２＝Ｒ０／／将ＤＭＡ长度写入源描述块第

二个字中

Ｐ０＋０ｘ４＝Ｒ１／／将ＤＭＡ的３２位源起始地址

写入源描述块第三第四个字中

ＷＰ０＋０ｘ８＝Ｒ２．Ｌ／／将下一个源描述子块的地址

写入源描述块第五个字中

ＷＰ１＋０ｘ２＝Ｒ０／／将ＤＭＡ长度写入目的描述块

第二个字中

Ｐ１＋０ｘ４＝Ｒ３／／将ＤＭＡ的３２位目的起始地址

写入目的描述块第三第四个字中

ＷＰ１＋０ｘ８＝Ｒ４／／将下一个目的描述子块的地

址写入目的描述块第五个字中

ＷＰ０＝Ｒ０．Ｈ／／将ＤＭＡ源配置字写入源描述

块第一个字中

ＷＰ１＝Ｒ２．Ｈ／／将ＤＭＡ目的配置字写入目的

描述块第一个字中

Ｒ６＝Ｐ０／／将Ｐ０的值同时存在Ｒ６内

Ｐ２．Ｌ＝０ｘ３９０Ａ／／将ＤＭＡ源描述子块配置寄存

器的地址传给Ｐ２

Ｐ２．Ｈ＝０ｘＦＦＣ０

ＷＰ２＝Ｒ６．Ｌ／／将ＤＭＡ源描述子块所在地址

的低１６位传给Ｐ２指向的地方Ｐ３．Ｌ＝０ｘ４８８０／／将描述子块基地址寄存器的

地址传给Ｐ３

Ｐ３．Ｈ＝０ｘＦＦＣ０

ＷＰ３＝Ｒ６．Ｈ／／将ＤＭＡ源描述子块所在地址

的高１６位传给基地址寄存器

Ｐ４．Ｌ＝０ｘ３８０Ａ

Ｐ４．Ｈ＝０ｘＦＦＣ０／／将ＤＭＡ目的描述子块配置寄

存器的地址传给Ｐ４

Ｒ６＝Ｐ１／／将Ｐ１的值转存到Ｒ６

ＷＰ４＝Ｒ６．Ｌ／／将目的描述子块所在地址的

低１６位传给配置目的地址寄存器

Ｐ５．Ｌ＝０ｘ３９０２

Ｐ５．Ｈ＝０ｘＦＦＣ０／／将ＤＭＡ源地址配置寄存器所

在地址传给Ｐ５

Ｒ６＝ＷＰ５

ＢＩＴＳＥＴＲ６０／／设置Ｒ６的最低位为１，表示

准备启动读ＤＭＡ

Ｉ０．Ｌ＝０ｘ３８０２

Ｉ０．Ｈ＝０ｘＦＦＣ０／／将ＤＭＡ目的地址配置寄存器

的地址传给Ｉ０

Ｒ７．Ｌ＝ＷＩ０

ＢＩＴＳＥＴＲ７０／／设置Ｒ７的最低位为１，表示

准备启动写ＤＭＡ

ＷＰ５＝Ｒ６／／将Ｒ６和Ｒ７的低１６位写入

两个配置寄存器中，真正启动ＤＭＡ

ＷＩ０＝Ｒ７．Ｌ

ＤＭＡ＿ＷＡＩＴ／／等待ＤＭＡ结束

Ｒ６＝ＷＰ１／／根据写描述子块第一个字的

最高位判断描述子块的所有权

ｃｃ＝ｂｉｔｔｓｔＲ６１５

ＩＦｃｃＪＵＭＰＤＭＡ＿ＷＡＩＴ／／如果为１，表示还在ＤＭＡ

状态，继续判断，等待

ＲＴＳ

．ａｌｉｇｎ４／／在Ｌ２空间范围内定义两个

描述子块，要求４个字节对齐

．ＢＹＴＥ２ＲＡＭ＿ＲＥＡＤ５

．ａｌｉｇｎ４

．ＢＹＴＥ２ＲＡＭ＿ＷＲＩＴＥ５

值得注意的是，在上述ＤＭＡ例程中，笔者使用了查询等待方式，但中间完全可以插入其他指令，例如ＤＳＰ还可以同时作双乘加和两次３２位取数。只要不访问正在ＤＭＡ读写的地址区域，没有任何影响。这意味着，在系统ＤＭＡ的同时，ＤＳＰ可以同时进行其他操作，这一点对于提高ＤＳＰ的效率至关重要。

４各种内存空间的ＤＭＡ访问指标测试及分析

根据以上配置，笔者对ＡＤＳＰ－２１５３５的ＤＭＡ性能进行了比较详尽的测试。测试数据如表１所示。

表1 21535的DMA实测数据

源地址	目的地址	DMA长度（双字）	周期数（个）	速度（双字/秒）
L2	L1	4096	43615	28.2M
L2	SDRAM	8192	54878	44.8M
L2	L2	8192	66737	36.8M
L1	L1	4096	64164	19.1M
L1	SDRAM	4096	39891	30.8M
L1	L2	4096	52661	23.3M
SDRAM	L1	4096	28625	42.9M
SDRAM	SDRAM	4096	65668	18.7M
SDRAM	L2	8192	52314	46.9M

注：测试环境-DSP核心时钟300MHz，系统时钟120MHz，SDRAM为PC133标准。样本采样：各15次

从表１中的实测数据可以看出，ＤＭＡ的速度均在１８．７Ｍ双字／秒以上，最高速度达４６．９Ｍ双字／秒，可以满足工程中高速采集的需要。从表中数据可以得出以下结论：

（１）ＤＭＡ双向速度不对称，将源地址和目的地址交换后，速度会发生变化；

（２）低速向高速区域传输时，要比反向传输快；

（３）同类区域ＤＭＡ一般比区域之间ＤＭＡ要慢。如Ｌ１ＤＭＡ到Ｌ１，比Ｌ１ＤＭＡ到Ｌ２和ＳＤＲＡＭ都要慢一些。其它区域也有类似现象。

（４）高速区域ＤＭＡ速度并不一定快，如Ｌ１区域ＤＭＡ速度总体表现反而最低。

1楼 0 0 回复

高级回复 | 发新主题

发表新帖

控制工程师论坛

2016年积分排行