AI驱动的设计应用
作者: ARC Marketing, Synopsys
许多物联网应用依靠小型电池运行,或者至少在一段时间内依靠收集的能量而运行,因此,这些应用在能耗方面的预算非常严格。针对物联网市场的系统系统 (SoC) 设计人员面临着独特的挑战,包括提供市场需要的日益增多的特性,以及维持应用所需的低功耗。
通常,系统架构师要求对应用处理器的性能水平进行升级,以执行高级系统功能,但同时还要保证其和8位微控制器系统的功率分布相当。这就好像为发条玩具提供智能手机的大脑。通过配置处理器而实现这些看似互相冲突的目标的能力至关重要。本文介绍如何通过处理器选择和配置而降低系统功耗的技术和选项。
物联网设备的定义是他们能够接收或“感知”现实世界信号,对相关数据进行运算,并且通过网络传送计算结果,无论是互联网还是局域网。大多数通用RISC处理器可以成功地处理信号,但专用DSP在执行这些任务时具有更高的功效和更低的延时。另一方面,RISC处理器非常适合传输数据和设置通信信道。使用多个单独的处理器是一种选择,但这使系统的成本和板卡空间增加,并且需要多个开发和调试环境与工具。使用兼具这两项功能的单个处理器内核可以降低这种复杂度和成本。 这种复杂度和成本可采用具有这两项功能的单个处理器内核而降低。
对于实时响应(always-on)和低功耗环境中需要的语音触发、语音控制、语音回放和惯性传感器处理,这些关键特性可以用DSP指令实现,例如过滤、快速傅里叶变换 (FFT) 和插值,并且仍然满足其功耗指标并且仍然满足其功耗指标。
DesignWare® ARC® EMxD处理器家族就是在可配置的ARC内核中添加具有ARCv2DSP指令集(ISA)的DSP引擎从而应对这些挑战,从而实现在单个统一架构中实现RISC和数字信号处理(图1)。这些产品具有低功耗的特点,而且可以检测低于1µW的语音,以实现语音控制。
ARC EM DSP处理器可灵活配置,这样,每个事例都可以定制,使目标应用能够实现DSP和RISC性能的理想平衡,并提供极高的功耗和面积效率。例如,ARC EM5D和EM7D非常适合需要大约50% DSP处理的应用,而EM9D和EM11D可以同时支持XY存储,因此,该产品是需要更高DSP的应用的理想选择。ARC处理器扩展 (APEX) 技术也可帮助设计人员创建用户自定义的指令,实现定制硬件加速器的集成,从而提高特定应用的性能,降低能耗,并减少所需的内存。
图1:ARC EMxD块示意图
用于在RISC + DSP处理器中实施典型DSP MAC操作的代码包含从内存中装载数据,然后对操作对象执行MAC操作。这种架构吞吐率高达每个周期1/3 MAC操作,这是因为其指令序列需要使用装载指令进行两次数据移动,然后执行MAC操作,如图2所示。
图2:RISC + DSP架构中的DSP MAC操作
需要更高吞吐量的DSP应用可通过增加XY内存系统而支持。基于XY内存的系统一般包含多个存储块和带有指针与更新寄存器的自动地址生成单元 (AGU)。AGU内置到指令流水线中,并允许单个指令执行三个数据移动操作、一个MAC操作和三个地址指针更新操作。它也可以支持多种地址指针更新模式。这样,通过使用基于XY内存的系统架构,可以实现每个周期一个MAC操作的高效吞吐率,从而显著增强性能(图3)。XY内存系统也精简了代码,因为不需要单独的装载和自增指令。
图3:采用XY内存的RISC + DSP架构中的DSP MAC操作
除了增加吞吐量和减少代码外,经常被忽视的一个好处是更低的能耗。如图4所示,对于DSP功能,XY内存 (EM9D)的使用可以显著提高能效,因为相同的功能只需要更少的时钟周期,尤其是针对RISC + DSP架构定制后,它允许RISC和DSP同时存取。
图4:随着DSP需求增加,使用和不使用XY内存的能效对比
对物联网应用性能和处理能力的更高需求引发了这样一种趋势:从8位微控制器紧耦合嵌入式系统向基于总线的32位处理器的嵌入式系统转变。这种转变对系统的功耗和面积有不利影响,与物联网产品广泛采用的其他关键要求相悖,例如更小和更廉价。32位嵌入式处理器系统可以用紧耦合扩展代替效率更低的总线架构,从而同时实现高性能,低功耗和面积这些系统指标。处理器可以直接访问内存和外设寄存器,这样降低了延时和需要的时钟频率,进而减少了执行相同功能所需的功耗。
图5通过对比基于总线的处理器子系统和处理传感器数据的紧耦合系统列出了能耗减少的例子。处理器内核在一个周期中接入辅助寄存器,而在基于总线的系统中,接入外设寄存器至少需要四个周期。
图5:紧耦合系统中处理传感器数据时的能耗降低
降低处理器系统中功耗的另一个选项是采用直接存储器存取 (DMA),这种方法使外设能够在无需CPU参与的情况下移动数据。为了保证系统的面积和使用效率,DMA必须针对处理器和应用而高度优化。DMA与多组内部存储的结合可节省更多能耗,因为内置DMA将数据移入和移出XY内存时不影响处理器流水线。
Synopsys为ARC EM处理器家族提供的µDMA选项针对物联网应用而设计,并且仅包含这种嵌入式系统需要的特性。在µDMA围绕芯片将数据从外设移动到内存或者从一个内存移动到另一个内存时,µDMA控制器提供EM内核休眠选项,而仅唤醒需要的内核,从而降低运行功耗。为了尽可能实现更低的功耗,可以定制多种休眠模式。
如前文所述,对物联网应用的要求日益增多,其中一个关键的重要考量因素就是安全性。然而,对于功耗和面积预算原已紧张的系统,安全算法提高了系统复杂性。能够通过减少始终周期实现相同功能而加快安全算法的处理器可以节省能耗。这对于系统需要的常见或常用功能均是如此;这些功能使用得越频繁,就可以通过更有效地执行这些功能而节省更多功耗。
ARC EM处理器家族采用ARC处理器扩展 (APEX) 技术,允许SoC设计人员以简化和自动化方式设计并验证常见功能的扩展,例如加密软件算法或者客户的特定代码,这样,常用算法在执行时需要的时间更短,而且需要的内存和能耗更少。
图6:运行具有APEX加速功能的传感器应用软件减少能耗和周期数量
在为物联网应用设计芯片时,设计人员通常关心能耗与性能的权衡,以满足不断变化的特性要求。设计人员可以选择能够满足性能要求但不损害能效的架构。在选择处理器架构时,灵活性和可配置性是关键因素,而通过扩展满足不断变化的应用需求的能力也必不可少。
DesignWare ARC EM处理器家族提供了可扩展性和多种选项,可以灵活地实现理想性能与功耗的平衡从而满足未来产品线的需求。通过利用APEX技术而定制您的处理器,您还可以在竞争激烈的物联网市场中实现产品的差异化优势。