60作者的NeuroBench：通过协作、公平和有代表性的基准测试推进神经形态计算

用户1908973

发布于 2023-09-13 20:45:27

2020

发布于 2023-09-13 20:45:27

文章被收录于专栏：CreateAMindCreateAMind

NEUROBENCH: ADVANCING NEUROMORPHIC COMPUTING THROUGH COLLABORATIVE, FAIR AND REPRESENTATIVE BENCHMARKING

摘要

通过遵循大脑启发的原则，神经形态计算领域在提高计算效率和能力方面有很大的前景。然而，神经形态研究中采用的技术的丰富多样性导致缺乏明确的基准标准，阻碍了对神经形态方法相对于传统的基于深度学习的方法的优势和优势的有效评估。本文介绍了一项联合工作，汇集了学术界和工业界的成员，来定义神经形态计算的基准:NeuroBench。NeuroBench的目标是成为一个由社区为社区开发的协作的、公平的、有代表性的基准套件。在本文中，我们讨论了与基准神经形态解决方案相关的挑战，并概述了神经基准的关键特征。我们相信，NeuroBench将是朝着定义标准迈出的重要一步，这些标准可以统一神经形态计算的目标，并推动其技术进步。请访问neurobench.ai了解关于基准任务和指标的最新更新。

1介绍

近年来，人工智能(AI)和机器学习(ML)的快速增长导致对计算资源的需求激增。传统的计算架构，如冯诺依曼架构，由于其处理和存储的分离，限制了能效和并行化，越来越难以满足这些需求。这些问题由于数据和计算需求的急剧增长而变得更加突出，

与基于云的工作负载相关，高能效边缘计算设备适应物联网(IoT)快速扩张的必要性，以及能够在闭环环境中运行的实时系统的必要性。

因此，替代计算范式的紧迫性增加了。为了弥补这一供需缺口，计算机体系结构出现了显著的多样化，从深度神经网络加速器到定制专用集成电路(ASICs)的广泛采用[50，114]。然而，深度学习的进展大多是由准确性驱动的，很少考虑能效。这导致我们今天运行大规模人工智能解决方案的基础设施对大多数组织来说都是负担不起的，这一趋势没有表现出减速的迹象，并且导致当前的人工智能技术需要在边缘计算能力预算内进行大量的返工。因此，对不仅在精度上而且在能效上表现出竞争力的解决方案的需求更加突出，比以往任何时候都多。

受人脑的结构和功能启发，神经形态计算已经成为解决这些挑战的一个有前途的领域。神经形态计算是将大脑中采用的计算策略移植到人造计算设备和方法中的实践，以解锁生物智能的关键标志，同时使用比传统计算系统更少的资源[118，116，62，134]。神经形态系统在新架构的研究中占据着关键位置，因为大脑是实现可扩展、节能和实时具体化计算的特殊模型。

近年来，相当多的神经形态计算系统已经证明了这些能力[116，22，36，44，111]。类似于生物基质，这些神经形态计算系统和算法在多个方面显示出显著程度的异质性。这些因素包括规模，从传感器边缘设备到庞大的数据中心网络规模，这突出了神经形态计算对各种物理和计算约束的适应性。此外，神经形态计算原语的复杂性变化很大，从更抽象、简化的模型到精确复制生物物理特征的模型，为研究人员提供了一系列选项来满足特定的应用要求。此外，神经形态计算系统的实现基础不仅局限于传统的数字和模拟硅技术，还包括记忆装置和新型材料等新兴技术，这些技术为增强性能和能效提供了潜力[24，100]。这种显著的解决方案多样性使研究人员能够定制神经形态计算技术，以适应广泛领域的广泛任务，包括机器人、医疗保健、自然语言处理和计算机视觉。

神经形态算法和系统的广泛异质性使得比较和评估的比例、平衡和标准化方法的制定变得复杂，这是系统评估神经形态计算的最新进展所需要的。

为了应对这一挑战，本文代表了与神经运动计算解决方案有利害关系的学术和行业合作伙伴的协作。我们提出了一个多任务基准测试套件NeuroBench，用于公正地比较神经形态解决方案，而不排除替代的非神经形态解决方案。还提出了其他神经形态基准，从经典视觉[96，7]和附加任务[32]到开环[98]和闭环[86]任务，或SNN模拟器的性能[71]。提出的神经基准测试套件以三种不同的方式推进了先前的工作。首先，它建立了一个连续的社区-与MLPerf [110]类似，旨在随时间演变的驱动努力。建立协作和不偏不倚的基准对于促进神经形态技术的发展是至关重要的。其次，基准套件减少了关于被评估的特定神经形态解决方案的假设，包含了通过关键性能指标促进公平性和包容性的一般基准任务和指标。最后，该基准包含两个子类别:一个是针对神经形态团体提出的挑战的算法解决方案的算法跟踪，另一个是针对相同问题的全系统解决方案的系统跟踪(最近的系统级基准示例见[135])。这将启动一个良性循环，从算法探索中提取的趋势将推动未来的神经形态硬件设计，这反过来又可以(I)加速算法探索，或(ii)为低足迹的现实世界部署进行优化，从而推动该领域的进一步发展。

然而，为了取得成功，NeuroBench需要遵守以下基准指南:

?标准评估:NeuroBench将提供一套标准的度量标准和工作负载，以便对不同的神经形态计算解决方案进行系统评估和比较。这将有助于了解每种算法/系统的相对优势和劣势，指导研究人员和工程师开发和优化解决方案。

?设计验证:NeuroBench将帮助验证解决方案开发过程中所做的设计选择。通过在特定的工作负载和度量下评估解决方案，我们可以确定所提议的方法是否满足预期的目标和需求，并在需要时进行调整。

?公平性、再现性和透明性:NeuroBench将帮助我们确保所有解决方案都在公平的竞争环境中进行评估，从而对各种解决方案进行公平客观的比较。这对学术界和工业界都至关重要，因为它促进了良性竞争，推动了创新，并加速了新方法和新技术的采用。

?社区驱动的迭代:NeuroBench将寻求共识，并建立在社区支持的基础上，以确保一组具有代表性的包容性基准。NeuroBench将不断进化，以包含更多的功能，并继续提供可操作的相关基准。

?指导未来的研究:NeuroBench将揭示现有解决方案的瓶颈和局限性，从而形成未来的研究方向。通过确定需要改进的领域，神经基准将有助于指导

短期和长期的研究工作，旨在开发新的解决方案和创新，解决当前最先进或广泛采用的解决方案的缺点。

本文展示了NeuroBench如何采用这些指南，并概述了(I)该计划中的第一个里程碑，即社区驱动的算法跟踪任务和指标的选择，以及(ii)从基准实施到系统跟踪要求的后续步骤。论文结构如下:第2节概述神经形态算法和硬件，第3节列出神经形态基准测试面临的挑战和神经形态基准测试的发展方向，第4节和第5节分别描述算法和系统的进展，最后第6节和第7节讨论项目的影响和结论。

2背景

神经形态计算方法的广度允许探索大脑启发的想法，这些想法与传统的深度学习算法和硬件明显不同。最初,“神经形态”一词特指Mead在1990年提出的通过使用硅基底的物理特性来模拟大脑生物物理学的方法[83]。然而，这个领域已经发展成为一个总括性的术语，包含了广泛的大脑启发的计算技术。这些技术包括模拟仿真和数字模拟、基于尖峰或事件的计算和通信、非冯诺依曼架构、新兴存储设备的近内存和内存处理，以及各种属性，如低分辨率、稀疏、噪声和自适应处理。本节旨在提供算法和硬件方法的背景知识。在实践中，这两者之间可能存在紧密的耦合，但是为了清楚起见，我们分别描述它们。

第2.1节提供了基于上述技术的算法的背景，而第2.2节提供了实现所述解决方案的底层硬件的概述。这些部分共同旨在证明该领域缺乏一种系统的方法来识别这些属性中的哪些对于给定的用例是最有前途的。这种缺乏整合的情况凸显了定义客观公正的指标和基准的必要性和挑战。

2.1神经形态算法

神经形态算法包括三个主要类别:新兴的大脑启发算法，可以在神经形态硬件上加速的算法，以及从深度学习改编的算法。第一类通常是知情的

根据它们的发展阶段，可能还没有得到现有神经形态硬件的充分支持。因此，这些神经形态算法的很大一部分是使用模拟器进行探索的，如Kulkarni等人[71]中概述的模拟器。第二类包括已建立的大脑启发算法(例如，脉冲神经网络，SNNs)以及传统算法，这些算法本身不是生物启发的，但可能受益于神经形态硬件的稀疏、事件驱动、时间和分布式特性(例如，图搜索和约束优化问题，如[36]中所讨论的)。最后，第三类从成功的深度学习算法开始，

例如误差算法的反向传播，并使其适应SNNs的部署或提高生物可利用性[94，74]。

通常，我们可以将神经形态算法分为四个主要类别:

1.学习算法——与深度学习不同，误差反向传播算法几乎完全用于学习，神经形态学习算法方法千差万别。这些算法在不同的抽象层次上整合了多种可塑性和适应性机制，从局部突触可塑性规则[13，64，124]到网络级错误驱动的反馈机制[20，54，147，118]。学习算法可以用来从零开始训练snn，或者为它们提供适应其环境的能力。在神经形态硬件上部署这些算法的主要目的是以在线、少量和/或连续的方式促进设备上的学习。要做到这一点，鉴于将新兴算法移植到定制硅硬件需要几年的开发时间，硬件在环设置提供了一个有趣的垫脚石，可以通过外部工作站在线训练非学习型神经形态芯片[49，19]。

2.网络拓扑——神经形态计算中的网络拓扑类似于标准人工神经网络(ann)中的网络拓扑，包括全连接层、卷积层和递归层等。虽然这些拓扑也可以应用于snn，但神经形态算法通常优先考虑分层、模块化、随机连接或小世界的大脑启发拓扑，具有密集的局部连接和稀疏的全局连接[52，33，92]。

3.动力学和计算基元——神经形态算法的动力学和计算基元类似于人工神经网络中的激活函数，并强烈制约着整体算法的复杂性、性能和应用用例。虽然简单的泄漏积分点火(LIF)神经元模型pro

通过将生物神经元定性描述为具有尖峰非线性的泄漏积分器，研究人员正在探索具有不同程度生物物理准确性的各种神经元模型(例如，Hodgkin- Huxley，Izhikevich，Adaptive Exponential，如[60，57]中所述)。值得注意的是，这种解释超出了神经元模型的选择，包括突触动力学[64]，树突计算[81]，以及稳健的计算原语，如赢家通吃网络[76，56]。

4.信息编码——基于尖峰的表示广泛用于神经形态算法中，需要将真实世界的数据编码成尖峰格式。已经探索了几种尖峰信号转换策略，包括基于增量/阈值的编码[122，25]，pop up编码[20]，延迟编码[48]，速率编码[51，79，139]，广义线性模型[107，108]，耳蜗编码[151，78]，直接编码[66]等等。值得注意的是，信息编码不仅影响整个计算的效率、精度和鲁棒性，而且对数据预处理计算成本也有重要影响，这对于公平的性能比较是必须考虑的。

上述类别旨在提供一个广泛的高层次的概述；神经形态算法通常不仅在它们内部创新，而且在它们之间创新，包括采用非常规方法，如向量符号架构[67]。

为了实现神经形态算法的公平评估和比较，仍然必须解决两个主要挑战:独立于任何硬件基础评估神经形态算法可能被证明是具有挑战性的，而作为系统级足迹的代理的标准化定义是缺失的。因此，就评估方法和矩阵而言，神经基准在应对这些挑战方面发挥着至关重要的作用，我们将在3.1节对此进行进一步讨论。

2.2神经形态硬件

在深度学习中，基于GPU的探索主要依赖于特定应用场景的专业ASICs的协助。然而，与这种主流传统不同，神经形态计算研究的各个领域都由不同家族的神经形态硬件支持[22，44]。由于这些硬件平台支持不同的最终目标，因此选择了多种功能集和电路设计风格，本节将对此进行介绍。有关神经形态硬件的最新综合列表，请参考[111，15，4]。

大规模神经形态平台可以被视为GPU在深度学习领域的代表。这些平台中的许多都是探索和开发神经形态算法的极好的试验平台

所有这些都受益于得到良好支持的软件开发工具包(SDK)。这些平台包括SpiNNaker 1和2 [46，45]，IBM TrueNorth [84]，英特尔

Loihi 1和2 [35，97]，Tianjic [103]，以及BrainScaleS

1和2 [115，102]，并支持从数万到数百万的神经元。平台之间的区别在几个关键因素上是显而易见的，例如:

?电路设计——目前广泛使用的大多数神经形态平台都是全数字的，部分原因是它们比模拟和混合信号平台更容易编程，并提供更一致和可再现的结果。然而，模拟实现1在连续时间动态的高带宽仿真方面具有独特的优势。在大规模神经形态平台中，BrainScaleS是一个显著的例外，它利用阈值以上的模拟电路，用加速四个数量级的时间常数复制基本的生物物理动力学。虽然数字平台也支持加速时间处理，但加速幅度通常较小，并且通常取决于工作负载。

?灵活性——SpiNNaker是一个利用ARM内核集群的平台，专门针对模拟脉冲神经网络进行了优化。它的主要优势在于提供完全的可编程性，尽管与其他平台相比，这是以效率和仿真速度为代价的。相比之下，BrainScaleS 1和TrueNorth代表了最不灵活的平台，因为它们只支持固定的神经元和突触模型。其余平台的目标是在专用电路的高效执行和标准数字协处理器的可编程性之间取得平衡。Brain- ScaleS 2的协处理器支持混合可塑性，并通过两个专用定点向量单元和两个通用标量内核并行访问模拟系统可观测值，以进行校准，用于系统任务、配置和协调实验。在Loihi 2中，neuromorphic内核支持微码编程的神经元模型和突触学习规则，而许多传统处理器内核为spike I/O数据转换和一般应用管理提供了额外的可编程能力。

?通信——所有平台都依赖于基于事件的通信基础设施，主要例外情况除外。Tian- jic专注于支持混合人工神经网络-SNN设置。SpiNNaker2还通过集成的人工神经网络层加速器提供高效的混合人工神经网络-SNN处理。类似地，英特尔Loihi 2也引入了分级峰值，即峰值

提到核心计算时，习惯上使用“模拟”一词，尽管所有模拟设计实际上都是混合信号，因为它们利用数字电路进行基于尖峰的通信。从而支持超越基于二进制尖峰的表示的网络。

与便携式GPU和支持机器学习的微控制器单元(MCU)类似，最近出现了更小规模的神经形态平台，允许灵活探索边缘计算场景。这些平台及其随附的SDK包括SynSense Xylo [21]和Speck [5]、BrainChip Akida [138]、GrAI Matter Labs NeuronFlow [89]和Innatera Spiking Neu- ral处理器[73]。这些平台旨在促进神经形态计算的新算法和用例的开发。

最后，大量其他神经形态硬件服务于更具体的目的，如嵌入几十到几千个神经元但SDK支持有限的研究芯片。此类硬件的一些主要类别包括:

?亚阈值模拟神经形态芯片——与BrainScaleS中使用的阈值以上模拟方法相比，亚阈值模拟设计采用MOS晶体管的物理特性来模拟生物时间常数下的大脑生物物理特性，与生物时间常数相比，阈值以上模拟方法可将加速度提高四个数量级。Brink等人[23]以及ROLLS [109]、DYNAPs [88]和Braindrop [93]神经形态处理器等设计中都采用了这种方法。由于仿真导致算法实现与其硬件之间的密切关系，亚阈值模拟设计通常遵循与神经科学研究密切合作的“通过构建理解”方法，并倾向于关注低功耗、实时用例。

?小规模数字芯片——由于数字设计的灵活性和鲁棒性，数字神经形态芯片已经被提出来加速各种神经形态算法的进展。学习算法已经在设计中进行了探索，例如先前工作提出的设计[68，121，99，27，43，41]，而网络拓扑已经使用局部竞争算法[68]和小世界网络[42]进行了研究，所有这些都涵盖了广泛的神经元和突触动力学。虽然前面提到的设计是以标准的同步方式与全局时钟一起实现的，但一些设计(如Brain [132]和[30]中提出的设计)是完全异步的，允许事件驱动的执行。

?忆阻神经形态芯片——被称为忆阻器的存储设备以物理方式实现内存计算，占用空间小[119，87]。最近，在[140，136，65]中展示了嵌入记忆装置的概念验证神经形态芯片。

然而，忆阻器件可能受到噪声、低分辨率、有限耐久性和产量降低的影响。因此，在系统层面评估忆阻神经形态芯片的效率和性能以确定其可行性至关重要[87，104]。然而，这种固有的物理属性也可以用来复制大脑的一些动态[100，37，17]。

神经形态硬件平台中目标用例、电路设计风格和实施策略的多样性为直接比较带来了挑战。2电路级指标可能无法充分捕捉系统级性能，因此需要客观的任务级指标。NeuroBench项目旨在通过为神经形态设计评估提供这样的标准来满足这一需求。

3挑战和方向

神经形态方法的丰富景观支持探索大脑启发的想法，这些想法与主流深度学习算法和硬件完全不同。然而，该领域缺乏一种有原则的方法来帮助识别这些属性中哪些对于给定的用例是最有希望的。这种整合的缺乏强调了对公平和客观的度量和基准的需要。

为了实现一套通用的神经形态基准任务，已经发出了无数的行动号召[34，118]和努力3。为此，我们概述了为评估和比较不同的神经形态算法和系统而向一组通用基准集中所面临的挑战，其中许多都是神经形态领域目前使用的基准。随后，在第3.2节中，我们介绍了用于比较神经形态解决方案的神经基准，建立传统方法的基准，并跟踪神经形态研究的当前进展和未来里程碑。

3.1挑战

与传统的深度学习系统相比，神经形态计算的独特和新兴特征对容易地采用诸如MLPerf [110，82]的现有成果用于神经形态任务和应用提出了挑战。解决方案的丰富多样性和有效比较输入到神经形态处理元件的标准方法的缺乏进一步加剧了这个问题。此外，不同解决方案之间缺乏可移植的框架，这使得对神经形态解决方案进行比较变得特别具有挑战性。

2这种多样性超出了本节中调查的主要类别，例如新兴的光子、超导、有机方法[113]。

3.1.1现有基准的局限性

神经形态计算领域的许多研究人员传统上采用深度学习的基准，如ImageNet、CIFAR和MNIST [112，70，38]。然而，这些基准在应用于新设计时具有局限性，因为它们专注于离线、顺序批处理和任务性能，默认情况下不考虑计算成本。相比之下，神经形态系统通常被设计用于在资源受限、事件驱动的场景中实时处理单个异步样本。此外，当考虑计算成本时，传统的基准通常使用诸如浮点运算(FLOPs)或整数运算(OPs)的度量。然而，这样的定义不能准确地代表神经形态硬件的计算成本，其中“操作”的概念跨越了大范围的分辨率和计算(第2.1节)。因此，传统基准与神经形态解决方案支持的特定功能不匹配，如低精度、稀疏、基于事件的计算。例如，基于图像或帧的视觉任务缺乏可以被基于事件的处理所利用的内在时间维度。

神经形态社区已经开发了各种基准，这些基准是专门设计来利用神经形态架构的优势的，例如对稀疏的、基于事件的时间序列输入数据进行操作。在这方面，N-MNIST4、尖峰海德堡数据集和DVS手势是一些最广泛使用的基准[96，32，8]。但即使如此，对于这些基准测试，在算法或系统性能级别分析计算成本的标准化评估方法仍然缺乏。由于可扩展性、能效和实时处理是神经形态解决方案的关键优化标准，因此通过比较解决方案的复杂性和性能以及结果的正确性，神经形态基准测试了解成本至关重要。

3.1.2神经形态解决方案的多样性

正如我们之前在第2节中讨论的，术语“神经形态”已经演变成一个总括术语，指的是广泛的算法和系统设计方法。方法的这种可变性为定义适当的基准任务和工作负载带来了挑战，这些任务和工作负载充分地捕捉了更广泛的神经形态计算领域。这种解决方案的多样性通常会导致自定义的基准，这些基准只强调特定设计的优势。这种基准阻碍了不同神经形态解决方案类别内部和之间的方法的公平比较，这限制了该领域内更深层次的一般见解的发展。为了捕捉神经形态溶液的性能并促进它们之间的公平比较，对于传统方法，需要精心设计的基准方法和度量标准。

3.1.3多样的信息编码方法

如第2.1节所述，在基于尖峰的表示中使用了几种信息编码方法，用于将数据转换成尖峰格式。虽然基于事件的传感器，如动态视觉传感器(DVS)和硅耳蜗固有地产生尖峰数据，但算法编码方法通常被用作预处理的一种形式，以将输入转换为神经形态模型的尖峰格式，使用尖峰编码信息的最佳方式仍然是一个开放的挑战[117，12]。

在基于棘波的神经形态表示中使用的数据编码过程可以对所得模型的复杂性产生显著影响。例如，当对TIDIGITS [6]音频数据进行分类时，与N-TIDIGITS [9]相比，群体编码产生了一个sim- pler模型，其中硅耳蜗用于数据编码[125，126]。因此，在基准测试期间，考虑任何数据编码和预处理的成本是至关重要的。虽然在系统级测量预处理作为完整解决方案的一部分是很简单的，但是在算法级测量预处理的成本也是很重要的。

3.1.4不同的框架和软件堆栈

神经解剖学研究中使用了各种不同的框架。一般来说，它们旨在实现不同的目标，特别包括支持神经科学模拟的特征(例如NEST [47]，Brian [131]，PyGeNN [69])，与定制神经形态硬件的接口(例如hxtorch [128]，Lava [58])，或SNNs的自动配置(例如Rock- pool [90]，Norse [101]，snnTorch [39]，SpikingJelly [40])。虽然这种多样性有助于探索遵循不同方法和抽象层次的生物启发技术的前景，但框架目标和独立实现风格的广泛变化在使用不同框架编写的解决方案之间的对话和比较中产生了障碍。

此外，缺乏共同的软件栈增加了跨不同平台和用例比较和评估神经形态系统的复杂性。软件和编译器堆栈是高度定制的，不容易跨实现重用。snn缺乏一个通用的网络交换格式，如ONNX [14]用于传统的深度学习。这种一致性的缺乏阻碍了算法和数据集在神经形态团体之间的简单可移植性，并使得通过标准化的工作负载翻译跨平台执行理想的基准测试具有挑战性。在神经形态社区缺乏成熟工具的情况下，基准必须在系统实现中实施公平的异构性

部分通过利用应用级工作负载而不是网络或电路级工作负载。

3.2方向

神经形态计算中标准化和公平比较的需要带来了一系列困难，但也为合作基准的建立提供了机会。NeuroBench的目标是通过提供反映神经形态团体目标的一套公正和全面的基准程序来满足这一要求。为此，我们概述了我们的基准设计理念，然后详细阐述了这些基准的实际实施。

3.2.1基准设计理念

NeuroBench中开发的基准旨在实现两个主要目标:1)通过识别各种神经形态解决方案的独特优势和能力，促进神经形态研究领域的进步；2)能够对不同类型的解决方案(包括非神经形态解决方案)的性能进行公正和严格的比较。

NeuroBench是一个社区驱动的基准测试套件。目前，NeuroBench社区由来自60多个机构的研究人员组成，横跨工业和学术界，代表了广泛的神经形态学方法。基准套件的设计是社区内集体协议和共识的结果，这确保了基准准确地代表和包括神经形态研究的不同范围。此外，NeuroBench套件是渐进式的，以可操作的步骤系统地解决社区的需求，并遵循新兴神经形态技术的发展趋势和方法。

一次性解决所有挑战是不现实的，这也是为什么在开发广泛采用的神经形态基准方面进展缓慢的原因之一[34]。为了避免这个陷阱，NeuroBench将首先为精心挑选的关键算法和应用子集开发基准方法和指标，从而建立一个坚实的基础。这种方法将为硬件支持的神经形态系统的未来扩展以及更广泛的趋势和应用奠定坚实的基础。

3.2.2基准开发原则

为了适应广泛的神经形态解决方案，NeuroBench避免强加严格的标准来定义什么是“神经形态”。相反，基准测试套件是以一种通用的方式设计的，能够对各种类型的解决方案进行比较，并促进包含传统方法的包容性竞争。这

根据排行榜结果和解决方案的透明描述，哪些解决方案满足“足够神经形态”的标准由机构群体决定，这将得到明确指南的支持。

神经基准测试套件分为两个部分，即算法部分和系统部分。前者侧重于基准测试和评估神经形态算法的性能，而不考虑所使用的基础系统(第4节)。这条路线主要关注评估解决方案的正确性，同时也考虑到被评估的算法的复杂性。另一方面，系统跟踪旨在作为部署在实际硬件上的端到端计算解决方案，对神经形态系统的性能进行基准测试，特别关注延迟和能耗等指标(第5节)。

提出算法和系统双轨方法作为神经形态解决方案基准测试的可行起点。这两条轨道如图1所示。利用这两个轨道，NeuroBench旨在通过支持算法和系统之间的良性循环来实现跨栈创新。前者有前途的方法可以为下一代系统设计提供信息，包括优化目标算法和基准系统工作负载。朝着后者的进展可以加速算法探索，并实现更强大的部署方法。系统级性能指标也可以为算法复杂性指标提供信息，以获得更多信息的算法原型。

4神经基准算法跟踪

在这一节中，我们展示了算法路线的第一次迭代，它反映了神经Bench社区倾向于设计具有挑战性、实用性和相关性的任务，展示神经形态技术的潜力。神经基准算法跟踪包括一系列基准任务，这些任务已被社区确定为神经形态方法的关注领域。在第4.1节中，我们介绍了这一方向的目标。在第4.2节中，我们阐述了与各种各样的基准任务相关的度量标准。此外，在第4.3节中，我们阐明了通过任务的标准化将预先存在的基准吸收到神经基准框架中的方式。在第4.4节中，我们介绍了一系列新颖的前瞻性任务，这些任务对当前和未来的神经形态解决方案提出了更大的挑战。

4.1目标

算法跟踪任务的目标是

1)提供评估神经形态算法功效的标准，

2)提出可以指导和操纵神经形态学研究的挑战，以及3)展示神经形态学方法相对于传统方法的优势。

算法跟踪解决了神经形态方法的异质性，并通过定义独立于底层系统细节的质量和复杂性度量来促进与传统的非神经形态方法的比较。这些指标将在第4.2节中讨论，它们促进了不同解决方案类型之间的包容性，以便进行公平的比较，同时还提供了对硬件上算法解决方案性能的一目了然的见解。它们提供了一个框架来评估正确性、性能和占用空间之间的权衡。

4.2Metrics

在算法跟踪中，我们已经建立了准确性和复杂性指标，这些指标与一系列解决方案类型相关。每个基准测试解决方案都有责任报告这些主要指标，并通过多次运行计算平均值和标准偏差。

此外，NeuroBench还概述了特定于解决方案的指标，这些指标可能只适用于单一解决方案类别，或者在单一解决方案类别中有意义。这些更细粒度的指标是可选的，由NeuroBench正式定义，以促进特定解决方案类别内的标准比较。

4.2.1与解决方案无关的指标

正确性:准确性以及其他度量算法输出正确性的指标，如平均精度(mAP)和均方根误差，作为算法输出质量的定量评估。由于正确性的解释与基准任务紧密相关，我们在随后的每个特定于任务的小节中定义这些度量。

复杂性:算法复杂性度量量化了解决方案强加的计算需求。它们是独立于底层硬件进行测量的，因此与部署后的延迟或功耗数字没有明确的关联。然而，复杂性度量提供了对算法性能的有价值的见解，实现了高水平的比较并促进了原型开发工作。所有基准测试解决方案都应该报告以下复杂性指标:

?网络大小:

1.神经元数量(不考虑型号)

2.突触数量

3.说明每个状态变量和参数(如突触权重、延迟和中间变量)的总内存占用。考虑了量化。

?推断时间:

1.推理吞吐量(即频率)，定义为测量模型输出的每个算法步骤的时间窗口

2.平均输出等待时间，定义为处理一个输入所需的平均算法步骤数。

?计算操作:

1.乘法累加次数

2.累积数(ACs)，可用于更新神经元和突触状态。

免责声明:目前给出的度量标准定义还处于原型阶段，有一定的局限性。推理时间的度量目前是基于算法步骤定义的，这与时间步进同步数字系统非常相似，因此限制了它的解——不可知论。此外，计算操作度量没有考虑动态的计算，导致不完整的测量，同时它还假设了数字实现/模拟。因此，我们认识到需要改进这些指标，并愿意听取机构群体对此的反馈。

4.2.2特定于解决方案的指标

除了复杂性度量之外，NeuroBench还规定了特定于某些解决方案类别的更细粒度的度量。这些指标旨在为同类解决方案的比较提供更深入的见解，并不是所有解决方案都必须具备的。目前，提出的解决方案特定的指标包括通信操作和SNNs的突触后神经元的连接数(扇出)。此外，对于面向模拟硬件的解决方案，对噪声的鲁棒性是一个重要的特定于解决方案的指标，正在考虑之中。

4.3标准化现有基准

神经基准算法跟踪的第一个版本的主要目标是通过杠杆化以前定义的指标和描绘清晰的任务规范来增强现有的基准。为了实现这一目标，我们在本节概述了机构群体已经熟悉的任务，旨在建立标准化评估方法的最有效实践。

4.3.1关键词识别

用例

语音命令代表了一种自然且易于使用的人机交互方式。特别是，关键字检测经常在始终监听、唤醒情况下运行的边缘设备中使用，在这种情况下，它会触发计算要求更高的过程，例如自动语音识别[85]。关键词定位在激活语音助手、语音数据挖掘、音频索引和电话呼叫路由中得到应用[53，150]。鉴于它通常在始终在线和电池供电的edge sce- narios中运行，关键字检测代表了节能神经形态解决方案的相关基准。

先前的工作已经探索了各种传统的和新的解决方案，旨在在资源受限和能量有限的环境中实现关键词定位[26，16，133，10，120，144，143，41]。此外，先前的工作已经在各种神经形态硬件平台上为关键词识别算法启动了一些初步的基准测试工作[18，31，41]。然而，这些解决方案中的大部分都没有以统一的方式进行评估，并且目前没有标准方法来评估音频处理成尖峰格式的情况(参见第3.1.3节)。

资料组

谷歌语音命令(GSC)数据集(V2) [142]代表了评估关键词定位算法性能的数据集选择。数据集的第二个版本包括来自2618个不同说话者的35个单词的105829个一秒钟的话语。样本数据以16 kHz速率编码为线性16位单通道脉码调制(PCM)值。

目前，我们正在评估量化与音频样本编码成尖峰格式相关的算法成本的方法。我们还考虑利用广泛采用的海德堡脉冲语音命令数据集[32]作为GSC数据集的常见编码。

基准题

此任务的目标是开发一个模型，该模型使用指定的训练集和验证集进行训练，然后对一个单独的测试集进行泛化评估。

在此任务中，模型使用指定的训练集和验证集进行训练，并对其泛化到单独的测试集进行评估。关于关键词识别，根据默认分布[142]将GSC数据集划分为训练集、验证集和测试集，分别包含84.8k、9.9k和11k个样本。

Metrics

测试集上的分类准确度将衡量算法解决方案的正确性。为了测量算法的复杂性，我们正在研究如何进一步规定先前定义的网络规模、推理时间和计算操作的度量，特别是考虑到编码的灵活性。特别是，我们正在评估测量数据编码算法复杂性的方法，以及如何考虑推理时间，例如将音频样本编码到MFCC帧中的解决方案。

4.3.2手势识别

用例

空中手势代表了一种自然的交流方式，由于其非接触和高效的特性，它在一系列人机交互应用中具有优势。手势识别系统在边缘场景中很有用，如汽车信息娱乐系统、高流量公共区域，或者作为有语言或听力障碍的个人的替代交互模式。能够检测半空中姿态的传感器最近取得了进展[148，63，141]；然而，准确的识别仍然是一个挑战。与KWS类似，在始终在线的实时边缘设备上识别半空中的手势有可能展示神经形态方法与现有替代方法相比的独特优点。

资料组

IBM动态视觉传感器(DVS)手势数据集[7]由执行10种不同类型手势的29个不同个体的记录组成，包括但不限于鼓掌、挥手等。此外，包括第11个手势类别，其包括不能被归类在前10个类别内的手势。这些手势是在四种不同的照明条件下记录的，并且每个手势都与一个标签相关联，该标签指示其执行时的相应照明条件。

基准题

基准任务是使用来自23个初始受试者的样本作为训练，并推广到来自剩余6个受试者的样本。

Metrics

与上面类似，算法正确性将作为测试集上的分类准确度来测量。我们还在考虑进一步的质量指标，通过特别使用来自第11个未分类类别的样本来激励减少假阳性率。网络规模、推理时间和计算操作的复杂性指标将按照第4.2节进行报告。

4.4新颖的基准测试任务

作为我们建立标准化基准的努力的一部分，我们还开发了新的神经形态方法基准挑战，并使用我们的指标进行评估。任务列表突出了与神经形态学研究兴趣相关的特征:自适应学习，利用DVS的高动态范围和时间分辨率进行检测，基于皮层信号的感觉运动仿真，以及对原型资源受限网络有用的小型预测建模，例如在混合信号仿真和设计中。

4.4.1关键词和手势的自适应学习

用例

快速适应新任务的能力是认知功能的特征，也是人工智能(AI)的长期目标。然而，传统的深度学习方法在适应以前看不见的任务时经常面临挑战。神经形态算法最近在持续适应[145，72，127]和少量在线学习能力[129，55]领域显示出前景。因此，需要建立正式定义的任务。

资料组

使用用于关键词和手势分类的GSC和DVS手势数据集来评估连续域适应和少量在线学习。应该注意的是

这些任务可以应用于任何域中的数据集。

基准任务

我们的基准强调了适应的三个方面:少数镜头，旨在使用最少数量的训练样本实现新任务的快速学习；持续性，即在学习新任务的同时，专注于保留之前学习的任务；和在线，它关注的是在边缘以流的方式进行这些调整，同时仍然执行推理。为了在算法上对在线方面建模，我们在单样本批次中公开自适应训练样本。

连续域适应

建议的基准评估了自适应场景中的领域增量学习[137]，其中模型必须学习解决具有相似结构但不同输入分布的任务。基于t个说话者(GSC)或主题(DVS ),数据集最初被分成两组，Traininit和Traincont

手势)如下:? = ?S1，S2...St?.集合Traininit

和Traincont是不相交的，即，Traininit ∩ Traincont = ?.

在开始时，在所有35个关键词或11个手势类别上训练该模型，然而，训练过程限于训练初始集合的说话者/主题。此后，该模型在连续学习设置中被训练，其中来自Traincont集合的每个说话者/对象作为任务被顺序训练。具体来说，每个任务对应于来自Traincont集合的演讲者/主题的一批。测试集将由来自当前学习迭代中所有先前学习过的说话者/对象的看不见的样本组成。

该基准评估模型在其生命周期中执行类增量学习的能力，其中模型需要在引入新的关键字或手势时学习它们。数据集最初基于关键字或手势的类别被分成Traininit和Traincont集合，其中Traininit表示模型被预训练的类别的初始集合。其余的类包含在Traincont集合中。Traincont中的每个任务都由N K个样本批次(N路K-shot)表示，每个任务都有唯一的关键字或手势。该模型在这些批次中顺序训练，每个任务引入N个新的关键词或手势来学习。测试集由所有已暴露的关键字或手势的看不见的样本组成。

Metrics

对于连续的领域自适应，基准使用测试集评估来自所有说话者/主体的先前未见过的样本的分类准确度，直到当前迭代为止。正确性度量将通过评估在每个适应时期之前和之后的学习批次上的分类准确度之间的差异来确定自适应学习方法的质量。此外，contin-

将通过报告所有之前学习过的演讲者/主题的准确性来衡量ual特征。该基准还旨在评估形式化的正确性和复杂性度量，目前正在评估中。

对于增量的少量学习，通过测量所有先前学习的类在学习之前和之后的分类准确度的差异来确定正确性度量。目前正在考虑对正式指标的评估，以及根据演讲者和主题来组织任务的最佳方式。

4.4.2DVS物体检测

用例

实时目标检测是一项广泛使用的计算机视觉任务，应用于多个领域，包括机器人、自动驾驶和监控。它的应用包括智能家居和监控系统的事件摄像机、监控和跟踪感兴趣对象的无人机以及检测障碍物以确保安全操作的自动驾驶汽车。在这种情况下，高效的能耗和实时性能至关重要，尤其是部署在低功耗或始终在线的边缘设备上时。

资料组

目标检测基准利用Prophesee 1百万像素汽车检测数据集[1]，这是在现有技术Perot等人[106]中介绍的。该数据集是用安装在汽车挡风玻璃上的具有110度视野的高分辨率事件摄像机记录的。该车在几个月的时间里，在不同的白天天气条件下，在不同的地区行驶。该数据集使用附加RGB摄像机的视频流以半自动方式进行标记，为七种不同的对象类别产生了超过2500万个边界框:行人、两轮车、汽车、卡车、公共汽车、交通标志和交通灯。标签以60Hz的速率提供，14.65小时的记录分为11.19、2.21和2.25小时，分别用于训练、验证和测试。该数据集是目前可用的最大的标记对象检测数据集之一，包括大约

3.4 TB的原始数据。

基准题

基于事件的时空数据中的对象检测任务包括识别属于事件流中多个预定类别的对象的包围盒。此任务的培训是基于原始数据集提供的数据拆分离线执行的。

Metrics

使用平均精度(mAP)来测量任务的正确性，mAP是各种交集超过联合(IoU)阈值的精度-召回曲线下的面积。

所采用的评估指标是COCO mAP [75，3]，该指标已适用于基于事件的数据，如Perot等人[106]的B部分所述。根据4.2节定义了复杂性度量，但是我们增加了进一步的实时要求，即推理吞吐量必须至少等于地面真实频率60Hz。

假设60Hz的标签频率比DVS输入时间分辨率慢，那么模型产生输出的速度可能比地面实况可用的速度快。我们目前正在探索插值边界框的可能性，以便能够评估更快的模型。如果这种方法不可行，我们可以用预测的平均值来衡量正确性，或者只在基本事实可用时利用预测。

4.4.3运动预测

用例

人们对不仅从生物计算中获得灵感，而且努力精确复制生物计算特征的模型有着浓厚的兴趣。对这些模型的研究为更全面地理解感觉运动行为和促进感觉运动行为的基础计算原语提供了机会，这可用于开发对控制未来机器人主体至关重要的闭环和模型预测控制任务[146]。此外，这项研究对开发可穿戴或可植入的神经修复设备具有意义，这些设备可以根据神经或肌肉信号准确预测运动活动。因此，运动预测很重要。

资料组

我们在这项研究中使用的数据集由多通道记录组成，这些记录是在两种非人类灵长类动物(NHP)朝着目标网格进行自定步调的到达运动期间从感觉运动皮层获得的[95]。变量x由每个记录通道的阈值交叉时间(或尖峰时间)和分类单位来表示。目标y由伸出的手的指尖的二维位置坐标表示，以250 Hz的频率采样。完整的数据集包含NHP-1在10个月内的37次会议和NHP-2在一个月内的10次会议。在这项研究中，从每个NHP中选择了三个时段来包括整个记录持续时间，从而得到总共6774秒的数据。

基准题

在预测建模的背景下，时间序列预测是一项任务，它需要预测在当前时间t和未来时间t + tf之间的某个时间点目标变量y的一个或多个观测值，方法是利用一系列

另一个变量，x，来自过去，?x(t th)。。。，x(t)?.

具体来说，在运动预测任务的上下文中，它

需要从过去的神经数据X中预测手指速度Y的X和Y分量，最小频率为10 Hz。可以为每个会话单独训练模型架构，以考虑日间神经可变性。训练数据被分成50%或80%用于训练，而剩余的部分在验证和测试之间平均分配。这样就可以用不同的数据量测试模型的概括能力，并与该领域的相关工作进行比较[80，123]。

Metrics

预测的正确性通过决定系数(R2)和归一化均方根误差(NRMSE)来评估。此外，通过将轨迹预测的NRMSE报告为时间的函数，提供了关于即时预测的诊断信息。正在探索其他指标和可变数据分割来衡量解决方案的质量，包括曲线下面积(AUC)方法。模型复杂性是根据4.2节中描述的指标来衡量的。

4.4.4混沌函数预测

用例

迄今为止提出的所有基准都依赖于真实世界的输入数据来评估方法在实际应用中的性能。然而，真实世界的数据可能是高维的，需要大型网络来实现高精度，这给I/O支持和网络容量有限的解决方案类型(如混合信号原型解决方案)带来了挑战。为了解决这个问题，我们提出了一个可以由较小的网络有效处理的合成数据基准测试任务，提供了一种在基准测试框架内评估此类解决方案类型的方法。

资料组

我们建议使用麦基-格拉斯时间序列。Mackey- Glass数据集已被广泛用作评估各种时间预测模型的标准基准，包括神经形态计算领域中的模型。先前的工作已经使用该数据集证明了神经形态时间预测器的功效[61，91，29]。

Mackey-Glass数据集是一维非线性时间延迟微分方程[77]，定义如下:

这里，参数γ，n，β，τ R+控制信号x(t)的演变。给定特定的参数设置，任务可以很容易预测，或者可以产生更具挑战性的混沌动力学。目前正在确定基准测试任务的参数选择。

除了麦基-格拉斯数据集，我们还计划包括

其他合成数据集，以增加其复杂性并挑战神经形态系统的能力[11]。

基准题

提出的任务是一个序列到序列的预测问题，类似于电机控制预测任务。在这种情况下，任务是在自我监督的设置中制定的，其中输入序列x用于预测同一序列的未来值，y(t) = x(t)。将使用固定的时间步长t对系统的动态进行积分，并将在多时间范围预测设置中测试系统的性能，其中序列的未来值以以下速率进行预测

任务的难度将通过调整积分时间步长t和潜在动力时标τ之间的比率而变化。

我们目前正在确定适当的函数参数，以区分函数动态中的混乱程度，这将影响基准的相对复杂性。

Metrics

与前面的预测任务类似，将使用决定系数R2和归一化均方根误差(NRMSE)来评估该基准中预测的正确性。我们将把性能作为预测范围tf的函数来报告。此外，复杂性度量将以与前面任务相似的方式进行评估。

4.5发布日期

算法专题预计将于Q2 2023年前后发布。该版本将包括最终确定的基准规范、基准算法测量、开源基准工具和详细的文档，以便于评估其他解决方案。此外，该版本还将包括一个结果排行榜，使社区能够比较不同解决方案在神经基准测试中的表现。

5神经系统跟踪

NeuroBench计划即将增加的一项内容是系统跟踪，旨在评估系统级解决方案在延迟和能效方面的可部署性能。类似于算法轨道，系统轨道将是迭代的，并与社区合作开发。此外，很像算法跟踪，这是正在进行中的工作。我们预计，系统跟踪的第一次迭代将于2023年第四季度发布，这将是神经形态计算系统级解决方案基准测试向前迈出的重要一步。

完整论文请阅读原文

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2023-04-21 16:36:00，如有侵权请联系?cloudcommunity@tencent.com 删除

测试