不懂网站怎么做平台,品牌建设的重要意义培训课题,做的网站第二年续费多钱,网站正常打开速度慢1. 引言
以下是《riscv-v-spec-1.0.pdf》文档的关键内容#xff1a; 这是一份关于向量扩展的详细技术文档#xff0c;内容覆盖了向量指令集的多个关键方面#xff0c;如向量寄存器状态映射、向量指令格式、向量加载和存储操作、向量内存对齐约束、向量内存一致性模型、向量…
1. 引言
以下是《riscv-v-spec-1.0.pdf》文档的关键内容 这是一份关于向量扩展的详细技术文档内容覆盖了向量指令集的多个关键方面如向量寄存器状态映射、向量指令格式、向量加载和存储操作、向量内存对齐约束、向量内存一致性模型、向量算术指令格式、向量整数和浮点算术指令、向量归约操作、向量掩码指令、向量置换指令、异常处理以及标准向量扩展等。 首先文档定义了向量元素和向量寄存器状态之间的映射关系并阐述了向量指令的格式。在此基础上提出了配置设置指令如vsetvl、ivsetiv和vlsetvl用于设定向量长度VL和向量对齐长度AVL。 接着文档详细说明了向量加载和存储操作以及向量内存对齐和一致性模型。这些模型确保了向量操作的高效性和准确性。 然后文档介绍了向量算术指令格式包括向量整数、固定点和浮点算术指令。这些指令支持广泛的数学运算为高性能计算提供了强大的支持。 此外文档还涉及向量归约操作、掩码指令和置换指令这些指令增强了向量操作的灵活性和功能性。 最后文档讨论了异常处理机制并列举了标准向量扩展指令列表。这些扩展指令为向量处理器提供了丰富的功能集使其能够适应不同的应用场景和性能需求。 综上所述这份文档为向量指令集的设计和实现提供了全面的指导和参考有助于开发者更好地理解和利用向量处理器的能力。
【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(一)-向量扩展编程模型-CSDN博客
【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(二)-向量元素到向量寄存器状态的映射-CSDN博客
4 向量元素到向量寄存器状
2. 实现定义的常量参数
每个支持向量扩展的 hart 定义了两个参数
任何操作可以产生或消耗的向量元素的最大位数以位为单位ELEN ≥ 8必须是 2 的幂。单个向量寄存器中的位数VLEN ≥ ELEN必须是 2 的幂并且不得超过 216。
标准向量扩展第节标准向量扩展和架构配置文件可能会对 ELEN 和 VLEN 设置进一步的约束。
注意未来的扩展可能会允许 ELEN VLEN通过使用多个向量寄存器的位来保存一个元素但当前提案不包括此选项。
注意VLEN 的上限允许软件知道索引将适合 16 位当 LMUL8 和 SEW8VLEN65536 时最大的 VLMAX 为 65536。任何超过每个向量寄存器 64Kib 的未来扩展将需要新的配置指令以便使用旧配置指令的软件不会看到更大的向量长度。
向量扩展支持编写二进制代码该代码在特定约束下将在具有不同 VLEN 参数值的 hart 上可移植地执行前提是 hart 支持所需的元素类型和指令。
注意可以编写将暴露实现参数差异的代码。
注意通常具有活动向量状态的线程上下文在执行期间不能迁移到具有任何 VLEN 或 ELEN 参数差异的 hart 之间。
3. 向量扩展编程模型
量扩展为基本的标量RISC-V ISA添加了32个向量寄存器和七个非特权控制与状态寄存器CSRvstart、vxsat、vxrm、vcsr、vtype、vl、vlenb。
表1. 新的向量CSR
地址权限名称描述0x008URWvstart向量起始位置0x009URWvxsat定点饱和标志0x00AURWvxrm定点舍入模式0x00FURWvcsr向量控制和状态寄存器0xC20UROvl向量长度0xC21UROvtype向量数据类型寄存器0xC22UROvlenbVLEN/8向量寄存器长度以字节为单位
注意四个CSR编号0x00B-0x00E暂时为将来的向量CSR预留其中一些可能会映射到vcsr。
3.1. 向量寄存器
向量扩展在基础的标量RISC-V指令集架构上增加了32个架构向量寄存器即v0-v31。每个向量寄存器都有一个固定的VLEN位状态。
3.2. mstatus中的向量上下文状态
一个向量上下文状态字段VS被添加到mstatus[10:9]中并在sstatus[10:9]中进行了阴影处理。它的定义与浮点上下文状态字段FS类似。当mstatus.VS设置为Off时尝试执行任何向量指令或访问向量CSR都会引发非法指令异常。当mstatus.VS设置为Initial或Clean时执行任何改变向量状态的指令包括向量CSR都会将mstatus.VS更改为Dirty。实现也可以在任何时候将mstatus.VS从Initial或Clean更改为Dirty即使向量状态没有发生变化。请注意mstatus.VS的准确设置是一种优化。软件通常使用VS来减少上下文交换开销。如果mstatus.VS为Dirty则mstatus.SD为1否则mstatus.SD根据现有规范进行设置。实现可能具有可写的misa.V字段。与浮点单元的处理方式类似即使misa.V被清除mstatus.VS字段也可能存在。
注意允许在misa.V被清除时存在mstatus.VS可以启用向量仿真并简化具有可写misa.V的系统中mstatus.VS的处理。
3.3. vsstatus中的向量上下文状态
当存在hypervisor扩展时一个向量上下文状态字段VS会被添加到vsstatus[10:9]中。它的定义与浮点上下文状态字段FS类似。当V1时vsstatus.VS和mstatus.VS都有效当任一字段设置为Off时尝试执行任何向量指令或访问向量CSR都会引发非法指令异常。当V1且vsstatus.VS和mstatus.VS都未设置为Off时执行任何改变向量状态的指令包括向量CSR都会将mstatus.VS和vsstatus.VS更改为Dirty。实现也可以在任何时候将mstatus.VS或vsstatus.VS从Initial或Clean更改为Dirty即使向量状态没有发生变化。
如果vsstatus.VS为Dirty则vsstatus.SD为1否则vsstatus.SD根据现有规范进行设置。如果mstatus.VS为Dirty则mstatus.SD为1否则mstatus.SD根据现有规范进行设置。对于具有可写misa.V字段的实现即使misa.V被清除vsstatus.VS字段也可能存在。
3.4. 向量类型寄存器 vtype
只读、XLEN宽度的向量类型控制和状态寄存器CSRvtype提供了用于解释向量寄存器文件内容的默认类型并且只能通过vset{i}vl{i}指令进行更新。向量类型决定了每个向量寄存器中元素的组织方式以及多个向量寄存器如何分组。vtype寄存器还指示了如何处理向量结果中被屏蔽的元素以及当前向量长度之后的元素。
注意仅通过vset{i}vl{i}指令允许更新简化了vtype寄存器状态的维护。vtype寄存器有五个字段vill、vma、vta、vsew[2:0]和vlmul[2:0]。位vtype[XLEN-2:8]应写为零此字段中的非零值保留。 3.4.1. 向量选定元素宽度 vsew[2:0]
vsew中的值设置了动态选定的元素宽度SEW。默认情况下向量寄存器被视为被划分为VLEN/SEW个元素。 3.4.2. 向量寄存器分组vlmul[2:0]
多个向量寄存器可以组合在一起以便单个向量指令可以对多个向量寄存器进行操作。本文中使用的术语“向量寄存器组”是指用作向量指令的单个操作数的一个或多个向量寄存器。向量寄存器组可用于为更长的应用向量提供更高的执行效率但包含它们的主要原因是允许对双宽度或更大的元素以与单宽度元素相同的向量长度进行操作。当向量长度乘数LMUL大于1时它代表组合以形成向量寄存器组的向量寄存器的默认数量。实现必须支持LMUL整数值为1、2、4和8。
注意向量体系结构包括采用不同元素宽度但元素数量相同的多个源和目标向量操作数的指令。每个向量操作数的有效LMULEMUL由容纳元素所需的寄存器数量决定。例如对于扩展加法操作如将32位值相加产生64位结果双宽度结果需要单宽度输入的两倍LMUL。LMUL也可以是分数值减少单个向量寄存器中使用的位数。当操作混合宽度值时分数LMUL用于增加可用的有效向量寄存器组数量。
注意如果LMUL仅为整数值则在一系列大小上操作的循环将必须为最窄数据类型分配至少一个完整向量寄存器LMUL1然后将消耗多个向量寄存器LMUL1以形成每个更宽向量操作数的向量寄存器组。这可能会限制可用的向量寄存器组数量。通过分数LMUL最宽的值只需占用单个向量寄存器而较窄的值可以占用单个向量寄存器的一部分允许在向量循环中使用所有32个体系结构向量寄存器名称来表示不同的值即使处理混合宽度值也是如此。分数LMUL意味着向量寄存器的部分未使用但在某些情况下拥有更多较短的寄存器驻留向量相对于较少的较长寄存器驻留向量会提高效率。实现必须提供分数LMUL设置允许最窄支持的类型占用向量寄存器的一部分该部分对应于最窄支持类型的宽度与最大支持类型的宽度之比。通常要求支持LMUL ≥ SEWMIN/ELEN其中SEWMIN是最窄支持的SEW值ELEN是最宽支持的SEW值。在标准扩展中SEWMIN8。对于ELEN32的标准向量扩展必须支持分数LMUL为1/2和1/4。对于ELEN64的标准向量扩展必须支持分数LMUL为1/2、1/4和1/8。
注意当LMUL SEWMIN/ELEN时无法保证实现在分数向量寄存器中有足够的位数来存储至少一个元素因为VLENELEN是有效的实现选择。例如对于VLENELEN32和SEWMIN8LMUL为1/8在向量寄存器中仅提供四位存储。对于给定的受支持分数LMUL设置实现必须支持SEW设置在SEWMIN和LMUL * ELEN之间包括两者。尝试设置不受支持的SEW和LMUL配置会设置vtype中的vill位。vtype编码与LMUL SEWMIN/ELEN的使用是保留的但如果实现不支持这些配置则可以设置vill。
注意要求所有实现在这种情况下都设置vill将禁止在扩展中将来使用这种情况因此为了允许将来定义LMULSEWMIN/ELEN的行为我们认为这种情况的使用是保留的。注意建议汇编程序在vsetvli指令尝试写入LMUL SEWMIN/ELEN时提供警告而不是错误。LMUL由vtype中的有符号vlmul字段设置即LMUL 2^vlmul[2:0]。给定当前的SEW和LMUL设置派生值VLMAX LMUL*VLEN/SEW代表单个向量指令可以操作的最大元素数量如下表所示。 当LMUL2时向量寄存器组包含向量寄存器vn和向量寄存器vn1提供两倍的向量长度以位为单位。指定具有奇数编号向量寄存器的LMUL2向量寄存器组的指令是保留的。当LMUL4时向量寄存器组包含四个向量寄存器而指定使用不是四的倍数的向量寄存器编号的LMUL4向量寄存器组的指令是保留的。当LMUL8时向量寄存器组包含八个向量寄存器而指定使用不是八的倍数的寄存器编号的LMUL8向量寄存器组的指令是保留的。无论LMUL的值如何掩码寄存器始终包含在一个单独的向量寄存器中。
3.4.3. 向量尾部不可知和向量掩码不可知 vta 和 vma
这两个位在执行向量指令期间分别修改目标尾部元素和目标非活动屏蔽元素的行为。尾部和非活动集包含在向量操作期间不接收新结果的元素位置如“预启动、活动、非活动、主体和尾部元素定义”一节中所述。所有系统必须支持所有四个选项
这段文本描述了在处理向量运算时不同的LMUL值即向量长度乘数如何影响向量寄存器组的行为和组成。同时还介绍了vta和vma这两个位如何改变向量指令执行过程中尾部元素和非活动屏蔽元素的行为。这些信息对于理解和实现向量处理器或相关软件库中的向量运算至关重要。
另外需要注意的是原文中提到的“保留的指令”通常指的是那些在当前上下文中未定义或不允许使用的指令。在这种情况下尝试使用这些指令可能会导致未定义的行为或错误。因此在编写或修改使用向量寄存器的代码时应特别注意遵循相关的规范和约定。 目标掩码尾部元素总是被视为尾部不可知的无论vta的设置如何。当一组被标记为“未扰动”时向量寄存器组中的对应目标元素组保留它们之前持有的值。当一组被标记为“不可知”时任何向量目标操作数中的对应目标元素组要么保留它们之前持有的值要么被1覆盖。在单个向量指令中每个目标元素可以保留不变也可以被1覆盖以任意组合方式存在。当使用相同的输入执行指令时不要求未扰动或被1覆盖的模式是确定性的。
注意添加不可知策略是为了适应具有向量寄存器重命名的机器。使用未扰动策略时所有元素都必须从旧的物理目标向量寄存器中读取然后复制到新的物理目标向量寄存器中。当这些非活动或尾部值对后续计算不必要时这会导致效率低下。
选择所有1的值而不是所有0的值进行覆盖是为了阻止软件开发者依赖该值。请注意编写方式。
一个简单的顺序实现可以忽略设置而只是使用未扰动策略执行所有向量指令。但是为了兼容性和支持线程迁移必须在vtype中提供vta和vma状态位。
一个乱序实现可以选择使用尾部不可知掩码未扰动来实现尾部不可知掩码不可知以降低实现复杂度。不可知结果策略的定义是松散的以适应在小型顺序核心可能使不可知区域保持未扰动和具有寄存器重命名的大型乱序核心可能使用1覆盖不可知元素之间的hart上迁移应用程序线程。由于可能需要在中间重新启动因此我们允许在单个向量指令中任意混合使用不可知策略。这种策略混合也支持可能针对不同向量寄存器粒度更改策略的实现例如在积极操作的粒度内使用未扰动但对于尾部的粒度则重命名为全1。此外除了掩码加载指令外掩码结果的尾部任何元素也可以写入掩码生成操作使用vlVLMAX计算的值。此外对于掩码逻辑指令和vmsbf.m、vmsif.m、vmsof.m掩码操作指令结果尾部的任何元素都可以写入掩码生成操作使用vlVLEN、SEW8和LMUL8计算的值即可以覆盖掩码寄存器的所有位。掩码尾部总是被视为不可知的以降低管理掩码数据的复杂性掩码数据可以以位粒度写入。软件似乎很少需要支持尾部未扰动的掩码寄存器值。允许生成掩码的指令写回指令的结果避免了需要逻辑来屏蔽尾部的需求但掩码加载不能将内存值写入目标掩码尾部因为这意味着访问超出软件意图的内存。汇编语法向vsetvli指令添加了两个强制标志 3.4.4. 向量类型非法 vill
vill位用于编码先前的vset{i}vl{i}指令尝试将不支持的值写入vtype的情况。请注意vill位保持在CSR的XLEN-1位中以支持通过符号位上的分支来检查非法值。在确定实现是否支持该值时必须考虑vtype参数的所有位。
必须检查所有位以确保新代码在假设不支持的向量特性时会陷入vtype而不是在旧实现上错误执行。设置了vill位的vtype值是不支持的值。如果设置了vill位那么任何尝试执行依赖于vtype的向量指令都会引发非法指令异常。请注意vset{i}vl{i}和整个寄存器加载、存储和移动不依赖于vtype。当设置了vill位时vtype中的其他XLEN-1位应为零。
3.5. 向量长度寄存器 vl
XLEN位宽的只读vl CSR只能通过vset{i}vl{i}指令和仅故障向量加载指令变体进行更新。vl寄存器持有一个无符号整数指定要用向量指令的结果更新的元素数量如“预启动、活动、非活动、主体和尾部元素定义”一节中进一步详细描述的。vl中实现的位数取决于实现的最小支持类型的最大向量长度。注意具有VLEN32并支持SEW8的最小向量实现将需要在vl中至少使用6位来保存值0-32VLEN32LMUL8和SEW8时VLMAX32。
3.6. 向量字节长度 vlenb
XLEN位宽的只读CSR vlenb保存值VLEN/8即向量寄存器的长度以字节为单位。请注意在任何实现中vlenb中的值都是设计时常量。没有这个CSR就需要几条指令来计算以字节为单位的VLEN并且代码必须干扰当前的vl和vtype设置这就要求保存和恢复它们。
3.7. 向量起始索引CSR vstart
vstart读写CSR指定了向量指令要执行的第一个元素的索引如“预启动、活动、非活动、主体和尾部元素定义”一节中所述。通常只有在向量指令发生陷阱时硬件才会写入vstartvstart的值表示发生陷阱的元素可能是同步异常或异步中断以及在处理可恢复陷阱后应恢复执行的元素。所有向量指令都定义为从vstart CSR中给出的元素编号开始执行使目标向量中的较早元素保持不变并在执行结束时将vstart CSR重置为零。请注意所有向量指令包括vset{i}vl{i}都将vstart CSR重置为零。引发非法指令异常的向量指令不会修改vstart。vstart CSR定义为只有足够的可写位来容纳最大元素索引比最大值VLMAX小1。最大向量长度是通过最大LMUL设置8和最小SEW设置8获得的因此VLMAX_max 8*VLEN/8 VLEN。例如对于VLEN256vstart将有8位来表示从0到255的索引。对于当前SEW设置使用大于最大元素索引的vstart值是保留的。建议如果vstart越界则实现陷阱。不需要陷阱因为vstart上位的一个可能的未来用途是存储不精确的陷阱信息。vstart CSR可由无特权代码写入但非零的vstart值可能会导致向量指令在某些实现上运行得大大减慢因此应用程序程序员不应使用vstart。一些向量指令无法使用非零的vstart值执行并将引发如下定义的非法指令异常。使vstart对无特权代码可见支持用户级线程库。允许实现在尝试使用vstart值执行向量指令时引发非法指令异常该值在执行具有相同vtype设置的相同指令时实现无法产生。例如一些实现在执行向量算术指令期间永远不会中断而是等待指令完成后再进行中断。当vstart非零时允许此类实现在尝试执行向量算术指令时引发非法指令异常。
注意在将软件线程从具有不同微体系结构的两个hart之间迁移时新的hart微体系结构可能不支持vstart值。接收hart上的运行时可能必须模拟指令执行直到下一个支持的vstart元素位置。或者迁移事件可以限制在相互支持的vstart位置上发生。
3.8. 向量定点舍入模式寄存器 vxrm
向量定点舍入模式寄存器在其最低有效位vxrm[1:0]中包含一个两位的读写舍入模式字段。高位vxrm[XLEN-1:2]应写为零。向量定点舍入模式给定一个单独的CSR地址以允许独立访问但也反映在vcsr的一个字段中。请注意可以使用单个csrwi指令在保存原始舍入模式的同时设置新的舍入模式。定点舍入算法指定如下。假设预舍入结果为v并且该结果的d位将被舍去。那么舍入后的结果是 (v d) r其中r取决于下表中指定的舍入模式。 3.9. 向量定点饱和标志 vxsat
vxsat CSR控制和状态寄存器具有一个单独的读写最低有效位vxsat[0]该位指示是否有定点指令必须将输出值饱和以适应目标格式。位vxsat[XLEN-1:1]应写为零。vxsat位在vcsr中有镜像。
3.10. 向量控制和状态寄存器 vcsr
vxrm和vxsat这两个独立的CSR也可以通过向量控制和状态CSR vcsr中的字段进行访问。 3.11. 向量扩展在复位时的状态
在复位时向量扩展必须处于一致的状态。特别是vtype和vl必须具有可以使用单个vsetvl指令读取然后恢复的值。注意建议在复位时设置vtype.villvtype中的其余位为零vl设置为零。在复位时vstart、vxrm、vxsat CSRs可以具有任意值。
大多数使用向量单元的情况都需要一个初始的vset{i}vl{i}这将重置vstart。在使用之前应在软件中显式重置vxrm和vxsat字段。在复位时向量寄存器可以具有任意值。 【免费】RISC-V向量扩展指令集 VectorExtension资源-CSDN文库