当前位置：首页 > news >正文

域名买好了怎么做网站企业网站建设国内外差异

news 2026/4/8 21:41:07

域名买好了怎么做网站,企业网站建设国内外差异,seo顾问服务品达优化,项目拉新平台概要轨迹预测在各种应用中发挥着重要作用#xff0c;包括自动驾驶、机器人技术和场景理解。现有方法通常采用标准化的输入时长#xff0c;集中于开发紧凑神经网络#xff0c;以提高在公共数据集上的预测精度。然而#xff0c;当这些模型在不同观测长度下进行评估时#… 概要轨迹预测在各种应用中发挥着重要作用包括自动驾驶、机器人技术和场景理解。现有方法通常采用标准化的输入时长集中于开发紧凑神经网络以提高在公共数据集上的预测精度。然而当这些模型在不同观测长度下进行评估时可能会发生显著的“观测长度偏移”现象导致性能大幅下降。为了解决这一问题团队引入一个通用且有效的框架——灵活长度网络FLN以增强现有轨迹预测技术对不同观测时段的鲁棒性。具体地FLN整合了具有不同观测长度的轨迹数据通过灵活长度校准FLC获取不随时间变化而发生变化的特征并采用灵活长度适应FLA进一步优化这些特征以实现更准确的轨迹预测。在ETH/UCY、nuScenes和Argoverse 1三个数据集上的全面实验证明了FLN框架的有效性和灵活性。图1。“观测长度偏移”现象是轨迹预测任务中的一个常见问题。AgentFormer模型使用8个时间步的标准观测长度进行训练并在不同时长下进行测试以与孤立训练IT进行比较。对于每个数据集从左到右的柱状图组分别对应观测长度为2、4、6个时间步时的结果。介绍轨迹预测的目标是基于过去的观测状态预测主体的未来位置从而理解其运动和行为模式。在许多现实世界的应用中例如自动驾驶[21, 23, 59, 77]、机器人技术[10, 36]以及场景理解[11, 69]轨迹预测至关重要但极具挑战性。近年来深度学习的进展显著提高了轨迹预测的准确性[2, 4, 8, 9, 17, 27, 38, 44, 47, 50, 52, 65, 66, 76]。然而实现良好的预测性能通常需要复杂的模型和大量的计算资源。事实上许多目前最先进的方法都是在具有固定观测长度的公共数据集[7, 55, 61, 74]上开发的未能考虑到训练条件与多样化现实场景之间可能存在的差异。因此固定的训练导致模型在具体实践中往往过于僵化尤其是环境或观测变量发生变化时。近来一些研究探讨了关于轨迹预测模型的训练与测试不一致的问题。例如文献[68]针对因遮挡或有限视角导致观测不完整的情况并提出了一种结合轨迹插补和预测的方法。其他研究工作[5, 24, 26, 67]则专注于解决测试环境与训练环境不同的领域偏移挑战。此外还有一些研究[34, 40, 54]关注可用观测数据有限的情况例如仅1至2个数据点可用。这些方法试图从不同角度缓解训练与测试之间的差距。在承认这些努力的同时我们着重解决训练与测试差距的重要性。在本文中我们专注于尚未充分研究的观测长度差异问题。对于一些知名架构如RNN[22]和Transformer[57]可以用一种简单的解决方案判断其处理不同长度输入的能力用标准输入长度的数据训练模型然后在不同的输入长度下进行评估。这种解决方案与孤立训练IT形成对比后者在特定的观测长度下训练模型并用相同的输入长度的数据进行评估。我们使用基于Transformer的方法AgentFormer[73]在ETH/UCY数据集[31, 46]上进行了实验结果如图1所示。结果揭示了这两种解决方案间明显的性能差异表明在非训练长度下进行评估时性能会下降。我们将这种现象称为“观测长度偏移”。需要注意的是尽管孤立训练的性能略有提高但它需要针对不同的观测长度进行多次训练这一现象引起以下两个关键问题 1、这种性能差异背后的根本原因是什么 2、是否可以在不进行重大修改或大幅增加计算成本的情况下解决这一问题启发自这两个问题并考虑到基于Transformer的模型在轨迹预测任务中的流行性我们对基于Transformer的轨迹预测方法进行了深入分析揭示了两个主要原因我们将其总结为位置编码偏差和归一化偏移。基于这些发现我们提出一个稳健且灵活的框架——灵活长度网络FLN以克服观测长度偏移问题。FLN能够有效整合来自不同观测长度的轨迹数据通过灵活长度校准FLC创建不随时间变化而发生变化的表示并应用灵活长度适应FLA来增强这些表示从而提高轨迹预测的精度。值得注意的是FLN只需一次训练无需进行重大修改但能够灵活适应不同的观测长度从而回答了第二个问题。尽管一些研究关注了位置编码偏差[13, 42]和归一化偏移[71, 72]但我们的工作专注于观测长度偏移问题这是一个在轨迹预测中常被忽视的问题。我们提出了灵活长度网络FLN作为一个实用且非平凡的解决方案尤其在现实场景中具有重要价值。不同于孤立训练IT后者在适应不同观测长度时耗时且占用大量内存FLN提供了一个更高效的资源利用方案。尽管现代架构能够处理各种输入长度但它们通常会遭受性能差异的问题而FLN有效地弥补了这一差距同时保留了原始模型设计。此外FLN还可以应用于目前几乎所有基于Transformer架构的现有模型。团队的主要贡献总结如下 1识别并深入分析轨迹预测中的观测长度偏移现象明确了导致性能下降的因素指明了解决方案的方向。 2提出只需一次训练的稳健且高效的灵活长度网络FLN。它包括灵活长度校准FLC和灵活长度适应FLA用于学习时间不变的表示以提升不同观测长度下的预测性能。 3通过在多个数据集上的全面实验证明了FLN的有效性和通用性。FLN在不同观测长度下均展现出相对于孤立训练IT的一致优越性。相关工作轨迹预测轨迹预测的目标是基于主体的历史观测数据来预测它们未来的轨迹。主要关注点是理解这些主体之间的社交动态这促使了各种方法的发展例如利用图神经网络GNNs的研究[3, 28, 33, 39, 51, 53, 62]。未来轨迹固有的不确定性和多样性推动了生成模型的发展包括生成对抗网络GANs[1, 19, 28, 32, 48]、条件变分自编码器CVAEs[25, 37, 49, 63, 64]以及扩散模型[18, 27, 38]等。这些模型在各种数据集上取得了令人鼓舞的结果。然而这些方法大多优先考虑预测精度而忽略了在现实应用中经常出现的差异导致在不同条件下适应性降低。相比之下我们的工作专注于观测长度的变化这是许多现有方法面临的一个挑战。值得注意的是一些基于循环神经网络RNN[12, 25, 49]和Transformer[16, 56, 70, 73]的方法可以处理不同长度的输入但在观测长度变化时表现出局限性。我们的工作深入探讨了这一特定挑战提出了一个全面的解决方案不仅增强了现有方法的鲁棒性还提高了它们在不同观测长度下的性能。、训练-测试差异训练和测试之间的差距可能以不同的方式呈现无论是输入类型还是环境条件。最近的研究开始揭示轨迹预测中差异的各个方面。一些方法[5, 24, 26, 67]专注于训练和测试之间的环境变化提供了创新的解决方案。另一种方法[60]处理测试期间缺少高精度HD地图的问题采用知识蒸馏KD将地图知识从一个更加知情的教师模型转移到学生模型。最近探索的另一个方面是观测数据的完整性。像[34, 40, 54]这样的研究假设只有有限的观测轨迹数据特别是仅有一到两帧数据可用于预测。这种假设导致了瞬时轨迹预测的概念。其他研究[30, 68]解决了由于真实环境中的遮挡或视野限制导致的观测数据不完整的问题。另一项最近的研究[45]尝试减少在任意时间配置下收集的数据集之间的内部差异。尽管这些方法已经认识到训练-测试差异的各个方面但观测长度偏移的问题仍然相对未被探索。灵活长度框架以其通用性和有效性脱颖而出提高了处理不同观测长度轨迹数据的能力。即时测试适应性即时测试适应性的目标是在测试期间使模型实时适应新的数据。一种常见方法包括引入一个辅助任务[14, 15, 43]该任务在目标域中使用简单的自监督技术这通常需要在源域的训练过程中进行修改以包含该辅助任务。然而最近的策略[35, 58]使得在目标域中进行直接调整成为可能避免了修改训练过程的需要。与这些方法不同我们提出的框架只需要一次训练消除了在训练期间进行调整或在推理期间进行额外调整的必要性。此外灵活长度框架独立运行无需在训练阶段使用评估数据。框架模型深入剖析以往模型性能下降的原因图2。AgentFormer模型的ADE5和FDE5结果它在nuScenes数据集上使用4个时间步的标准观测长度进行训练随后在2和3个时间步的较短的观测长度下进行测试。这些结果与通过孤立训练IT获得的结果进行了比较。图3。在Eth数据集以2、6、8个时间步的观测长度分别孤立训练的AgentFormer模型中Transformer编码器的两个不同层的层归一化统计信息。观测长度偏移。当使用特定观测长度训练的模型在不同长度下进行测试时“观测长度偏移”现象变得明显如图1所示。为了进一步研究我们使用nuScenes数据集[6]训练AgentFormer模型[73]并评估其在不同观测长度下的性能如图2所示。结果表明与孤立训练相比当模型在不同观测长度下进行评估时存在明显的性能差距。值得注意的是当测试的观测长度接近训练的观测长度时性能下降较小。位置编码偏差。以往研究[20, 41]已经表明由于缺乏归纳偏差Transformer模型难以泛化到它们未曾遇到过的输入长度。其他研究[13, 42]将位置编码识别为限制模型对新长度泛化能力的关键因素并建议对模型结构进行调整以增强位置编码。专注于基于Transformer的模型我们分析了AgentFormer中的位置编码。对于时间步t的代理n其位置编码特征τ^t_n(k)的计算公式如下其中k表示特征索引dt是特征维度H是观测长度。显而易见如果在没有补偿的情况下简单地移除观测数据会导致长度的变化进而改变位置编码。因此我们假设位置编码偏差是导致性能差距的一个关键因素。尽管其他基于Transformer的模型[75, 76]使用了完全可学习的位置嵌入但后续的实验足以证明这种类型的位置嵌入仍然是一个关键原因。归一化偏移。以往的研究[71, 72]在图像和视频分类的背景下研究了归一化偏移问题。他们发现改变网络宽度会影响批量归一化BN导致聚合特征的均值和方差发生变化并影响特征聚合的一致性。鉴于层归一化LN在基于Transformer的模型中被广泛使用并且其操作方式与BN类似我们假设LN统计信息的差异可能是影响对不同长度泛化能力的另一个因素。例如如果一个模型使用观测长度H进行训练而使用观测长度L进行测试那么在测试期间输入到LN的将是中间特征f^L从而产生以下输出其中μ^H和σ^H^2是从输入长度为 H 的数据分布中得出的而γ^H和β^H是在相同输入长度下训练期间学习到的参数。我们分别使用观测长度H和L训练AgentFormer模型然后分析Transformer编码器中两个层归一化LNs的特征统计信息。图3中可以明显观察到不同观测长度下的统计差异。重要的是μ和σ是数据依赖的这表明这些差异直接来源于数据本身。因此可以认为层归一化统计信息的变化是基于Transformer的模型中观测长度偏移现象的另一个原因。灵活长度网络FLN 图4。灵活长度网络FLN示意图简化了地图编码分支。训练期间对于不同观测长度HS、HM和HL的输入我们利用灵活长度校准FLC来获取不随时间变化而变化的表示。此外采用灵活长度适应FLA将这些不变的表示与不同的子网络对齐从而增强模型的能力。在推理期间激活观测长度最接近的子网络。问题描述尽管术语上存在一些差异但多主体轨迹预测的基本问题设置在现有方法中保持一致。本质上目标是基于主体过去的观测状态X∈R^(N×H×F)来预测多个主体的未来轨迹Y∈R^(N×T×F)。N是主体数量H是观测长度T是预测时长F是坐标维度通常为2。常见的方法旨在开发一个生成模型记作pθ(Y∣X,I)其中I表示上下文信息例如高精地图HD maps。如前所述这些方法在评估时往往会因观测长度的变化而面临挑战。因此我们的目标是开发一个能够在一系列输入长度H上进行评估的模型 pθ(Y∣X,I)并实现与孤立训练IT相似甚至更好的性能其中H表示不同的观测长度集合。灵活长度校准FLC 如第3节所述当评估长度接近训练长度时性能差距较小。这一观察结果启发我们在训练过程中引入不同长度的观测数据并为从这些序列中提取特征而开发相应的子网络。给定一个观测轨迹序列X我们可以通过截断或滑动窗口方法生成不同长度的序列。通过这种方式我们可以收集三个序列XS、XM 和 XL分别对应短、中、长三种类型其对应长度分别为HS、HM和HL。在训练期间这三个序列分别输入到它们对应的子网络 FS(⋅)、FM(⋅)和FL(⋅)中进行处理。图4展示了基于Transformer的架构上开发的灵活长度网络FLN简化了地图分支。我们将典型基于Transformer模型的组件共分为几个关键部分空间编码器SE用于空间特征提取位置编码器PE用于嵌入位置信息Transformer编码器用于模型化时间依赖性轨迹解码器用于生成轨迹。在训练期间三个输入XS、XM和XL分别由它们各自的子网络 FS(⋅)、FM(⋅) 和 FL(⋅) 处理。在推理期间仅激活与观测长度匹配的子网络。这种方法在FLN框架中建立了一个计算流使得模型能够有效地在各种观测长度下进行评估。子网络权重共享。给定三个轨迹样本XS、XM和XL我们在所有子网络中对空间编码器、时间编码器和轨迹解码器使用共享权重以找到一组参数θ来提取时空特征如下所示其中∗∈{S,M,L}而D(ψ∗)表示由ψ∗参数化的分布Y∗遵循该分布例如双变量高斯分布或拉普拉斯混合分布[76]。这种设计与孤立训练IT形成对比它只需维护一组适用于各种长度的权重在参数使用上更加高效。此外这种共享权重策略通过隐式地向模型提供这三条观测序列属于同一轨迹的先验知识提升了性能。这使得模型对观测长度的变化更具韧性。时间蒸馏。轨迹预测模型通常在使用更长的观测数据X^L时表现更好因为其中包含更多的运动信息。因此我们将Y^L∼D(ψ^L)视为三个预测中最准确的一个。为更新F^L(⋅)的参数我们采用负对数似然损失表示如下其中Y^是真实轨迹。需要注意的是由于单条轨迹中通常存在多个主体上述公式是一个简化版本省略了每个时间步针对每个主体的平均值计算。对于更新两个子网络FS(⋅)和FM(⋅)的参数一种直接的方法是计算相应的负对数似然损失如公式4所示。然而这种方法存在潜在的缺点由于所有三个子网络共享权重针对FL(⋅)的最优参数可能对FS(⋅)或FM(⋅)并不那么有效。此外优化ψS和ψM的对数似然损失也可能会影响FL(⋅)的性能。这是因为它们的输入XS和XM包含较少的运动信息可能会导致拟合效果较差。采用KL散度损失[29]校准并整合ψS和ψM到计算过程中改善性能如下所示通过公式5更新共享子网络的权重旨在使学生网络【D(ψ^M)和D(ψ^S)】的预测分布尽可能接近教师网络D(ψ^L)的预测分布。这一过程有助于将FL(⋅)中的有价值知识传递给FM(⋅)和FS(⋅)。我们FLN的整个参数集更新如下其中λ用于在反向传播过程中平衡这两个项我们的实现中设置λ为1。综合考虑子网络权重共享和时间蒸馏Lreg为预测任务提供指导而Lkl则为网络训练提供轨迹内的知识。这将促使D(ψL)、D(ψM)和D(ψS)展现出高度相似性因为长度变化并不会改变某一特定轨迹的分布。通过这种方法FLN不仅能够学习到时间不变的表示还能确保实现的便捷性因为它不需要对特征提取器进行任何更改。灵活长度适应FLA 我们开发了灵活长度校准FLC以指导我们的灵活长度网络FLN学习时间不变的表示。此外我们引入了灵活长度适应FLA以优化这些不变特征在不同子网络中的拟合效果从而进一步提升它们的表示能力。独立位置编码。我们在第3节中的分析指出位置编码可能使得模型对观测长度产生混淆。为了应对这一问题我们为每个子网络实现了独立位置编码。以AgentFormer[73]中的位置编码为例我们定义了具有不同观测长度的输入的位置编码如下所示其中∗∈{L,M,S}。尽管最近基于Transformer的模型[75, 76]已经从传统的正弦模式转向完全可学习的位置嵌入我们在每个子网络中采用了这种可学习的位置嵌入。因此对于每个输入序列X^S、X^M和X^L我们分别定义了唯一的可学习位置编码τ^S、τ^M和τ^L。需要注意的是为每个子网络实现独立位置编码是一种资源高效解决方案它仅引入了可以忽略不计的参数和计算量的增加。专门化的层归一化。如第3节所述归一化偏移是观测长度变化时性能差距的另一个原因。将X^S、X^M和X^L的中间特征分别记为f^S、f^M和f^L。我们为每个输入序列引入专门的层归一化如下所示其中∗∈{S,M,L}。这种专门的归一化允许在训练期间独立学习γ和β并针对每个序列分别计算μ和σ。此外这种方法较高效因为归一化通常涉及一个简单的变换其参数量不到模型总参数的1%。实验设置基线模型。我们提出的FLN是一个与基于Transformer的方法兼容的通用框架。我们选择了两种广泛认可的开源方法AgentFormer[73]和HiVT [75]并将它们与我们的FLN集成。此外为了进行更全面的比较我们还包含了四个额外的基线模型 (1)混合采样在每次训练迭代中我们为具有观察长度H^S、H^M、H^L的轨迹数据分配三个概率ρ^S、ρ^M、ρ^L用于训练。 (2)微调模型使用观察长度H^L进行训练然后使用另一个长度H^S或H^M微调直到收敛。 (3)联合训练我们将来自三种观察长度H^S、H^M、H^L的轨迹样本扩展到训练数据集中然后在不进行任何结构更改的情况下训练原始模型。 (4)独立训练模型仅使用单一观察长度的轨迹数据H^S或H^M或H^L进行训练。数据集。我们使用以下三个数据集(1) ETH/UCY数据集[31,46]是行人轨迹预测的主要基准包含五个数据集Eth、Hotel、Univ、Zara1和Zara2采样频率为2.5Hz轨迹交互密集。 (2) nuScenes数据集[74]是一个大型自动驾驶数据集包含1000个场景每个场景的标注频率为2Hz并包含11个语义类别的高清地图。(3) Argoverse1[7]包含323,557个真实世界驾驶序列采样频率为10Hz并配有用于轨迹预测的高清地图。评估协议。在三个数据集中我们使用平均位移误差ADE_K和最终位移误差FDE_K作为比较指标其中K表示要预测的轨迹数量。每个数据集遵循自己的评估协议(1)对于ETH/UCY采用留一法设置是标准的任务是从8个观察步预测12个未来时间步K通常设置为20。 (2)在nuScenes数据集中如AgentFormer所用仅考虑车辆数据从4个观察步预测12个未来步。K通常设置为5和10。(3)在Argoverse中1序列被分割成5秒的间隔基于20个观察步2秒预测30个未来步3秒涉及多个主体。使用验证集进行评估K为6。实现细节。对于每个数据集我们定义了三种不同的观察长度以时间步为单位H{H^S、H^M、H^L}用于训练其中H^L是标准评估协议中的默认长度考虑到超出此长度的数据可能不可用。具体来说我们为ETH/UCY使用H{2, 6, 8}为nuScenes使用H{2, 3, 4}为Argoverse 1使用H{10, 20, 30}。预测长度T保持标准设置中的定义。原型模型在观察长度H^L上进行训练并在H^S和H^M上进行评估。独立训练IT是指分别在观察长度H^S、H^M和H^L上训练和评估模型。更多细节和实验结果在补充材料中提供。主要结果表1。在nuScenes数据集上与基线模型的比较评估指标为ADE5/FDE5和ADE10/FDE10。最佳结果以粗体突出显示次佳结果以下划线标出。表2。在Argoverse 1验证集上与基线模型的比较评估指标为ADE6/FDE6。最佳结果以粗体突出显示次佳结果以下划线标出。图5。使用AgentFormer模型在五个ETH/UCY数据集上的性能表现以ADE20为衡量标准。这些结果与基线模型和独立训练IT的结果进行了比较突显了我们的FLN所取得的显著改进。图6。使用AgentFormer模型在五个ETH/UCY数据集上的性能表现以FDE20为衡量标准。这些结果与基线模型和独立训练IT的结果进行了比较展示了我们的FLN所取得的显著改进。与基线模型的比较。表1展示了在nuScenes数据集上使用AgentFormer模型的结果其中我们的FLN框架优于所有基线模型显示出其在适应不同观察长度方面的鲁棒性。值得注意的是混合采样有助于缓解“观察长度偏移”问题这从2和3时间步的观察长度上得到的结果改进中可以看出与标准训练协议相比表现有所提升。然而这种改进是以4时间步观察长度的准确性降低为代价的。增加长度H^S的概率可以改善该长度上的性能但相反H^L上的性能会变得更差。这种模式表明存在一种权衡在较短长度上获得更好的结果会导致在较长长度上的性能下降。可以发现H^M上的性能相对稳定可能是因为H^M和H^L的序列数据量保持不变从而维持了这两个数据簇之间的一致关系。微调使基线方法能够达到与独立训练IT相当的性能但忽略了来自其他长度的信息。至于联合基线其性能与IT相似甚至在K5时2时间步长度上的性能优于IT。然而联合和IT基线的一个显著问题是由于重复的训练过程导致模型复杂性增加。相比之下我们的FLN只需要进行一次训练并且几乎没有额外的计算开销但它允许在不同长度上进行评估并获得更优的结果。在不同数据集上的性能表现。此外如图5和图6所示在ETH/UCY基准上的评估表明我们提出的FLN在不同观察长度上优于独立训练IT。我们还将FLN扩展到HiVT方法该方法使用可学习的嵌入进行位置编码并在Argoverse1验证集上对其进行了评估。表2中的结果显示FLN在三种不同的观察长度上始终表现出色证实了其在适应各种观察长度方面的鲁棒性。泛化研究图7. FLN和IT在Argoverse1验证集上不同观察长度的性能表现改进结果被列于表格中。观察长度超出10到30范围的结果用*标记。我们已经证明FLN在训练时的观察长度上优于独立训练IT但尚未在训练之外的长度上评估模型。受第3节发现的启发随着观察长度接近标准输入长度性能差距会逐渐缩小我们引入了一种高效的推理方法使得FLN能够在任意长度上进行评估。当遇到未见过的长度H^I时我们首先计算其与H^S、H^M、H^L的差异并激活长度差异最小的子网络。如果两个子网络的长度差异相同则默认选择输入长度较长的那个。这种方法使FLN能够在一系列未见过的观察长度上进行评估。由于我们将最大长度H^L设置为标准观察长度因此由于预分割的原因生成观察长度超过H^L的轨迹序列是具有挑战性的。在Argoverse 1验证集上观察长度小于30时间步的结果如图7所示。这些结果清楚地表明FLN在所有观察长度上均优于IT甚至在10到30时间步范围之外也是如此。这验证了我们的FLN框架在处理训练中未包含的观察长度时的强大泛化能力。消融研究表3。FLN在Argoverse 1验证集上使用不同观察长度组合的性能表现。最佳结果以粗体突出显示。表4。在nuScenes数据集上对FLN进行的消融研究。WS、TD、IPE和SLN分别表示子网络权重共享、时间蒸馏、独立位置编码和专用层归一化。最佳结果以粗体突出显示。长度组合。我们在Argoverse 1数据集上实现了不同的观察长度组合如表3所示。观察结果显示FLN-2在10和16时间步的长度上其ADE6和FDE6指标优于独立训练IT并且在30时间步的长度上取得了相当的结果。然而在20时间步的长度上其性能不如IT这可能是由于训练数据中缺少这一序列长度。FLN-3和FLN-4在所有观察长度上均优于IT。这种改进可以归因于存在具有中间观察长度的轨迹数据这有助于缓解这一范围内的“观察长度偏移”问题。尽管FLN-4在10、16和20时间步的长度上表现优于FLN-3但这也增加了额外的训练时间和资源。模型设计。我们在nuScenes数据集上对FLN的每个组件进行了详细分析如表4所示。我们首先移除了权重共享w/o WS为每个长度创建了独特的子网络。结果显示在2和3时间步的观察长度上优于IT但在4时间步的长度上表现较差。这表明共享权重使FLN能够更有效地捕获跨不同输入长度的时间不变特征。我们从FLN中移除了时间蒸馏w/o TD即不使用KL损失进行优化。这导致在2和3时间步的观察长度上性能不如IT这表明我们的时间蒸馏TD设计是必要的。我们还测试了共享位置编码w/o IPE和共享层归一化w/o SLN。这两种情况都导致了性能下降从而验证了我们独立位置编码IPE和专用层归一化SLN设计的重要性。结论在这篇论文中我们通过引入灵活长度网络FLN来应对轨迹预测中观察长度偏移这一关键挑战。这一新颖的框架结合了灵活长度校准FLC和灵活长度适应FLA为处理不同观察长度提供了一种通用解决方案并且只需要进行一次训练。我们在ETH/UCY、nuScenes和Argoverse1等数据集上进行的广泛实验表明FLN不仅在一系列观察长度上提高了预测的准确性和鲁棒性而且始终优于独立训练IT。 FLN框架的一个局限性是由于每次训练迭代需要处理多个输入序列FLN会增加训练时间。展望未来我们将专注于提高FLN的训练效率。补充细节我们使用AgentFormer模型[73]的开源代码和HiVT模型[75]的开源代码来评估我们提出的框架。我们利用提供的预训练模型来评估不同观察长度下的性能。具体地对于HiVT模型我们选择其较小的变体HiVT-64并使用Argoverse 1验证集进行评估。所有模型均在NVIDIA Tesla V100 GPU上进行训练并严格遵循其各自官方实现中指定的超参数。训练损失。在我们的工作中我们引入了灵活长度网络FLN框架该框架旨在便于与基于Transformer的轨迹预测模型集成。我们通过使用AgentFormer和HiVT两种模型来展示其应用并对其性能进行评估。AgentFormer模型是一个两阶段生成模型。在这两个阶段中我们使用输出Y^L ∼ D(ψ^L)并遵循其原始损失函数。此外我们引入了我们的时间蒸馏损失L_kl并将平衡超参数λ设置为1。对于HiVT模型其训练使用的是结合回归和分类的损失函数我们同样应用输出Y^L ∼ D(ψ^L)并遵循其原始损失函数。我们的框架进一步扩展了这一点并引入了我们的时间蒸馏损失L_kl同时将平衡超参数λ设置为1。专用层归一化研究图8。AgentFormer模型中轨迹解码器的第一个层归一化层的统计信息该模型分别在Eth数据集上针对2、6和8时间步的观察长度进行了独立训练IT。表5. 在nuScenes数据集上对AgentFormer模型进行的专用层归一化研究。其中“L SLN”表示在轨迹解码器中应用L个额外的专用层归一化层。表6. 使用Argoverse 1验证集对HiVT-64模型进行的专用层归一化研究。其中“2 SLN-SE”表示在HiVT的空间编码器中的Agent-Agent交互模块中增加2个专用层归一化层“4 SLN-TD”表示在轨迹解码器中增加4个额外的专用层归一化层。在我们的分析中我们将典型的基于Transformer的轨迹预测模型的组件分为几个关键部分一个空间编码器用于提取空间特征一个位置编码器用于嵌入位置信息一个Transformer编码器用于建模时间依赖性以及一个轨迹解码器用于生成预测轨迹。尽管这些组件的设计各不相同包括Transformer编码器之外的层归一化LN层我们对这些不同模型部分中的LN层进行了研究。实验表明Transformer编码器中的LN偏移是性能下降的主要原因。对于AgentFormer模型它在其Transformer编码器中包含两个LN层以及在轨迹解码器中包含三个LN层。我们在Eth数据集[31, 46]上分别针对2、6和8时间步的观察长度对AgentFormer模型进行独立训练然后使用相同的轨迹分别通过这三个训练好的模型并分析轨迹解码器中第一个LN层的LN统计信息。该层的输入特征维度为20×256我们在图8中绘制了这些值在20个维度上的分布因为LN影响最后一个维度。我们的观察结果显示在不同观察长度下统计方差极小表明从同一轨迹在不同观察长度下提取的特征表示具有非常相似的统计结构用于后续的解码。我们在nuScenes数据集[74]上进行了进一步的实验详细内容见表5实验中在轨迹解码器中额外应用了三个专用的LN层。在轨迹解码器的第一个LN层中应用专用LN几乎可以获得相同的性能。在轨迹解码器中增加两个或三个专用LN层仅显示出微小的改进。因此我们决定仅在Transformer编码器中实现专用LN层以平衡性能与模型复杂性。 HiVT模型在其每个组件中使用了多个LN层。然而我们的观察表明显著的统计差异主要出现在Transformer编码器中。我们在Argoverse 1[7]验证集上进行了额外的实验详细内容见表6实验涉及在不同组件中使用额外的专用LN层。结果与我们在AgentFormer模型中的观察一致。因此我们决定仅在时序Transformer编码器中实现两个专用LN层。总之当观察长度不同时归一化偏移通常发生在Transformer编码器时序建模中这种偏移也是性能下降的原因之一。这一发现与论文主体部分讨论的经验结果一致。归一化偏移问题图9。AgentFormer模型中Transformer编码器第一层的层归一化统计信息该模型通过独立训练IT在4时间步的观察长度上进行训练。IT和FLN均在相同的4时间步观察长度上进行评估。为了进一步验证我们的灵活长度网络FLN能够缓解归一化偏移问题我们分析了独立训练IT和FLN之间的层归一化LN层统计信息。这两种方法均使用AgentFormer模型在nuScenes数据集上进行训练。我们使用了一条包含3个主体、观察时长为4时间步的相同轨迹并分别通过IT和FLN模型进行处理。这些模型中的第一层LN接收一个维度为12×256的中间输入特征。由于LN沿最后一个维度操作因此图9中展示的统计结果是沿着12维轴呈现的。两条曲线的对齐表明统计值非常相似证明了FLN在缓解归一化偏移问题方面的有效性。定量结果表7。在ETH/UCY数据集上与基线模型的比较评估指标为ADE20/FDE20。最佳结果以粗体突出显示。在“实验”部分我们通过各种图表展示了我们提出的灵活长度网络FLN在ETH/UCY数据集上的性能表现。此外我们还在表7中提供了相应的定量结果供进一步参考。显而易见的是在所有五个数据集中我们的FLN在不同观察长度上始终优于独立训练IT的结果。可视化结果图10。由独立训练IT和我们的灵活长度网络FLN预测的轨迹的可视化结果。图10中我们使用AgentFormer模型在nuScenes数据集上展示了轨迹预测的可视化结果。这些可视化结果展示了相同的轨迹但具有不同的观察长度。我们专注于一个单一的主体并保持图像大小以方便比较。这些可视化清楚地表明我们的灵活长度网络FLN在各种观察长度上均优于独立训练IT从而证实了FLN在处理具有不同观察长度的输入时的有效性。参考

查看全文

http://www.w-s-a.com/news/969956/