当前位置：首页 > news >正文

镇江网站制作咨询宜昌网站企业

news 2026/4/9 10:03:03

镇江网站制作咨询,宜昌网站企业,上海建设杜卡森摩托车官网,高中生做网站网页祥龙回首留胜景#xff0c;金蛇起舞贺新程。概述行人轨迹预测是一项旨在预测行人未来位置的任务#xff0c;它通常涵盖了从短期到长期的整个时间范围内的轨迹。然而#xff0c;现有的研究试图通过单一、统一的训练范式来解决整个轨迹预测问题#xff0c;往往忽视了行人轨… 祥龙回首留胜景金蛇起舞贺新程。概述行人轨迹预测是一项旨在预测行人未来位置的任务它通常涵盖了从短期到长期的整个时间范围内的轨迹。然而现有的研究试图通过单一、统一的训练范式来解决整个轨迹预测问题往往忽视了行人轨迹中短期动力和长期依赖之间的区别。为了克服此限制我们引入了一种新颖的渐进式预训练任务学习框架PPT该框架逐步增强模型捕捉短期动力和长期依赖的能力以完成最终的整个轨迹预测。具体而言我们在PPT框架精心设计了三个阶段的训练任务。第一阶段模型通过下一个位置逐步预测任务来学习理解短期动态第二阶段模型通过目的地预测任务进一步增强对长期依赖的理解第三阶段模型充分利用前几个阶段的知识来解决整个未来轨迹预测任务。为了减轻知识遗忘我们进一步应用了跨任务知识蒸馏。此外我们设计了一种基于Transformer的轨迹预测器通过整合目的地驱动的预测策略和一组可学习的提示嵌入能够实现高效的两步推理。在多个流行基准测试上的广泛实验表明我们提出的方法以高效率实现了最先进的性能。代码可在GitHub - iSEE-Laboratory/PPT: (ECCV 2024) Official PyTorch implementation of paper Progressive Pretext Task Learning for Human Trajectory Prediction 获取。关键词行人轨迹预测 · 渐进式学习介绍图1将我们的渐进式预训练任务学习框架PPT与常规轨迹预测进行比较。(a)现有工作倾向于激进地迫使模型一次性学习复杂完整的时间模式。(b)我们的模型采用三阶段的学习过程逐步增强模型以进行未来轨迹预测。人类轨迹预测已在多个关键领域得到了广泛应用例如自动驾驶[5, 20, 30, 35]、监控系统[43]、机器人导航[6, 21]及路径规划[23, 38]等。给定一段观察到的人类轨迹人类轨迹预测的目标是精确预测未观察到的可能未来轨迹。这包括从短期到长期未来的位置预测涵盖轨迹中的所有时间范围。通常跨越不同时间距离的预测依赖于理解能力的不同方面。一方面短期未来预测需要从时间步之间的即时细粒度变化中识别局部动态模式。另一方面长期未来预测旨在通过捕捉轨迹的长期依赖性来推断全局趋势。然而现有方法[12, 13, 27, 28, 36, 42, 50]往往忽视了这种区别它们试图通过单一、统一的训练范式同时解决短期和长期预测问题却常常在短期和长期性能之间陷入次优的折衷。为了克服这一限制本文提出了一种新颖的渐进式预训练任务学习框架PPT该框架逐步使模型能够捕捉复杂的短期动力和长期依赖以实现整个未来轨迹的预测。具体而言PPT包含三个阶段的渐进训练任务。任务I旨在通过预测给定任意长度轨迹的下一个位置使模型具备理解轨迹中固有短期动力的基本能力。任务II旨在通过预测轨迹的目的地来增强模型捕捉长期依赖的能力其中采用多样性损失来鼓励行人的意图多样性。一旦预训练任务I和任务II完成模型就获得了捕捉轨迹中短期动力和长期依赖的能力。在此基础上任务III充分利用增强的知识进行更准确的预测通过对任务II中预训练良好的模型进行微调以实现整个未来轨迹的预测。此外为了保留从先前预训练任务中获得的知识并稳定预测性能我们引入了跨阶段知识蒸馏方法将任务I和任务II的知识转移到任务III的模型中。在我们的PPT框架中我们进一步设计了一种基于Transformer的新型轨迹预测器。与之前自回归生成未来位置的Transformer预测器[9,12,34,53,55]相比我们的模型能够在仅两步内高效预测任意长度的轨迹首先确定目的地然后一次性生成其余未来点。具体而言我们的模型由目的地预测器和轨迹预测器组成。前者旨在捕捉长期依赖性以预测目的地后者则利用这些目的地来指导生成整个未来轨迹。为了高效并行生成轨迹点我们引入了一系列的可学习的提示嵌入来表示特定的时间步。大量实验表明我们的框架在多个流行数据集上实现了最优结果验证了其优越性。此外消融研究验证了每个预训练任务及其他关键组件的有效性。从定性角度来看我们的框架能生成更准确且时间上合理的行人轨迹。总体而言我们的贡献总结如下 1提出PPT框架一种新颖的渐进式预训练任务学习框架逐步使模型能够捕捉行人轨迹中跨不同时间范围的复杂依赖性包括短期动力和长期依赖以实现整个未来轨迹的预测。 2提出一种基于Transformer的轨迹预测器采用两步目的地驱动策略并集成了一系列可学习的提示嵌入以实现高效且有效的预测。 3在四个常用数据集上的广泛实验表明我们的框架能够持续优于目前最先进的方法。相关工作行人轨迹预测的目标是根据观察到的运动序列预测合理的未来路径。深入考虑到人类运动的不确定性这一任务尤其具有挑战性因为它需要预测所有时间步的精确位置坐标这要求同时解决短期动力和长期依赖问题。 2.1行人轨迹预测现有研究可以大致分为两个方向一个方向侧重于利用场景地图[19,25,34,46,56]而另一个方向则致力于挖掘运动模式交互[13,17,26,28,36,39,42,47–50]。考虑到建模场景地图的计算成本本文遵循第二个方向试图探索一种更加有效的方法来理解轨迹中的时间运动模式。为了解决这一任务已经有许多努力。例如Gupta等人[13]最初提出利用基于GAN[10]的网络并通过直接对齐未来轨迹中的各种时间位置与真实值GT来训练模型而没有进行区分。Gu等人[12]采用基于Transformer的扩散网络并训练模型一次性生成整个未来轨迹。然而这些工作由于忽视了短期和长期预测学习模式之间的差异导致联合优化过程的性能不佳。尽管最近基于目的地的方法[26,49,57]试图通过首先使用一个预测器预测目的地然后使用另一个预测器插值中间位置来缓解这一问题但它们忽视了目的地预测和中间位置预测之间的知识转移这导致目的地预测器和轨迹预测器之间存在显著差距。为了克服这些局限性本文设计了一种渐进式预训练任务学习框架通过引入两个精心设计的预训练任务逐步增强模型以捕捉短期动力和长期依赖从而实现整个未来轨迹的预测。 2.2基于Transformer的行人轨迹预测近年来Transformer [41,44] 架构在捕捉复杂序列依赖性方面展现了令人印象深刻的能力。鉴于其有效性研究人员[9,12,34,37,53,55]越来越多地将Transformer应用于行人轨迹预测。例如STAR [53] 将人群建模为图并利用基于图的Transformer来学习人群运动的时空交互。此外Tsao等人[42]使用Transformer作为骨干模型并提出关于跨序列建模的预训练任务。然而由于它们以自回归方式生成轨迹点因此在推理过程中效率较低。最近MID和TUTR尝试在这一任务中探索非自回归Transformer。然而MID [12]依赖于扩散模型这显著增加了推理时间。TUTR [37] 忽视了轨迹中的时间运动动态导致性能不佳。在本研究中我们提出了一种新颖的非自回归Transformer以克服上述局限性。与TUTR相比我们的模型引入了一系列有效的可学习提示嵌入来表示未观察到的位置从而显著提高了预测性能。 2.3渐进式预训练图2我们的整体渐进式预训练任务学习框架PPT示意图。(a) 展示了我们的渐进式训练流程其中每个训练阶段都采用相应的任务逐步增强模型对整个未来轨迹预测的能力。为了避免知识遗忘引入了跨任务知识蒸馏。具体而言如(b)所示我们依次执行逐步下一个位置预测任务I、跨越式目的地预测任务II和完整轨迹预测任务III。(c) 展示了我们的骨干模型。迄今为止渐进式学习技术已在多种任务中得到探索包括图像生成[11,14]、图像增强[7,22]、目标检测[4,8,16,29]和运动预测[24,40]。具体而言Karras等人[14]提出从低分辨率图像开始然后通过向网络添加层逐步提高分辨率。PGBIG [24] 利用多个阶段逐步优化未来帧的初始猜测。Fu等人[7]引入了一种渐进式学习策略用于低光图像增强。在自知识蒸馏过程中他们逐渐增加低光图像作为子分支输入的比例旨在逐步提高学生的学习难度。然而在行人轨迹预测领域渐进式预训练仍未得到探索。据我们所知我们的工作是首次在行人轨迹预测中探索渐进式预训练通过引入两个精心设计的预训练任务逐步使模型能够捕捉短期动力和长期依赖以实现整个未来轨迹的预测。研究方法问题表述行人轨迹预测旨在基于观察过去轨迹以准确预测未来轨迹其核心挑战在于捕捉短期动力和长期依赖关系。形式上给定一系列过去观察到的轨迹表示为S_T1:Th {(x_T1, y_T1), ..., (x_Th, y_Th)}N_n-1这些轨迹是N个代理在时间T1, T2, ..., Th的轨迹行人轨迹预测的目标是预测未观察到的未来S_Th1:Th Tf {(x_Th1, y_Th1), ..., (x_ThTf, y_ThTf)}的后续二维位置。在下文中我们将Te Th Tf表示为整个轨迹的长度。概述如图2所示我们提出了一种用于轨迹预测的渐进式预任务学习PPT框架旨在逐步增强模型理解过去轨迹并预测未来轨迹的能力。具体而言我们的框架由三个阶段的渐进式训练任务组成如图2b所示。第一阶段我们在预任务I上对我们的预测器进行预训练旨在通过预测任意长度轨迹的下一个位置充分理解每个轨迹的短期动力第二阶段我们在预任务II上进一步训练该预测器旨在通过预测轨迹的目的地来捕捉长期依赖关系。一旦任务I和任务II完成模型便能够捕捉轨迹中的短期动力和长期依赖关系最后第三阶段我们复制我们的模型以获得两个预测器一个用于目的地预测另一个用于中间路径点预测。在此阶段我们执行任务III使模型能够实现完整的行人轨迹预测。为了稳定训练我们进一步采用跨任务知识蒸馏以避免知识遗忘。骨干网络本研究中我们采用Transformer编码器[44]作为我们的骨干模型如图2c所示。给定二维位置作为输入例如从时间Tm到Tn的轨迹序列S_Tm:Tn 我们首先使用嵌入层将其转换为输入特征。然后这些特征与相应的时间位置嵌入{Tm, Tm 1, ..., Tn}一起通过多个Transformer层传递每个层由预归一化[45]、多头注意力机制、层归一化LN和一个多层感知机MLP组成。模型通过学习不同位置之间的特征交互来理解轨迹并输出每个位置的交互表示。这些输出被送入最终的LN层随后通过一个线性投影器获得未来的二维位置Sˆ_Tm1:Tn 1这表示与每个输入位置对应的预测下一帧位置。特别地对于任务II和任务III我们采用可学习的提示嵌入来表示轨迹中尚未观察到的未来位置如图2b所示。具体细节将在下文介绍。 3.1任务-I逐步下一位置预测给定任意长度的观察轨迹序列第一个预任务的目标是准确预测下一个点的位置。该任务促使模型探索运动模式并理解每个行人轨迹的短期动力。具体来说对于轨迹序列S_T1:Te 我们随机采样其子序列S_T1:Tt −1然后将其输入模型θ以推断下一个位置S_Tt如图2b所示。随机性可以带来数据增强的效果。在实践中为了提高训练效率通常会从一个轨迹中采样多个随机子序列这可以通过利用因果自注意力掩码[32]有效实现。我们用θI表示通过任务I训练的模型。尽管该任务简单直接但它能够有效地使模型识别运动模式并捕捉轨迹中的短期动态。由于理解轨迹的模式和动态是轨迹预测的关键能力这些知识可以迁移并进一步利用以促进后续任务中的预测。 3.2任务-II跨越式目的地预测第二个预任务的目标是预测轨迹的目的地。这一任务具有挑战性因为它要求模型从过去的轨迹中推测行人的移动意图并捕捉最终目的地与过去轨迹之间的长期依赖关系。具体来说以过去的轨迹序列S_T1:Th 作为输入任务II继续训练θI以预测整个轨迹的目的地S_Te。考虑到人类运动固有的不确定性我们遵循先前的工作[13, 49, 50]一次性预测多个目的地例如K个。在实践中我们将目的地处的输出特征输入到一个多层感知机MLP中以回归K个目的地。为了确保预测的准确性我们引入了一个精度损失[13]以最小化真实目的地E与其最接近的预测目的地之间的距离其形式为L_Precision min_k L2(Eˆ_k, E)。这里L2是欧几里得距离函数。此外为了防止K个预测目的地落入同一模态我们采用多样性损失[51, 54]以提供足够的多样性。如图2b所示我们通过以下公式优化轨迹目的地之间的成对距离其中σs是一个缩放因子。通过这种多样性损失模型可以生成更加多样化的目的地从而产生更加多样化的轨迹。该任务中目的地预测的损失函数表示为以下公式其中λd用于平衡预测目的地的准确性和多样性。值得注意的是为了与模型θI的输入对齐我们为每个位置分配了相应的位置编码。然而由于未来轨迹的真实数据缺失无法访问第(Te - 1)个位置作为输入来预测第Te个位置目的地。因此我们引入了一个可学习的提示嵌入并将其附加在过去轨迹序列之后旨在以跨越式的方式预测目的地。我们进一步将此可学习嵌入的位置编码设置为Te - 1以保持与任务I的一致性表明其对第Te个位置目的地的预测如图2b所示。通过这一跨越式目的地预测任务训练良好的模型θII可以获得长期预测的能力这可以为整个未来轨迹预测提供指导参考以及与长期依赖关系相关的知识。 3.3任务-III全面轨迹预测通过对任务I和任务II的训练模型θII具备了理解短期动态从任务I中获得和捕捉未来轨迹中长期依赖关系从任务II中获得的能力。在最终任务中我们充分利用这些知识来完成完整的轨迹预测任务预测未来轨迹中的所有位置。具体来说我们将模型θII复制为一个目的地预测器和一个轨迹预测器如图2b所示。我们使用目的地预测器生成K个候选目的地如任务II中所述然后将最接近真实值GT的目的地输入到轨迹预测器中。轨迹预测器的输入序列可以分为三部分从T1到Th的观察轨迹、从Th 1到Te - 1的未观察未来轨迹以及在Te处的伪目的地。特别地对于未观察的未来轨迹我们使用可学习的提示嵌入作为输入。通过这些输入轨迹预测器输出整个未来轨迹的二维位置即S_Th1:Te 。在任务III期间我们联合训练目的地预测器和轨迹预测器以回归整个未来轨迹。为了避免先前预任务中的知识被遗忘我们设计了一种跨任务知识蒸馏方法用于在任务III中进行额外的正则化。具体来说我们分别惩罚θI与轨迹预测器之间以及θII与目的地预测器之间的输出差异此阶段的损失函数被表述为以下公式其中F_t^i 和 F_d^i 分别表示在第i个任务中获得的未来轨迹和目的地的输出特征。P_t 和 P_d 表示线性投影器。总体而言此阶段的损失函数被表述为以下公式其中L_Recon 是预测的未来轨迹与真实未来轨迹之间的L2距离。λ_t_kd 和 λ_d_kd 用于控制不同损失项之间的权衡。 3.4推理在完成所有三个任务的训练后模型逐步具备了预测整个未来轨迹的能力。在最终阶段我们使用训练良好的目的地预测器和轨迹预测器进行推理。具体来说我们首先利用目的地预测器预测K个目的地。然后我们将这些目的地中的每一个作为轨迹预测器的输入指导生成K条未来轨迹。实验表1在SDD数据集上以minADE20 / minFDE20像素为度量标准与当前最先进方法的比较加粗文本表示最佳结果。实验表明我们的方法大幅超越了其他方法。本节中我们在多个流行的行人轨迹预测基准数据集上进行了广泛的实验。结果表明我们的方法在定量和定性上均优于当前的最先进方法。此外我们还提供了消融研究以证明我们提出的框架中关键组件的有效性。 4.1实验设置表2在ETH/UCY数据集上以minADE20 / minFDE20米为度量标准与当前最先进方法的比较。加粗文本表示最佳结果。在所有这些方法中我们提出的方法取得了最佳性能。表3在GCS数据集上以minADE20 / minFDE20像素为度量标准与当前最先进方法的比较。加粗文本表示最佳结果。我们的PPT方法显著优于其他方法。数据集我们提出的PPT框架在四个广泛使用的公共行人数据集上进行了评估斯坦福无人机数据集SDD、ETH/UCY数据集和大中央车站GCS数据集。SDD是其中一个非常受欢迎的基准数据集它是一个由无人机摄像头以鸟瞰视角记录的大规模数据集。该数据集包含了在八个不同场景中的5232名行人的轨迹。ETH/UCY是两个数据集的组合包含五个不同的场景。ETH数据集包含两个场景ETH和HOTEL共有750名行人而UCY由三个场景组成包括786名行人分别是UNIV、ZARA1和ZARA2。GCS数据集捕捉了美国最大和最繁忙的火车站之一内复杂且人口密集的场景。该数据集包括在大约一小时内12684名行人的轨迹。评估指标我们采用了与以往工作相同的数据处理程序和评估配置。在性能评估方面我们采用了平均位移误差ADE和最终位移误差FDE作为评估指标分别衡量预测轨迹与真实轨迹GT之间的平均位置距离和目标位置距离。考虑到未来的固有不确定性和人类运动的不确定性我们为每个过去的轨迹生成K20个未来轨迹并计算最小ADE和FDEBest-of-20策略的性能正如以往工作中所做的那样。对于所有数据集我们将过去8步3.2秒作为观察轨迹并预测接下来的12步4.8秒。实施细节我们框架的实现中所有阶段的Transformer编码器都包含三层其中Transformer的维度设置为128并应用了8个注意力头。方程1中的缩放因子σs被赋予了1的值方程2中的权重超参数λd被设置为100。我们在方程4中让λtkd5和λdkd0.5。为了最大程度地保留从任务I获得的知识在训练阶段II时我们最初训练一个多层感知器MLP用于目的地回归作为热身然后联合训练整个模型。我们为所有三个训练阶段使用Adam优化器并将学习率分别设置为{0.001, 0.0001, 0.0015}。我们的所有实验都是使用PyTorch在单个RTX 3090 GPU上进行的。 4.2与最新方法的比较图3跨任务知识蒸馏KD的效用分析。通过跨任务知识蒸馏模型能够更一致地产生准确的未来轨迹。表4对SDD数据集上预训练任务的分析。我们研究了在没有任务I和任务II、只有任务II以及同时有任务I和任务II的情况下我们框架的性能。我们对提出的渐进式预训练任务学习PPT框架与多种现有方法在不同数据集上进行了定量比较。结果显示我们的框架稳定达到了最先进的SOTA性能特别是在SDD和GCS数据集上与现有的最先进的方法相比我们的框架在ADE/FDE指标上分别超过了0.58/1.01和1.22/3.15的显著差距。在斯坦福无人机数据集SDD上我们将我们的框架与8种现有方法进行了比较结果如表1所示。可以看出我们的方法显著提高了系统性能将ADE指标从7.61降低到7.03将FDE指标从11.66降低到10.65与当前最先进的方法相比。这说明了采用三阶段渐进式预训练任务来学习短期动力和长期依赖关系的有效性逐步使模型具备预测整个未来轨迹的能力。在ETH/UCY数据集上我们将我们的方法与10种现有方法进行了比较。如表2所示我们的渐进式预训练任务学习框架再次实现了最佳的预测性能与当前最先进的方法相比将平均FDE性能从0.33降低到0.31将平均ADE性能从0.21降低到0.20。在大中央车站数据集GCS上我们将提出的框架与8种最近的方法进行了比较。表3中的结果表明我们的渐进式预训练任务学习框架在ADE和FDE指标上分别显著优于当前最先进的方法EigenTrajectory [2]提高了16.4%和25.2%进一步验证了我们的PPT框架在预测未来轨迹方面的优越性。 4.3消融研究图4ADE/FDE作为方程2中权重λd的函数。λd100提供了最佳性能。图5基于Transformer模型的推理速度和预测精度。我们在SDD数据集上进一步进行了消融研究以全面分析和研究我们PPT框架中不同组件的影响包括预文本任务、跨任务知识蒸馏以及在任务II中利用的多样性损失。渐进预文本任务的效果在表4中我们评估了所使用的渐进预文本任务即任务I和任务II对系统性能的影响。具体来说我们首先使用所有三个预测任务训练模型然后依次移除任务I和任务II进行比较。可以看出这两个预文本任务都对提高系统性能有积极的贡献。此外我们的实验还表明在任务I的基础上任务II中的目的地预测性能在FDE指标上从11.58提高到10.70。我们归因于以下事实i完成任务I的模型能够有效捕捉行人轨迹建模中固有的短期动力这对预测精度贡献很大。ii完成任务II为最终的轨迹序列预测提供了指导参考和长期依赖的知识从而显著提高了FDE和ADE指标的预测性能。跨任务知识蒸馏的分析为了检验使用跨任务知识蒸馏KD的有效性我们比较了使用和不使用KD训练的模型的预测性能。我们对每个模型进行了超过20次独立运行使用不同的随机种子并将实验结果以箱线图的形式报告在图3中。如图所示使用知识蒸馏KD训练的模型在ADE和FDE指标上均实现了更好的预测性能且方差更小这表明跨任务知识蒸馏在实现预测稳定性方面很有效。多样性损失的权重影响图4展示了不同权重λd在方程2中对预测性能的影响。可以看出当权重λd100时系统实现了最佳性能。λd过小或过大都会导致性能下降。这是因为i当λd过小时模型倾向于忽略行人的意图模态导致多样性不足和预测性能变差ii当λd过大时多样性损失逐渐主导训练过程。因此模型倾向于牺牲精度以最小化多样性损失从而导致预测精度下降。 PPT的效率为了验证我们PPT的效率我们首先对其推理时间与五种现有的基于Transformer的方法进行了比较分析。如图5所示1利用所提出的可学习提示嵌入进行高效的并行生成我们的预测器实现了显著超过所有自回归预测模型的推理速度并且与一步预测模型TUTR5.28ms对比4.06ms相当。此外2通过我们的渐进式预训练任务学习框架进行训练我们的预测器在性能上始终优于所有现有的基于Transformer的方法。此外我们还注意到早期的预训练加速了后续阶段的收敛从而使得我们的PPT框架在训练时间上非常高效例如在SDD数据集上仅需4.7小时。所有结果都证明我们所提出框架的高效率和强有效性。 4.4定性结果在本小节中我们提供了一些可视化结果以验证我们的渐进式预训练任务学习框架PPT并与当前最先进的方法进行定性比较。渐进预训练任务的分析图6对预训练任务的定性分析。我们使用任务I和任务II训练的模型能够产生更准确且在时间上更可接受的轨迹。我们仔细检查了使用或不使用预训练任务I和任务II训练的框架所预测的未来轨迹。如图6所示一方面当使用预训练任务I时模型可以产生更准确的近期未来轨迹验证了使用预训练任务I捕捉短期动力的有效性。另一方面通过使用预训练任务II实现了更好的长期预测性能这表明任务II的利用对捕捉长期依赖有很大贡献。此外使用预训练任务I和任务II我们的框架可以直观地生成更准确且在时间上更可接受的未来轨迹展示了我们PPT框架中每个渐进预训练任务的有效性。与其他方法的比较图7在ETH/UCY数据集上预测轨迹的可视化。每一行展示不同场景中的一个样本。前四列展示了由PCCSNet [39]、SocialVAE [50]、MemoNet [49]和我们的PPT框架预测的20条轨迹。最后一列展示了这些方法产生的20个预测中最好的一个。红色轨迹表示真实GT未来轨迹。图7可视化了四种不同方法包括PCCSNet [39]、SocialVAE [50]、MemoNet [49]和我们的PPT框架在ETH/UCY数据集场景中预测的未来轨迹。最后一列展示了这些方法生成的20个预测中最好的一个。结果表明在所有方法中我们的PPT框架预测的未来轨迹最符合真实未来轨迹从视觉上验证了我们提出的框架的优越性。更详细地分析前四列展示了这四种方法相应预测的20条未来轨迹。我们观察到与其他方法相比我们的PPT框架在目的地预测上表现出更大的变异性同时保持了预测的准确性从而生成了更准确和多样化的未来轨迹。此外当给定一个目的地时行人通常会以相对均匀的速度朝这个目的地移动。如图所示与MemoNet [49]相比我们方法能产生更符合这种运动模式的未来轨迹。这验证了在我们PPT框架中学习和理解时间动态特别是短期动力和长期依赖对于人类轨迹建模的有效性。结论在本文中我们提出了一种新颖的渐进式预训练任务学习PPT框架用于制定行人轨迹预测通过有效地捕捉轨迹中的短期动力和长期依赖解决了以往工作的局限性。PPT包括三个阶段的渐进训练任务以增强模型的能力。任务I旨在使模型具备理解轨迹中固有的短期动力的基本能力。任务II旨在增强模型捕捉长期依赖的能力。在任务III中我们对模型进行微调以进行整个未来轨迹预测利用之前获得的知识。引入了跨任务知识蒸馏以保留来自先前预训练任务的知识。此外我们设计了一个基于Transformer的预测器来补充我们的框架该预测器通过两步推理实现了很高的效率。进行了广泛的实验以证明我们精心设计的框架的优越性。鸣谢这项工作得到国家自然科学基金U21A20-471, U22A2095, 62076260, 61772570、广东省自然科学基金项目2023B1515040025、广东省自然科学基金杰出青年项目2022B15-15020009、广东省信息安全技术重点实验室2023B1212060026及广州市科技计划项目202201011134的部分支持。参考

查看全文

http://www.w-s-a.com/news/792917/