多用户旅游网站开发,国外什么推广网站好,wordpress重装教程视频,浙江省龙泉市建设局网站Sat2Vid: Street-view Panoramic Video Synthesis from a Single Satellite Image 提出了一种新颖的方法#xff0c;用于从单个卫星图像和摄像机轨迹合成时间和几何一致的街景全景视频。
即根据单个卫星图像和给定的观看位置尽可能真实地、尽可能一致地合成街景全景视频序列。…Sat2Vid: Street-view Panoramic Video Synthesis from a Single Satellite Image 提出了一种新颖的方法用于从单个卫星图像和摄像机轨迹合成时间和几何一致的街景全景视频。
即根据单个卫星图像和给定的观看位置尽可能真实地、尽可能一致地合成街景全景视频序列。 相关工作包括交叉视图合成Cross-view synthesis和视频合成以及神经渲染
交叉视图合成的重点是从给定图像的一个完全不同的视角进行合成。目前该领域的大部分工作都是针对单幅图像的合成。一个非常典型的应用是从给定的卫星图像生成街景。
视频合成根据给定的输入有多种形式大致可以分为以下三类。 (1) 无条件视频合成 , 通过将空间图像上的当前 GAN 框架进一步扩展到时间维度从给定的输入随机变量生成视频剪辑。 2未来视频预测旨在根据目前的观察结果推断视频的未来帧。 (3) 视频到视频合成将视频从源域映射到目标域例如从一系列语义分割生成 RGB 图像掩模或深度图像。 方法 网络由多个子网络组成负责在不同场景表示之间进行转换的三个处理阶段。
卫星阶段输入的卫星图像由 2D U-Net 处理生成具有相应语义的 2.5D 高度图。
转换阶段为了获得 3D 表示语义高度图被转换为语义体素占用网格。然后根据输入轨迹的采样点提取可见点。
3D 到视频生成阶段在 3D 域中运行的生成器从语义推断每个点的特征。级联的 SparseConvNet 和 RandLANet都具有沙漏结构依次作用于粗略和精细生成。使用多类纹理编码器来计算输入卫星图像的多个潜在向量。
最后具有级联特征的点云被投影到每一帧最后使用轻量级网络进行上采样以使分辨率加倍。注13D-to-video生成阶段是在BicycleGAN[47]的框架下训练的 (2) 天空点包含在管道中但此处未可视化 (3)特征用伪彩色表示。 Visible Points Extraction阶段
与输入轨迹中的采样位置一起我们创建仅包含可见点的点云并构建 3D-2D 对应关系。这对应于查找视频中每个像素的 3D 空间中的点的索引。每个像素都有唯一对应的3D点并且3D空间中的每个点可以对应多个像素。相同的映射还将用于将彩色点云投影到视频帧上。 3D Generator
在 3D 到视频生成阶段我们首先从重投影语义推断 3D 空间中点云的特征。点的语义是根据每个点在水平面上的坐标从卫星语义中收集的。远处的点简单地标记为天空。所提出的 3D 生成器由 SparseConvNet和 RandLA-Net 组成并具有级联连接。两个网络都纯粹在 3D 域中运行并具有依次作用于粗略和精细生成的沙漏结构。最后这些点被投影到帧上这些帧通过轻量级上采样模块进一步转换为输出视频。
粗生成阶段基于体素。在此阶段开始时首先根据目标体素大小对点云进行体素化。共享同一体素的多个点将被平均作为该体素的特征。在我们的实验中体素大小设置为 3.125cm每米 32 个体素。 最后网络的输出被去体素化为点云。同样共享相同体素的点将被分配给相同的特征。
精细生成阶段基于点云。该阶段的输入是中间粗特征和来自跳跃连接的原始点语义的串联。
然后视频帧中的每个像素根据变换阶段计算的点像素映射 M 从点云中的对应点收集粗略和精细特征。最后上采样模块将分辨率加倍将具有丰富特征的帧转换为输出RGB视频。 Multi-class Encoder
我们使用多类纹理编码器来计算每个类的多个潜在向量以丰富生成场景的多样性。我们的流程中使用的 BicycleGAN 中的编码器将地面真实街景 RGB 以及训练期间中心帧的语义作为输入。这里语义的作用是用于注意力池化的一个指标。获得整幅图像的特征图F后编码器并不直接进行平均池化而是对具有相同语义类别的像素的特征进行池化最终获得多个潜在向量。 计算资源a single Nvidia Tesla V100 GPU with 32GB memory. 实验结果