当前位置: 首页 > news >正文

网站策划是什么无锡装修公司做网站

网站策划是什么,无锡装修公司做网站,邯郸市地图高清版最新,网络营销外包收费吗从单视图图像进行3D重建是计算机视觉和图形学中的一项基本任务#xff0c;因为它在游戏设计、虚拟现实和机器人技术中具有潜在的应用价值。早期的研究主要依赖于直接在体素上进行3D回归#xff0c;这往往会导致过于平滑的结果#xff0c;并且由于3D训练数据的限制#xff0… 从单视图图像进行3D重建是计算机视觉和图形学中的一项基本任务因为它在游戏设计、虚拟现实和机器人技术中具有潜在的应用价值。早期的研究主要依赖于直接在体素上进行3D回归这往往会导致过于平滑的结果并且由于3D训练数据的限制难以泛化到现实世界中的未见物体。最近扩散模型DMs通过在极大规模的数据集上进行训练在图像或视频合成上展现了强大的生成能力。这些扩散模型是用于单视图3D重建的有前途的工具因为可以从给定图像生成新颖视图的图像以实现3D重建。 为了利用图像DMs进行单视图3D重建一项开创性的工作DreamFusion尝试通过Score Distillation SamplingSDS损失从2D图像扩散中提炼出像NeRF或Gaussian Splatting这样的3D表示许多后续工作在质量和效率上改进了基于蒸馏的方法。然而这些方法存在不稳定收敛和退化质量的问题。另外最近的工作如MVDream、Sync-Dreamer、Wonder3D和Zero123通过多视图扩散明确生成多视图图像然后通过神经重建方法或大型重建模型LRMs从生成的图像中重建3D模型。明确生成多视图图像使这些方法比SDS方法更具可控性和效率因此在单视图3D重建任务中更受欢迎。 尽管多视图扩散方法取得了令人印象深刻的进步但如何为高质量3D重建高效生成新视角图像仍然是一个悬而未决的挑战。当前的多视图扩散方法面临三个显著挑战。 1预定义的相机类型不一致。大多数多视图扩散方法假设输入图像是由具有预定义焦距的相机捕获的。当输入图像是由不同类型的相机或具有不同内在特性的相机捕获时这会导致不希望的失真例如当输入图像是由焦距较小的透视相机捕获时Wonder3D对正交相机的假设会导致网格扭曲。 2多视图扩散效率低下。多视图扩散方法通常依赖于多视图注意力层来交换不同视图之间的信息以生成多视图一致的图像。然而这些多视图注意力层通常是通过将Stable Diffusion中的自注意力扩展到所有多视图图像来实现的密集多视图注意力并导致计算复杂度和内存消耗显著增加。 3生成的图像分辨率低。上述限制使得大多数现有的多视图扩散模型仅能达到256×256的分辨率这阻碍了它们重建详细的网格。解决上述挑战对于开发实用且可扩展的多视图扩散方法至关重要。 在本文中我们介绍了Era3D这是一种新颖的多视角扩散方法能够高效地生成高分辨率512×512的单视角3D重建一致多视角图像。与现有方法不同Era3D允许使用常用相机类型的图像作为输入同时缓解不同相机模型带来的不必要畸变。为此我们采用了一种独特的方法使用不同的相机模型对输入图像和生成图像进行训练这意味着输入图像可以有任意的焦距和仰角而生成图像则使用正交相机和固定的0◦仰角视角。然而这需要扩散模型在生成过程中隐式地推断和纠正输入图像的焦距和视角这是一项具有挑战性的任务会降低生成质量。为了克服这一挑战并提高生成质量我们提出了一种新颖的回归和条件方案并利用UNet在每个去噪步骤中的低级特征图来预测输入图像的相机信息。我们发现这种回归和条件方案比现有方法更准确地预测相机姿态并导致生成更多的细节。Era3D成功地避免了不同相机类型和焦距带来的上述畸变问题。 此外受到极线注意力的启发Era3D通过引入一种新颖的行级多视角注意力实现了高分辨率多视角生成的高效训练。极线约束可用于约束跨视角的注意力区域从而提高注意力的效率。然而对于一般的相机设置直接应用这种极线注意力在内存和计算上仍然效率不高因为我们必须对极线上的多个点进行采样以进行注意力计算。这需要我们为多视角图像在视锥体中构建一个3D特征网格这既慢又消耗内存。相反由于Era3D使用正交相机在0◦视角下生成图像我们发现我们的相机设置中的极线在不同视角的图像行之间是对齐的这使得我们能够提出一种高效的行级注意力层。与密集的多视角注意力相比行级注意力显著减少了多视角注意力的内存消耗35.32GB vs. 1.66GB和计算复杂度220.41ms vs. 2.23ms。即使使用Xformers一个加速注意力计算的库行级注意力的效率仍然比现有方法高出大约十二倍。因此提出的行级注意力使我们能够轻松地将Era3D扩展到512×512的高分辨率以重建更详细的3D网格。 下面一起来阅读一下这项工作~ 1. 论文信息 标题Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention 作者Peng Li, Yuan Liu, Xiaoxiao Long, Feihu Zhang, Cheng Lin, Mengfei Li, Xingqun Qi, Shanghang Zhang, Wenhan Luo, Ping Tan, Wenping Wang, Qifeng Liu, Yike Guo 机构HKUST、HKU、DreamTech、PKU、Light Illusions 原文链接https://arxiv.org/pdf/2405.11616 代码链接https://github.com/pengHTYX/Era3D 官方主页https://penghtyx.github.io/Era3D/ 2. 摘要 在本文中我们介绍了Era3D这是一种新颖的多视图扩散方法可以从单视图图像生成高分辨率的多视图图像。尽管多视图生成领域取得了显著进展但现有方法仍受到相机先验不匹配、无效性和低分辨率的困扰导致生成的多视图图像质量较差。具体而言这些方法假设输入图像应符合预定义的相机类型例如具有固定焦距的透视相机当假设不成立时会导致形状扭曲。此外它们采用的全图像或密集多视图注意力随着图像分辨率的增加会导致计算复杂度的指数爆炸从而产生令人望而却步的训练成本。为了弥合假设与现实之间的差距Era3D首先提出了一个基于扩散的相机预测模块来估计输入图像的焦距和仰角这使得我们的方法能够生成无形状扭曲的图像。此外我们还使用了一个简单但高效的注意力层称为逐行注意力来在多视图扩散中加强极线先验促进有效的跨视图信息融合。因此与最先进的方法相比Era3D能够生成高达512*512分辨率的高质量多视图图像同时将计算复杂度降低了12倍。综合实验表明Era3D可以从各种单视图输入图像中重构高质量且详细的3D网格显著优于基线多视图扩散方法。 3. 效果展示 新视角合成。首先图1展示了Era3D生成的多视角图像和法线图的几个示例。结果显示给定具有不同焦距和视角的输入图像Era3D能够生成高质量且一致的多视角图像和法线图。当输入图像由透视相机捕获且其视角不在0◦仰角时Era3D能够正确感知视角的仰角和透视畸变。然后我们的方法学习使用标准视角下的正交相机生成同一对象的高保真图像有效减少了透视畸变引起的伪影提高了重建质量。此外Era3D能够生成512×512分辨率的图像从而能够生成更多的细节如图1中“Armor”上的精细纹理和“Mecha”上的复杂结构。 重建。我们进一步进行了实验来评估重建的3D网格的质量。我们将我们的方法与RealFusion、Zero-1-to-3、One-2-3-45、Shap-E、Magic123、Wonder3D、SyncDreamer和LGM进行了比较。GSO数据集上的重建网格及其纹理如图5所示而基于文本生成的图像上的重建网格的渲染效果如图6所示。从结果中可以看出Shap-E无法生成完整的结构。One-2-3-45和LGM重建的网格由于Zero-1-to-3或ImageDream生成图像中的多视角不一致性而趋于过度平滑且缺乏细节。Wonder3D在使用35mm焦距渲染的这些输入图像上的结果往往会出现扭曲因为它假设输入图像是由正交相机捕获的。相比之下我们的结果在完整性和细节方面都比这些基线方法有了显著的改进。 4. 主要贡献 总体而言我们的主要贡献总结如下 1Era3D是首个尝试解决3D生成中不一致的相机内参所带来的畸变问题的方法 2我们设计了一种新颖的回归和条件方案使扩散模型能够接收任意相机拍摄的图像作为输入并在标准相机设置下输出正交图像 3我们提出了逐行多视角注意力机制这是一种用于高分辨率多视角图像生成的高效注意力层 4我们的方法在单视角3D生成方面取得了最先进的性能。 5. 基本原理是啥 Era3D旨在从单视角图像生成3D网格。其概述如图4所示包含三个关键组件。给定一个具有常用焦距和任意视角的输入图像Era3D在标准相机设置下生成多视角图像。为了提高生成质量我们提出了一种回归和条件方案使扩散模型能够预测准确的相机姿态和焦距并指导去噪过程。最后我们通过提出行式多视角注意力显著减少了内存消耗并提高了计算效率该方案通过多视角图像之间交换信息来维持多视角一致性。最后我们使用诸如NeuS之类的神经重建方法从生成的图像和法线图中重建3D网格。 6. 实验结果 Chamfer距离CD和交并比IoU的定量比较如表1所示。Era3D在所有其他方法中表现最佳展现出更低的Chamfer距离和更高的体积IoU这表明它生成的网格与实际3D模型更为接近。 除了已讨论的任务之外我们还在GSO数据集上进一步评估了Era3D的姿态预测。我们使用[-10, 40]度的仰角和{35, 50, 85, 105, 135, ∞}的焦距分别渲染图像。作为基准方法我们采用dinov2_vitb14特征来预测姿态并使用相同的数据集进行训练。我们将我们的预测与这个基准方法和One-2-3-45进行了比较。如表2所示Era3D在误差和方差方面均取得了优越的性能。 行式多视角注意力。如图1所示我们提出的行式多视角注意力RMA有效地促进了多视角图像之间的信息交换产生了与密集多视角注意力层相当的一致结果。在N视角相机系统中假设潜在特征的大小为S×S我们的RMA设计通过将注意力层的计算复杂度从O(N2S4)降低到O(N2S3)显著提高了训练效率。尽管极线注意力也实现了将复杂度降低到O(N2S2K)其中K是样本数量但这是以增加内存和时间消耗为代价的因为需要进行采样过程。为了进一步突出RMA相对于密集多视角注意力的效率我们展示了256和512分辨率下的内存使用情况和运行时间。我们使用了中的极线注意力实现。如表3所列随着分辨率的增加RMA的优势变得越来越明显。在512分辨率下RMA实现了内存使用量的三十倍减少和运行时间的近百倍减少。即使使用xFormers我们的方法也大大提高了训练效率22.9毫秒对比1.86毫秒。这种效率使得在更高分辨率或更密集的视角下训练模型成为可能而不会显著增加计算效率和需求从而保持了一个轻量级的框架。 7. 限制性 总结 局限性。虽然Era3D在多视角生成任务上取得了改进但我们的方法在生成如薄结构等复杂几何形状时存在困难因为我们仅生成6个多视角图像这些稀疏生成的图像难以建模复杂的几何形状。由于重建算法基于神经符号距离函数Neural SDFEra3D无法重建具有开放表面的网格。在未来的工作中我们可以将我们的框架与其他3D表示法如高斯溅射相结合以提高渲染和几何质量。 结论。在本文中我们提出了Era3D一种用于单视角3D重建的高质量多视角生成方法。在Era3D中我们建议在标准相机设置下生成图像同时允许输入图像具有任意的相机内参和视角。为了提高生成质量我们设计了一种回归和条件方案来预测输入图像的焦距和仰角这些参数进一步作为扩散过程的条件。此外我们采用行式多视角注意力机制来替代密集注意力显著降低了计算工作量并促进了高分辨率跨视角生成。与基线方法相比Era3D在单视角3D重建中实现了更高的几何质量。
http://www.w-s-a.com/news/450648/

相关文章:

  • 重庆沛宣网站建设网页制作初学者
  • php网站漂浮广告代码网络营销跟网站推广有啥区别
  • wordpress调用图片优化型网站建设的基本要求
  • 郑州模板网站建设策划公司做网站怎么赚钱滑县电
  • 东昌府聊城网站优化秦皇岛市妇幼保健院
  • 做网站能赚钱吗网页升级访问通知天天更新
  • 做网站使用什么软件的免费招聘网
  • 宁波网站建设公司推荐哪家淄博网站制作公司服务
  • 做网站网页挣钱不免费主题wordpress
  • 如何提高你的网站的粘性手机网站整站模板下载
  • 学校网站建设制度网站相关推荐怎么做
  • 昌图网站wordpress 视频外链
  • 企业网站要怎么建设重庆住房城乡建设部网站
  • html5网站特点seo教程培训班
  • 深圳网站建设哪个最好网站 多语
  • 互联网工具型网站创意网络广告
  • 影视公司网站建设网页界面设计分辨率是多少dpi
  • 免费的做微博的网站模板wordpress 页面 首页
  • 摄影图片网站网站辅导运营与托管公司
  • 做课件的网站长春免费建站模板
  • 响应式网站模板下载免费wordpress 小工具移动
  • 网站标签title在线app制作平台
  • 做电器推广的网站简洁大方的网站模板
  • 网站开发的平台100个详情页设计图
  • wordpress淘宝客建站教程视频知名的设计公司网站
  • 批量做单页网站怎么直接用代码做网站
  • 百度收录较好的网站办公室装修设计方案
  • 建设购物网站要求cnzz数据统计
  • 深圳自适应网站建设价格广东网站建设软件
  • 网页设计介绍北京网站自己做彩票网站