你的位置：任丘市奥力斯涂料厂 > 联系奥力斯 >

永州家具封边胶次三篇! 李飞飞的空间智能公司, 发论文了

发布日期：2026-06-15 05:26:55 点击次数：61

万能胶厂家

编辑｜Panda

今天，由李飞飞联创立的空间智能公司 World Labs 在同天发布了三篇技术论文！

三篇论文分别由公司内部实习生主完成，研究向各异，但共享同个核心命题：借助已在海量图片数据上训练成熟的 2D 生成模型，降低 3D 内容生成的难度门槛。

值得注意的是，正如 World Labs 联创始人 Justin Johnson 所言，尽管该公司此前已有成果展示，但这三篇论文确是该公司的批论文（first-ever papers）。

回到这三篇论文的主题：3D 内容生成。这是个长期以来「说起来简单、做起来难」的域。

现实世界是三维的，但训练数据大多数是二维的（包括照片、、图像），而不是带有体积、度和遮挡关系的完整空间结构。旦转入三维，训练数据骤减，几何致的维护变得指数复杂。

过去数年，研究者们已经找到了条可行路径：不从头训练 3D 生成模型，而是将 2D 扩散模型的强大先验能力迁移到 3D 生成任务中。

World Labs 这次发布的三篇论文，分别从不同角度延伸了这条思路。

三项研究的具体切入点各有侧重：

World Tracing 解决的是「从单张图像恢复可见表面之外的完整三维几何」问题；

Modality Forcing 探索的是「如何让个文生图模型同时具备度感知和 3D 理能力」；

Flex4DHuman 则将问题延伸到时间维度，尝试从普通单目中提升出可成的动态 4D 人体。

值得注意的是，就在论文发布的同天，World Labs 联创始人 Christoph Lassner 在社交媒体上宣布因病将离开公司，为这场学术亮相增添了丝人事变局的注脚。

下面我就来具体看看 World Labs 的批论文。

World Tracing

让每个像素，都指向个完整的 3D 世界

如果你手中只有张照片，你能从中恢复多少三维信息？

常识告诉我们：很有限。照片只是现实世界在某时刻、某视角下的投影，度信息丢失，遮挡面后的空间缺席。当前主流的单图转 3D 法，通常面临个两难困境：要么做度估计（精确但只能恢复可见表面）；要么做生成补全（想象力丰富但结果往往偏离原始图像的视觉细节）。

World Tracing 案试图同时消解这两种缺陷。

论文标题：World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

论文地址：https://arxiv.org/abs/2606.13652

项目地址：https://haoz19.github.io/world-tracing-page/

论文由 Hao Zhang 主，团队成员包括 World Labs 联创始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人。

核心思路是：将每个输入像素视为条射线，沿着这条射线预测组有序的三维坐标点—— 0 层是可见表面，之后各层依次是沿该射线向的被遮挡几何体。论文将这种表示称为「pixel-aligned multilayer geometry representation」（像素对齐的多层几何表示），具体实现为个多层 XYZ 坐标张量（multilayer XYZ stack）。

换句话说，World Tracing 给每个像素对应的不只是个三维点，而是叠有序的三维点，记录了这条视线穿越场景所经过的所有几何层： 0 层是直接可见的表面，的层则逐步揭示被前景物体遮挡的隐藏几何体。

这就像是把相机比作支铅笔：普通度估计只能画出物体的轮廓线，而 World Tracing 试图画出这支铅笔穿透纸张时，另面的样子。

预测这种「度堆叠」本身是难度的任务，因为遮挡面的几何信息根本没有出现在图像中，模型须依赖对现实世界空间结构的「常识」来进行断。

为此，研究团队采用了扩散模型来对这组有序度值建模。扩散模型适处理带有不确定的分布式预测，而非给出单确定答案。

关键的是，整个预测过程始终对齐于原始输入图像的像素坐标。可见表面的度被精确地「锚定」在图像信息中，而不可见部分的补全则在这个约束框架下进行生成。这使得终的三维重建既忠实于输入图像，又具备完整的空间结构。

论文中展示的案例覆盖了静态物体、室内外场景，乃至动态世界建模。团队还发布了论文代码、项目主页和 Hugging Face 在线演示，让外界能够直接测试这套法对任意图像的处理果。

对于 World Labs 这样以「空间智能」为核心产品向的公司来说，World Tracing 的意义在于：它提供了种从单张图像出发、直接恢复丰富三维结构的技术路径，而不需要多视角输入或昂贵的三维数据标注。这与 Marble 产品「从图像生成可探索三维世界」的核心承诺度致。

Modality Forcing

个模型，同时理解颜、文字和度

度估计和图像生成，在传统上是两个立的任务，分别需要门的数据集和立训练的模型。前者需要精确的度标注（LiDAR 扫描或双目视觉），后者依赖海量图文对。两套任务的数据规模相差悬殊——图像生成模型见过数十亿张图片，而度模型的训练数据量通常只是头。

这种不对称，催生了个自然的问题：能否让已经在海量图文数据上训练成熟的文生图模型，直接学会对度的感知？

Modality Forcing 给出了个肯定的回答，并走得远。

论文标题：Modality Forcing for Scalable Spatial Generation

论文地址：https://arxiv.org/abs/2606.13676

项目地址：https://modality-forcing.github.io/

这篇由 Bardienus Duisterhof 主的 World Labs 实习研究，核心主张是：文生图是种可扩展的 3D 理预训练目标，只要用对训练策略，同个模型可以在 RGBD 生成、度估计和度条件图像生成三项任务之间自由切换。

论文提出的法名为「Modality Forcing」，其核心机制是：给 RGB 和度两种模态分别分配立的扩散噪声时间步（per-modality noise levels）。

训练时，RGB 和度各自被加入不同程度的噪声，同时接受各自立的损失监督；理时，只需固定某模态的噪声步为 0（即视为已知条件），对另模态完整去噪，便可实现图像→度（I2D）或度→图像（D2I）的条件生成；两者均加噪则为联生成。

由于度在像素空间（而非 VAE 隐空间）中直接扩散，模型可以从仅含稀疏度标注的真实世界数据中学习，不再局限于依赖密集标注的成数据集。

这种思路的优势在于：不需要额外引入立的度网络，也不需要为每个任务单设计架构分支。个预训练的文生图模型，通过 Modality Forcing 微调之后，就具备了对场景几何的直接感知能力。

从技术路径来看，Modality Forcing 与近年来流行的多任务扩散模型研究（如 Marigold、Depth Pro、Lotus 等）向致，但其特之处在于对「生成」与「感知」两类任务的统处理。度估计通常被视为个判别任务（给定图像，输出度值），而文生图是个生成任务。

Modality Forcing 的贡献在于证明：这两种任务之间的边界比想象中模糊得多；生成能力的积累，可以直接转化为感知能力的提升，反之亦然。

对 World Labs 来说，这项研究的意义延伸到产品层面：Marble 的 3D 世界生成需要对场景度的精确理解。个同时具备生成和感知能力的统模型，将使 3D 世界的构建加自洽，避度估计模块和生成模块之间的累积误差。

Flex4DHuman

从段手机，「升维」出可成的动态人体

如果说前两篇论文处理的是静态或通用场景，泡沫板橡塑板专用胶Flex4DHuman 则将挑战聚焦于个具体但同样重要的子问题：如何从段普通的单目（比如手机拍摄的日常），重建出动态人体的完整四维结构，即三维空间+时间维度。

这个问题的难点在于「单目」两个字。多目摄像系统可以通过视差直接测量三维坐标，但单目丢失了这种几何约束。从单目重建运动中的三维人体，本质上是个欠约束问题：同段序列，理论上对应数种可能的三维运动轨迹。此前的法大多依赖优化过程，计耗时，且难以泛化到训练集以外的姿态和外观。

Flex4DHuman 由 Yipeng Wang 担任项目负责人，作者为 Jen-Hao Cheng，工作在 World Labs 实习期间完成。

论文标题：Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

论文地址：https://arxiv.org/abs/2606.13655

项目地址：https://andy-cheng.github.io/Flex4DHuman/

法以阿里巴巴的 Wan 2.1（个 1.3B 参数的文本生成 DiT）为基础进行微调，核心改动只有处：将原有的时空位置编码替换为套五轴位置编码（five-axis positional encoding），在原有的空间坐标和帧序索引之外，额外引入视角槽索引和连续 SE(3) 相对相机几何，使模型在注意力机制内部直接感知相机之间的相对位姿关系。

这个设计带来了个关键优势：不需要骨架估计（skeleton）、度图或法线图等显式几何先验，仅凭相对相机姿态就能驱动多视角的同步生成。这与此前主流法（如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖度和法线渲染）形成鲜明对比。

给定段单目参考和目标相机姿态，模型直接输出在时间上同步、视角上致的多视角序列；再将这些多视角送入 FreeTimeGS 重建管线，即可得到动态 4D 斯表示（4D Gaussian Splats）。

这套流程将扩散模型的强大外观先验与 4D 斯的渲染能力结起来，使得从段跳舞或行走出发，可以将其中的人物「升维」为完整的动态 4D 资产，再成进任意 3D 场景。这对于数字内容创作、虚拟制片和 AR/VR 应用具有直接价值。

论文还验证了法出人体的泛化：同个模型经过少量微调后，可以广到多物种动物的多视角生成，在跨物种样本测试中仍保持较强能，表明法的核心设计不依赖人体特有的几何假设。

论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。与同样基于单目参考的 Diffuman4D-mono-skeleton 相比，Flex4DHuman 在 DNA-Rendering 上 PSNR 提升约 9.3 dB；在样本的 ActorsHQ 测试集上，PSNR 也出对手约 3.4 dB。

从宏观的视角来看，Flex4DHuman 代表了「2D 数据赋能 3D 世界建模」这技术路线的个典型样本。手机是人类日常生产多的数据形式，如果能够地从中提取四维信息，将大扩展 3D 世界模型的训练数据来源。

联创 Christoph Lassner 宣布离职

就在三篇论文发布的同天，World Labs 联创始人 Christoph Lassner 在 X 平台发帖，宣布自己将离开公司，开启下段旅程。

Lassner 是 World Labs 四位联创始人之，另外三位分别是李飞飞、Justin Johnson 和 Ben Mildenhall。他长期从事计机视觉与计机图形学交叉域的研究，注于从 2D 图像和中恢复可用的三维内容。

在加入 World Labs 之前，Lassner 的职业轨迹覆盖了多个行业前沿。他曾在初创公司 Bodylabs 工作，该公司后被亚马逊收购，注于基于图像的三维人体建模；在亚马逊期间，他主开发了 Amazon Halo 智能手环的三维体型估系统，用户仅需手机自拍，即可获得精确的三维身材模型。此后，他先后在 Meta Reality Labs Research 和 Epic Games 主持研究团队，耕经渲染和 NeRF（经辐射场）相关技术，2022 年 Meta Connect 大会上展示的实时辐射场渲染演示，正是他所在团队的成果之。他还开发了 Pulsar 渲染器，种基于球体基元的可微分渲染器，后来成为 PyTorch3D 的后端组件之，在学术界得到广泛应用。

Lassner 于 2024 年初与李飞飞等人共同创立 World Labs。公司于同年 9 月从隐身状态中走出，以约 10 亿美元估值完成 2.3 亿美元融资，投资包括 NVIDIA、AMD、Adobe 和 Databricks 旗下风险投资机构。2026 年 2 月，World Labs 完成了由 Autodesk 投的 10 亿美元新轮融资，估值跃升至约 50 亿美元。

三篇论文的致谢列表中均出现了 Lassner 的名字，这意味着他在职期间积参与了这些实习研究项目。

对于离职的原因，Lassner 在公开声明中做了坦诚的说明：过去几个月里，他经历了数起个人事故，其中包括次造成多处骨折和脑震荡的意外，目前仍在恢复中。这段强制休息的时间让他有机会重新审视自己的处境，并做出了退出日常运营职务的决定。他同时表示，将继续以顾问身份支持公司，并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这决定过程中给予的理解和支持表达了感谢。

在向公司内部团队发送的信件中，Lassner 写道，他「信 World Labs 以及我们正在构建的事业的重要」，公司目前所处的强劲位置让他确信此刻是交棒的适时机。他表示，自己下步的计划尚不明确，但「对即将到来的事感到兴奋」。

结语

三篇论文同日亮相，对 World Labs 而言是个值得记录的时间节点。这公司自 2024 年创立以来，主要以技术博客和产品的形式与公众见面：Marble 世界模型的内测与公测、World API 的开放、Spark 2.0……而这次是公司次以 arXiv 预印本形式正式发表学术论文。

这次的集体亮相，联创始人 Justin Johnson 在 X 上的评论或许能说明其背景意涵：「3D 是个令人兴奋的域，我们仍在摸索正确的任务定义、问题形式、模型架构，以及佳的扩展式。我们在这里分享些想法，由批出的实习生主完成。」

语气谦逊，但向很清晰：World Labs 正在将「空间智能」的研究路线向处，并愿意在这过程中与学术社区分享自己的思考。

文中链接：https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQ相关词条:玻璃棉毡塑料挤出机预应力钢绞线铁皮保温万能胶生产厂家

奥力斯 PVC管道管件粘结胶价格联系人：王经理手机：18231788377（微信同号）地址：河北省任丘市北辛庄乡南代河工业区/p>

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述永州家具封边胶，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：萍乡PVC管道管件粘结胶东甄选转型：从“人带货”到“货找人”的售终局
下一篇：海东万能胶厂安切洛蒂: 内马尔缺席巴西队战, 下周能恢复训练

永州家具封边胶次三篇! 李飞飞的空间智能公司, 发论文了

最新资讯

推荐资讯

友情链接：

永州家具封边胶 次三篇! 李飞飞的空间智能公司, 发论文了

最新资讯

推荐资讯

友情链接：

永州家具封边胶次三篇! 李飞飞的空间智能公司, 发论文了