永州家具封边胶 次三篇! 李飞飞的空间智能公司, 发论文了

万能胶厂家

编辑|Panda

今天,由李飞飞联创立的空间智能公司 World Labs 在同天发布了三篇技术论文!

三篇论文分别由公司内部实习生主完成,研究向各异,但共享同个核心命题:借助已在海量图片数据上训练成熟的 2D 生成模型,降低 3D 内容生成的难度门槛。

值得注意的是,正如 World Labs 联创始人 Justin Johnson 所言,尽管该公司此前已有成果展示,但这三篇论文确是该公司的批论文(first-ever papers)。

回到这三篇论文的主题:3D 内容生成。这是个长期以来「说起来简单、做起来难」的域。

现实世界是三维的,但训练数据大多数是二维的(包括照片、、图像),而不是带有体积、度和遮挡关系的完整空间结构。旦转入三维,训练数据骤减,几何致的维护变得指数复杂。

过去数年,研究者们已经找到了条可行路径:不从头训练 3D 生成模型,而是将 2D 扩散模型的强大先验能力迁移到 3D 生成任务中。

World Labs 这次发布的三篇论文,分别从不同角度延伸了这条思路。

三项研究的具体切入点各有侧重:

World Tracing 解决的是「从单张图像恢复可见表面之外的完整三维几何」问题;

Modality Forcing 探索的是「如何让个文生图模型同时具备度感知和 3D 理能力」;

Flex4DHuman 则将问题延伸到时间维度,尝试从普通单目中提升出可成的动态 4D 人体。

值得注意的是,就在论文发布的同天,World Labs 联创始人 Christoph Lassner 在社交媒体上宣布因病将离开公司,为这场学术亮相增添了丝人事变局的注脚。

下面我就来具体看看 World Labs 的批论文。

World Tracing

让每个像素,都指向个完整的 3D 世界

如果你手中只有张照片,你能从中恢复多少三维信息?

常识告诉我们:很有限。照片只是现实世界在某时刻、某视角下的投影,度信息丢失,遮挡面后的空间缺席。当前主流的单图转 3D 法,通常面临个两难困境:要么做度估计(精确但只能恢复可见表面);要么做生成补全(想象力丰富但结果往往偏离原始图像的视觉细节)。

World Tracing 案试图同时消解这两种缺陷。

论文标题:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible

论文地址:https://arxiv.org/abs/2606.13652

项目地址:https://haoz19.github.io/world-tracing-page/

论文由 Hao Zhang 主,团队成员包括 World Labs 联创始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人。

核心思路是:将每个输入像素视为条射线,沿着这条射线预测组有序的三维坐标点—— 0 层是可见表面,之后各层依次是沿该射线向的被遮挡几何体。论文将这种表示称为「pixel-aligned multilayer geometry representation」(像素对齐的多层几何表示),具体实现为个多层 XYZ 坐标张量(multilayer XYZ stack)。

换句话说,World Tracing 给每个像素对应的不只是个三维点,而是叠有序的三维点,记录了这条视线穿越场景所经过的所有几何层: 0 层是直接可见的表面,的层则逐步揭示被前景物体遮挡的隐藏几何体。

这就像是把相机比作支铅笔:普通度估计只能画出物体的轮廓线,而 World Tracing 试图画出这支铅笔穿透纸张时,另面的样子。

预测这种「度堆叠」本身是难度的任务,因为遮挡面的几何信息根本没有出现在图像中,模型须依赖对现实世界空间结构的「常识」来进行断。

为此,研究团队采用了扩散模型来对这组有序度值建模。扩散模型适处理带有不确定的分布式预测,而非给出单确定答案。

关键的是,整个预测过程始终对齐于原始输入图像的像素坐标。可见表面的度被精确地「锚定」在图像信息中,而不可见部分的补全则在这个约束框架下进行生成。这使得终的三维重建既忠实于输入图像,又具备完整的空间结构。

论文中展示的案例覆盖了静态物体、室内外场景,乃至动态世界建模。团队还发布了论文代码、项目主页和 Hugging Face 在线演示,让外界能够直接测试这套法对任意图像的处理果。

对于 World Labs 这样以「空间智能」为核心产品向的公司来说,World Tracing 的意义在于:它提供了种从单张图像出发、直接恢复丰富三维结构的技术路径,而不需要多视角输入或昂贵的三维数据标注。这与 Marble 产品「从图像生成可探索三维世界」的核心承诺度致。

Modality Forcing

个模型,同时理解颜、文字和度

度估计和图像生成,在传统上是两个立的任务,分别需要门的数据集和立训练的模型。前者需要精确的度标注(LiDAR 扫描或双目视觉),后者依赖海量图文对。两套任务的数据规模相差悬殊——图像生成模型见过数十亿张图片,而度模型的训练数据量通常只是头。

这种不对称,催生了个自然的问题:能否让已经在海量图文数据上训练成熟的文生图模型,直接学会对度的感知?

Modality Forcing 给出了个肯定的回答,并走得远。

论文标题:Modality Forcing for Scalable Spatial Generation

论文地址:https://arxiv.org/abs/2606.13676

项目地址:https://modality-forcing.github.io/

这篇由 Bardienus Duisterhof 主的 World Labs 实习研究,核心主张是:文生图是种可扩展的 3D 理预训练目标,只要用对训练策略,同个模型可以在 RGBD 生成、度估计和度条件图像生成三项任务之间自由切换。

论文提出的法名为「Modality Forcing」,其核心机制是:给 RGB 和度两种模态分别分配立的扩散噪声时间步(per-modality noise levels)。

训练时,RGB 和度各自被加入不同程度的噪声,同时接受各自立的损失监督;理时,只需固定某模态的噪声步为 0(即视为已知条件),对另模态完整去噪,便可实现图像→度(I2D)或度→图像(D2I)的条件生成;两者均加噪则为联生成。

由于度在像素空间(而非 VAE 隐空间)中直接扩散,模型可以从仅含稀疏度标注的真实世界数据中学习,不再局限于依赖密集标注的成数据集。

这种思路的优势在于:不需要额外引入立的度网络,也不需要为每个任务单设计架构分支。个预训练的文生图模型,通过 Modality Forcing 微调之后,就具备了对场景几何的直接感知能力。

从技术路径来看,Modality Forcing 与近年来流行的多任务扩散模型研究(如 Marigold、Depth Pro、Lotus 等)向致,但其特之处在于对「生成」与「感知」两类任务的统处理。度估计通常被视为个判别任务(给定图像,输出度值),而文生图是个生成任务。

Modality Forcing 的贡献在于证明:这两种任务之间的边界比想象中模糊得多;生成能力的积累,可以直接转化为感知能力的提升,反之亦然。

对 World Labs 来说,这项研究的意义延伸到产品层面:Marble 的 3D 世界生成需要对场景度的精确理解。个同时具备生成和感知能力的统模型,将使 3D 世界的构建加自洽,避度估计模块和生成模块之间的累积误差。

Flex4DHuman

从段手机,「升维」出可成的动态人体

如果说前两篇论文处理的是静态或通用场景,泡沫板橡塑板专用胶Flex4DHuman 则将挑战聚焦于个具体但同样重要的子问题:如何从段普通的单目(比如手机拍摄的日常),重建出动态人体的完整四维结构,即三维空间+时间维度。

这个问题的难点在于「单目」两个字。多目摄像系统可以通过视差直接测量三维坐标,但单目丢失了这种几何约束。从单目重建运动中的三维人体,本质上是个欠约束问题:同段序列,理论上对应数种可能的三维运动轨迹。此前的法大多依赖优化过程,计耗时,且难以泛化到训练集以外的姿态和外观。

Flex4DHuman 由 Yipeng Wang 担任项目负责人,作者为 Jen-Hao Cheng,工作在 World Labs 实习期间完成。

论文标题:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction

论文地址:https://arxiv.org/abs/2606.13655

项目地址:https://andy-cheng.github.io/Flex4DHuman/

法以阿里巴巴的 Wan 2.1(个 1.3B 参数的文本生成 DiT)为基础进行微调,核心改动只有处:将原有的时空位置编码替换为套五轴位置编码(five-axis positional encoding),在原有的空间坐标和帧序索引之外,额外引入视角槽索引和连续 SE(3) 相对相机几何,使模型在注意力机制内部直接感知相机之间的相对位姿关系。

这个设计带来了个关键优势:不需要骨架估计(skeleton)、度图或法线图等显式几何先验,仅凭相对相机姿态就能驱动多视角的同步生成。这与此前主流法(如 Diffuman4D 依赖 SMPL 骨架、MV-Performer 依赖度和法线渲染)形成鲜明对比。

给定段单目参考和目标相机姿态,模型直接输出在时间上同步、视角上致的多视角序列;再将这些多视角送入 FreeTimeGS 重建管线,即可得到动态 4D 斯表示(4D Gaussian Splats)。

这套流程将扩散模型的强大外观先验与 4D 斯的渲染能力结起来,使得从段跳舞或行走出发,可以将其中的人物「升维」为完整的动态 4D 资产,再成进任意 3D 场景。这对于数字内容创作、虚拟制片和 AR/VR 应用具有直接价值。

论文还验证了法出人体的泛化:同个模型经过少量微调后,可以广到多物种动物的多视角生成,在跨物种样本测试中仍保持较强能,表明法的核心设计不依赖人体特有的几何假设。

论文在 DNA-Rendering 和 ActorsHQ 两个基准上进行了评测。与同样基于单目参考的 Diffuman4D-mono-skeleton 相比,Flex4DHuman 在 DNA-Rendering 上 PSNR 提升约 9.3 dB;在样本的 ActorsHQ 测试集上,PSNR 也出对手约 3.4 dB。

从宏观的视角来看,Flex4DHuman 代表了「2D 数据赋能 3D 世界建模」这技术路线的个典型样本。手机是人类日常生产多的数据形式,如果能够地从中提取四维信息,将大扩展 3D 世界模型的训练数据来源。

联创 Christoph Lassner 宣布离职

就在三篇论文发布的同天,World Labs 联创始人 Christoph Lassner 在 X 平台发帖,宣布自己将离开公司,开启下段旅程。

Lassner 是 World Labs 四位联创始人之,另外三位分别是李飞飞、Justin Johnson 和 Ben Mildenhall。他长期从事计机视觉与计机图形学交叉域的研究,注于从 2D 图像和中恢复可用的三维内容。

在加入 World Labs 之前,Lassner 的职业轨迹覆盖了多个行业前沿。他曾在初创公司 Bodylabs 工作,该公司后被亚马逊收购,注于基于图像的三维人体建模;在亚马逊期间,他主开发了 Amazon Halo 智能手环的三维体型估系统,用户仅需手机自拍,即可获得精确的三维身材模型。此后,他先后在 Meta Reality Labs Research 和 Epic Games 主持研究团队,耕经渲染和 NeRF(经辐射场)相关技术,2022 年 Meta Connect 大会上展示的实时辐射场渲染演示,正是他所在团队的成果之。他还开发了 Pulsar 渲染器,种基于球体基元的可微分渲染器,后来成为 PyTorch3D 的后端组件之,在学术界得到广泛应用。

Lassner 于 2024 年初与李飞飞等人共同创立 World Labs。公司于同年 9 月从隐身状态中走出,以约 10 亿美元估值完成 2.3 亿美元融资,投资包括 NVIDIA、AMD、Adobe 和 Databricks 旗下风险投资机构。2026 年 2 月,World Labs 完成了由 Autodesk 投的 10 亿美元新轮融资,估值跃升至约 50 亿美元。

三篇论文的致谢列表中均出现了 Lassner 的名字,这意味着他在职期间积参与了这些实习研究项目。

对于离职的原因,Lassner 在公开声明中做了坦诚的说明:过去几个月里,他经历了数起个人事故,其中包括次造成多处骨折和脑震荡的意外,目前仍在恢复中。这段强制休息的时间让他有机会重新审视自己的处境,并做出了退出日常运营职务的决定。他同时表示,将继续以顾问身份支持公司,并对李飞飞、Justin Johnson 和 Ben Mildenhall 在这决定过程中给予的理解和支持表达了感谢。

在向公司内部团队发送的信件中,Lassner 写道,他「信 World Labs 以及我们正在构建的事业的重要」,公司目前所处的强劲位置让他确信此刻是交棒的适时机。他表示,自己下步的计划尚不明确,但「对即将到来的事感到兴奋」。

结语

三篇论文同日亮相,对 World Labs 而言是个值得记录的时间节点。这公司自 2024 年创立以来,主要以技术博客和产品的形式与公众见面:Marble 世界模型的内测与公测、World API 的开放、Spark 2.0……而这次是公司次以 arXiv 预印本形式正式发表学术论文。

这次的集体亮相,联创始人 Justin Johnson 在 X 上的评论或许能说明其背景意涵:「3D 是个令人兴奋的域,我们仍在摸索正确的任务定义、问题形式、模型架构,以及佳的扩展式。我们在这里分享些想法,由批出的实习生主完成。」

语气谦逊,但向很清晰:World Labs 正在将「空间智能」的研究路线向处,并愿意在这过程中与学术社区分享自己的思考。

文中链接:https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQ相关词条:玻璃棉毡     塑料挤出机     预应力钢绞线    铁皮保温    万能胶生产厂家

奥力斯    PVC管道管件粘结胶价格     联系人:王经理    手机:18231788377(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区/p>

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述永州家具封边胶,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

产品中心 新闻资讯 联系奥力斯