2026/4/6 5:49:03
网站建设
项目流程
可以做长页海报的网站,网站制作潍坊区域,物业管理系统er图,平面设计需要什么基础近日 Meta 突然开源了它的 ShapeR 项目#xff0c;ShapeR 可以利用基于对象多模态数据的 Rectified Flow Transformer#xff0c;将普通图像序列转换为完整的度量场景重建#xff0c;说人话就是#xff1a;从随手拍的视频/多张照片里#xff0c;把真实物体恢复成可用 3D 模…近日 Meta 突然开源了它的 ShapeR 项目ShapeR 可以利用基于对象多模态数据的 Rectified Flow Transformer将普通图像序列转换为完整的度量场景重建说人话就是从随手拍的视频/多张照片里把真实物体恢复成可用 3D 模型Mesh简单来说就是你可以拿着手机绕着一个物体拍一圈图片序列 / 视频帧序列ShapeR 会结合SLAM 得到的稀疏点云 相机位姿物体检测/实例分割得到的对象实例VLM 生成的文本 caption描述物体把这些多模态条件喂给生成模型最后得到物体的 metric 3D mesh带真实尺度看到这么多名词是不是有点懵这些概念性的东西我们需要简单聊聊SLAM这个是 ShapeR 的地基核心SLAM (Simultaneous Localization and Mapping) 其实就是用算法解决摄像头在陌生化环境的定位和建图实现定位的时候建图建图的时候定位的支持简单来说就是摄像头采集数据通过画面比对计算移动距离通过算法来修正误差通过回环检测来解决漂移和消除误差用人话来说就是用 SLAM 可以得到 “摄影师的足迹”和“物体的骨架”具体来自相机位姿相当于记录了你拿着手机绕着物体走动时每一步具体站在哪里手机镜头朝向哪里比如向左走了 1 米镜头向下倾斜 30 度稀疏点云相当于你在物体上撒了一把荧光粉SLAM 并不试图重建整个物体表面它只抓取最明显的特征点比如桌角、杯子的把手尖看起来稀稀拉拉像个幽灵但它锁定了物体的真实尺寸和空间位置SLAM 之所以能做到这一点核心依赖于几何学的三角测量和概率学的误差优化简单来说当你拿着手机移动时比如向右移动了 10 厘米SLAM 会对比前后两帧画面**A点比如桌上的杯子**在画面里移动了 100 个像素 - 推算它离我很近**B点窗外的树**在画面里只移动了 2 个像素 - 推算它离我很远通过这种视差配合手机摄像头移动的距离IMU 传感器提供算法就能画出一个个三角形通过几何公式算出每个特征点在三维空间中的精确坐标这在室内导航 BLE 测距离也会有类似的三角测量用法SLAM 并不是真的知道自己移动了多少米它最聪明的地方在于不追求一步到位而是不断“猜”和“改”通过假设和推算不断去修正误差最后有个回环检测比如误差越来越大但是当你绕了一圈回到原点时摄像头拍到了之前的场景比对之后会发这个画面和之前 5 分钟的画面重合那么它会把过去 5 分钟积累的所有位置偏差强制拉回这就是 SLAM 的简单概念实际上这也是移动开发里的 ARCore 和 ARkit 的基础概念之一同时对于机器人、无人机或者 XR SLAM 也是非常重要的基础如果用人话来说就是SLAM 是把硬件数据IMU 的加速度、摄像头的像素变化转化为了几何约束眼睛Camera提供角度信息我知道杯子在那个方向前庭IMU提供尺度信息我感觉我向前冲了 1 米大脑Algorithm通过几何公式把角度和尺度结合算出距离再通过记忆回环检测修正走过的路物体检测 / 实例分割物体检测 / 实例分割Object Detection / Instance Segmentation简单说就是 “自动抠图”和“聚光灯”你拍的是整个房间但你只想重建桌上的那个茶壶这就需要一个算法能自动在乱糟糟的背景里把茶壶给“圈出来”画个框甚至精确到把茶壶的每一个像素都涂上颜色把背景剔除掉这就是把茶壶从环境里“抠”出来具体到实现上就是物体检测 (Detection)输出一个 Bounding Box边界框告诉系统物体大概在哪比如[x1, y1, x2, y2]实例分割 (Instance Segmentation)输出一个 Binary Mask二值掩码在这个掩码图里属于茶壶的像素是 1背景是 0ShapeR 是 Object-Centric以物体为中心的它需要这些 Mask 来告诉生成模型“只准重建这个茶壶不要把后面的墙壁和下面的桌子也算进去了”VML最后是 VLM (Visual Language Model generated Captions) 生成的文本 Caption通俗理解来说就是“给 AI 的命题作文”虽然有了照片但生成模型有时候比较“笨”它可能看不清照片里的细节比如模糊了或者被挡住了这时就需要一个专门懂图片的 AIVLM类似 GPT-4V让它看一眼照片然后写一段话“这是一个红色的复古木质椅子椅背有雕花坐垫是天鹅绒材质。”也就是针对图形增加一点文本表述提供更准确的语义照片提供了“几何外观”文本提供了“概念理解”防止照片里因为反光或遮挡导致细节丢失时模型可以根据这段文本描述利用其训练库里关于“复古木质椅子”的知识合理地“脑补”出看不清的细节。所以 ShapeR 基本概念就是通过这三者完成建模SLAM 提供骨架和尺子“雕像必须这么高膝盖必须在这里不能乱动。”保证准确度实例分割提供一个轮廓剪影“只能在这个范围内雕刻别把旁边的花瓶也雕进去了。”保证独立性VLM Caption 提供附录“这可是个由桃花心木做的 18 世纪风格椅子纹理要细腻。”保证细节和合理性那么从前面的概念也可以看出来ShapeR 的特点是它不是直接重建一个整体 NeRF / TSDF 场景块而是先检测场景中的多个对象 然后对每个对象单独重建 mesh 最后再组装成场景。所以在 ShapeR 里你可以单独拿出某个物体比如椅子/桌子替换/移动/重新摆放导出到 DCC/引擎里编辑Blender/Unity/Unreal换个概念简单理解以前你只能得到一个 PNG现在你可以得到一个 PSD那你可能会说它有什么作用实际上它的作用还挺丰富比如AR 场景理解 / 虚拟摆放机器人避障、navigation具身 AI 的数据集构建真实物体 mesh 尺度ShapeR 可以把“现实物体”的视频快速转成结构化的 3D 资产mesh 级别当然事实上 ShapeR 不是“直接吃视频就出 3D”它吃的是预处理后的 per-object 数据包pkl里面包含物体的稀疏 metric point cloud来自 SLAM / SfM带位姿的多视图图像posed images物体的 caption 文本描述物体的 2D/3D 实例信息用于从场景里拆出物体所以 ShapeR 的核心难点确实不在模型推理本身而在于数据准备目前 ShapeR 的代码库明确指出它的前提是假设数据已经通过Aria MPS (Machine Perception Services)流水线处理过。所以不得不说官方宣传的“随手拍”很美好但是实际上并不是想象中那么简单在他们提供的场景下录制设备Meta 内部的Project Aria 眼镜智能眼镜数据准备使用 【Aria MPS 服务】 【3D 实例检测】 【VLM caption】将眼镜录制的数据转换为上述的.pkl格式这里的 Aria MPS 是闭源的服务MPS 内部使用的 SLAM定位与地图构建、3D 重建、手部追踪等核心算法暂时只面向 Project Aria Research KitARK研究合作伙伴开放。目前官方已经发布ShapeR Evaluation Dataset里面每个样本就是推理要用的.pkl包含点云、multi-view 图像、相机参数/位姿、caption、GT mesh 等如果只是想测试可以下载他们的 evaluation datasetHuggingFace 上的facebook/ShapeR-Evaluation项目页也有 Data 链接直接跑推理python infer_shape.py --input_pkl sample.pkl --config balance --output_dir output所以如果你不是合作伙伴没有 Project Aria 眼镜那么你只能用它已有的数据集玩玩从项目看大概率这会是一个服务收费的项目。那我们有没有机会自己玩一下呢也是有的ShapeR 特意提供了一个explore_data.ipynb来解释这个 pkl 的结构只是自己做数据这个过程就相当麻烦了你需要的路径就会复杂很多并且也不确定是否可以走的通我们需要使用 ARKit/ARCore 采集数据录 RGB 帧 时间戳 IMU 相机内参最好还有 VIO/轨迹比如用 iPhone 的 Stray Scanner 数据采集的 App它能记录video depth LiDAR ARKit 的 VIO里程计/位姿。当然Stray Scanner 导出的数据格式不能直接支持 ShapeR 要求的输入格式单一结构化.pkl所以需要转为它支持的格式这个目前需要自己参考项目数据结构去变更工作量巨大。另外官方也提供了一个叫MapAnything的“通用、前馈式 metric 3D 重建模型”可以从输入图像ShapeR 甚至可以从单目图像生成度量三维形状而无需重新训练直接回归带度量尺度的几何和相机信息所以也可以作为 ShapeR “替代 MPS 的 metric points 生成器” 。所以一般来说我们只能期待后续有更完善的转换工具或者社区第三方的工具支持这才是真的可以做到随手建模甚至实时运算的效果但是这个路线不管对于智能眼镜XR 场景还是机器人的导航能力都是一个非常不错的尝试方向。最后总结一下ShapeR 的核心就是即使数据不全不干净也可以脑补出完整模型并且具备精准的尺寸和独立的模型与坐标。ShapeR 不是为了替代 Gaussian Splatting 做场景漫游的它的目标是当你戴着 AR 眼镜或拿着手机扫过房间时它能把你看到的每一个具体的物体杯子、椅子、键盘瞬间变成一个个独立的、有真实尺寸的、完整的 3D 模型哪怕你只是匆匆扫了一眼。这就是为什么 Meta 如此重视它因为这是大概率通往下一代空间计算理解物理世界的关键技术。参考链接https://github.com/facebookresearch/ShapeR