跳过正文
  1. Notes/

由 π3 探讨归纳偏置(Inductive Bias)

· loading · loading · ·
AI Embodied AI
目录
由 \(\pi^3\) 探讨归纳偏置(Inductive Bias)

0. 前言
#

之前我们介绍了 VGGT,这是一种端到端的三维视觉重建方法,达到了当时的 SOTA。然而,近日提出的 \(\pi^3\) ,同样是前馈神经网络,但打破了传统固定参考试图的依赖。

简单理解 VGGT(Visual Geometry Grounded Transformer)
loading · loading
AI Embodied AI

先前的方法通常将重建结果锚定在指定的视点上,这种归纳偏置在参考视点不佳时会导致不稳定和失败。相比之下, \(\pi^3\) 采用了一种完全置换等变的架构,无需任何参考坐标系即可预测仿射不变的相机位姿和尺度不变的局部点图。这种设计使得 \(\pi^3\) 对输入顺序有内在的鲁棒性和高度可扩展性。

\(\pi^3\) 的原论文如下:《\(\pi^3\): Scalable Permutation-Equivariant Visual Geometry Learning

在线的 Demo 演示可以上传自定义的图片或视频,快速构建三维场景:Pi3 - a Hugging Face Space by yyfz233

1. 主要贡献
#

先前的视觉几何重建方法都存在一个关键局限性:依赖选择单个固定参考视图,所选视图的相机坐标系被视为全局参考坐标系。然而这种设计引入了不必要的归纳偏置,从而限制了前馈神经网络的性能和鲁棒性。对任意参考视图的依赖使得这类方法对初始视图的选择高度敏感,选择不当则会导致重建质量急剧下降。

而 \(\pi^3\) 模型能够接受各种输入,不指定参考视图,而是为每帧预测一个仿射不变的相机位姿(Affine-Invariant Camera Pose)和一个尺度不变的局部几何(Scale-Invariant Local Geometry),这些都相对于该帧自身的相机坐标系,因此不需要一个全局坐标系。

通过避免使用帧索引位置嵌入这类依赖顺序的组件,以及采用在视图级和全局注意力之间交替的 Transformer 架构, \(\pi^3\) 实现了真正的置换等变性(Permutation-Equivariant)。

2. 具体方法
#

如图所示,之前的方法有两种:一种是通过拼接特殊标记来指定参考视图(Type A),一种是添加可学习嵌入来指定参考视图(Type B)。而 \(\pi^3\) 则不进行这些要求,而是采用相对监督方,使得对于输入视图的顺序有内在的鲁棒性。

3. 归纳偏置
#

在机器学习中,算法经常会做一些对目标函数的必要假设,这些假设称为归纳偏置。归纳是指从一些样本中寻找共性和泛化的规则,而偏置是指模型的偏好。简单来说,归纳偏置会使得学习算法优先考虑具有某些属性的解。

例如,DNN 认为层次化处理信息有更好的效果;CNN 认为信息具有空间局部性,可使用卷积块降低参数空间;RNN 则重点考虑时序信息,强调顺序的重要性;GNN 则认为中心节点与邻居节点的相似性能更好地引导信息流动。机器学习中有许多常见的归纳偏置(先验假设):

  • 最近邻(KNN):相近的样本应倾向于属于同一类别
  • 最少特征数量(特征选择):除非有充分证据表明某个特征是有用的,否则它应当被去掉
  • 最大边界(SVM):两个类别的分界线间边界宽度越大越好
  • 最大条件独立性(NB):贝叶斯模型架构中,条件独立性越大越好
  • 最小描述长度(奥卡姆剃刀):假设越简单,越可能是真的
  • 最小交叉验证误差(各类网络):交叉验证误差越小,假设越可能成立
  • 局部性和空间不变性/平移等效性(CNN):元素间的相关性与空间位置有关
  • 序列性和时间不变性(RNN):元素间的相关性与序列顺序和时间步有关
  • 注意力机制(Transformer):网络权重分配遵循某种注意力机制

归纳偏置的意义或作用是使得学习器具有了泛化的能力,同样的样本点,不同的归纳偏置会训练处不同倾向的模型。

参考 2020 年这篇论文:《Inductive Biases for Deep Learning of Higher-Level Cognition》,当时的机器学习系统能够利用基于大量带标签样本的监督学习(supervised learning)或基于频繁奖励信号的强化学习(reinforcement learning)在特定的任务中取得优异的性能,但当任务变化时,这些方法通常不具有鲁棒性。针对这个问题,通常是用多任务学习(multi-task learning)的方式进行训练,即利用多个数据集为模型提供不同视角。

而文中提出,人在观察世界时是具有偏好的,而 AI 作为人类的模仿,也应该探索其归纳偏置。现在来看,注意力机制、CNN、RNN等就是结合人类的观察世界时的偏好所研究出来的。然而,归纳偏置应该站在更高的角度,使得模型能够拟合一种更高层面的分布,使得其泛化能力更强。

但结合本文中提到的 \(\pi^3\) ,它恰恰是舍弃了之前方法的固定参考系的归纳偏置,从而提升了性能。这不禁让人思考, \(\pi^3\) 做到的究竟是舍弃了原有的归纳偏置,还是探索出一个更高层面的归纳偏置(即不添加固定参考系更有利于视觉几何的重建)?

4. 参考文献
#

1.远超VGGT!浙大开源π3等变视觉几何学习:姿态估计、深度估计、3D重建新SOTA!

2.【机器学习】浅谈 归纳偏置 (Inductive Bias)-CSDN博客

3.【深度学习】归纳偏置(Inductive Biases) - 知乎