Optimization
1. 梯度优化中的吸引子:从数学基础到控制视角
1.1. 1. 引言:为什么需要理解吸引子
在机器学习和优化领域,我们每天都在使用梯度下降及其变体。但你是否思考过:
为什么梯度下降会收敛到某个点?它一定会收敛吗?什么决定了它收敛到哪里?
理解**吸引子(Attractor)**的概念,能帮助我们回答这些问题。吸引子是动力系统中的一种基本现象,描述系统状态随时间演化最终趋向的特定区域或点。
在优化中,吸引子对应着局部最小值(或某些情况下的鞍点)。掌握吸引子的数学条件,不仅能帮助我们设计更好的优化算法,还能理解为何某些训练过程会失败(如陷入局部最优、发散或震荡)。
1.2. 2. 动力系统基础:什么是吸引子
1.2.1. 2.1 动力系统的定义
一个连续时间动力系统由微分方程描述:
其中 是向量场, 表示状态随时间的变化率。
1.2.2. 2.2 平衡点(Equilibrium Point)
定义:点 称为平衡点,如果:
直观理解:系统到达 后不再演化,"停"在那里。
1.2.3. 2.3 吸引子的严格定义
定义(吸引子):集合 称为吸引子,如果满足:
-
不变性:从 内出发的轨迹永远留在 内
-
吸引性:存在 的邻域 ,使得对所有 :
其中 表示从 出发、时刻 的状态
-
极小性: 没有真子集也满足上述条件
吸引域(Basin of Attraction):所有最终收敛到 的初始点集合:
1.3. 3. 梯度下降的动力学
1.3.1. 3.1 从优化到动力学
给定目标函数 ,梯度下降的连续形式为:
这是一个特殊的动力系统,其中向量场 是某个标量函数的负梯度。
关键性质:这种系统称为梯度流(Gradient Flow),具有特殊的动力学行为。
1.3.2. 3.2 能量递减性质
定义"能量" ,则:
结论: 随时间单调递减(除非到达平衡点)。
这使得梯度下降成为耗散系统,能量不断耗散直至到达局部最小值。
1.4. 4. 吸引子的严格数学条件
现在回答核心问题:什么条件下点 是梯度下降的吸引子?
1.4.1. 4.1 必要条件:平衡点
定理: 是梯度下降的吸引子
证明:若 ,则 ,系统不会在 处停留, 不是平衡点,更不可能是吸引子。
满足 的点称为临界点(Critical Point),包括:
- 局部最小值
- 局部最大值
- 鞍点
1.4.2. 4.2 充分条件:局部严格凸性
定理:若 且 Hessian 矩阵 正定,则 是局部渐近稳定的吸引子。
证明(Lyapunov方法):
取 作为Lyapunov函数:
-
正定性:由于 , 是严格局部极小值,存在邻域使 for ,且
-
负定导数: for
根据Lyapunov稳定性定理, 是渐近稳定的。
1.4.3. 4.3 一维情况的简洁表达
对于 :
| 条件 | 数学表达 | 结论 |
|---|---|---|
| 平衡点 | 必要 | |
| 吸引子 | 且 | 充分 |
| 排斥子 | 且 | 不稳定 |
| 退化情况 | 且 | 需更高阶分析 |
示例:
- : 处 → 吸引子 ✓
- : 处 → 排斥子 ✗
- : 处 → 半稳定(一侧吸引一侧排斥)
1.5. 5. 高维空间与Hessian几何
1.5.1. 5.1 Hessian矩阵的特征值分解
在临界点 处,Hessian 是实对称矩阵,可对角化:
其中 为特征值, 的列为正交特征向量。
1.5.2. 5.2 临界点的分类
| Hessian特征值 | 几何形状 | 稳定性 |
|---|---|---|
| 全 | 局部凸(碗状) | 局部最小值(吸引子) ✓ |
| 全 | 局部凹(倒碗) | 局部最大值(排斥子)✗ |
| 有正有负 | 鞍形(马鞍) | 不稳定(鞍点)✗ |
| 有零特征值 | 退化/平坦方向 | 需进一步分析 |
1.5.3. 5.3 梯度下降的局部线性化
在 附近令 ,线性化:
解为
收敛速率:由最小特征值 决定,时间常数
条件数问题:若 ,收敛慢(病态条件)。
1.6. 6. 吸引域与全局收敛
1.6.1. 6.1 吸引域的复杂性
即使 是吸引子,也只有从吸引域 内出发才能收敛到 。
示例:
- 临界点:
- , → 两个局部最小(吸引子)
- → 局部最大(排斥子)
吸引域:
- 是分界线(稳定流形)
1.6.2. 6.2 全局收敛的条件
严格凸函数:若 全局严格凸( for all ),则:
- 存在唯一临界点(全局最小值)
- 吸引域为整个空间
- 梯度下降从任意初值收敛
非凸优化:深度学习中的损失函数通常非凸,存在:
- 多个局部最小值(多个吸引子)
- 鞍点(数量通常远多于局部最小值)
- 平坦区域(近似退化)
1.7. 7. 控制视角:PID如何塑造吸引子
1.7.1. 7.1 带PID的梯度下降
将PID控制引入优化,系统变为:
或离散形式:
1.7.2. 7.2 各分量的作用
| 分量 | 优化对应 | 对吸引子的影响 |
|---|---|---|
| 比例(P) | 标准梯度 | 决定吸引子位置(仍需 ) |
| 积分(I) | 动量/自适应 | 消除稳态误差,对抗噪声,可能改变吸引域 |
| 微分(D) | 二阶信息/阻尼 | 抑制振荡,改善收敛速度,影响稳定性边界 |
1.7.3. 7.3 PID对稳定性的扩展
纯梯度下降的局限:
- 学习率需满足 以保证稳定
- 在病态条件下收敛极慢
PID的优势:
- 积分项可"记忆"历史梯度,帮助穿越平坦区域
- 微分项提供"预测",减少在吸引子附近的震荡
- 适当整定可扩大稳定区域,甚至稳定原本不稳定的点(需谨慎)
注意:PID引入后,平衡点仍需 ,但稳定性条件变为特征值分析闭环系统,参数选择不当可能导致失稳或极限环。
1.8. 8. 实际案例与可视化
1.8.1. 8.1 示例:Rosenbrock函数
- 全局最小值在 ,位于狭长平坦山谷底部
- 条件数极差,标准梯度下降收敛极慢
- 带 momentum(类I项)或自适应学习率的方法显著改善
1.8.2. 8.2 深度学习中的吸引子现象
**损失景观(Loss Landscape)**研究揭示:
- 局部最小值通常具有相近的损失值(并非坏事)
- 鞍点更成问题:梯度下降会缓慢穿越
- 大批量训练倾向于收敛到"尖锐"最小值(吸引域小,泛化差),小批量到"平坦"最小值(吸引域大,泛化好)
1.9. 9. 总结与延伸阅读
1.9.1. 核心要点
-
吸引子三要素:平衡点(一阶为零)+ 局部凸性(二阶正定)+ 吸引域内初值
-
几何直觉:梯度下降沿最陡下降方向"滑向"能量碗底,碗的曲率决定滑动速度
-
高维复杂性:鞍点和退化方向使分析复杂,但Hessian特征值提供局部完整信息
-
控制增强:PID类方法通过引入记忆和阻尼,可塑造更有效的吸引动力学
1.9.2. 延伸阅读
- 经典教材:Khalil《Nonlinear Systems》(Lyapunov稳定性)
- 优化视角:Nesterov《Introductory Lectures on Convex Optimization》
- 深度学习:Goodfellow et al. 《Deep Learning》第8章(优化)
- 前沿研究:Loss Landscape papers(如 Li et al., “Visualizing the Loss Landscape of Neural Nets”, NIPS 2018)
2. Gumbel function
2.1. The probability density function(概率密度函数)
The probability density function (PDF) of gumbel distribution is,
where is the position index and the mode (众数)and is the scale index. The variance of gumbel distribution is .
2.2. The Cumulative density function (累计密度函数)
The cumulative density function (CDF) of gumbel distribution is,
CDF’s inverse function is,
3. KL (Kullback-Leibler) Divergence
3.1. Some Concepts
3.1.1. Self-Information
It can be thought of as an alternative way of expressing probability, much like odds or log-odds, but which has particular mathematical advantages in setting of information theory. It can be interpreted as quantifying the level of ‘surprise’ of a particular outcome. As it is such a basic quantify, it also appears in several other settings, such as the length of a message needed to transmit the event given an optimal source coding of random variable.
3.1.1.1. Two Axiom
- A thing which more likely to happen contains less information. The thing definitely happen contains no information.
- Two things happen independently contains the information which is the sum of their information.
Thus the Self-Information is defined as
3.2. Entropy
The Expectation of Self-Information
3.3. Cross-Entropy
3.4. KL Divergence
If Q is known and P is learn-able, .
For more read the book Deep Learning page 47.
4. Balance Multitask Training
4.1. 论文中有的方法
Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
Multi-Task Learning as Multi-Objective Optimization
Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
Bounding Box Regression with Uncertainty for Accurate Object Detection
这些论文主要是一种不确定性的方法,从预测不确定性的角度引入 Bayesian 框架,根据各 个 loss 分量当前的大小自动设定其权重。
4.2. 利用 Focal loss
Dynamic Task Prioritization for Multitask Learning
这里主要想讲的是利用 focal loss 的方法,比较简单。
每个 task 都有一个 loss 函数和 KPI (key performance indicator)。KPI 其实就是任务 的准确率,kpi 越高说明这个任务完成得越好。
对于每个进来的 batch,每个 有个 。每个 Task i 还有个不同的 。那根据 Focal loss 的定义 ,。一般来说我们 取 2。
最后 ,loss 前面乘以得这个系数 FL,就是 一个自适应的权重,当任务完成得很好的时候,权重就比较小,不怎么优化这个 loss 了, 当任务完成得不好的时候,权重就会比较大。