最优化 Nesterov加速算法
8.2 最优化 Nesterov加速算法 理论介绍 Lipschitz 连续 Lipschitz 连续: 在一个连续函数$f$上面额外施加了一个限制,要求存在一个常数$K \geq 0$使得定义域内的任意两个元素$x_1$ 和 $x_2$ 都满足 $$ |f(x_1) - f(x_2)| \leq K |x_1 - x_2| $$ 此时称函数 $f$的Lipschitz常数为 K。
简单理解,就是 $f’(x) \leq K, \forall x \in R$ ,$R$为$f$的定义域
梯度下降法: 考虑以下线性转化问题: $$ b = Ax + w $$
例如在图像模糊问题中, A为模糊模板(由未模糊图像通过转换而来), b为模糊图像, w为噪声。 并且, A 和 b已知, x为待求的系数。
求解该问题的传统方法为最小二乘法,思想很简单,使得重构误差$|| Ax - b||^2$最小,即: $$ \hat{x} = arg\min_x ||Ax- b||^2 $$ 对 $f(x) = ||Ax - b||^2$求导,可得其导数为:$f’(x) = 2A^T(Ax-b)$。 对于该问题,令导数为零即可以取得最小值(函数$f(x)$为凸函数,其极小值为最小值)。