avatar

要么出众,要么出局! |

最优化 Nesterov加速算法

8.2 最优化 Nesterov加速算法 理论介绍 Lipschitz 连续 Lipschitz 连续: 在一个连续函数ff上面额外施加了一个限制,要求存在一个常数K0K \geq 0使得定义域内的任意两个元素x1x_1x2x_2 都满足 f(x1)f(x2)Kx1x2 |f(x_1) - f(x_2)| \leq K |x_1 - x_2| 此时称函数 ff的Lipschitz常数为 K。 简单理解,就是 f(x)K,xRf’(x) \leq K, \forall x \in RRRff的定义域 梯度下降法: 考虑以下线性转化问题: b=Ax+w b = Ax + w 例如在图像模糊问题中, A为模糊模板(由未模糊图像通过转换而来), b为模糊图像, w为噪声。 并且, A 和 b已知, x为待求的系数。 求解该问题的传统方法为最小二乘法,思想很简单,使得重构误差Axb2|| Ax - b||^2最小,即: x^=argminxAxb2 \hat{x} = arg\min_x ||Ax- b||^2 f(x)=Axb2f(x) = ||Ax - b||^2求导,可得其导数为:f(x)=2AT(Axb)f’(x) = 2A^T(Ax-b)。 对于该问题,令导数为零即可以取得最小值(函数f(x)f(x)为凸函数,其极小值为最小值)。