8.2 最优化 Nesterov加速算法 理论介绍 Lipschitz 连续 Lipschitz 连续: 在一个连续函数
f上面额外施加了一个限制,要求存在一个常数
K≥0使得定义域内的任意两个元素
x1 和
x2 都满足
∣f(x1)−f(x2)∣≤K∣x1−x2∣ 此时称函数
f的Lipschitz常数为 K。
简单理解,就是
f’(x)≤K,∀x∈R ,
R为
f的定义域
梯度下降法: 考虑以下线性转化问题:
b=Ax+w
例如在图像模糊问题中, A为模糊模板(由未模糊图像通过转换而来), b为模糊图像, w为噪声。 并且, A 和 b已知, x为待求的系数。
求解该问题的传统方法为最小二乘法,思想很简单,使得重构误差
∣∣Ax−b∣∣2最小,即:
x^=argxmin∣∣Ax−b∣∣2 对
f(x)=∣∣Ax−b∣∣2求导,可得其导数为:
f’(x)=2AT(Ax−b)。 对于该问题,令导数为零即可以取得最小值(函数
f(x)为凸函数,其极小值为最小值)。