【深度学习】PyTorch深度学习笔记03-梯度下降算法
参考学习:
04.反向传播_哔哩哔哩_bilibili
刘二大人《PyTorch深度学习实践》笔记 + 作业_pytorch刘二大人笔记-CSDN博客
---------------------------------------------------------------------------------------
由上节课的结果可以得出,假设一个参数 w 搜索100个结果,那么两个参数 w1,w2 的搜索空间就变成100的平方了,10个参数就变成100的十次方了。
因此穷举法,找到最优点,很不合理。
1. 分治法(局部最优解)
横竖分成4份,找16个点。然后最小值在绿色框里面,再在绿色框横竖分成四份。。。
但是如果 cost function 不是光滑的呢?这种方法就有可能一直在一个地方搜索,找不出最优值。
2. 梯度下降算法(Gradient Descent)
计算cost曲线的梯度(导数)
如果导数>0,相当于 x+Δx 后函数值变大了,即 f(x+Δx) - f(x) > 0(Δx>0),说明往梯度的正方向就是向右,函数是在上升的,所以要往导数的负方向走,往左走,才能到最低点。
如果导数0),说明x需要往右走。
所以如果想要cost值下降,就得取导数的负方向,负的导数的方向就是最小值的方向。
梯度下降算法其实也算是贪心算法,因此找到的是局部最优点。
那为什么深度学习还是普遍用梯度下降法呢?因为深度学习很少有局部最优点。
但是深度学习可能存在鞍点,梯度为0,使用梯度下降法可能无法走出鞍点。
具体计算(y = x * w)
代码(y = x * w)
import numpy as np import matplotlib.pyplot as plt x_data = [1.0, 2.0, 3.0] y_data = [2.0, 4.0, 6.0] w = 1.0 learning_rate = 0.01 def forward(x, w): return x * w def cost_fuction(xs, ys, w): cost = 0 for x, y in zip(xs, ys): y_pred = forward(x, w) cost += (y_pred - y) ** 2 return cost / len(xs) def gradient(xs, ys, w): grad = 0 for x, y in zip(xs, ys): grad += 2 * x * (x * w - y) return grad / len(xs) print('predict (before training)', 4, forward(4, w)) epoch_list = [] cost_val_list = [] for epoch in range(100): cost_val = cost_fuction(x_data, y_data, w) grad_val = gradient(x_data, y_data, w) w -= learning_rate * grad_val print('Epoch: ', epoch, 'w=', w, 'loss=', cost_val) epoch_list.append(epoch) cost_val_list.append(cost_val) print('predict (after training)', 4, forward(4, w)) plt.plot(epoch_list, cost_val_list) plt.xlabel('epoch') plt.ylabel('cost val') plt.show()
有些时候下降函数不平滑,采用指数加权均值方法,使得曲线更加的平滑。
3. 随机梯度下降(Stochastic Gradient Descent)
不拿整个样本的cost function算,而是取一个样本的loss。
因为遇到鞍点的时候,如果拿整个样本的cost function算,就出不来鞍点。而取一个样本的loss,就可能可以走出鞍点。
梯度下降 和 随机梯度下降 算梯度的区别
梯度下降 在计算 梯度 时,xi和xi+1的梯度之间没有依赖关系,可以并行计算。
随机梯度下降在计算 梯度 时,xi+1的w 是根据 xi的w 的随机运算得出,导致无法并行计算,时间复杂度高。
梯度下降 和 随机梯度下降 性能和时间对比
随机梯度下降可以找到最优点,可能不会在鞍点就停止,但是由于权重w无法并行计算导致时间复杂度高。
梯度下降的各个w可以并行计算。虽然时间复杂度低,但是可能找到的是鞍点。
因此,折中采用 mini-batch,批量的随机梯度下降。
代码(y = x * w)
import matplotlib.pyplot as plt x_data = [1.0, 2.0, 3.0] y_data = [2.0, 4.0, 6.0] w = 1.0 learning_rate = 0.01 def forward(x, w): return x * w def loss(x, y, w): y_pred = forward(x, w) loss = (y - y_pred) ** 2 return loss def gradient(x, y, w): return 2 * x * (x * w - y) print('predict (before training)', 4, forward(4, w)) epoch_list = [] loss_list = [] for epoch in range(100): for x, y in zip(x_data, y_data): # 拿到一个样本就更新了 grad = gradient(x, y, w) w = w - learning_rate * grad print('\tgrad: ', x, y, grad) l = loss(x, y, w) print('process: ', epoch, "w=", w, 'loss=', l) epoch_list.append(epoch) loss_list.append(l) print('predict (after training)', 4, forward(4, w)) plt.plot(epoch_list, loss_list) plt.xlabel('epoch') plt.ylabel('loss') plt.show()