线性代数|机器学习-P23梯度下降

07-16 1050阅读

文章目录

1. 梯度下降
- 1.1 线搜索方法，运用一阶导数信息[线搜索方法]
- 1.2 经典牛顿方法，运用二阶导数信息
- 2. hessian矩阵和凸函数
- - 2.1 实对称矩阵函数求导
  - 2.2. 线性函数求导
  - 3. 无约束条件下的最值问题
  - 4. 正则化
  - - 4.1 定义
    - 4.2 性质
    - 5. 回溯线性搜索法
      1. 梯度下降
      
      1.1 线搜索方法，运用一阶导数信息[线搜索方法]
      - 迭代公式：
        x k + 1 = x k − s k ∇ f ( x k ) \begin{equation} x_{k+1}=x_k-s_k\nabla f(x_k) \end{equation} xk+1=xk−sk∇f(xk)
      - 步长： s k s_k sk，也叫学习率
      - 方向： − ∇ f ( x k ) -\nabla f(x_k) −∇f(xk)负梯度方向
        1.2 经典牛顿方法，运用二阶导数信息
        
        详细推导请点击链接
        
        迭代公式：
        x k + 1 = x k − [ H j k ] − 1 ∇ f ( x ) \begin{equation} x_{k+1}=x_k-[H_{jk}]^{-1}\nabla f(x) \end{equation} xk+1=xk−[Hjk]−1∇f(x)
        步长： s k = 1 s_k=1 sk=1，把步长和方向结合起来放到方向里面去了。
        方向： hessian matrix 可逆时 [ H j k ] − 1 ∇ f ( x ) [H_{jk}]^{-1}\nabla f(x) [Hjk]−1∇f(x)
        2. hessian矩阵和凸函数
        
        如果hessian matrix H j k H_{jk} Hjk是半正定矩阵[positive semi-definite]或正定矩阵[positive definite]可得为函数是一般凸函数
        如果hessian matrix H j k H_{jk} Hjk是正定矩阵[positive definite]可得为函数是强凸函数
        2.1 实对称矩阵函数求导
        
        假设我们有一个实对称矩阵S和二次型函数表示如下：
        S = [ 1 0 0 b ] , f ( x ) = 1 2 x T S x = 1 2 ( x 2 + b y 2 ) \begin{equation} S=\begin{bmatrix}1&0\\\\0&b\end{bmatrix},f(x)=\frac{1}{2}x^TSx=\frac{1}{2}(x^2+by^2) \end{equation} S= 100b ,f(x)=21xTSx=21(x2+by2)
        
        矩阵S的特征值,条件数 κ ( S ) \kappa(S) κ(S)分别表示如下,假设 b