线性代数|机器学习-P23梯度下降

07-16 1050阅读

文章目录

  • 1. 梯度下降
    • 1.1 线搜索方法,运用一阶导数信息[线搜索方法]
    • 1.2 经典牛顿方法,运用二阶导数信息
    • 2. hessian矩阵和凸函数
      • 2.1 实对称矩阵函数求导
      • 2.2. 线性函数求导
      • 3. 无约束条件下的最值问题
      • 4. 正则化
        • 4.1 定义
        • 4.2 性质
        • 5. 回溯线性搜索法

          1. 梯度下降

          1.1 线搜索方法,运用一阶导数信息[线搜索方法]

          • 迭代公式:

            x k + 1 = x k − s k ∇ f ( x k ) \begin{equation} x_{k+1}=x_k-s_k\nabla f(x_k) \end{equation} xk+1​=xk​−sk​∇f(xk​)​​

          • 步长: s k s_k sk​,也叫学习率
          • 方向: − ∇ f ( x k ) -\nabla f(x_k) −∇f(xk​)负梯度方向

            1.2 经典牛顿方法,运用二阶导数信息

            详细推导请点击链接

            线性代数|机器学习-P23梯度下降

            • 迭代公式:

              x k + 1 = x k − [ H j k ] − 1 ∇ f ( x ) \begin{equation} x_{k+1}=x_k-[H_{jk}]^{-1}\nabla f(x) \end{equation} xk+1​=xk​−[Hjk​]−1∇f(x)​​

            • 步长: s k = 1 s_k=1 sk​=1,把步长和方向结合起来放到方向里面去了。
            • 方向: hessian matrix 可逆时 [ H j k ] − 1 ∇ f ( x ) [H_{jk}]^{-1}\nabla f(x) [Hjk​]−1∇f(x)

              2. hessian矩阵和凸函数

              • 如果hessian matrix H j k H_{jk} Hjk​是半正定矩阵[positive semi-definite]或正定矩阵[positive definite]可得为函数是一般凸函数
              • 如果hessian matrix H j k H_{jk} Hjk​是正定矩阵[positive definite]可得为函数是强凸函数

                2.1 实对称矩阵函数求导

                假设我们有一个实对称矩阵S和二次型函数表示如下:

                S = [ 1 0 0 b ] , f ( x ) = 1 2 x T S x = 1 2 ( x 2 + b y 2 ) \begin{equation} S=\begin{bmatrix}1&0\\\\0&b\end{bmatrix},f(x)=\frac{1}{2}x^TSx=\frac{1}{2}(x^2+by^2) \end{equation} S= ​10​0b​ ​,f(x)=21​xTSx=21​(x2+by2)​​

                • 矩阵S的特征值,条件数 κ ( S ) \kappa(S) κ(S)分别表示如下,假设 b

VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]