线性代数|机器学习-P23梯度下降

2024-07-16 1052阅读

文章目录

  • 1. 梯度下降
    • 1.1 线搜索方法,运用一阶导数信息[线搜索方法]
    • 1.2 经典牛顿方法,运用二阶导数信息
    • 2. hessian矩阵和凸函数
      • 2.1 实对称矩阵函数求导
      • 2.2. 线性函数求导
      • 3. 无约束条件下的最值问题
      • 4. 正则化
        • 4.1 定义
        • 4.2 性质
        • 5. 回溯线性搜索法

          1. 梯度下降

          1.1 线搜索方法,运用一阶导数信息[线搜索方法]

          • 迭代公式:

            x k + 1 = x k − s k ∇ f ( x k ) \begin{equation} x_{k+1}=x_k-s_k\nabla f(x_k) \end{equation} xk+1​=xk​−sk​∇f(xk​)​​

          • 步长: s k s_k sk​,也叫学习率
          • 方向: − ∇ f ( x k ) -\nabla f(x_k) −∇f(xk​)负梯度方向

            1.2 经典牛顿方法,运用二阶导数信息

            详细推导请点击链接

            • 迭代公式:

              x k + 1 = x k − [ H j k ] − 1 ∇ f ( x ) \begin{equation} x_{k+1}=x_k-[H_{jk}]^{-1}\nabla f(x) \end{equation} xk+1​=xk​−[Hjk​]−1∇f(x)​​

            • 步长: s k = 1 s_k=1 sk​=1,把步长和方向结合起来放到方向里面去了。
            • 方向: hessian matrix 可逆时 [ H j k ] − 1 ∇ f ( x ) [H_{jk}]^{-1}\nabla f(x) [Hjk​]−1∇f(x)

              2. hessian矩阵和凸函数

              • 如果hessian matrix H j k H_{jk} Hjk​是半正定矩阵[positive semi-definite]或正定矩阵[positive definite]可得为函数是一般凸函数
              • 如果hessian matrix H j k H_{jk} Hjk​是正定矩阵[positive definite]可得为函数是强凸函数

                2.1 实对称矩阵函数求导

                假设我们有一个实对称矩阵S和二次型函数表示如下:

                S = [ 1 0 0 b ] , f ( x ) = 1 2 x T S x = 1 2 ( x 2 + b y 2 ) \begin{equation} S=\begin{bmatrix}1&0\\\\0&b\end{bmatrix},f(x)=\frac{1}{2}x^TSx=\frac{1}{2}(x^2+by^2) \end{equation} S= ​10​0b​ ​,f(x)=21​xTSx=21​(x2+by2)​​

                • 矩阵S的特征值,条件数 κ ( S ) \kappa(S) κ(S)分别表示如下,假设 b
VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]