理解二阶曲率三权重二阶泰勒展开

二阶泰勒展开

令损失函数 $L:\mathbb{R}^d\to\mathbb{R}$ 在点 $\theta$ 处二阶可微，扰动向量 $\epsilon\in\mathbb{R}^d$。记

$g \;=\; \nabla_\theta L(\theta)\in\mathbb{R}^d,\qquad H \;=\; \nabla^2_\theta L(\theta)\in\mathbb{R}^{d\times d}.$

则

\[\boxed{\; L(\theta+\epsilon) = L(\theta) + g^{\top}\epsilon + \tfrac12\,\epsilon^{\top}H\,\epsilon + R_3(\theta,\epsilon)\; }\]

其中余项（third-order remainder）满足以下两级精度结论（用 $|\cdot|$ 表示欧氏/谱范数）：

弱条件（$C^2$ 连续）：若 $\nabla^2 L$ 在 $\theta$ 连续，则 $R_3(\theta,\epsilon)=o(\|\epsilon\|^2)\qquad(\epsilon\to 0).$
强条件（Hessian $M$-Lipschitz）：若存在常数 $M\ge 0$ 使得

\[\|\nabla^2 L(\theta)-\nabla^2 L(\theta')\|\ \le\ M\,\|\theta-\theta'\|\quad\forall\,\theta,\theta',\]

则 $R_3$ 具有显式三次界（Nesterov 型）： $\;|R_3(\theta,\epsilon)|\ \le\ \tfrac{M}{6}\,\|\epsilon\|^3\;$ 这一定量上保证了二次近似在小步长下的可控误差

一阶项：方向与幅度（陡增/陡降）

结论：在给定步长约束下，线性项 $g^{\top}\epsilon$ 在 $\epsilon$ 与 $g$ 同向时最大，在 $\epsilon$ 与 $g$ 反向时最小。

用柯西–施瓦茨不等式：
\[g^{\top}\epsilon\ \le\ \|g\|\,\|\epsilon\|,\quad \text{当且仅当 }\epsilon=\alpha g\ (\alpha>0)\text{取等号}.\]
在 $|\epsilon|=\eta$ 的球面上，最大值为 $+|g|\eta$（$\epsilon=+\eta\,g/|g|$），最小值为 $-|g|\eta$（$\epsilon=-\eta\,g/|g|$）。
优化含义：梯度下降选择 $\epsilon=-\eta g$，正是把一阶增量推到其下界；当 $|g|$ 很大时，一阶项主导近似，步长需要更谨慎（线搜索/自适应学习率）。

二阶项：曲率的方向性与谱界

令 Hessian 的特征分解 $H=U\Lambda U^{\top}$（$\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_d)$），将 $\epsilon$ 在特征基展开为 $\epsilon=\sum_i \alpha_i u_i$。则

\[\epsilon^{\top}H\epsilon=\sum_{i=1}^d \lambda_i\,\alpha_i^2 = \|\epsilon\|^2\sum_{i=1}^d \lambda_i\,\Big(\frac{u_i^{\top}\epsilon}{\|\epsilon\|}\Big)^{\!2}.\]

这表明“二阶项 = 各特征方向曲率 $\lambda_i$ 的加权平均”，权重是方向投影的平方。
谱界 / Rayleigh 商：
\[\lambda_{\min}(H)\,\|\epsilon\|^2 \ \le\ \epsilon^{\top}H\epsilon\ \le\ \lambda_{\max}(H)\,\|\epsilon\|^2.\]
取上界即你写的 $ \epsilon^{\top}H\epsilon \le|H|\,|\epsilon|^2=\lambda_{\max}(H)\,|\epsilon|^2$（当 $H\succeq0$ 时可去绝对值）。
几何解释：沿最大特征向量 $u_{\max}$ 方向（$\epsilon\parallel u_{\max}$）的曲率最大，沿最小特征向量 $u_{\min}$ 方向最小。值“大”表示该方向上“尖锐”，值“小”表示“平坦”。

Taylor 近似的界

给定步长 $|\epsilon|=\eta$，二阶近似给出

\[\Delta L \approx g^{\top}\epsilon + \tfrac12\,\epsilon^{\top}H\epsilon.\]

用上述上界可得一个“保守估计”

\[\Delta L \ \le\ \|g\|\,\eta + \tfrac12\,\lambda_{\max}(H)\,\eta^2,\]

再结合三阶余项界（若 Hessian 为 $M$-Lipschitz）：

$|\text{余项}|\ \le\ \tfrac{M}{6}\,\eta^3.$ 含义：

当 $|g|$ 占优时，一阶项主导；当 $|g|$ 已很小（驻点附近），二阶项决定增减与速度（正定则上凸，存在负特征值则为鞍点）。
学习率/步长选择与 $\lambda_{\max}(H)$ 强相关：二次模型下梯度下降稳定需要 $\eta<2/\lambda_{\max}(H)$；$\kappa=\lambda_{\max}/\lambda_{\min}$ 大说明各向异性强、收敛慢，需要预条件或二阶信息（如牛顿/准牛顿、K-FAC）。

常见极端情形的直观判断

平坦区：$|g|$ 小且 $\lambda_{\max}$ 小，$\Delta L$ 对小扰动不敏感（“flat minimum”）。
尖锐区：$\lambda_{\max}$ 大，即使 $|g|$ 小，$\tfrac12\,\epsilon^{\top}H\epsilon$ 也可能显著，说明对微小参数扰动敏感（泛化风险较高的典型信号）。
鞍点：存在负特征值，沿某些方向二阶项为负，可借助噪声/动量/二阶法逃逸。

文档信息

本文作者：zuti666
本文链接：https://zuti666.github.io/2025/09/12/%E7%90%86%E8%A7%A3%E4%BA%8C%E9%98%B6%E6%9B%B2%E7%8E%873-%E6%9D%83%E9%87%8D-%E4%BA%8C%E9%98%B6%E6%B3%B0%E5%8B%92%E5%B1%95%E5%BC%80/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

英飞

二阶曲率三权重二阶泰勒展开

理解二阶曲率三权重二阶泰勒展开

二阶泰勒展开

一阶项：方向与幅度（陡增/陡降）

二阶项：曲率的方向性与谱界

Taylor 近似的界

常见极端情形的直观判断

文档信息

Search

Table of Contents

二阶曲率三 权重二阶泰勒展开

理解 二阶曲率三 权重二阶泰勒展开

二阶泰勒展开

一阶项：方向与幅度（陡增/陡降）

二阶项：曲率的方向性与谱界

Taylor 近似的界

常见极端情形的直观判断

文档信息

Search

Table of Contents

二阶曲率三权重二阶泰勒展开

理解二阶曲率三权重二阶泰勒展开