网站内部服务器错误,互联网广告投放代理公司,电力系统网络设计报告,计算机网络技术课程看起来挺简洁#xff0c;对吧#xff1f;但当你翻开教材#xff0c;发现这背后藏着一堆正交矩阵、奇异值、特征向量……瞬间头大。我每次看到 SVD#xff0c;都忍不住想#xff1a;这玩意儿到底是怎么被“想出来”的#xff1f;是某个数学家喝多了咖啡#xff0c;突然梦…看起来挺简洁对吧但当你翻开教材发现这背后藏着一堆正交矩阵、奇异值、特征向量……瞬间头大。我每次看到 SVD都忍不住想这玩意儿到底是怎么被“想出来”的是某个数学家喝多了咖啡突然梦见上帝说“听着所有矩阵都能拆成三步走……”今天我们不背公式不套定理。我们要还原 SVD 的“发明”过程——从一个最朴素的问题出发一个矩阵到底对向量做了什么一、矩阵左乘 沿坐标轴的伸缩从最简单例子开始我们从一个最简单的2×2对角矩阵入手D[3001]取任意向量x[x1x2]左乘后得到Dx[3x1x2]这意味着输入向量在标准基方向e1(1,0)T和e2(0,1)T上被独立拉伸——x方向放大 3 倍y方向不变。这个例子揭示了矩阵左乘的本质线性变换 对输入空间的各个方向进行伸缩可能还混合。而对角矩阵之所以“干净”是因为它恰好以标准基为伸缩方向没有混合。但现实中的矩阵通常不是对角的。那么问题来了非对角矩阵是否也能找到自己的“伸缩方向”二、EVD方阵的“主伸缩方向”与秩的含义考虑一个对称方阵A[2112]我们寻找那些被A作用后只伸缩、不转向的向量v即满足Avλv这就是特征方程其中λ是特征值v是对应的特征向量。对上面的A解得两组解λ13对应v1[11]λ21对应v2[1−1]将这两个向量单位化归一化得到标准正交基q11√2[11],q21√2[1−1]把它们拼成正交矩阵Q[q1,q2]则QTQI。由于Aqiλiqi对每个列都成立我们可以把所有等式合写为AQQΛ⇒AQΛQT其中Λ[3001]这就是特征值分解EVD。它告诉我们任何可对角化的方阵本质上只是在一组特定正交方向上做独立伸缩。满秩 vs 低秩不只是数学更是能力一个n×n矩阵的“能力”取决于它有多少个非零特征值。满秩矩阵比如A[2112]有两个非零特征值3 和 1秩为 2。它能对任意方向的输入产生非零输出——换句话说它可以“操控”整个 2D 空间。低秩矩阵比如B[1111]特征值为 2 和 0秩为 1。它只能在方向[11]上拉伸而在垂直方向[1−1]上输出恒为零。无论你输入什么结果永远落在一条直线上。在深度学习中这种差异至关重要满秩变换如初始权重具有最大表达能力能响应任意输入变化低秩更新如微调时的ΔW则表明模型真正需要调整的往往只是少数几个“敏感方向”。这正是 LoRALow-Rank Adaptation有效的核心原因我们不需要改动整个高维权重矩阵只需在低维子空间中微调就能高效适配新任务。但 EVD 有一个致命限制它只适用于方阵。一旦矩阵是“长方形”的比如M∈Rn×m且n≠m特征方程Mvλv就因维度不匹配而失去意义。于是我们必须回答一个更一般的问题非方阵如何描述其“伸缩行为”三、SVD为非方阵找到“跨空间的主方向”面对M∈Rn×m我们放弃“输入输出方向相同”的执念转而问是否存在输入空间的一组标准正交基{v1,…,vm}和输出空间的一组标准正交基{u1,…,un}使得Mviσiui(i1,…,rmin(n,m))这个等式是我们希望达成的目标第i个输入主方向vi只激发第i个输出主方向ui放大σi倍。我们按拉伸强度从大到小排序σ1≥σ2≥⋯≥σr≥0。更一般的表示是MVUΣ后面我们可以知道V是正交矩阵所以上式两边都右乘VT就可以得到常见的 SVD 的形式了MVVTMVV−1MUΣVT3.1 以最强方向σ1为例回归正题我们该如何计算σi呢我们以最强方向即σ1为最大值的情况为例。假设存在单位向量v1和u1使得Mv1σ1u1,∥v1∥∥u1∥1.两边取范数得∥Mv1∥∥σ1u1∥σ1.因此σ1就是M在单位输入下能产生的最大输出长度。换句话说σ1是如下优化问题的解σ1max∥v∥1∥Mv∥.由于范数非负等价于最大化其平方σ21max∥v∥1∥Mv∥2max∥v∥1vT(MTM)v.3.2 计算奇异值和右奇异矩阵 V记AMTM。矩阵A是m×m实对称矩阵且对任意v有vTAv≥0故A半正定。记A的特征值按非增序排列为λ1≥λ2≥⋯≥λm≥0对应的标准正交特征向量为q1,…,qm即Aqiλiqi瑞利商的极值性质表明(原理推导见本节末尾max∥v∥1vTAvλ1,且最大值在vq1处取得。更一般地对k1,…,mmax∥v∥1v⊥q1,…,qk−1vTAvλk,在vqk处取得。说人话就是第k 大的值就是λk而且是在vqk时可以得到。所以σ2imax∥v∥1vT(MTM)vλii1,…,m,则σi√λi,σ1≥σ2≥⋯≥σm≥0且viqi至此我们成功求解了矩阵 V和奇异值矩阵Σ瑞利商性质对实对称矩阵A定义其瑞利商为RA(c)cTAccTc,c≠0.当∥c∥1时RA(c)cTAc。设A的特征值按非增序排列为λ1≥λ2≥⋯≥λm≥0对应的标准正交特征向量为q1,…,qm即Aqiλiqi,qTiqjδij.瑞利商的极值性质表明max∥c∥1cTAcλ1,且最大值在cq1处取得。更一般地对k1,…,mmax∥c∥1c⊥q1,…,qk−1cTAcλk,在cqk处取得。因此令σi√λi,ciqi,i1,…,m,则σ1≥σ2≥⋯≥σm≥0且∥Mci∥2cTiAciλiσ2i.3.3 构造左奇异矩阵令rrank(M)。由于rank(M)rank(MTM)有σi0当且仅当i≤r。对每个i1,…,r根据最前面的定义Mviσiui我们有ui1σiMvi.至此就可算出对应的σi,vi,ui。我们会发现求得的ui也是基坐标彼此正交∥ui∥1σi∥Mvi∥1σi⋅σi1,且Mviσiui.对i≠j≤r有uTiuj1σiσjvTiMTMvj1σiσjvTi(σ2jvj)σj⋅vTivj0,故{u1,…,ur}是Rn中的标准正交向量组。前面计算的ui是与vi一一对应的但是当rn时剩下的ui该如何计算呢我们会发现存在n−r维子空间U⊥{x∈Rn∣∣uTix0,∀i1,…,r}.在U⊥中任取一组标准正交基{ur1,…,un}则最终的左奇异矩阵为U[u1,…,un]∈Rn×n为正交矩阵。3.4 拼装 SVD令V[v1,…,vm]∈Rm×mΣ∈Rn×m为对角矩阵其对角元为σ1,…,σr其余元素为 0。由Mviσiui对i1,…,r成立且对ir有σi0可得矩阵等式MVUΣ.由于V正交VTVIm右乘VT得MUΣVT.结语SVD 并非凭空定义的数学魔术而是为了解决“非方阵如何描述伸缩”这一朴素问题从对角矩阵 → EVD → 跨空间推广一步步自然推导出的必然结果。