本文主要是一些关于矩阵的相对初等的内容,是考研期间做的完整考研线性代数归纳总结,目的是方便查阅。现在来看,这篇文章的主要任务是收纳若干关于矩阵的初级线性代数知识与技巧,对于线性空间、线性变换等内容,暂不涉及。在作者看来,这一部分的知识里理论的成分居多,读者如有需求,还是直接参考专业的线性代数或高等代数教材为好。
作者本科专业是数学与应用数学,后在学院内转去了统计学 (数理方向),有一定的数学基础,所以最基本的概念等本文就不再赘述了😊例如矩阵转置及其性质、矩阵逆的定义等等。
本文集作者所学同时参考了大量的文献和网络资料,在整理和归纳时难免有所纰漏,如果发现有错误的内容可以邮件联系我以订正。
本文中凡是没有特别指明的,都限制在实数域上讨论。如果需要在线做一些矩阵运算,个人推荐 WolframApha;如果需要做一系列复杂矩阵运算,个人推荐 Mathematica。
矩阵
(数字) 矩阵只是一个数表,作者看来没有所谓本质:他只是一张表,我们要往里面装什么东西,比如实数、复数、矩阵甚至随机变量,或是定义某种“奇形怪状”的新运算,都是可行的——“矩阵是什么”这个问题,取决于“我们希望用矩阵做什么”;如果一定要问出个“本质”来,那可能是线性变换吧;尽管矩阵也可以代表一个线性方程组(的系数),(数字) 矩阵的某些性质从该角度看更为直观。如果把矩阵看成向量组,那么一些向量组问题的答案瞬间便水落石出。矩阵还有许多其他作用,在不同的场景下有不同的任务,这里就不一一列举了。

众所周知,左乘初等矩阵等于做相应的行变换,右乘初等矩阵等于做相应的列变换,那么什么时候只能做行变换,什么时候只能做列变换呢?
一般而言:
- 当把矩阵视为列向量的排列后,如果要直接确定线性相关的列向量之间的数量关系(例如已知某向量可以同时被两组向量线性表出,求该向量的值),则只能做初等列变换,因为只有列变换才是列向量间而不是其分量间的线性组合,保持了列向量的代数结构(但是可能会改变线性相关式$\sum k_i\alpha_i=0$的系数$\{k_i\}$);
- 当把矩阵视为列向量的排列后,如果要确定列向量的极大线性无关组(也可以是判断线性相关性),则只能做初等行变换,因为就线性相关性而言,矩阵的行秩等于列秩,但如果做初等列变换就会改变列向量的位置,从而无法确定本来的列向量组中到底谁和谁线性相关;
- 当把矩阵视为线性方程的系数表时,如果要通过高斯消元法解方程,则只能做初等行变换,因为线性方程整体相加减不改变解的值,但如果做列变换则相当于把一个未知数的系数加到了另一个未知数上,破坏了线性方程的结构;
到底该行变换还是列变换,只是取决于目的是什么。例如第一个例子“已知某向量可以同时被两组向量线性表出,求该向量的值”,既可以将两个向量组视为列向量的排列而做初等列变换,也可以等价地认为两组向量依次列成的矩阵$A$与那个可以被同时表出的向量$b$构成的方程组$Ax=b$有解,从而利用高斯消元法对$A$做初等行变换。
矩阵等价
矩阵等价:如果矩阵$A$可以经有限次初等变换得到$B$,则$A\cong B$(矩阵等价)
上述条件等价于存在一系列初等矩阵$P_1,P_2,\cdots,P_n,Q_1,Q_2,\cdots,Q_m$,使得$A=P_1P_2\cdots P_nBQ_1Q_2\cdots Q_m$
注:矩阵乘法按“左行右列”规则计算,表现为做乘时是用左边的行向量点乘右边的列向量得到新矩阵的一个元素,也表现为左乘初等矩阵则对原矩阵做相应行变换、右乘初等矩阵则对原矩阵做相应列变换
同型矩阵等价的充要条件是秩相等(判断方法,矩阵等价的充要条件)
联系到定义:初等矩阵总是满秩而可逆的
若矩阵可逆则一定与$E$等价,从特征值角度看是特征值均非零,因此行列式不为$0$,故矩阵可逆;从初等矩阵角度看,他可以被视作为有限个代表初等行列变换的初等矩阵的复合(矩阵乘法),即可以由$E$经过有限次初等变换得到;也可以说该矩阵的对角矩阵一定为$E$
如果实矩阵$A$与$B$等价,那么$A^2$与$B^2$不一定等价,除非$A,B$中有一个矩阵为可逆矩阵
如果实矩阵$A$与$B$等价,那么$AB$与$AB$也不一定等价,除非$A,B$中有一个矩阵为可逆矩阵
如果实对称阵$A$与$B$合同,那么$A^2$与$B^2$合同
如果实对称阵$A$与$B$相似,那么$A^2$与$B^2$相似
之所以对两个等价的矩阵$A,B$不一定有$A^2$与$B^2$等价,是因为尽管$A^2$与$B^2$的特征值相等,但二者的秩却不一定相等。进一步讲,更本质的原因是二者零特征值的几何重数不一定相等。也就是说,即使$A,B$相似,从而$A,B$的零特征值有相同的代数重数与几何重数,则只能得出$A^2$与$B^2$的零特征值有相同的代数重数,但其几何重数可能是不相等的。对于命题“$AB$与$AB$也不一定等价”,原因同理;
最经典的例子是:
$$ \left\{\begin{aligned}&A=\left(\begin{matrix}1&1&\cdots&1\\0&0&\cdots&0\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}&&B=\left(\begin{matrix}1&1&\cdots&1\\-1&-1&\cdots&-1\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}\\&A^2=A&&B^2=O\\&BA=A&&AB=O\end{aligned}\right. $$其中
$$ r(A)=r(B)=1 $$$$ r(A^2)=1,\ \ \ \ r(B^2)=0 $$$$ r(BA)=1,\ \ \ \ r(AB)=0 $$这个例子十分经典,务必了解
矩阵合同
矩阵合同:合同一定等价
矩阵合同:若存在可逆阵$C$,使得$C^TAC=B$,则$A\simeq B$(矩阵合同)
其中$C^TAC$称为$A$的合同变换,实对称矩阵经合同变换还是实对称矩阵
合同变换不要求$A,B$都是对称阵,但对称阵经合同变换只能是对称阵,非对称阵经合同变换只能是非对称阵
对称矩阵合同:对称矩阵若相似则一定合同
对称矩阵合同的充要条件:正负惯性指数相等;规范型相同
实对称矩阵$A$与他的逆$A^{-1}$合同,即二者具有相同的规范型,这是因为$A=AA^{-1}A=A^TA^{-1}A$
合同变换不改变正负惯性指数
等价关系:矩阵等价、相似与合同都是广义上的
等价关系(所以也有人认为矩阵等价应该译作相抵,以免与逻辑关系上的等价冲突),均满足自反性、对称性与传递性
相似必然合同,但合同不一定相似
在欧氏空间中,合同变换体现为在平面到自身的一一变换下,任意线段的长和它的像的长总相等
正交变换是一种合同变换
更多的内容将在后文二次型理论中提到
矩阵相似
补充定义:
代数重数,指特征值在特征方程中作为根的重数;
几何重数,指特征值对应的特征向量生成空间的维数,或者说是对应特征向量的极大线性无关组中向量个数;
几何重数必然小于或等于代数重数
矩阵相似:相似一定等价
矩阵相似:若存在可逆阵$P$,使得$PAP^{-1}=B$,则$A\sim B$(矩阵相似)
上述条件等价于存在一系列初等矩阵$P_1,P_2,\cdots,P_n$,使得$A=P_1P_2\cdots P_nBP^{-1}_nP^{-1}_{n-1}\cdots P^{-1}_1$
其中$PAP^{-1}$称为$A$的相似变换
矩阵相似的充要条件:有相同的初等因子 / 有相同的Jordan标准型
如果两个矩阵均可被相似对角化且都相似于同一对角阵,则两矩阵必然相似
仅对实对称矩阵而言,相似的充要条件是有相同的特征值,因为他们都相似于同一对角矩阵
对一般的矩阵而言,有相似的特征值只是相似的必要条件,即使特征值和特征向量均完全相同,也不一定相似,除非加上条件:两矩阵均可相似对角化,这也是为什么实对称矩阵有相同特征值便相似的原因(实对称矩阵必能相似对角化)
由上可推出,相似必然合同,但合同不一定相似
相似变换不改变特征值
- 自然也不改变迹和行列式
- 若$A\sim B$,则$(a_nA^n+a_{n-1}A^{n-1}+\cdots+a_0E)\sim(a_nB^n+a_{n-1}B^{n-1}+\cdots+a_0E)$
相似变换:同⼀个线性变换在不同基下的表示矩阵相似,这是相似的另一种定义
特征值相等,且$A$的特征向量$a$等于$Pb$
能相似对角化的两矩阵,若特征值相等则可以导出相似
判定一般矩阵是否相似:
- 先检查迹,应当相等,迹如果都不一样就没必要进一步讨论了,必然不相似
- 验证⾏列式是否相等,若不相等则不相似
- 观察是否均可对角化,若其中一个可以对角化而另一个不能,则不相似
- 再判断秩,应该相等,若不相等则不相似
- 接着验证特征值是否均相等,若不相等则不相似(对实对称矩阵而言是充要的)
- 得到特征值$\lambda_i$后,观察$\lambda_iA-E$与$\lambda_iB-E$的行列式与秩是否相等(若$A$、$B$相似,则这⼆者必相似,反之也成⽴)
- 以上均为必要条件,矩阵相似没有简单而通用的判断方法,除非计算Jordan标准型或初等因子,但对于笔算而言计算量过于大了;不过,通常到第 6 步时相似性已经能够判断
矩阵的转置与⾃身相似,即$A\sim A^T$
如果两矩阵相似,则他们的转置阵相似,即如果$A\sim B$,则$A^T\sim B^T$
如果两矩阵相似且可逆,则他们的逆矩阵相似,即如果$A\sim B$且$A^{-1}$存在,则$A^{-1}\sim B^{-1}$
如果两矩阵相似,则他们的伴随矩阵相似,即如果$A\sim B$,则$A^{\ast}\sim B^{\ast}$
综上所述,如果矩阵$A,B$相似,则他们的任意次转置、逆与伴随所复合的矩阵$A_1,B_1$也相似
$AB$与$BA$并不一定相似,即使二者一定有相同的特征多项式与特征值
尽管可以证明二者特征值的代数重数必然相等,但几何重数却不一定相等,这也导致了连秩都可能是不同的
就算$A,B$都是$n$阶可逆矩阵$AB$与$BA$也不一定相似,但如果$A,B$都是$n$阶实对称阵就可以断言必有$AB,BA$相似了
为什么有的矩阵特征值相同,却不相似?因为各特征值的代数重数相同,几何重数却不一定相同。即,两个线性变换的特征值相同只代表他们的缩放倍率相同,但缩放方向可能不同,那么他们就可能并不是同一个线性变换,简单例子如$\left(\begin{matrix}0&0\\0&0\\\end{matrix}\right)$与$\left(\begin{matrix}1&0\\0&0\\\end{matrix}\right)$,二者特征值均为$0$、$0$,即都会产生“压缩”,但前者是将平行四边形“压”成点,而后者仅是“压”成线,缩放效果不同,对应的特征向量也不相同。更一般的,即使特征值相同、二者的对应的代数重数与几何重数也都相同,矩阵也不一定相似。“充要”的办法,还是只能考虑初等因子和Jordan标准型,但计算量十分地大;如果两个矩阵均可相似对角化,且特征方程相同 / 特征值相同,则两矩阵相似。
矩阵的逆
矩阵求逆的四种基本⽅法:
公式法,针对⼆阶⽅阵的简便算法:
$$ \left[\begin{matrix}a&b\\c&d\\\end{matrix}\right]=\frac1{|A|}\left[\begin{matrix}d&-b\\-c&a\\\end{matrix}\right] $$伴随矩阵法,通⽤但麻烦:$A^{-1}=\frac1{|A|}A^{\ast}$,重要性更多地体现在理论上
本章末给出了该方法的改进计算法,使得计算时不必再考虑代数余子式的符号的问题
初等变换法,即高斯消元法,,有行变换与列变换两种方法:
行变换方法:将矩阵$A$作为分块,右接单位阵$E$进行增广,即$[A|E]$,经初等行变化将左分块$A$变为$E$时得到结果$[E|A^{-1}]$(可以看作整体左乘$A^{-1}$的结果,这是为什么只能进初等行变换的原因),再”取出“逆矩阵即可;这种方法可以推广到求$A^{-1}B$,对$[A|B]$进行同样的操作即可
列变化方法:下接$E$,然后做相应的初等列变换即可
实际上右接$E$是在“记录”将$A$化为$E$时的行变换,下接$E$则在“记录”列变换;换一个角度看,对于$[A|E]$,左乘$A^{-1}$即得$[E|A^{-1}]$,由于左乘对应初等行变换,所以将$A$用初等行变换化为$E$时右边剩余的部分即为$A^{-1}$。对分块矩阵也可以类似操作,但是在试图利用分块阵的逆时要注意子阵是否可逆呦!
在计算机中,使用LU分解法、SVD分解法、QR分解法更容易处理,而且适合并行计算
逆与与转置可交换;与指数也可交换;与伴随也可交换,即$(A^{\ast})^{-1}=(A^{-1})^{\ast}=\frac1{|A|}A$
基本初等矩阵的逆:
交换某两行或某两列,由于交换两次后恢复原矩阵,因此逆就是自身
$$ \left[\begin{matrix}&1&\\1&&\\&&1\\\end{matrix}\right]^{-1}=\left[\begin{matrix}&1&\\1&&\\&&1\\\end{matrix}\right] $$某一行或某一列倍乘$k$($k\neq0$),逆是主对角线上的那个$k$取其倒数$\frac1k$,其余元素不变
$$ \left[\begin{matrix}k&&\\&1&\\&&1\\\end{matrix}\right]^{-1}=\left[\begin{matrix}\frac1k&&\\&1&\\&&1\\\end{matrix}\right] $$某一行(某一列)倍乘$k$后加到另一行(另一列),逆是非主对角线上的那个$k$取其相反数$-k$,其余元素不变
$$ \left[\begin{matrix}1&k&\\&1&\\&&1\\\end{matrix}\right]^{-1}=\left[\begin{matrix}1&-k&\\&1&\\&&1\\\end{matrix}\right] $$
很多时候,利用初等矩阵的逆与对应的初等变换来计算矩阵乘法,能够极大地减少计算量
对于复合的初等矩阵,也可以这样逐步操作求逆,但是一定要调换顺序,因为$(ABC)^{-1}=C^{-1}B^{-1}A^{-1}$
因此,本来是在矩阵左边乘起来的行变换,在式子取逆后也就变成了右乘,这时他是相应的列变换
分块矩阵的逆:参见另一篇文章线性回归的理论与应用的附录: 分块矩阵的逆 部分,在此给出最简单的分块矩阵的逆:
- 当$A,B$均为可逆矩阵时(不要求同阶),有$\left(\begin{matrix}A&O\\O&B\\\end{matrix}\right)^{-1}=\left(\begin{matrix}A^{-1}&O\\O&B^{-1}\\\end{matrix}\right)$,其实这可以通过复合初等变换直接得到
- 当$A,B$均为可逆矩阵时(不要求同阶),有$\left(\begin{matrix}O&A\\B&O\\\end{matrix}\right)^{-1}=\left(\begin{matrix}O&B^{-1}\\A^{-1}&O\\\end{matrix}\right)$
- 当$A,C$均为可逆矩阵时(不要求$B$为方阵),有$\left(\begin{matrix}A&O\\B&C\\\end{matrix}\right)^{-1}=\left(\begin{matrix}A^{-1}&O\\-C^{-1}BA^{-1}&B^{-1}\\\end{matrix}\right)$
任何$n$阶可逆方阵$A$,逆$A^{-1}$一定是$A$的多项式,且该多项式的形式不唯一;如果限定该多项式最高次小于极小多项式次数,则多项式是唯一存在的(不断乘上特征多项式,总能用更高次的多项式表示$A^{-1}$)
任何$n$阶方阵$A$,伴随矩阵$A^{\ast}$一定是$A$的多项式,对$A$不可逆情形可以考虑摄动法证明
对于三阶矩阵的伴随矩阵 / 逆矩阵,有一些相对而言更方便的计算方法。这里给出一种可以在计算中不用考虑代数余子式符号$(-1)^{m+n}$的计算法,以计算矩阵$\left(\begin{matrix}1&2&-2\\3&1&2\\2&-5&3\end{matrix}\right)$的逆为例:
首先将矩阵拓展至$5$列,其中第$4,5$列分别照抄原矩阵的第$1,2$列,即
$$ \left(\begin{array}{ccc:cc} 1&2&-2&1&2\\ 3&1&2&3&1\\ 2&-5&3&2&-5 \end{array}\right) $$接着将新矩阵再拓展至$5$行,其中第$4,5$行分别照抄新矩阵的第$1,2$行,即
$$ \left(\begin{array}{ccccc} 1&2&-2&1&2\\ 3&1&2&3&1\\ 2&-5&3&2&-5\\ \hdashline 1&2&-2&1&2\\ 3&1&2&3&1 \end{array}\right) $$划去第$1$行与第$1$列不考虑,即
$$ \left(\begin{array}{c|cccc} 1&2&-2&1&2\\ \hline 3&1&2&3&1\\ 2&-5&3&2&-5\\ 1&2&-2&1&2\\ 3&1&2&3&1 \end{array}\right)\Rightarrow\left(\begin{array}{cccc} 1&2&3&1\\ -5&3&2&-5\\ 2&-2&1&2\\ 1&2&3&1 \end{array}\right) $$接着计算新矩阵的每个相邻行列的二阶主子式,共计$3\times3=9$个,他们相对位置的值分别就是$(A^{\ast})^T$对应位置元素的值,也就是说,不妨记新矩阵为$B_{4\times4}$,则
$$ A^{\ast}_{ij}=\left|\begin{matrix}B_{j,i}&B_{j,i+1}\\B_{j+1,i}&B_{j+1,i+1}\end{matrix}\right|,\ \ \ \ \ \ 1\leqslant i,j\leqslant4 $$分别计算,可以得到
$$ \left(\begin{array}{cccc} 1&2&3&1\\ -5&3&2&-5\\ 2&-2&1&2\\ 1&2&3&1 \end{array}\right)\to\left(\begin{array}{ccc} \left|\begin{matrix}1&2\\-5&3\end{matrix}\right|&\left|\begin{matrix}-5&3\\2&-2\end{matrix}\right|&\left|\begin{matrix}2&-2\\1&2\end{matrix}\right|\\ \left|\begin{matrix}2&3\\3&2\end{matrix}\right|&\left|\begin{matrix}3&2\\-2&1\end{matrix}\right|&\left|\begin{matrix}-2&1\\2&3\end{matrix}\right|\\ \left|\begin{matrix}3&1\\2&-5\end{matrix}\right|&\left|\begin{matrix}2&-5\\1&2\end{matrix}\right|&\left|\begin{matrix}1&2\\3&1\end{matrix}\right| \end{array}\right)=A^{\ast} $$二阶行列式是很好计算的,不难得
$$ A^{\ast}=\left(\begin{matrix}13&4&6\\-5&7&-8\\-17&9&-5\\\end{matrix}\right) $$如果要进一步计算原矩阵的逆,按伴随矩阵与逆矩阵的关系,计算出行列式$|A|$然后代入$A^{-1}=\frac1{|A|}A^{\ast}$即可。但这里并不需要在从$A$出发计算$|A|$,根据行列式的辅因子展开,直接用$A$的第一行点乘$A^{\ast}$的第一行结果即是$A$(乘其他行或者乘列当然也都是可行的),所以
$$ |A|=\left(\begin{matrix}1,2,-2\end{matrix}\right)\cdot\left(\begin{matrix}13\\-5\\-17\end{matrix}\right)=13-10+34=37 $$因此
$$ A^{\ast}=\frac1{37}\left(\begin{matrix}13&4&6\\-5&7&-8\\-17&9&-5\\\end{matrix}\right) $$这一方法的“好”在于不用考虑恼人的符号了
矩阵的秩
矩阵$\boldsymbol{A}$秩的等价定义:秩等于……
- 最⾼阶不为零⼦式的阶数
- ⾏向量组或列向量组的极⼤线性⽆关组中所含向量个数
- 列数减去$\boldsymbol{Ax=0}$解空间的维数(kernel的维数)
- 或者说是减去基础解系中自由变量的个数
- 或者说是减去线性无关解的个数
- 当$\boldsymbol{A}$是方阵时,秩等于阶数减去零特征值的特征子空间维数
- 或者说是阶数减去零特征值的几何重数
- 线性变换值域(image,像空间)的维数,即 $\text{rank}(A)=\dim\big(\text{值域}(A)\big)$
欲求一个具体矩阵的秩,做初等行(列)变换将矩阵化为行(列)阶梯型矩阵不失为一个好办法
矩阵秩的等式与不等式:
$0\leqslant r(A)\leqslant \min\{n,m\}$,$A\in\mathbb{R}^{n\times m}$
$r(A)=r(A^T)=r(AA^T)=r(A^TA)\xlongequal{\text{if }\,n=m}r(A^n)$,$A\in\mathbb{R}^{n\times m}$
$r(A+B)\leqslant r\big[(A,B)\big]\leqslant r(A)+r(B)$
$\max\{r(A),r(B)\}\leqslant r\big[(A,B)\big]\leqslant r(A)+r(B)$
$r(AB)\leqslant r(A),r(B)$
$\text{if }AB=O,\text{ then }r(A)+r(B)\leqslant n,\ \ n$为$A$的列数或$B$的行数
万分注意,$n$并不是零矩阵$O$的行数或列数而是$A$的列数或$B$的行数。例如,假设$A$是$m\times n$矩阵、$B$是$n\times k$矩阵,若有$AB=O_{m\times k}$,则$r(A)+r(B)\leqslant n$,该不等式与零矩阵$O$的形状没有任何关系!
若$A$列满秩,则$r(AB)=r(B)$(矩阵左乘列满秩矩阵 / 右乘行满秩矩阵不改变秩)
$r\left(\left[\begin{matrix}A&O\\O&B\\\end{matrix}\right]\right)=r(A)+r(B)$
$r(A)+r(B)\leqslant r\left(\left[\begin{matrix}A&O\\C&B\\\end{matrix}\right]\right)\leqslant r(A)+r(B)+r(C)$
$r(A)+r(E+A)\geqslant n$,$A$为$n$阶矩阵
$Frobenius:\ \ r(ABC)\geqslant r(AB)+r(BC)-r(B)$
$\Rightarrow Sylvester:\ \ r(AB)\geqslant r(A)+r(B)-n$
伴随矩阵的秩:对于$n$阶方阵$A$,
$$ \text{rank}(A^{\ast})= \left\{\begin{aligned} &n,&&\text{rank}(A)=n\\ &1,&&\text{rank}(A)=n-1\\ &0,&&\text{rank}(A)\lt n-1 \end{aligned}\right. $$一般而言,对于等价的$n$阶矩阵$A,B$不一定成立$r(AB)=r(BA)$,即使$A,B$有相同的特征多项式与特征值——因为$r(AB)=r(BA)$的充要条件是$AB$和$BA$的零特征值的代数重数相同、几何重数也相同,但通常来说$AB$与$BA$只有零特征值的代数重数必然相同,几何重数是不一定相同的;
同理也不一定成立$r(A^2)=r(B^2)$,这在前文是已经有所提及的;
在后文“特征值、特征向量与特征子空间”中会给出秩与特征值、特征子空间的关系,实际上方阵的秩等于阶数减去零特征值的几何重数,这样一来为何存在$r(AB)\neq r(BA)$就显而易见了;也可以知道$A^2$与$B^2$。由此可以导出推论:
如果$A,B$均满秩,则$r(AB)=r(BA)=n$;
如果$AB,BA$均有$n$个线性无关的特征向量,则$r(AB)=r(BA)$;
$r(A)=r(B)$但$r(AB)\neq r(BA)$、$r(A^2)\neq r(B^2)$的一个经典例子是:
$$ \color{#6666FF}{A=\left(\begin{matrix}1&1&\cdots&1\\0&0&\cdots&0\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}\Rightarrow\ \ \ \ \ r(A)=1} $$$$ \color{#6666FF}{B=\left(\begin{matrix}1&1&\cdots&1\\-1&-1&\cdots&-1\\\vdots&\vdots&&\vdots\\0&0&\cdots&0\end{matrix}\right)_{n\times n}\Rightarrow\ \ \ \ \ r(B)=1} $$$A,B$具有相同的秩$1$,容易验证:
$$ \begin{align}&\color{#6666FF}{AB=O_{n\times n}}&&\color{#6666FF}{\Rightarrow}&&\color{#6666FF}{r(AB)=0}\\&\color{#6666FF}{BA=B}&&\color{#6666FF}{\Rightarrow}&&\color{#6666FF}{r(BA)=1}\end{align} $$$$ \color{#6666FF}{-------------------}\notag $$$$ \begin{align}&\color{#6666FF}{A^2=A}&&\color{#6666FF}{\Rightarrow}&&\color{#6666FF}{r(A^2)=1}\\&\color{#6666FF}{B^2=O_{n\times n}}&&\color{#6666FF}{\Rightarrow}&&\color{#6666FF}{r(B^2)=0}\end{align} $$这个例子十分重要,在本文已经是第二次出现了
线性变换与特殊矩阵
正交变换:是一种线性变换,定义是从实或复的内积空间映射到自身且保持内积不变的变换。由于模长与夹角是用内积定义的,所以正交变换不改变图形的面积、大小,标准正交基经正交变换后仍为标准正交基。注意,在有限维空间下正交变换不一定等价于正交矩阵,从标准正交基变换到另一组标准正交基的过渡矩阵才是正交矩阵。在欧式空间中,正交变换只包含瑕旋转
正交矩阵:$A^HA=E$,在$\mathbb{R}^{n\times m}$上表现为$A^T=A^{-1}$;正交矩阵的特点是行或列向量间正交,且长度均为$1$。正交矩阵的特征值只可能为$\pm1$,这体现在正交变换不改变图形大小,即仅包含旋转与反射及其组合。正交矩阵的特征值只可能为$1$或$-1$,结合正交变换的性质这是容易理解的
判断正交矩阵,除了验证是否有$A^TA=E$、行列向量是否两两正交,最简便的办法是先看看各行或列平方和是否为$1$,如果不是则必然不是正交矩阵
正交矩阵的逆矩阵也是正交矩阵,正交矩阵的伴随矩阵也是正交矩阵
双线性函数:是内积的推广;和线性函数类似,在有限维线性空间中,由他对基的作用而唯一确定
合同变换:互相合同的矩阵,是双线性函数在不同基下的度量矩阵
矩阵合同:矩阵的合同变换,可以认为是对行列同时施加相同的操作
正交变换系合同变换
相似变换:在欧式空间中体现为图形的形状不变,尽管大小、方向与位置都可能改变;在矩阵的相似变换体现是两矩阵相似。相似变换实际上是同一个线性变换在不同基下的度量矩阵
矩阵杂例
特殊矩阵
伴随矩阵$\{A_{ij}\}$,其中$A_{ij}$是$a_{ij}$的代数余子式
$(kA)^{\ast}=k^{n-1}A^{\ast}$
伴随矩阵的伴随矩阵:$(A^{\ast})^{\ast}=|A|^{n-2}A$
将伴随与转置视为算子,则他们是可交换的:$(A^{\ast})^T=(A^T)^{\ast}$;与逆同样是可交换的,$(A^{\ast})^{-1}=(A^{-1})^{\ast}=\frac1{|A|}A$
当方阵不可逆时,他的伴随矩阵与他的积为$O$:恒有$A^{\ast}A=AA^{\ast}=|A|E$,当$A$不可逆有$A^{\ast}A=AA^{\ast}=O$
已知伴随矩阵,如何求原矩阵?注意到只有伴随矩阵满秩时才能惟一求解($A^{-1}=\frac1{|A|}A^{\ast}$,而逆矩阵是唯一的),否则对应的原矩阵不唯一;当$A^{\ast}$满秩时,可利用$A=\left(\frac1{|A|}A^{\ast}\right)^{-1}=\sqrt[n-1]{|A^{\ast}|}\ \ (A^{\ast})^{-1}$,其中$(A^{\ast})^{-1}$可以通过高斯消元法求解
和转置有$(AB)^T=B^TA^T$、逆有$(AB)^{-1}=B^{-1}A^{-1}$类似的,伴随有$(AB)^{\ast}=B^{\ast}A^{\ast}$,三者均可任意交换计算次序
伴随矩阵的秩:
$$ \text{rank}(A^{\ast})= \left\{\begin{aligned} &n,&&\text{rank}(A)=n\\ &1,&&\text{rank}(A)=n-1\\ &0,&&\text{rank}(A)\lt n-1 \end{aligned}\right. $$特别的,当$r(A)=n-1$、$r(A^{\ast})=1$,如果$A$可相似对角化,则$A^{\ast}$的唯一非零特征值的值等于$A$的$n-1$个非零特征值的乘积,也等于$\mathrm{tr}(A^{\ast})$;由于$r(A^{\ast})=1$,$A^{\ast}$的行或列之间也一定是成比例的
伴随矩阵一定可以被表为原矩阵的某个多项式
如果矩阵是对称阵,则其伴随矩阵也一定对称(根据定义易见)
矩阵$A$的转置矩阵$A^T$
$A\sim A^T$,即$A$与$A^T$相似,因此二者具有相同的特征多项式与特征值
不同特征值对应的$A$的特征向量与$A^T$的特征向量必然正交
这里做一个简短证明:设$A\alpha_1=\lambda_1\alpha_1$、$A^T\alpha_2=\lambda_2\alpha_2$,其中$\lambda_1\neq\lambda_2$且$\alpha_1,\alpha_2$均为非零向量,则有
$$ \lambda_1\alpha^T_1\alpha_2=(A\alpha_1)^T\alpha_2=\alpha^T_1(A^T\alpha_2)=\lambda_2\alpha^T_1\alpha_2 $$而$\lambda_1\neq\lambda_2$,所以只能有$\alpha^T_1\alpha_2=0$,证毕
$AA^T$和$A^TA$的性质总结:在$A$为实矩阵前提下,
- $AA^T$与$A^TA$均为实对称矩阵,当$A$是方阵时$AA^T,A^TA$特征值均相等且非负,而且其特征值恰为$A$特征值的平方,因此有相似关系$AA^T\sim A^TA$
- 由相似可导出矩阵等价,即$r(AA^T)=r(A^TA)$,这一性质对于复数域上的矩阵仍成立;又由于$A$是实矩阵,故还有$r(AA^T)=r(A^TA)=r(A)$
- 如果$A$是方阵,则$AA^T$与$A^TA$正定的充要条件是$A$没有$0$特征值
- 如果$AA^T=O$,则$A^TA=O$,当$A$是方阵时,由于$r(AA^T)=r(A^TA)=r(A)=0$,因此$A=O$
- 但是一般来说$AA^T\neq A^TA$,即使$A$是方阵
- 如果$A$是方阵,则当且仅当$A$是上三角阵甚至于对角阵时$A$才与$A^T$可交换,即$AA^T=A^TA$
$aa^T$也是对称的正定矩阵,其秩一定为$1$,而且$\text{tr}(aa^T)=a^Ta$,这类矩阵的性质将在下文中讨论
正交矩阵:$AA^T=A^TA=E\Rightarrow A^T=A^{-1}$,特征值必为$1$或$-1$,行列式必为$1$或$-1$,矩阵的行向量间或者列向量间必定两两正交,而且每个行向量与列向量的长度均为$1$;
两个正交矩阵相乘,结果仍是正交矩阵;任何矩阵与正交矩阵相乘,特征值都不会变化(正交变换也是不改变向量长度的)
对于$n$阶实矩阵而言,矩阵是实对称阵的充要条件是矩阵有$n$个两两正交的特征向量
对任何对称阵$A$都有$A=\frac12(A+A^T)$,对任何反对称阵$A$都有$A=\frac12(A-A^T)$,对任何方阵都有$A=\frac12(A+A^T)+\frac12(A-A^T)$
反对称阵:相信绝大多数对线性代数有所了解的人都不会对实对称阵感到陌生,这里浅浅归纳一下出现频率没有那么高的反对称阵($A^T=-A$)的性质:
- 反对称阵主子式元素必为$0$,因此迹也为$0$
- 奇数阶反对称阵行列式必为$\boldsymbol0$
- 任何反对称矩阵行列式非负
- $n$阶方阵$A$是反对称阵的充要条件是$\forall x\in\mathbb{R}^n$,有$x^TAx=0$(其实在任何数域上都是成立的)
- 实反对称阵的特征值只能为$0$或纯虚数
- 实反对称阵的秩必为偶数
参考文章:知乎: 反对称阵相关性质的总结(高等代数 · 性质齐全且全部给出证明,并辅以例题)
计算杂例
关于$\boldsymbol{A^n}$的求法总结如下:
如果矩阵$A$的秩为$1$,则可以分解为两个向量之积$\alpha\beta^T$,容易验证此时必有$A^n=k^{n-1}A$,只要求出$k$即可;关于矩阵$\alpha\beta^T$的性质将在特征值与特征向量小节中做完整归纳
事实上有结论:$\boldsymbol{k}=\text{tr}(\boldsymbol{A})=\boldsymbol{a}^T\boldsymbol{b}$
- 特别地, $$ \begin{aligned}\left[\begin{matrix}k&k&\cdots&k\\k&k&\cdots&k\\\vdots&\vdots&&\vdots\\k&k&\cdots&k\\\end{matrix}\right]^m_{n\times n}&=(nk)^{m-1}\cdot\left[\begin{matrix}k&k&\cdots&k\\k&k&\cdots&k\\\vdots&\vdots&&\vdots\\k&k&\cdots&k\\\end{matrix}\right]_{n\times n}\\&=k(nk)^{m-1}\cdot\left[\begin{matrix}1&1&\cdots&1\\1&1&\cdots&1\\\vdots&\vdots&&\vdots\\1&1&\cdots&1\\\end{matrix}\right]_{n\times n}\end{aligned} $$
所有主对角线元素为$0$的上下三角阵都是$n$次幂零矩阵(反之不成立),$n$阶这样的矩阵$A$的第$n$次方必为$O$,例如:
$$ \begin{aligned} A&=\left[\begin{matrix}&1&2&3\\&&4&5\\&&&6\\&&&\\\end{matrix}\right]&&A^2=\left[\begin{matrix}&&4&17\\&&&24\\&&&\\&&&\\\end{matrix}\right]\\ A^3&=\left[\begin{matrix}&&&24\\&&&\\&&&\\&&&\\\end{matrix}\right]&&A^4=O \end{aligned} $$可以观察到趋于$O$时,元素的变化也是有规律的,
利用矩阵加法,一般的上下三角阵$n$次方也可以计算,如:
$$ \begin{align} \left[\begin{matrix}1&2&3\\&1&4\\&&1\\\end{matrix}\right]^n&=\left(\left[\begin{matrix}1&&\\&1&\\&&1\\\end{matrix}\right]+\left[\begin{matrix}&2&3\\&&4\\&&\\\end{matrix}\right]\right)^n\\ &=E^n+C^1_nE^{n-1}\left[\begin{matrix}&2&3\\&&4\\&&\\\end{matrix}\right]+C^2_nE^{n-2}\left[\begin{matrix}&2&3\\&&4\\&&\\\end{matrix}\right]^2+0+0+\cdots\\ &=\left[\begin{matrix}1&2n&n(4n-1)\\&1&4n\\&&1\\\end{matrix}\right] \end{align} $$事实上Jordan标准型就可以被拆分为对角阵和幂零矩阵的和;由此可见,幂零矩阵虽然特征值均为$0$,但其本身不一定为零矩阵
利用对角化的快速幂方法(相似对角化,考虑特征值分解),若存在可逆阵$P$使得$A=P\Lambda P^{-1}$且$\Lambda$为对角矩阵,利用对角阵$(\lambda_{ij})$有$(\lambda_{ij})^n=(\lambda^n_{ij})$进而计算$B^n$,有$A^n=P\Lambda P^{-1}P\Lambda P^{-1}\cdots P\Lambda P^{-1}=P\Lambda^nP^{-1}$;$P$可以为任一特征向量矩阵
推论:该方法也可以用于直接表出$A^n\xi$的通式,只要$\xi$能被表示为$A$的线性无关的特征向量的线性组合
对于以下的类对角阵,当$A,B$为方阵时,有
$$ \left[\begin{matrix}A&O\\O&B\\\end{matrix}\right]^n=\left[\begin{matrix}A^n&O\\O&B^n\\\end{matrix}\right] $$当$A,B$为同阶方阵时(以下公式在两矩阵不同阶时不成立),有
$$ \left[\begin{matrix}O&A\\B&O\\\end{matrix}\right]^2=\left[\begin{matrix}AB&O\\O&BA\\\end{matrix}\right] $$因此,
$$ \Rightarrow\forall k\in\mathbb{N},\ \ \left\{\begin{aligned} &\left[\begin{matrix}O&A\\B&O\\\end{matrix}\right]^{2k}=\left[\begin{matrix}(AB)^k&O\\O&(BA)^k\\\end{matrix}\right]\\ &\left[\begin{matrix}O&A\\B&O\\\end{matrix}\right]^{2k+1}=\left[\begin{matrix}(AB)^k&O\\O&(BA)^k\\\end{matrix}\right]\left[\begin{matrix}O&A\\B&O\\\end{matrix}\right]=\left[\begin{matrix}O&(AB)^kA\\(BA)^kB&O\\\end{matrix}\right] \end{aligned}\right. $$通用方法:化为Jordan标准型,注意到这是一种上三角矩阵(类对角化),于是无论是结合第$1$点还是结合第$3$点,所有的矩阵都可以计算$n$次幂通式了。不过该方法笔算的计算相对大得多……
解矩阵方程$\boldsymbol{AX=B}$的方法列在了下文“线性方程组”中
给定两个同阶矩阵$A,B$,如果存在可逆矩阵$P$使得$P^{-1}AP=B$,也就是说$A$可以经相似变换$P$化为$B$,那么该如何寻找所有可能的$P$呢?换句话说,就是如何求任意两相似矩阵间的相似变换。
方法一:当$A$或$B$可相似对角化时,可以考虑该方法。分别计算$A,B$的特征值与特征向量将其对角化,不妨设分别有$P^{-1}_1AP_1=\Lambda$,$P^{-1}_2BP_2=\Lambda$,联立得$P^{-1}_1AP_1=P^{-1}_2BP_2$,因此有$P_2P^{-1}_1AP_1P^{-1}_2=B$,所以可令$P=P_1P^{-1}_2$,则这样得到的$P$就是满足要求的一个解。该方法较为局限,一是只有在$A,B$相似于同一对角阵时才能使用,二是不能解出所有可能的$P$,只是给出了一个可行的解。
方法二:该方法从特征值与特征向量原理出发,更为通用。设$A,B$均为$n$阶方阵,记$P=(\alpha_1,\alpha_2,\cdots,\alpha_n)$,其中$\{\alpha_i\}$是线性无关的$n$维列向量组,根据条件$P^{-1}AP=B$,有
$$ AP=(A\alpha_1,A\alpha_2,\cdots,A\alpha_n)=PB=(\alpha_1,\alpha_2,\cdots,\alpha_n)B $$注意到上式中$(\alpha_1,\alpha_2,\cdots,\alpha_n)B$是可以直接计算的列向量组$(\alpha_1,\alpha_2,\cdots,\alpha_n)$的线性组合,即
$$ \left\{\begin{aligned} &A\alpha_1=b_{11}\alpha_1+b_{21}\alpha_2+\cdots+b_{n1}\alpha_n\\ &A\alpha_2=b_{12}\alpha_1+b_{22}\alpha_2+\cdots+b_{n2}\alpha_n\\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \cdots\ \cdots\\ &A\alpha_n=b_{1n}\alpha_1+b_{2n}\alpha_2+\cdots+b_{nn}\alpha_n\\ \end{aligned}\right. $$到这里,如果有一部分方程等价为$A$的特征向量的定义,则可以计算$A$相应特征值的特征向量来优先解出这个向量,再代回方程组解出其他的向量;如果$A$是一个Jordan标准型,则可以求循环基;如果上述方法都不可用,则只好设$n^2$个未知数硬解$P$了。
给定一个$A$,如果存在下三角可逆阵$P$与上三角可逆阵$Q$使得$PAQ=\Lambda$,其中$\Lambda$是一个对角阵,那么该如何寻找这样的$P$与$Q$?
尽管这不是相似对角化问题,但由于$P$与$Q$是可逆的,因此该问题等价于找出一系列的有限个初等行列变换,使得$A$化为对角阵。
本着和矩阵求逆一样用分块阵“记录”变换的思想,这种问题可以分两步解决:
- 对$(A,E)$作初等行变换,将左边的$A$化为上三角阵$U$,整体上$(A,E)\to(U,P)$,实际上是$P(A,E)=(U,P)$,注意左乘矩阵对应行变换;
- 对$\left(\begin{matrix}U\\E\end{matrix}\right)$作初等列变换,将上边的$U$化为对角阵$\Lambda$,整体上$\left(\begin{matrix}U\\E\end{matrix}\right)\to\left(\begin{matrix}\Lambda\\Q\end{matrix}\right)$,实际上是$\left(\begin{matrix}U\\E\end{matrix}\right)Q=\left(\begin{matrix}\Lambda\\Q\end{matrix}\right)$,注意右乘矩阵对应列变换;
- 如此一来,就得到了使得$PAQ=\Lambda$的$P$与$Q$
凡是可以相似对角化且特征值均非负的实方阵$A$,我们都可以很方便地算出其实平方根矩阵$A^{\frac12}$:设特征值均非负的矩阵$A$可相似对角化(即存在一可逆矩阵$P$使得$P^{-1}AP=\Lambda$,其中$\Lambda$是以$A$特征值为对角元的对角矩阵),接着记$A$的平方根矩阵为$B$,也就是设$B^2=A$,则$B=P\Lambda^{\frac12}P^{-1}$,其中$\Lambda^{\frac12}$是将$\Lambda$对角元取平方根后得到的新对角阵。
这个方法的原理很简单,因为$B^2=P\Lambda^{\frac12}\Lambda^{\frac12}P^{-1}=P\Lambda P^{-1}=A$,按同样的思路也可以计算“立方根矩阵”、“四次根矩阵”等;由于正定矩阵必可对角化且特征值均非负,所以对于正定矩阵必然可以用这个方法求其平方根矩阵。
特别性质
$C=AB$的行向量可以由$B$的行向量线性表示,$AB$的列向量可以由$A$的列向量线性表示;
利用分块矩阵这是非常直观的,不妨记$A$为$m\times n$矩阵、$B$为$n\times s$矩阵,对于前者按行分块有
$$ \left[\begin{matrix}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&\vdots&&\vdots\\a_{m1}&a_{m2}&\cdots&a_{mn}\\\end{matrix}\right]\left[\begin{matrix}\boldsymbol{\beta}^T_1\\\boldsymbol{\beta}^T_2\\\vdots\\\boldsymbol{\beta}^T_n\end{matrix}\right]=\left[\begin{matrix}\boldsymbol{\gamma}^T_1\\\boldsymbol{\gamma}^T_2\\\vdots\\\boldsymbol{\gamma}^T_m\end{matrix}\right] $$$$ \Rightarrow\left\{\begin{aligned} &a_{11}\boldsymbol{\beta}^T_1+a_{12}\boldsymbol{\beta}^T_2+\cdots+a_{1n}\boldsymbol{\beta}^T_n=\boldsymbol{\gamma}^T_1\\ &a_{21}\boldsymbol{\beta}^T_1+a_{22}\boldsymbol{\beta}^T_2+\cdots+a_{2n}\boldsymbol{\beta}^T_n=\boldsymbol{\gamma}^T_2\\ &\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \cdots\ \ \cdots\\ &a_{m1}\boldsymbol{\beta}^T_1+a_{m2}\boldsymbol{\beta}^T_2+\cdots+a_{mn}\boldsymbol{\beta}^T_n=\boldsymbol{\gamma}^T_m\\ \end{aligned}\right.\ \ \ \ \ \ \ $$即$C=(\gamma_{ij})$的行向列可以由$B$的行向量线性表出;同理,类似操作按列分块则可以得到$C$的列向量可以由$A$的列向量线性表出;
同时,如果$C=AB$可逆,则$A$的行向量必然线性无关、$B$的列向量必然线性无关。以$A$的行向量为例,不妨设$A$是$n\times m$矩阵、$B$是$m\times n$矩阵,$AB$可逆时有$n=r(AB)\leqslant r(A)\leqslant n$,同时注意到$A$恰有$n$个行向量,所以$A$的$n$个行向量必然线性无关;对$B$同理,可以知道$B$的$m$个列向量必然线性无关
关于矩阵可交换问题的讨论,对于$n$阶方阵$A,B$有如下重要特征:
“与矩阵$A$可交换的矩阵均为$A$的多项式”,这一断言成立的充要条件是$A$的极小多项式与其特征多项式相等$^{[1]}$
如果矩阵$A$的Jordan标准型中没有标量矩阵,则$A,B$可交换的充要条件是$B$是$A$的$n-1$阶多项式$^{[2]}$,所以大多数情况下可以粗略地认为这是无条件的充要条件
特例 1:对于非单位阵的二阶矩阵$A$,$AB=BA$的充要条件是$B=aE+bA$
特例 2:可逆方阵$A$的逆$A^{-1}$总是与$A$可交换,可证明$A^{-1}$必然是$A$的多项式
特例 3:任何方阵$A$的伴随矩阵$A^{\ast}$总是与$A$可交换,可证明$A^{\ast}$必然是$A$的多项式,对$A$不可逆情形可以考虑摄动法证明
如果$A$是方阵,则当且仅当$A$是上三角阵时$A$与$A^T$才可交换,即$AA^T=A^TA$$^{[3]}$
如果$A$有$n$个不相等的特征值,则$A,B$可交换的充要条件是$A,B$有完全相同的特征子空间$^{[4]}$
如果$A,B$可交换,则
$A,B$有公共特征向量,因为$A$的特征子空间是$B$的不变子空间
对$A$的任一特征值$\lambda$,存在$A$的对应$\lambda$的一个特征向量$\xi$和$B$的某个特征值$\mu$,使得
- $\lambda\mu$是$AB$的特征值$^{[4]}$
- $\xi$是$B$的对应$\mu$的特征向量,也是$AB$的对应$\lambda\mu$的特征向量$^{[4]}$
对$AB$的任一特征值$\gamma$,存在$AB$的对应$\gamma$的一个特征向量$\varsigma$、$A$的某个特征值$\lambda$和$B$的某个特征值$\mu$,使得
- $\varsigma$是$A$的对应$\lambda$的特征向量,也是$B$的对应$\mu$的特征向量$^{[4]}$
- $\varsigma=\lambda\mu\ ^{[4]}$
有些时候,即使不知道矩阵$B$的具体形式,也可以导出$A,B$可交换;
一个比较经典的例子是$AB=A-B$,该式可以因式分解为$(A+E)(-B+E)=E$,所以$(A+E)$可逆而且逆为$(-B+E)$,由于矩阵和他的逆必然可交换且乘积为$E$,所以进一步有$(A+E)(-B+E)=E=(-B+E)(A+E)$,化简得$AB=BA$,即$A,B$可交换;
而且在这个例子中,只要$A$没有特征值$1$的同时$A$有$n$个线性无关的特征向量,那么$A$的全部特征向量就是$AB$的全部特征向量,也是$B$的全部特征向量。证明是容易的,这里只证前者,设$A\xi=\lambda\xi$,则$AB\xi=B(A\xi)=\lambda B\xi$,联系到$AB=A-B$,有$\lambda B\xi=\lambda(AB-A)\xi=\lambda AB\xi-\lambda^2\xi$,综上有$AB\xi=\frac{\lambda^2}{\lambda-1}\xi$,所以如果要进一步计算使$AB$相似对角化的相似变换$P$,则直接计算$A$的特征向量即可,而并不需要求出$B$的具体形式。
当然要计算使$AB$相似对角化的相似变换$P$其实不需要讨论$AB$特征向量和$A$特征向量间的关系,因为
一些其他的性质:
设$A,B$分别是$m$阶和$n$阶的矩阵,则存在非零的$m\times n$阶矩阵使得$AX=XB$的充要条件是$A,B$有公共特征值$^{[4]}$
若$n$阶矩阵$A,B$均可对角化,则$AB=BA$的充要条件是存在$n$阶可逆阵$P$使得$P^{-1}AP=P^{-1}BP=\Lambda$,其中$\Lambda$是一个对角阵
若$A,B$均为$n$阶实对称阵,则$AB=BA$的充要条件是存在$n$阶正交阵$Q$使得$Q^TAQ=Q^TBQ=\Lambda$,其中$\Lambda$是一个对角阵
[1] 林建富,杜翠真.矩阵可交换的充要条件[J].吉林师范大学学报(自然科学版),2012,33(04):59-61.
[2] 钱微微,蔡耀志.论矩阵可交换的充要条件[J].大学数学,2007(05):143-146.
[3] Stack Exchange: Does a square matrix always commute with its transpose?
[4] 知乎: 矩阵可交换的条件
一个有趣的例子,对于$n$阶可逆矩阵$\boldsymbol{A}$和$n$维非零列向量$\boldsymbol{\alpha}$,
- 如果$\boldsymbol{A}$是正定或负定矩阵,则$r\left(\begin{matrix}\boldsymbol{A}&\boldsymbol{\alpha}\\\boldsymbol{\alpha}^T&0\end{matrix}\right)=n+1$
- 如果$\boldsymbol{A}$是反对称矩阵,则$r\left(\begin{matrix}\boldsymbol{A}&\boldsymbol{\alpha}\\\boldsymbol{\alpha}^T&0\end{matrix}\right)=n$
这两个例子其实都非常直观,既然$\boldsymbol{A}$可逆,那么就很容易进行非退化的行列变换:
$$ \left(\begin{matrix}\boldsymbol{A}&\boldsymbol{\alpha}\\\boldsymbol{\alpha}^T&0\end{matrix}\right)\to\left(\begin{matrix}\boldsymbol{A}&\boldsymbol0\\\boldsymbol{\alpha}^T&-\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha}\end{matrix}\right)\to\left(\begin{matrix}\boldsymbol{A}&\boldsymbol0\\\boldsymbol0^T&-\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha}\end{matrix}\right) $$所以,决定$r\left(\begin{matrix}\boldsymbol{A}&\boldsymbol{\alpha}\\\boldsymbol{\alpha}^T&0\end{matrix}\right)$是$n+1$还是$n$的关键在于$\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha}$是否为$0$:
- 当$\boldsymbol{A}$是正定或负定矩阵,由于$\boldsymbol{\alpha}\neq\boldsymbol0$,所以$\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha}\neq0$,易见$r\left(\begin{matrix}\boldsymbol{A}&\boldsymbol{\alpha}\\\boldsymbol{\alpha}^T&0\end{matrix}\right)=r(\boldsymbol{A})+1=n+1$
- 当$\boldsymbol{A}$是反对称矩阵,$\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha}=(\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha})^T=\boldsymbol{\alpha}^T\boldsymbol{(A}^T)^{-1}\boldsymbol{\alpha}=-\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha}$,所以必然有$\boldsymbol{\alpha}^T\boldsymbol{A}^{-1}\boldsymbol{\alpha}=0$,从而$r\left(\begin{matrix}\boldsymbol{A}&\boldsymbol{\alpha}\\\boldsymbol{\alpha}^T&0\end{matrix}\right)=r(\boldsymbol{A})=n$
如果$n$阶矩阵$\boldsymbol{A}$满足$(\boldsymbol{A}-\alpha\boldsymbol{E})(\boldsymbol{A}-\beta\boldsymbol{E})=\boldsymbol{O}$,其中$\alpha\neq\beta$,则$\boldsymbol{A}$的全部特征值只可能为$\alpha$或$\beta$,且$\boldsymbol{A}$一定有$n$个线性无关的特征向量,进而$\boldsymbol{A}$一定能被相似对角化;换言之,如果$\boldsymbol{A}$满足一个有互异实根的二次多项式,那么$\boldsymbol{A}$就可相似对角化。证明是容易的:
首先,由零化多项式$(\boldsymbol{A}-\alpha\boldsymbol{E})(\boldsymbol{A}-\beta\boldsymbol{E})=\boldsymbol{O}$知$\boldsymbol{A}$的特征值只可能为$\alpha,\beta$,并且有$r(\boldsymbol{A}-\alpha\boldsymbol{E})+r(\boldsymbol{A}-\beta\boldsymbol{E})\leqslant n$;接着,有
$$ \begin{align}r(\boldsymbol{A}-\alpha\boldsymbol{E})+r(\boldsymbol{A}-\beta\boldsymbol{E})&=r(\boldsymbol{A}-\alpha\boldsymbol{E})+r(-\boldsymbol{A}+\beta\boldsymbol{E})\\&\geqslant r(\boldsymbol{A}-\alpha\boldsymbol{E}-\boldsymbol{A}+\beta\boldsymbol{E})\\&=(\beta-\alpha)r(\boldsymbol{E})=n\end{align} $$所以$\alpha,\beta$的几何重数(如果他们是特征值的话)之和为$n$,即$\boldsymbol{A}$存在$n$个线性无关的特征向量,从而$\boldsymbol{A}$能够被相似对角化
矩阵分解简述
矩阵分解在英语中称decomposition或factorization,这部分内容都在复数域$\mathbb{C}$上进行讨论,记矩阵$\boldsymbol{A}\in\mathbb{C}^{m\times n}$,$r(\boldsymbol{A})=r$;
$\boldsymbol{A}^H$表示矩阵$\boldsymbol{A}$的共轭转置,在实数域上表现为$\boldsymbol{A}$的转置$\boldsymbol{A}^T$;酉矩阵(幺正矩阵)指满足$\boldsymbol{A}^H\boldsymbol{A}=\boldsymbol{AA}^H=\boldsymbol{E}$的矩阵$\boldsymbol{A}$,在实数域上表现为正交矩阵
1. 特征分解(相似对角化) eigendecomposition
2. 满秩分解 rank decomposition
对于复矩阵$\boldsymbol{A}\in\mathbb{C}^{m\times n}$,一定存在不唯一的$m$阶可逆阵$\boldsymbol{P}$与$n$阶可逆阵$\boldsymbol{Q}$,使得
$$ \boldsymbol{A}=\boldsymbol{P}\left(\begin{matrix}\boldsymbol{I}_r&0\\0&0\end{matrix}\right)\boldsymbol{Q}=\boldsymbol{P}\left(\begin{matrix}\boldsymbol{I}_r\\0\end{matrix}\right)\left(\begin{matrix}\boldsymbol{I}_r&0\end{matrix}\right)\boldsymbol{Q}=\boldsymbol{P}_1\boldsymbol{Q}_1 $$因此,可以说$\boldsymbol{A}$一定能被两个满秩可逆矩阵对角化(实际上是矩阵等价关系借助初等矩阵的体现),也可以说$\boldsymbol{A}$一定能被分解为两个矩阵的乘积
满秩分解的应用:
- 幂等矩阵$\boldsymbol{B}$一定可以被一个可逆矩阵$\boldsymbol{P}$表示为$\boldsymbol{P}\left(\begin{matrix}\boldsymbol{I}_r&0\\0&0\end{matrix}\right)\boldsymbol{P}^{-1}$,所以$r(\boldsymbol{B})=\mathrm{tr}(\boldsymbol{B})$
- 计算Moore-Penrose逆$\boldsymbol{A}^+$,对于$\boldsymbol{A}$的一个满秩分解$\boldsymbol{A}=\boldsymbol{P}_1\boldsymbol{Q}_1$,有:
- $\boldsymbol{A}^+=\boldsymbol{Q}^H_1(\boldsymbol{Q}_1\boldsymbol{Q}^H_1)^{-1}(\boldsymbol{P}^H_1\boldsymbol{P}_1)^{-1}\boldsymbol{P}^H_1$
- 如果$\boldsymbol{A}$是行满秩的,则$\boldsymbol{A}^+=\boldsymbol{A}^H(\boldsymbol{AA}^H)^{-1}$
- 如果$\boldsymbol{A}$是列满秩的,则$\boldsymbol{A}^+=(\boldsymbol{A}^H\boldsymbol{A})^{-1}\boldsymbol{A}^H$
- 可以通过SVD找到满秩分解
3. 酉对角化 Schur decomposition
对于复方阵$\boldsymbol{A}\in\mathbb{C}^{n\times n}$,一定存在$n$阶酉矩阵$\boldsymbol{Q}$使得与上三角方阵$\boldsymbol{U}$,使得
$$ \boldsymbol{A}=\boldsymbol{QUQ}^H $$也就是说,任何复方阵总是酉相似于一个上三角阵的
4. LU分解(三角分解)lower–upper (LU) decomposition
如果存在下三角方阵$\boldsymbol{L}$与上三角方阵$\boldsymbol{U}$使得复方阵$\boldsymbol{A}=\boldsymbol{LU}$,则称$\boldsymbol{A}=\boldsymbol{LU}$为$\boldsymbol{A}$的LU分解;
对于满秩方阵$\boldsymbol{A}\in\mathbb{C}^{n\times n}$,$\boldsymbol{A}$可作LU分解的充要条件是$\boldsymbol{A}$的任何阶顺序主子式均不为$0$;
对于非满秩方阵$\boldsymbol{A}\in\mathbb{C}^{n\times n}$,如果$\boldsymbol{A}$的前$r$个顺序主子式不为$0$,则可以作LU分解;
不是所有方阵都能进行LU分解,但如果方阵满秩且可LU分解,则LU分解是唯一确定的
5. QR分解 QR decomposition
对于复矩阵$\boldsymbol{A}\in\mathbb{C}^{m\times n}$,$m\geqslant n$,一定存在酉矩阵$\boldsymbol{Q}_{m\times m}$与上三角矩阵$\boldsymbol{R}_{m\times n}=\left(\begin{matrix}\boldsymbol{R}_1\\\boldsymbol{O}_{m-n,n}\end{matrix}\right)$,其中$\boldsymbol{R}_1$是$n$阶上三角方阵,使得
$$ \boldsymbol{A}=\boldsymbol{QR} $$$\boldsymbol{A}$满秩时($r=n$)如果要求$\boldsymbol{R}_1$的对角线元素为正,则分解是唯一确定的;如果$\boldsymbol{A}$是实方阵,则$\boldsymbol{Q}$表现为正交矩阵
满秩分解的应用:
- 如果$\boldsymbol{A}$列满秩,可以考虑用Gram–Schmidt方法计算QR分解
- 对于方阵,QR分解能有效地计算其特征值与特征向量,因为酉矩阵不改变特征值,所以$\boldsymbol{A}$的特征值即是等于$\boldsymbol{R}$的主对角元
6. SVD(奇异值分解)singular value decomposition
酉等价:对于$\boldsymbol{A},\boldsymbol{B}\in\mathbb{C}^{m\times n}$,如果存在$m$阶酉矩阵$\boldsymbol{U}$和$n$阶酉矩阵$\boldsymbol{V}$使得$\boldsymbol{U}^H\boldsymbol{AV}=\boldsymbol{B}$,则称$\boldsymbol{A},\boldsymbol{B}$是酉等价的;
奇异值:如果$\boldsymbol{A}\in\mathbb{C}^{m\times n}$且$r>0$,则称$\boldsymbol{A}^H\boldsymbol{A}$的各特征值$\lambda_1\geqslant\lambda_2\geqslant\cdots\geqslant\lambda_r>\lambda_{r+1}=\cdots=\lambda_n=0$的平方根为奇异值,记为$\sigma_i=\sqrt{\lambda_i},\ i=1,2,\cdots,n$;
SVD:对于$\boldsymbol{A}\in\mathbb{C}^{m\times n}$且$r>0$,一定存在$m$阶酉矩阵$\boldsymbol{U}$和$n$阶酉矩阵$\boldsymbol{V}$,使得
$$ \boldsymbol{A}=\boldsymbol{U}\left(\begin{matrix}\mathrm{diag}(\sigma_1,\cdots,\sigma_r)&\boldsymbol{O}_{r,n-r}\\\boldsymbol{O}_{m-r,r}&\boldsymbol{O}_{m-r,n-r}\end{matrix}\right)\boldsymbol{V} $$即$\boldsymbol{A}$与其奇异值对角阵酉等价
SVD的应用:
- 计算Moore-Penrose逆$\boldsymbol{A}^+$
- 极分解,SVD不是唯一的,但极分解唯一
- 低秩近似
- ……
SVD是在应用领域,尤其是计算机科学中应用最广泛的分解
摄动法
摄动法最初作为求解一些数学物理方程数值解的方法,后来被广泛运用于数理领域。在实变函数论中可以用简单函数逼近一般函数,在矩阵论中同样可以用可逆矩阵逼近不可逆矩阵,不少涉及不可逆矩阵的问题便也迎刃而解。
矩阵摄动法的保证是:对于任何$n$阶矩阵$A$,一定存在实数$a>0$使得满足$\forall |t|\lt a$且$t\neq0$的$t$,均有$A+tE$是可逆矩阵。
如何理解这一定理?根据代数学基本定理,$A$的特征多项式$\big|\lambda E-A\big|$至多只有$n$个根,不妨记为$\lambda_1,\lambda_2,\cdots,\lambda_n$,如果特征值均为$0$,则对取任意非零的数$t$(所以这样的$a$是肯定存在的),均有$\det(A+tE)=\prod\limits^n_{i=1}t\neq0$,因此$A+tE$可逆;如果特征值不全为$0$,不妨设不为零的特征值为$\lambda_{j_1},\lambda_{j_2},\cdots,\lambda_{j_m}$,取$a=\min\limits_{0\leqslant k\leqslant m}\{|\lambda_{j_k}|\}\neq0$,那么$\forall t\,\ s.t.\ \ |t|\lt a$,均有$\det(A+tE)=\prod\limits^n_{i=1}(\lambda_i+t)\neq0$,故而$A+tE$也是可逆的。该定理说明:即使矩阵不可逆,也存在一系列可逆矩阵$\{A+t_iE:t_i\to0\ (i\to\infty)\}$可以逼近该矩阵。
因此,只要问题关于$t_i$连续且对可逆矩阵成立,就可以把在可逆矩阵上的结论推广至不可逆矩阵。
例如可以证明对任意方阵有$(AB)^{\ast}=B^{\ast}A^{\ast}$。当$A,B$可逆时结果显然,而当$A,B$是一般方阵时,由于$(A+t_iE)$与$(B+t_iE)$也是可逆矩阵,所以方程$\big[(A+t_iE)(B+t_iE)\big]^{\ast}=(B+t_iE)^{\ast}(A+t_iE)^{\ast}$成立,注意到该方程还是关于$t_i$的多项式,因此对$t_i$连续,故该结论可以推广至不可逆方阵,仍成立。
这是一个强大的工具,可以解决诸多问题。
第一同构定理
第一同构定理:若$f:G\to H$同态,则$\text{Im}(f)\cong\frac{G}{\text{ker}(f)}$
第一同构定理(矩阵子空间):记线性变换$L:V\to W$,则$\text{Im}(L)\cong\frac{V}{\text{ker}(L)}$;如果维度还是有限的,则:
$$ \dim\big(\text{Im}(L)\big)+\dim\big(\text{Ker}(L)\big)=\dim(V) $$(Rank–nullity定理)
行列式
在我看来,如果要直观且通俗地讲,那么行列式是列向量在全空间下的有向体积,对应线性变换(矩阵)作用于某空间的标准正交基后单位几何体的在原空间下的体积,于是不满秩的数字矩阵(自然是可逆的)行列式为$0$也容易理解了(例如平面图形在三维空间的体积为$0$),符号代表左右手系;尽管可以直接用逆序数给出定义,但这种做法在低观点下容易令人感到匪夷所思。
在几何中,可以称行列式为线性变换的”伸缩因子“;用二阶矩阵做例子,可以发现他的行列式是一个平行四边形的面积。试着从这个角度思考,为何矩阵一般不满足交换律,而矩阵之积的行列式不论顺序如何改变,其行列式值也不发生变化。
由于行列式就是特征值的积,所以可以认为特征值是对各特征向量的缩放因子,而行列式是对整体的缩放因子。
$n$阶行列式的逆序数定义:$\sum\limits_{j_1,j_2,\cdots,j_n}(-1)^{\tau(j_1,j_2,\cdots,j_n)}a_{1,j_1}a_{2,j_2}\cdots a_{n,j_n}$,一共有$n!$项,其中$\tau(\cdot)$是逆序数,决定排列是奇排列(逆序数为奇)还是偶排列(逆序数为偶);$a_{1,j_1}a_{2,j_2}\cdots a_{n,j_n}$则是是来自不同行不同列的$n$个元素的乘积。该定义也被称为行列式的完全展开(相较于按行或列展开和拉普拉斯展开,是“完全”展开的),一般而言,求含有某未知数的行列式多项式中未知数某次幂的系数,就需要对行列式做适当变换后(以方便运用定义)用该定义求解——这比直接计算出整个行列式少了非常之多的计算量。
$n$阶行列式的递归定义:用$M_{ij}$表示余子式、用$A_{ij}=(-1)^{i+j}M_{ij}$表示代数余子式,则$\forall j,\;\det(A)=\sum\limits^n_{i=1}a_{ji}A_{ji}$。这实际上是按行展开,当然也可以按列展开或者按块展开(拉普拉斯展开)。
拉普拉斯定理略,可参考 【矩阵论】拉普拉斯定理及简单应用,作者甚至补充了拉普拉斯本人的背景。
用结构化的观点看,数域$\mathbb{K}$上的$n$阶行列式等价定义为:①列线性性、②列反对称性、③规范性(使得行列式唯一,定义了数量关系)。
初等变换中,
- 交换行或列,行列式值取相反数
- 某行或列倍乘$k$,行列式值乘$k$
- 将某行或列倍乘$k$后加到另一行或列,行列式值不变
相似变换的有限复合均不改变行列式的值(更本质的是不改变特征值),利用这一点将矩阵化为上下三角矩阵,则行列式的值为主对角线元素的乘积;初等变换和合同变换一般不能保证特征值不变化
副对角线上下三角矩阵$A$的行列式值为$(-1)^{\frac{n(n-1)}2}\prod a_{i,n-i+1}$,右边是副对角线元素的乘积
矩阵做多项式运算后,各特征值也进⾏相应的多项式运算,利用这一点可以计算矩阵多项式的行列式
矩阵相乘的⾏列式等于⾏列式相乘:$|AB|=|A|\cdot|B|$,注意矩阵相加的⾏列式没有一般的通式,有时可以考虑通过特征根间接计算
$|kA|=k^n|A|$(相当于对$A$的每一行或列进行了放缩$k$倍的初等变换)
矩阵行列式之和的分解:
$$ |\alpha+\beta,\gamma_1,\gamma_2,\cdots|=|\alpha,\gamma_1,\gamma_2,\cdots|+|\beta,\gamma_1,\gamma_2,\cdots| $$特例:记$A=[\alpha,\gamma_1,\gamma_2,\cdots]$、$B=[\beta,\gamma_1,\gamma_2,\cdots]$,则$|A+B|=2^{n-1}\big(|A|+|B|\big)$(注:只有像这样极少数情况下,矩阵和差的行列式可以被直接计算出来)
重要技巧:当已知$|A|=\det(\alpha_1,\alpha_2,\cdots)$时欲求$|B|=\det(\sum a_i\alpha_i,\sum b_i\alpha_i,\cdots)$的值,应当记$B=PA$再解出$P$,于是有$|B|=|P|\cdot|A|$,这是最简单的做法
逆矩阵⾏列式为原矩阵行列式的倒数,$|A^{-1}|=\frac1{|A|}$;事实上,更本质的是逆矩阵的特征值是原矩阵特征值的倒数
行列式的辅因子展开:矩阵$A$的任意一行 (或一列) 的向量,与相应一行 (或一列) 元素的代数余子式的向量的内积等于$|A|$,即
$$ \forall j,\ \ \sum^n_{i=1}a_{ij}A_{ij}=|A|,\ \ \text{其中}A_{ij}=(-1)^{i+j}M_{ij} $$$$ \forall i,\ \ \sum^n_{j=1}a_{ij}A_{ij}=|A|,\ \ \text{其中}A_{ij}=(-1)^{i+j}M_{ij} $$与行列式辅因子展开相对应的,矩阵$A$的任意一行 (或一列) 的向量,与并不相对应的其他一行 (或一列) 元素的代数余子式的向量的内积一定等于$0$,也就是说
$$ \forall j\text{ 与 }k\neq j,\ \ \sum^n_{i=1}a_{ij}A_{ik}=0,\ \ \text{其中}A_{ik}=(-1)^{i+k}M_{ij} $$$$ \forall i\text{ 与 }k\neq i,\ \ \sum^n_{j=1}a_{ij}A_{kj}=0,\ \ \text{其中}A_{kj}=(-1)^{k+j}M_{kj} $$二阶三阶矩阵的行列式:
- $\left|\begin{matrix}a&c\\b&d\\\end{matrix}\right|=ad-cb$
- $\left|\begin{matrix}a&d&g\\b&e&h\\c&f&i\\\end{matrix}\right|=aei+dhc+gbf-gec-hfa-idb$
伴随矩阵⾏列式:$|A^{\ast}|=|A|^{n-1}$
分块矩阵的行列式:请直接 参考此处,在此给出最简单的分块矩阵之行列式:
- 若$A$、$C$均为方阵,则$\left|\begin{matrix}A&B\\O&C\\\end{matrix}\right|=|A||C|$
- 若$A$为$n$阶方阵、$C$为$m$阶方阵,则$\left|\begin{matrix}O&A\\B&C\\\end{matrix}\right|=(-1)^{nm}|A||B|$
- 若$A,B,C,D$均为$n\times n$矩阵且其一为零矩阵,则$\left|\begin{matrix}A&B\\C&D\\\end{matrix}\right|=\det(AD-BC)$
基本初等矩阵的行列式:
交换某两行或某两列,对应的基本初等矩阵行列式为$-1$
$$ \left|\begin{matrix}&1&\\1&&\\&&1\\\end{matrix}\right|=-1 $$某一行或某一列倍乘$k$($k\neq0$),对应的基本初等矩阵行列式为$k$
$$ \left|\begin{matrix}k&&\\&1&\\&&1\\\end{matrix}\right|=k $$某一行(某一列)倍乘$k$后加到另一行(另一列),对应的基本初等矩阵行列式为$1$
$$ \left|\begin{matrix}1&k&\\&1&\\&&1\\\end{matrix}\right|=1 $$
由此也可以看出,第一种与第二种初等变换只是不改变秩(不改变行列向量组的线性相关性),并不意味着不改变行列式
特殊行列式
范德蒙德行列式
$$ \begin{align}\left|\begin{matrix}1&1&\cdots&1\\x_1&x_2&\cdots&x_n\\x^2_1&x^2_2&\cdots&x^2_n\\\vdots&\vdots&&\vdots\\x^{n-1}_1&x^{n-1}_2&\cdots&x^{n-1}_n\end{matrix}\right|&=\prod\limits_{1\leqslant j\lt i\leqslant n}(x_i-x_j)\\&=\begin{array}{r}(x_n-x_1)(x_{n-1}-x_1)\cdots(x_3-x_1)(x_2-x_1)\\\times(x_n-x_2)(x_{n-1}-x_2)\cdots(x_3-x_2)\\\times(x_n-x_3)(x_{n-1}-x_3)\cdots(x_4-x_3)\\\cdots\\\times(x_n-x_{n-1})\end{array}\end{align} $$如果范德蒙德行列式“倒过来”了,则有 $\left|\begin{matrix}x^{n-1}_1&x^{n-1}_2&\cdots&x^{n-1}_n\\x^{n-2}_1&x^{n-2}_2&\cdots&x^{n-2}_n\\\vdots&\vdots&&\vdots\\x^2_1&x^2_2&\cdots&x^2_n\\x_1&x_2&\cdots&x_n\\1&1&\cdots&1\end{matrix}\right|=\prod\limits_{1\leqslant j\lt i\leqslant n}(x_{\color{#FF0000}{j}}-x_{\color{#FF0000}{i}})$
要注意的是,范德蒙德行列式的最后一行元素幂次均为$n-1$,首行元素均为$1$;若否之,则要利用范德蒙德行列式的值与首行向量$(1,1,\cdots,1)$无关的特点构造出范德蒙德行列式。例如:
$$ \begin{align}\left|\begin{matrix}x_1&x_2&\cdots&x_n\\x^2_1&x^2_2&\cdots&x^2_n\\\vdots&\vdots&&\vdots\\x^n_1&x^n_2&\cdots&x^n_n\end{matrix}\right|&=\prod^n_{i=1}x_i\left|\begin{matrix}1&1&\cdots&1\\x_1&x_2&\cdots&x_n\\\vdots&\vdots&&\vdots\\x^{n-1}_1&x^{n-1}_2&\cdots&x^{n-1}_n\end{matrix}\right|\\&=\prod\limits^n_{i=1}x_i\prod\limits_{1\leqslant j\lt i}(x_i-x_j)\end{align} $$箭头行列式
$$ \begin{align}\left|\begin{matrix}\lambda_0&a_1&a_2&\cdots&a_n\\b_1&\lambda_1&&&\\b_2&&\lambda_2&&\\\vdots&&&\ddots&\\b_n&&&&\lambda_n\end{matrix}\right|&=\left|\begin{matrix}\lambda_0-\sum\limits^n_{i=1}\frac{a_ib_i}{\lambda_i}&a_1&a_2&\cdots&a_n\\0&\lambda_1&&&\\0&&\lambda_2&&\\\vdots&&&\ddots&\\0&&&&\lambda_n\end{matrix}\right|\\&=\left(\lambda_0-\sum\limits^n_{i=1}\frac{a_ib_i}{\lambda_i}\right)\prod^n_{j=1}\lambda_j\end{align} $$将第$k$列的$-\frac{b_k}{\lambda_k}$倍加到第一倍消去$\{b_i\}$即可,$1\lt i\leqslant n+1$;如果类似矩阵但不便计算,可以考虑数学归纳法
计算以行列式形式给出的多项式中某项的系数的方法:
例如欲计算多项式
$$ f(x)=\left|\begin{matrix}x&x&1&2x\\1&x&2&-1\\2&1&x&1\\2&-1&1&x\end{matrix}\right| $$中$x^3$项的系数,至少有三种方法可以选择:
法一:利用特征多项式系数公式$|\lambda E-A|=\lambda^n-\text{tr}(A)\lambda^{n-1}+\cdots+(-1)^n\det(A)$,先做初等行列变换将行列式化为未知数$x$均位于对角线上的形式,类似于特征多项式:
$$ \left|\begin{matrix}x&0&1&0\\1&x-1&2&-3\\2&-1&x&-3\\2&-3&1&x-4\end{matrix}\right| $$若记$A=\left|\begin{matrix}0&0&1&0\\1&-1&2&-3\\2&-1&0&-3\\2&-3&1&-4\end{matrix}\right|$,则$A$的特征多项式$|xE-A|$正是$f(x)$,所以$x^3$项的系数为$\mathrm{tr}(A)=-5$
法二:利用多项式的定义(完全展开),由定义知,行列式完全展开式为
$$ \sum\limits_{j_1,j_2,\cdots,j_n}(-1)^{\tau(j_1,j_2,\cdots,j_n)}a_{1,j_1}a_{2,j_2}\cdots a_{n,j_n} $$其中$\tau(\cdot)$代表逆序数,$j_1,j_2,\cdots,j_n$是$1,2,\cdots,n$的一个排列,即$j_1,j_2,\cdots,j_n$互不相等。按该公式,只需要找出题干给出的$f(x)$行列式或等价地找出$|xE-A|$中的全部$x^3$项的系数,然后再相加即可。以$f(x)$行列式为例,易见$x^3$项有$-1\times(2\times x\times x\times2x)$与$-1\times(1\times x\times x\times x)$,相加得$-5x^3$,因此$x^3$项的系数为$-5$
法三:通过初等行列变换,将$f(x)$完全展开,得到多项式$\sum\limits^4_{i=0}a_ix^i$形式后观察$x^3$的系数;这是最麻烦的方法,也是最直接的方法。一般而言不推荐完全展开来确定系数,因为太麻烦
特别地,如果要计算的是常数项,令$x=0$接着计算数字行列式即可,这样可能会比较快捷
向量与向量组
补充一下人尽皆知的定义,万一有初学者在读这篇文章呢,虽然应该没有:向量组$\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n$线性相关,定义为存在一组不全为$0$的数$k_1,k_2,\cdots,k_n$,使得$k_1\boldsymbol{\alpha}_1+k_2\boldsymbol{\alpha}_2+\cdots+k_n\boldsymbol{\alpha}_n=\boldsymbol0$成立。按定义,零向量与任何向量均线性相关。线性无关则是向量最对任何一组不全为零的数$k_1,k_2,\cdots,k_n$,均有$k_1\boldsymbol{\alpha}_1+k_2\boldsymbol{\alpha}_2+\cdots+k_n\boldsymbol{\alpha}_n\neq\boldsymbol0$成立,由此可以导出线性无关的充要条件是向量组中任何一个向量都不能由剩余向量线性表示,但应注意线性相关的充要条件并不是“向量组中任何一个向量都能由剩余向量线性表示”,而是“向量组中存在一个向量,可由剩余向量线性表示”。极大线性无关组是指向量组中最大个数的线性无关向量构成的集合,称这个个数为向量组的秩。可以证明,若矩阵的行列式为$0$,则矩阵的行向量组和列向量组一定线性相关;若行列式不为$0$,则矩阵的行向量组和列向量组一定线性无关,事实上这是充要条件。
“部分相关,整体相关;整体无关,部分无关”这一思想在很多场景中均适用,这也体现在向量组中。
若$\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n$可由$\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\cdots,\boldsymbol{\beta}_m$线性表示,则$r(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n)\leqslant r(\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\cdots,\boldsymbol{\beta}_m)$
矩阵左乘右乘向量,对矩阵间的左乘右乘意义不尽相同。对于向量而言,左乘$\boldsymbol{\alpha=A\beta}$代表坐标变换,这里$\boldsymbol{A}$应视为针对向量的线性变换,将一个向量的各个分量映射到对应值,得到另一个向量;右乘$\boldsymbol{\alpha=\beta A}$通常代表基变换,$\boldsymbol{A}$作为一个过渡矩阵,表示了两组基向量间的数量关系,不直接表示坐标
矩阵等价要求两矩阵(在形状相同的前提下)秩相等,向量组等价要求两向量组(在维数相同的前提下)能被彼此互相表出,即$r(\boldsymbol{\alpha})=r(\boldsymbol{\beta})=r(\boldsymbol{\alpha},\boldsymbol{\beta})$,或者说二者具有共同的极大线性无关组,所以矩阵等价不代表他们的行列向量组等价,但行列向量组等价就一定有矩阵等价
所有秩小于等于$1$的方阵都可以写为两向量之内积$ab^T$,如果秩相同,那么他们都是等价的
Schmidt正交化步骤:
$$ e_n=\frac1{\Vert x_n\Vert}\left(x_n-\sum^{n-1}_{i=1}\langle x_n,e_i\rangle e_i\right) $$对于实或复的线性无关向量组,记$\Vert\beta\Vert=\beta^T\beta$,有:
- $\beta_1=\alpha_1$
- $\beta_2=\alpha_2-\frac{\alpha_2^T\beta_1}{\Vert\beta_1\Vert}\beta_1$
- $\beta_3=\alpha_3-\frac{\alpha_3^T\beta_1}{\Vert\beta_1\Vert}\beta_1-\frac{\alpha_3^T\beta_2}{\Vert\beta_2\Vert}\beta_2$
- $\cdots$
- 最后再对各个向量单位化
这个方法在更一般的希尔伯特空间中仍有效,所以这是个在理论上极其重要的方法
若方程$\boldsymbol{Ax}=\boldsymbol{b}$解得了通解,设$\boldsymbol{A}=(\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_n)$,其中$\{\boldsymbol{\alpha}_i\}$是$\boldsymbol{A}$的列向量组,则$\boldsymbol{b}=\sum\limits^n_{i=1}k_i\boldsymbol{\alpha}_i$,其中$(k_1,k_2,\cdots,k_n)^T$是$\boldsymbol{Ax}=\boldsymbol{b}$的通解向量
在欧氏空间中,正交向量组一定线性无关。证明是简单的,设有正交向量组$\{\boldsymbol{\alpha}_i:1\leqslant i\leqslant m,\boldsymbol{\alpha}_i\in\mathbb{R}^n\}$,其中$\forall i,\ \boldsymbol{\alpha}_i\neq\boldsymbol0$且$\forall i,j,\ \langle\boldsymbol{\alpha}_i,\boldsymbol{\alpha}_j\rangle=0$,假设$\exists\ k_1,k_2,\cdots,k_m\in\mathbb{R}$使得$\boldsymbol{\beta}=k_1\boldsymbol{\alpha}_1+k_2\boldsymbol{\alpha}_2+\cdots+k_m\boldsymbol{\alpha}_m=\boldsymbol0$,则$\forall l$,$0=\langle\boldsymbol{\beta},\boldsymbol{\alpha}_l\rangle=\sum\limits^m_{i=1}k_i\langle\boldsymbol{\alpha}_i,\boldsymbol{\alpha}_l\rangle=k_l\langle\boldsymbol{\alpha}_l,\boldsymbol{\alpha}_l\rangle$,其中$\langle\boldsymbol{\alpha}_l,\boldsymbol{\alpha}_l\rangle\neq0$($\{\boldsymbol{\alpha}_i\}$中没有零向量),所以$k_l=0$,遍历$l$于$1$到$m$,有$k_1=k_2=\cdots=k_m=0$。综上所述,只存在一组全为$0$的实数使得$\{\boldsymbol{\alpha}_i\}$的线性组合为$0$,因而$\{\boldsymbol{\alpha}_i\}$线性无关
- 推论 1:对于$n\times m$的实矩阵$\boldsymbol{A}$,如果$m\geqslant n$,则其行向量组的极大线性无关组必然与$\boldsymbol{Ax}=\boldsymbol0$的基础解系线性无关,且二者秩的和为$m$
- 推论 2:$\mathbb{R}^n$中任意$n$个两两正交的向量均可以作为一组基,即正交基
线性方程组
解方程$\boldsymbol{AX=B}$(注意$X$不止可以是向量,也可以是矩阵)的方法:
如果$A$可逆则求逆即可,$X=A^{-1}B$,有两种做法
- 一种是直接计算$A^{-1}$再和$B$相乘,可以通过高斯消元法、伴随矩阵、初等矩阵的逆等方法计算
- 另一个办法是直接进行高斯消元法,对分块矩阵$\boldsymbol{(A,B)}$作初等行变换变为$\boldsymbol{(E,A^{-1}B)}$的形式,这直接就是$X$的解了;同样地也可以作相应初等列变换
如果$A$不可逆,和矩阵求逆类似地可以用高斯消元法解决,实际上这是解线性方程组的系统性方法。对$A$右接$B$得到增广矩阵$[A,B]$再初等行变换使得左部(即原本$A$的位置)化为最简行阶梯阵。举个例子:
设$AX=B$,解$X$;其中
$$ A=\left[\begin{matrix}1&3&3\\2&6&9\\-1&-3&3\\\end{matrix}\right],\ \ \ \ \ \ B=\left[\begin{matrix}2&-1&1\\7&4&-1\\4&13&-7\\\end{matrix}\right] $$由于$\det(A)=0$故不可用第一种方法,转而考虑对增广矩阵$(A,B)$作初等行变换
$$ \left[\begin{array}{ccc:ccc} 1 & 3 & 3 & 2 & -1 & 1\\ 2 & 6 & 9 & 7 & 4 & -1\\ -1 & -3 & 3 & 4 & 13 & -7\\ \end{array}\right]\rightarrow\left[\begin{array}{ccc:ccc} 1 & 3 & 0 & -1 & -7 & 4\\ & & 1 & 1 & 2 & -1\\ & & & 0 & 0 & 0\\ \end{array}\right] $$于是有
$$ \left\{\begin{aligned} &x_1+3x_2=-1\\ &x_3=1 \end{aligned}\right.\ \ \ \ \left\{\begin{aligned} &y_1+3y_2=-7\\ &y_3=2 \end{aligned}\right.\ \ \ \ \left\{\begin{aligned} &z_1+3z_2=4\\ &z_3=-1 \end{aligned}\right. $$最后将三个解向量按列封装为矩阵就解得了$X$,即
$$ X=(\boldsymbol{x},\boldsymbol{y},\boldsymbol{z})=\left[\begin{matrix}-3t-1&-3u-7&-3v+4\\t&u&v\\1&2&-1\\\end{matrix}\right] $$消元过程中同样也可以下接$B$然后作初等列变换,没有质的区别
克拉默法则只适用于方阵情形:
对于线性方程组$\boldsymbol{Ax=b}$(注:在克拉默法则中$\boldsymbol{A}$必须是方阵),方程的解为
$$ \boldsymbol{x}_i=\frac{D_i}{D} $$其中,$D_i$是用$\boldsymbol{b}$替换了$\boldsymbol{A}$的第$i$列得到的矩阵的行列式,$D$则是$\boldsymbol{A}$的行列式。
- 推论 1:当$|\boldsymbol{A}|=0$且$\boldsymbol{b}\neq\boldsymbol{0}$,方程可能无解,也可能有无穷个解
- 推论 2:当$|\boldsymbol{A}|=0$且$\boldsymbol{b}=\boldsymbol{0}$,方程有无穷个解
- 推论 3:当$|\boldsymbol{A}|\neq0$,方程有唯一解;特别地,还有$\boldsymbol{b}=\boldsymbol{0}$时方程只有零解
- 逆定理:若$|\boldsymbol{A}|=0$,则方程$\boldsymbol{Ax=b}$有唯一解
关于矩阵同解问题的讨论,对于$n\times m$矩阵$\boldsymbol{A},\boldsymbol{B}$矩阵与命题 “$\boldsymbol{Ax}=\boldsymbol0$和$\boldsymbol{Bx}=\boldsymbol0$同解”,有如下充要条件:
- $\boldsymbol{A}$可经初等行变换化为$\boldsymbol{B}$
- $\boldsymbol{A},\boldsymbol{B}$的行向量组等价
- $r(\boldsymbol{A})=r(\boldsymbol{B})=r\left(\begin{matrix}\boldsymbol{A}\\\boldsymbol{B}\end{matrix}\right)$
- $\boldsymbol{Ax}=\boldsymbol0$的解均为$\boldsymbol{Bx}=\boldsymbol0$的解,且$r(\boldsymbol{A})=r(\boldsymbol{B})$
特别地,$\boldsymbol{Ax}=\boldsymbol0$和$\boldsymbol{A}^T\boldsymbol{Ax}=\boldsymbol0$同解,但一般不和$\boldsymbol{AA}^T\boldsymbol{x}=\boldsymbol0$同解
对于一些分块矩阵的同解问题,可以将解向量也分块,再寻找极大线性无关组,或做分块矩阵的复合初等行变换
针对非齐次方阵,类似地,命题 “$\boldsymbol{Ax}=\boldsymbol{\xi}$和$\boldsymbol{Bx}=\boldsymbol{\eta}$同解(其中$\boldsymbol{\xi},\boldsymbol{\eta}$均为非零向量)”,有如下充要条件:
- $(\boldsymbol{A},\boldsymbol{\xi})$可经初等行变换化为$(\boldsymbol{B},\boldsymbol{\eta})$
- $(\boldsymbol{A},\boldsymbol{\xi})$与$(\boldsymbol{B},\boldsymbol{\eta})$的行向量组等价
- $r(\boldsymbol{A},\boldsymbol{\xi})=r\left(\begin{matrix}\boldsymbol{A}&\boldsymbol{\xi}\\\boldsymbol{B}&\boldsymbol{\eta}\end{matrix}\right)$
- $\boldsymbol{Ax}=\boldsymbol{\xi}$的解均为$\boldsymbol{Bx}=\boldsymbol{\eta}$的解,且$r(\boldsymbol{A})=r(\boldsymbol{A},\boldsymbol{\xi})=r(\boldsymbol{B},\boldsymbol{\eta})=r(\boldsymbol{B})$
若$\boldsymbol{P}$是$n$阶可逆矩阵,则对于$n$阶方阵$A$而言,$\boldsymbol{Ax}=\boldsymbol{0}$与$\boldsymbol{PAx}=\boldsymbol{0}$是同解线性方程组,具有相同的基础解系,因为相当于对$\boldsymbol{A}$做初等行变换,这不会改变解;
而如果$\boldsymbol{Ax}=\boldsymbol{0}$的基础解系为$\boldsymbol{\xi}_1,\boldsymbol{\xi}_2,\cdots,\boldsymbol{\xi}_k$,$\boldsymbol{P\xi}_1,\boldsymbol{P\xi}_2,\cdots,\boldsymbol{P\xi}_k$一般不是$\boldsymbol{Ax}=\boldsymbol{0}$的基础解系
$\boldsymbol{Ax=b}$有解的充要条件是$r(\boldsymbol{A})=r(\boldsymbol{A},\boldsymbol{b})$,在这种情况下:
- 当且仅当$\boldsymbol{A}$是可逆方阵(满秩方阵)时有唯一解,可以用高斯消元法求解,也可以用克拉默法则求解
- 当$r(\boldsymbol{A})$不等于列秩时,即对于$n$元线性方程$r(\boldsymbol{A})\lt n$时,方程有无穷组解,具体求解需要解基础解系
特别地,齐次线性方程组$\boldsymbol{Ax=0}$必有零解,同样地:
- 如果$\boldsymbol{A}$是可逆方阵,则$\boldsymbol0$是唯一解
- 当$r(\boldsymbol{A})$不等于列秩时,方程有无穷组解,具体求解需要解基础解析解系
特别地,对任何实方阵$\boldsymbol{A}$,非齐次线性方程组$\boldsymbol{A}^T\boldsymbol{Ax}=\boldsymbol{A}^T\boldsymbol{x}$必有解,因为$r(\boldsymbol{A}^T\boldsymbol{A},\boldsymbol{A}^T\boldsymbol{b})=r\big(\boldsymbol{A}^T(\boldsymbol{A},\boldsymbol{b})\big)\leqslant r(\boldsymbol{A}^T)$,同时又有$r(\boldsymbol{A}^T\boldsymbol{A},\boldsymbol{A}^T\boldsymbol{b})\geqslant r(\boldsymbol{A}^T\boldsymbol{A})=r(\boldsymbol{A}^T)$,所以$r(\boldsymbol{A}^T\boldsymbol{A},\boldsymbol{A}^T\boldsymbol{b})=r(\boldsymbol{A}^T\boldsymbol{A})=r(\boldsymbol{A}^T)$,该非齐次线性方程组必有解
解齐次方程$\boldsymbol{Ax=0}$的基础解系,可以将$\boldsymbol{A}$按初等行变换化为最简行阶梯矩阵(只能按行变换,因为习惯上竖着写向量),选取$n-r(\boldsymbol{A})$个变量为自由变量,依次取第一自由变量为$1$、其余为$0$得到一个解,再取第二自由变量为$1$、其余为$0$得到另一个解,循环往复,直到得到$n-r(\boldsymbol{A})$个解向量,他们是线性无关的,他们的线性组合就是所有的解(通解)
解非齐次方程$\boldsymbol{Ax=b}$,可以先解$\boldsymbol{Ax=0}$的基础解系,$\boldsymbol{Ax=0}$的所有解加任意$\boldsymbol{Ax=b}$的特解就是$\boldsymbol{Ax=b}$的所有解(这里的加是向量之和的意思)
- 也可以用初等行变换化增广矩阵$(\boldsymbol{A},\boldsymbol{b})$为行阶梯型矩阵,将矩阵还原回线性方程组,选取$n-r(\boldsymbol{A})$个变量用$k_i$代替$x_i$再直接解方程(解方程时把$\{k_i\}$当作已知的,即将其他分量用$\{k_i\}$和常数表示),得到一个包含未知数的解向量,最后将该解向量分离为$n-r(\boldsymbol{A})$个线性无关向量的线性组合加一个常数向量的形式即可
对于任意$n$阶实矩阵$\boldsymbol{A}$,“$\boldsymbol{x}$是$\boldsymbol{Ax}=\boldsymbol{0}$的解”的充要条件是“$\boldsymbol{x}$是$\boldsymbol{A}^T\boldsymbol{Ax}=\boldsymbol{0}$的解”。因为若$\boldsymbol{Ax}=\boldsymbol{0}$,则$\boldsymbol{A}^T\boldsymbol{Ax}=\boldsymbol{A}^T(\boldsymbol{Ax})=\boldsymbol{0}$;反之,若$\boldsymbol{A}^T\boldsymbol{Ax}=\boldsymbol{0}$,则$\boldsymbol{x}^T\boldsymbol{A}^T\boldsymbol{Ax=}0$,从而$(\boldsymbol{Ax})^T\boldsymbol{Ax}=0\Rightarrow\boldsymbol{Ax}=\boldsymbol{0}$,证毕
对于$n$阶实矩阵$\boldsymbol{A}$,当$r(\boldsymbol{A})=n-1$时$\boldsymbol{A}$的列向量均为$\boldsymbol{A}^{\ast}\boldsymbol{x}=\boldsymbol{0}$的解,因为$\boldsymbol{A}^{\ast}\boldsymbol{A}=0\times\boldsymbol{E}=\boldsymbol{O}$;尽管这一结论是显而易见的,但有些时候灵活运用是可以减小计算量的
任意形式的方程组有解的充要条件是系数矩阵的秩与增广矩阵的秩相等:$r(\boldsymbol{A})=r(\boldsymbol{A},\boldsymbol{b})$
齐次方程的基础解系中自由变量的个数为:$\text{列数}-r(\boldsymbol{A})$,这也是解空间的维数、基础解系中线性无关向量的个数
非齐次方程的线性无关解的个数,是相应的齐次方程解个数加一,即$k+1$,其中$k$是相应的齐次方程解空间的维数;当$A$是$n$阶方阵时,就是$n-r(\boldsymbol{A})+1$个;
这是因为特解$\boldsymbol{\beta}$与基础解系$\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\cdots,\boldsymbol{\alpha}_k$线性无关,从而$\boldsymbol{\beta},\boldsymbol{\alpha}_1+\boldsymbol{\beta},\cdots,\boldsymbol{\alpha}_k+\boldsymbol{\beta}$这$k+1$个向量线性无关
当$\boldsymbol{A}$是$m\times n$矩阵时,其中$n$既是列数也是未知数个数,则方程$\boldsymbol{Ax=b}$解个数可归纳为:
方程有解的条件下,若导出组只有零解(若$m=n$,无条件等价为当$\boldsymbol{A}$可逆时),则方程有唯一解
导出组存在非零解时(若$m=n$,等价为当$\boldsymbol{A}$不可逆时):
若$r(\boldsymbol{A})=r(\boldsymbol{A},\boldsymbol{b})$,则方程有无穷个解,导出组的基础解系中有$n-r$个向量
若$r(\boldsymbol{A})\lt r(\boldsymbol{A},\boldsymbol{b})$,则方程无解
——很多时候,对于$m=n$即$\boldsymbol{A}$是方阵的情况,利用好方程有无穷解或无解的必要条件$\boldsymbol{A}$不可逆,会极大简化问题
这些性质可以适当推广至$\boldsymbol{AX=B}$的情况
非齐次方程$\boldsymbol{Ax=b}$($\boldsymbol{b}\neq\boldsymbol0$)解的结构是齐次线性方程$\boldsymbol{Ax=0}$的解向量加非齐次方程的任一特解,齐次线性方程的所有解构成一个线性空间,称为解空间;非齐次线性方程的解,即由基础解系加上一个给定特解而得到的所有向量,一定不能构成线性空间
数值上,求解线性方程组的问题一般是通过最优化损失函数$\Vert Ax-b\Vert^2+\lambda\Vert x\Vert^2$,即岭估计
推论 1:如果$\boldsymbol{A}_{m\times n}$是行满秩矩阵,则$\boldsymbol{Ax}=\boldsymbol{b}$必有解,而且当$\boldsymbol{A}$是方阵时有唯一解,反之有无穷多个解
推论 2:方程$\boldsymbol{Ax}=\boldsymbol{b}$(其中$\boldsymbol{A}$是$m\times n$形矩阵)有唯一解的充要条件是$r(\boldsymbol{A})=r(\boldsymbol{A},\boldsymbol{b})=n$
推论 3:方程$\boldsymbol{Ax}=\boldsymbol{b}$(其中$\boldsymbol{A}$是$m\times n$形矩阵)有无穷多个解的充要条件是$r(\boldsymbol{A})=r(\boldsymbol{A},\boldsymbol{b})\lt n$
推论 4:方程$\boldsymbol{Ax}=\boldsymbol{b}$(其中$\boldsymbol{A}$是$m\times n$形矩阵)有无解的充要条件是$r(\boldsymbol{A})\neq r(\boldsymbol{A},\boldsymbol{b})$
再次强调,以上结论均可以很自然地推广至方程$\boldsymbol{AX}=\boldsymbol{B}$上
特征值和特征向量
正交矩阵、正交变换与特征值、特征向量有密不可分的关系
特征分解可推广为谱分解与奇异值分解(SVD),前者是对从向量空间的角度进行推广,一般在泛函分析中讨论,而后者SVD是对方阵对象进行推广,将分解方法扩展至一般的矩阵
如果只是希望计算矩阵的特征值与特征向量,除了用 WolframApha “大炮打蚊子”,也可以选择:矩阵计算器
注意,若对某抽象$n$阶矩阵提到了 “各行元素之和为…” 或 “各列元素之和为…”,大概率需要联系到特征值与特征向量,可能需要联系到伴随矩阵(尤其是当问题明确涉及代数余子式时)。以$n$阶矩阵$A$的各行元素之和为$2$为例,可以推导
$$ A\left(\begin{matrix}1\\1\\\vdots\\1\end{matrix}\right)=\left(\begin{matrix}\sum\limits^n_{i=1}a_{1i}\\\sum\limits^n_{i=1}a_{2i}\\\vdots\\\sum\limits^n_{i=1}a_{ni}\end{matrix}\right)=\left(\begin{matrix}2\\2\\\vdots\\2\end{matrix}\right) $$所以$2$是矩阵$A$的一个特征值,而且$\left(\begin{matrix}1,1,\cdots,1\end{matrix}\right)^T$是特征值$2$对应的一个特征向量。若给出的条件是 “各列元素之和为…”,则对$A^T$作类似讨论即可
特征值、特征向量与特征子空间
相似变换不改变特征值,但是初等变换、合同变换不能保证不改变
若$A$与$B$相似,则他们有相同的特征多项式,进而有相同的特征值,虽然特征向量很可能不一样;但反过来,有相同特征多项式的两矩阵却不一定相似,加上秩相等的条件也不行;判断是否相似唯一的”充要“条件就是计算Jordan块
由于$n$次多项式方程虚根成对出现,因此奇数阶实矩阵一定有实数特征值,但偶数阶实矩阵不能确定实数特征值是否存在
例如反对称阵的特征值就只能是$0$或纯虚数,而不可能有非零实数
秩和特征值之间没有决定性的联系,但二者间也有些许关联,例如在Jordan标准型中的体现;
但是根据“$k$重特征值至多有$k$个线性无关的特征向量”和线性方程组解的结构可以导出,若某$n$阶矩阵不可逆 / 行列式为$0$,则$0$至少是该矩阵的$n-r(A)$重特征值(从$Ax=\boldsymbol0$出发推导)
对于秩和特征值的关系,更一般地:
对于一个不满秩的$n$阶方阵$A$,记零特征值的代数重数($0$作为特征方程根的重数)为$\alpha$、几何重数(特征值$0$的线性无关特征向量个数、零特征值的特征子空间维数)为$\beta$,$\alpha\geqslant\beta$,则有:
$n-\alpha\leqslant r(A)\lt n$ 与 $\boldsymbol{r(A)=n-\beta}$
推论 1:如果$A$仅有一个零特征值,即$\alpha=\beta=1$,则$r(A)=n-1$
推论 2:如果$r(A)=1$,则$\lambda_1=\mathrm{tr}(A)$,$\lambda_2=\lambda_3=\cdots=\lambda_n=0$,这也是在后文中专门对秩$1$矩阵讨论的一个结论
推论 3:如果$A$是实对称矩阵,则$r(A)=n-\alpha$,这是因为实对称阵必可对角化,此时有$\alpha=\beta$
综上所述,零特征值代数重数仅能限定秩的范围,而在此范围内秩是由特征值的几何重数决定的,所以零特征值的个数(零特征值的代数重数$\alpha$)与矩阵的秩间没有决定性关系
$AB$与$BA$并不一定相似,即使二者一定有相同的特征多项式与特征值
尽管可以证明二者特征值的代数重数必然相等,但几何重数却不一定相等,这也导致了连秩都可能是不同的
就算$A,B$都是$n$阶可逆矩阵$AB$与$BA$也不一定相似,但如果$A,B$都是$n$阶实对称阵就可以断言必有$AB,BA$相似了
相似的矩阵有相等的特征多项式,反之一般不成立
特征值与矩阵多项式 ①:记$A$的特征值为$\left(\begin{matrix}\lambda_1\\\lambda_2\\\vdots\\\lambda_n\end{matrix}\right)$,则矩阵多项式函数$\sum\limits^m_{k=0}a_{k}A^k$的特征值为$\left(\begin{matrix}\sum\limits^m_{k=0}a_{k}\lambda^k_1\\\sum\limits^m_{k=0}a_{k}\lambda^k_2\\\vdots\\\sum\limits^m_{k=0}a_{k}\lambda^k_n\end{matrix}\right)$,他们是一一对应的。其中,$A^0$约定为$E$;将$A^{-1}$记为$A$的逆,则式子$\sum\limits^m_{k=-1}a_{k}A^k$仍成立
但是注意,对一般的非对称方阵$A$而言,$AA^T$的特征值不再是简单的$A$的特征值平方
进一步的,对更一般的矩阵,两个矩阵相乘(与相加)得到的新矩阵的特征值与原来相乘(与相加)的两个矩阵各自的特征值间同样没有任何简单的数量关系
但$P^{-1}AP=B$的情况下$A,B$却有相同的特征值,因为二者相似
特征值与矩阵多项式 ②:最小多项式整除任意零化多项式,所以如果有多项式$f(A)=O$成立,则$A$的任意特征值$\lambda_i$一定满足$f(\lambda)=0$,但$f(x)=0$的根不一定都是特征值。这是一个强大的定理,例如方阵$A$满足等式$A^2+A=O$,则$A$的特征值至多只可能取值$0$与$-1$,而不可能是这以外的任何数;再如果方阵$A$满足等式$A^3=O$,则$A$的特征值只能取值$0$
特征值与矩阵多项式 ③:Cayley-Hamilton定理:设$\boldsymbol{A}$是数域$\mathbb{P}$上的矩阵,记其特征多项式为$f(\lambda)$,则$f(\boldsymbol{A})=\boldsymbol{O}$

在拓扑中,这意味着可对角化方阵在所有的方阵中稠密
根据Cayley-Hamilton定理,如果矩阵特征值均为$0$,则一定是幂零矩阵;根据特征值与矩阵多项式的关系又可知,如果一个矩阵是幂零矩阵,则特征值一定全为$0$,所以:矩阵是幂零矩阵当且仅当其特征值只取$0$
主对角线上下三角阵的特征值就是主对角线上的各个元素
特征值的和与积:
- $\displaystyle{\sum\lambda_i=\text{tr}(\boldsymbol{A})=\sum a_{ii}}$
- $\displaystyle{\prod\lambda_i=\det(\boldsymbol{A})}$
验证特征值是否计算正确:利用$\ \displaystyle{\boldsymbol{\sum\lambda_i=}\text{tr}(\boldsymbol{A})}$,尽管这只是必要条件
通过特征值和特征向量还原矩阵:
$$ \begin{aligned} A&=P\Lambda P^{-1}=[\alpha_1,\alpha_2,\cdots]\text{diag}(\lambda_1,\lambda_2,\cdots)[\alpha_1,\alpha_2,\cdots]^{-1}\\ &=[\lambda_1\alpha_1,\lambda_2\alpha_2,\cdots][\alpha_1,\alpha_2,\cdots]^{-1} \end{aligned} $$运用这一公式计算是方便的,尤其在含$0$特征值的情况下
实对称矩阵的特征值一定存在且为实数
$n$阶方阵$A$是实对称矩阵的充要条件:所属不同特征值的特征向量是两两正交的。有些时候,需要善用这一性质以根据条件解出特征向量。
- 推论 1:实对称矩阵的特征向量经Schmidt化后仍为特征向量(属于同一特征值的线性无关特征向量仍可能是非正交的,但正交化后仍然其特征向量)
- 推论 2:实对称矩阵一定可以被某个正交矩阵相似对角化
- 推论 3:对非对称阵的特征向量进行Schmidt正交化后,得到的正交向量不再是其特征向量
- 推论 4:二次型矩阵经正交矩阵相似对角化后得到的合同对角矩阵,主对角线上元素正是其特征值
对秩$1$矩阵讨论的重要结论:若$A=\alpha\beta^T\neq O$,其中$\alpha,\beta$均为长度为$n$的列向量,则$r(A)=1$、$\text{tr}(A)=\alpha^T\beta$。所有的秩为$1$的矩阵都可以被分解为$\alpha\beta^T$($\alpha,\beta\neq\boldsymbol0$),平凡地可知零矩阵也可以被如此分解,只要取$\alpha,\beta$任一为零向量即可。事实上秩$1$矩阵的行或列之间一定是成比例的,因此:
- $n$阶矩阵$A$有$r(A)\leqslant1$成立的充要条件是$\exists \alpha,\beta,\ \ s.t.\ A=\alpha\beta^T$
- $n$阶矩阵$A$有$r(A)=1$成立的充要条件是$\exists \alpha,\beta\neq\boldsymbol0,\ \ s.t.\ A=\alpha\beta^T$
更进一步地,如果$\alpha^T\beta\neq0$,则$A$的特征值为$\alpha^T\beta,\underbrace{0,0,\cdots,0}_{n-1 \text{ zeros}}$,并且属于特征值$\alpha^T\beta$的特征向量正是$k\alpha$,属于特征值$0$的特征向量则是$\{x:\beta^Tx=0\}$,共计$n-1$个属于$0$的线性无关特征向量。在表示属于$0$的第$i$个特征向量时,可以令$x_i=1$、$x_n=-\frac{\beta_i}{\beta_n}$而$x$其余分量为$0$,记该向量为$x^{(i)}$,从$i=1$开始依次重复操作直到$i=n-1$时即可取完$0$的所有$n-1$个线性无关的特征向量$\{x^{(i)}\}$
如果$\alpha^T\beta=0$但$\alpha,\beta\neq\boldsymbol0$,则$A$的秩仍为$1$且有$n$个值为$0$的特征值,但仅有$n-1$个属于$0$的线性无关的特征向量,并且属于$0$的特征向量仍是$\{x:\beta^Tx=0\}$;由于此时$A\alpha=\alpha(\beta^T\alpha)=0$,故$\alpha$不再是$A$的特征向量。这就是一个特征值均为$0$但矩阵秩非$0$的例子
这里有一道非常好的例题可以检验是否熟练掌握了秩$1$矩阵的性质:设$\alpha,\beta$为$3$维单位列向量且$\alpha^T\beta=0$,记$A=\beta\alpha^T+\alpha\beta^T+\lambda E$,$\lambda\in\mathbb{R}$,若$A$为正定矩阵,试求$\lambda$的取值范围;
分析:容易知道,$\beta\alpha^T$与$\alpha\beta^T$均为特征值全为$0$的矩阵,但尤其注意$\beta\alpha^T$与$\alpha\beta^T$的秩却不为$0$而是$1$,因为他们都是单位列向量,所以$\beta\alpha^T$与$\alpha\beta^T$不可能为零矩阵,进而秩只能为$1$。进一步注意到
对$\beta\alpha^T$有$(\beta\alpha^T)\alpha=\beta(\alpha^T\alpha)=1\times\beta$、$(\beta\alpha^T)\beta=\beta(\alpha^T\beta)=\boldsymbol0$
对$\alpha\beta^T$有$(\alpha\beta^T)\beta=\alpha(\beta^T\beta)=1\times\alpha$、$(\alpha\beta^T)\alpha=\alpha(\beta^T\alpha)=\boldsymbol0$
所以令$B=\beta\alpha^T+\alpha\beta^T$,有
$$ \left\{\begin{aligned} &B(\alpha+\beta)=(\beta\alpha^T+\alpha\beta^T)(\alpha+\beta)=\alpha+\beta\\ &B(\alpha-\beta)=(\beta\alpha^T+\alpha\beta^T)(\alpha-\beta)=-(\alpha-\beta) \end{aligned}\right. $$即$B$的三个特征值中,有两个分别为$1$和$-1$;又注意到$r(B)\leqslant r(\beta\alpha^T)+r(\alpha\beta^T)=2$,所以$B$还有一个特征值为$0$。从而,$A=B+\lambda E$的特征值为$1+\lambda,-1+\lambda,\lambda$;此时需注意$A$是实对称阵,因为$B=\beta\alpha^T+\alpha\beta^T=\beta\alpha^T+(\beta\alpha^T)^T$是实对称阵,根据实对称阵正定的充要条件,让$A$的特征值均为实正数即可,因此$\lambda>1$
特征多项式系数:$|\lambda E-A|=\lambda^n-\text{tr}(A)\lambda^{n-1}+\cdots+(-1)^n\det(A)$
特别地,对三阶方阵$\boldsymbol{A}$的特征多项式,有:
$$ \color{#990066}{\boldsymbol{|\lambda E-A|=\lambda^3-\textbf{tr}(A)\lambda^2+\gamma\lambda-|A|}} $$其中,$\boldsymbol{\gamma}$是三个子式的和:$\boldsymbol{A_{11}+A_{22}+A_{33}}=\left|\begin{matrix}a_{11}&a_{12}\\a_{21}&a_{22}\end{matrix}\right|+\left|\begin{matrix}a_{11}&a_{13}\\a_{31}&a_{33}\end{matrix}\right|+\left|\begin{matrix}a_{22}&a_{23}\\a_{32}&a_{33}\end{matrix}\right|$,在数值上等于主对角线元素两两配对相乘之和减去对称位置元素两两相乘的和(除主对角线元素),即
$$ \color{#990066}{\boldsymbol{A=}\left(\begin{matrix}\color{#00CC33}{\boldsymbol{a_{11}}}&\color{#6666FF}{\boldsymbol{a_{12}}}&\color{#6666FF}{\boldsymbol{a_{13}}}\\\color{#6666FF}{\boldsymbol{a_{21}}}&\color{#00CC33}{\boldsymbol{a_{22}}}&\color{#6666FF}{\boldsymbol{a_{23}}}\\\color{#6666FF}{\boldsymbol{a_{31}}}&\color{#6666FF}{\boldsymbol{a_{32}}}&\color{#00CC33}{\boldsymbol{a_{33}}}\\\end{matrix}\right)} $$$$ \color{#990066}{\begin{align}\boldsymbol{\gamma}&\boldsymbol{=A_{11}+A_{22}+A_{33}}\\&\boldsymbol{=\big(a_{11}a_{22}+a_{11}a_{33}+a_{22}a_{33}\big)-\big(a_{12}a_{21}+a_{13}a_{31}+a_{23}a_{32}\big)}\end{align}} $$在此补充一些多项式知识,在求解三阶方阵的特征多项式时大有用处:
如果特征值不为$\boldsymbol0$,可以利用迹、行列式与特征值的关系,尝试“凑”一下特征多项式的根,先解出一个因式,和下文类似
一般来说,除了根据迹和行列式硬“凑”,可以尝试代入$\boldsymbol0$、$\boldsymbol{\pm1}$、$\boldsymbol{\pm2}$、$\boldsymbol{\pm3}$和$\boldsymbol{\pm\sqrt2}$等简单值,如果这些值确为特征多项式的根,那么就可以做因式分解,剩下的根由一个二次函数确定,问题变得十分简单;通常来说特征值都逃不过这些特殊值,尤其是非满秩的方阵必有$\boldsymbol0$特征值
找根的一个方法:整系数多项式$\boldsymbol{a_nx_n+a_{n-1}x^{n-1}+\cdots+a_1x_1+a_0}$的有理根若存在则必为$\boldsymbol{\frac pq}$的形式,其中$\boldsymbol p$是$\boldsymbol{a_0}$的因数、$\boldsymbol{q}$为$\boldsymbol{a_n}$的因数,可简记为“$\boldsymbol{\frac0n}$”方便记忆
最后,需要通过含参特征行列式解出参数的,就按照定义计算不失为一种好办法(长期以来我都是用这种最“原始”的方法计算的三阶行列式,并没有什么复杂的),只需要通过初等变换多消几个$\boldsymbol0$出来,行列式就会很好计算,最重要的是在化$\boldsymbol0$的过程中通常直接就会出现可以分解的因式
特征向量总结:
- $A$的特征向量一定是$A$的多项式$f(A)=\sum\limits^n_{k=1}a_kA^k$的特征向量(相应的特征值是不难计算的),但反之一般变成立
- 如果$A$是正定矩阵,则上一点的逆命题也成立,即$A$的多项式$f(A)=\sum\limits^n_{k=1}a_kA^k$的特征向量也一定是$A$的特征向量
- 一般而言$A$的特征向量与$A^T$的特征向量没什么关联,除非$A$是对称阵,只不过对于实矩阵而言二者特征值相同
- 关于$A^{\ast}$的特征向量与$A$的特征向量,对于$n$阶矩阵$A$:
- 当$r(A)=n$时,$A$的特征子空间与$A^{-1}$、$A^{\ast}$的特征子空间相同(相应的特征值是不难计算的)
- 如果$r(A)=n-1$且$A$有$n$个线性无关的特征向量,则$A$的属于非零特征值的特征向量和$A^{\ast}$的属于特征值$0$的特征向量一致,$A$的属于特征值$0$的特征向量和$A^{\ast}$的属于非零特征值的特征向量一致,所以此时$A$的特征子空间仍与$A^{\ast}$的特征子空间相同
- 如果$r(A)=n-1$但$A$没有$n$个线性无关的特征向量,即几何重数的和不等于$n$,则只能保证$A$的属于非零特征值的特征向量一定是$A^{\ast}$的属于特征值$0$的特征向量,反之不一定,而且$A$的属于特征值$0$的特征向量也不再必然是$A^{\ast}$的属于非零特征值的特征向量
- 特别地,$r(A)=n-1$时,$A$的列向量均为$A^{\ast}$的零特征值的特征向量,因为$A^{\ast}A=O$
- 若$r(A)\lt n-1$,则$A$的特征向量与$A^{\ast}$的特征向量间似乎没有必然联系(毕竟此时$A^{\ast}$已经是零矩阵了)
相似对角化
相似对角化的一般形式是:$P^{-1}AP=\Lambda$,即:$P\Lambda P^{-1}=A$
不要混淆了,其中$P$是$A$的特征向量列成的矩阵
引理:$\mathbb{R}^{n\times n}$上,若$A$的特征值都是实数,则$\exists$正交矩阵$P$,$s.t.\ \ P^{-1}AP$为上三角阵
$\mathbb{R}^{n\times n}$上,若$A$的特征值都是实数,则$A$正交相似于对角阵的充要条件是$A$为正规矩阵($A^TA=AA^T$)
推论:实数范围内,方阵为实对称矩阵 $\Leftrightarrow$ 方阵能被正交矩阵相似对角化(正交变换是合同变换,只能把对称矩阵变为对称阵,反之亦然,永远保持对称性)
- 注意到$A^TA$与$AA^T$必然是对称矩阵
证明思路:特征值$\lambda$的特征子空间可以等价表为$\text{ker}(A-\lambda E)$,作为特征子空间的推广,称$\text{ker}(A-\lambda E)^k$为根子空间。由于根子空间的维必然等于根的代数重数,因此只需要证明实对称矩阵的根子空间等价于其特征子空间,注意到对实对称矩阵而言$\boldsymbol{Ax=0}$与$\boldsymbol{A}^n\boldsymbol{x=0}$同解即可。根子空间与Jordan标准型息息相关。
方阵的秩和可否对角化没有必然关系,只是若方阵满秩,则没有$0$特征值,如果可相似对角化那么对角阵的对角线上元素均非$0$;反过来,若可对角化(相似)于对角线上均非$0$的单位阵,则没有$0$特征值,方阵可逆
单位阵只与自己相似,也只有单位阵能相似对角化为单位阵
矩阵可相似对角化的充要条件:
最小多项式没有重根,且可分解为一次因式的乘积
$\lambda$矩阵的最高阶(最大)不变因子没有重根
矩阵有$n$个线性无关的特征向量,即特征多项式有$n$个根,而且$k$重根有$k$个线性无关的特征向量
第三点直接等价为$r(\lambda_iE-A)=n-n_i$,其中$n_i$是的$\lambda_i$作为特征多项式根的重数
第四点直接等价为 几何重数$=$代数重数
矩阵可相似对角化的充分条件:
实对称阵必可被正交矩阵相似对角化($\mathbb{R}$上)
推论 1:实对称矩阵的特征值均为实数
推论 2:实对称矩阵的属于不同特征值的特征向量必然两两正交
推论 3:实对称矩阵必然有$n$个两两正交的特征向量(但不一定任意的特征向量都是正交的,除非两个特征向量不属于同一特征值)
推论 4:对于$n$阶实矩阵而言,矩阵是实对称阵的充要条件是矩阵有$n$个两两正交的特征向量
矩阵有$n$个互不相同的特征值
如果可逆矩阵$P$可相似对角化$n$阶方阵$A$,即$P^{-1}AP=\Lambda$,则有
- $P^{-1}f(A)P=f(\Lambda)$,其中$f(A)$是$A$的任意次多项式
- 如果$A$可逆,则$P^{-1}A^{-1}P=\Lambda^{-1}$,$\Lambda^{-1}$即$\Lambda$对角元分别取倒数后的新对角阵
- 如果$A$可逆,则$P^{-1}A^{\ast}P=\Lambda^{\ast}$,$\Lambda^{\ast}$即$\Lambda^{-1}$对角元分别乘$\det(\Lambda)$后的新对角阵
二次型理论
学习二次型与合同理论,对空间解析几何和双线性泛函的研究至关重要。
记$\boldsymbol{A}=(a_{ij})_{n\times n}$为一个对称矩阵,则数域$\mathbb{P}$上的任何一个二次型定义为
$$ \boldsymbol{x}^T\boldsymbol{Ax}=\sum\limits^n_{i=1}\sum\limits^n_{j=1}a_{ij}x_ix_j=a_{11}x^2_1+a_{22}x^2_2\cdots+a_{nn}x^2_n+2a_{12}x_1x_2+2a_{13}x_1x_3+\cdots $$任何二次型都可以经非退化线性变换化为一个标准型,即平方和的形式;
也可以等价地说,数域$\mathbb{P}$上任意一个对称矩阵都合同于一个对角矩阵
立刻可以推导,若实矩阵$\boldsymbol{A}=(a_{ij})_{m\times n}$,则$\boldsymbol{x}^T\boldsymbol{A}^T\boldsymbol{Ax}$也是一个二次型,有
$$ \boldsymbol{x}^T\boldsymbol{A}^T\boldsymbol{Ax}=\sum^m_{i=1}\left(\sum^n_{j=1}a_{ik}x_k\right)^2=\ \sum^m_{i=1}\big(a_{i1}x_1+a_{i2}x_2+\cdots+a_{in}x_n\big)^2 $$有些时候给所出的二次型$f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{Ax}$形式,矩阵$\boldsymbol{A}$可能并不是对称阵,这会给后续的一系列分析带来不便,所以需要将其对称化。按二次型的定义,只需要将$\boldsymbol{A}$每一对对称位置的元素相加,除$2$平均一下,再分配回原来的位置即可,这样就能得到相应的对称矩阵$\bar{\boldsymbol{A}}$,该二次型也可以写为$f(\boldsymbol{x})=\boldsymbol{x}^T\bar{\boldsymbol{A}}\boldsymbol{x}$;用矩阵表达的话,即$\displaystyle{\bar{\boldsymbol{A}}=\frac12\big(\boldsymbol{A}+\boldsymbol{A}^T\big)}$
对于实对称矩阵$\boldsymbol{A}$、二次型$\boldsymbol{x}^T\boldsymbol{Ax}$与可逆矩阵$\boldsymbol{C}$,称$\boldsymbol{C}^T\boldsymbol{AC}$为$\boldsymbol{A}$经合同变换$\boldsymbol{y}=\boldsymbol{Cx}$后的新二次型,$\boldsymbol{C}^T\boldsymbol{AC}$仍是一个实对称矩阵
惯性定理:任意的实的或复的二次型,经过适当的线性变换总能变为规范型,且规范型是唯一的
称规范型的正系数个数为正惯性指数,或者说称矩阵与之合同的标准型矩阵的$1$的个数为正惯性指数;
对应地,称规范型的负系数个数为负惯性指数
称正惯性指数减负惯性指数的值为符号差
任意复对称矩阵都合同于$\text{diag}(1,1,\cdots,1,0,0,\cdots)$,其中$1$的个数是矩阵的秩
任意实矩阵矩阵都合同于$\text{diag}(1,1,\cdots,1,-1,-1,\cdots,-1,0,0,\cdots)$,$1$与$-1$的个数分别为正惯性指数与负惯性指数
正惯性指数等于正特征值个数,负惯性指数等于负特征值个数
如果对实对称矩阵$\boldsymbol{A}$和$\forall$非零$\boldsymbol{x}$,均有$\boldsymbol{x}^T\boldsymbol{Ax}>(<)\,0$,则称$\boldsymbol{A}$是正 (负) 定的;如果不等号不严格成立,则称$\boldsymbol{A}$是半正 (负) 定或非负 (正) 定的;如果$\exists \boldsymbol{x}_1,\boldsymbol{x}_2\in\mathbb{R}^n$,$s.t.\ \boldsymbol{x}^T_1\boldsymbol{Ax}_1<0<\boldsymbol{x}^T_2\boldsymbol{Ax}_2$,则称$\boldsymbol{A}$是不定的
$n$阶实对称矩阵正定的充要条件:
- 特征值均大于$0$
- 正惯性指数等于$n$
- 与单位阵合同,即存在$A=C^TEC=C^TC$,其中$C$是实可逆矩阵
- 顺序主子式均大于$0$
$n$阶实对称矩阵正定的必要条件:
- 主对角线上元素均大于$0$
- 行列式值大于$0$
$n$阶实对称矩阵半正定(非负定)的充要条件:
- 特征值均非负
- 正惯性指数等于秩
- 有实矩阵$C$使得$A=C^TC$
- 所有主子式(行指标与列指标相同的子式)均大于或等于$0$
$n$阶实对称矩阵负定的充要条件:
- 特征值均小于$0$
- 负惯性指数等于$n$
- 与负单位阵合同,即存在$A=-C^TEC=-C^TC$,其中$C$是实可逆矩阵
- 奇数阶顺序主子式均小于$0$,而偶数阶顺序主子式均大于$0$
$n$阶实对称矩阵半负定(非正定)的充要条件:
- 特征值均非正
- 负惯性指数等于秩
- 有实矩阵$C$使得$A=-C^TC$
- 所有奇数阶主子式(行指标与列指标相同的子式)均小于或等于$0$,所有偶数阶主子式(行指标与列指标相同的子式)均大于或等于$0$
$n$阶实对称矩阵不定的充要条件:
- 不满足上述任意情况时,例如至少存在一个正特征值和一个负特征值
- 二次型$f$既会取到正值,又会取到负值(通过代特值,这个方法有时会比计算特征值来得快得多)
既是正定矩阵又是正交矩阵的矩阵只有单位阵$E$,因此对非单位阵而言“正交与正定不可得兼”
对于二阶方阵而言,正定或负定的充要条件是行列式大于$0$,其中$a_{11}>0$则正定,$a_{11}<0$则负定;半正定或半负定的充要条件是行列式等于$0$;不定的充要条件是行列式小于$0$
规范型是唯一的,标准型不唯一;
但是经正交矩阵相似对角化得到的标准型(经正交变换的二次型)在不考虑元素顺序的情况下是唯一确定的,因为这时的标准型对角矩阵的主对角线上元素就是原二次型矩阵的特征值
求标准型 / 规范型的方法:
特别提示:若所求的是$\boldsymbol{x}^T\boldsymbol{Ax}$到$\boldsymbol{y}^T\boldsymbol{\Lambda y}$的非退化线性变换$\boldsymbol{x}=\boldsymbol{Py}$,则经过合同变换法与正交变换法得到的变换矩阵直接就是$\boldsymbol{P}$,有$\boldsymbol{A}=\boldsymbol{P\Lambda P}^{-1}$和$\boldsymbol{P}^{-1}\boldsymbol{\Lambda P}=\boldsymbol{\Lambda}$,但经配方法直接得到的矩阵$\boldsymbol{C}$是需要取其逆才能得到变换矩阵的,因为配方法在配方时做的变换$\boldsymbol{y=Q}_1\boldsymbol{Q}_2\cdots\boldsymbol{Q}_n\boldsymbol{x}$是“反”着来的,也就是说$\boldsymbol{Q}_1\boldsymbol{Q}_2\cdots\boldsymbol{Q}_n=\boldsymbol{C=P}^{-1}$
配方法
原始而麻烦,但有时却又是最实用的方法,只需要一步一步地逐个将含某变量的二次项都表示为和的平方即可。例如对于一个需要计算标准型的二次型$x^2_1+3x^2_2+3x^2_3+2x_1x_2-4x_1x_3$,第一步先将含$x_1$的项写为平方和以消除$x_1$与剩余变量的耦合,即$(x_1+x_2-2x_3)^2+2x^2_2-x^3_2+2x_2x_3$,再对剩余部分将含$x_2$的项写为平方和以消除$x_2$与剩余变量的耦合,即$(x_1+x_2-2x_3)^2+2(x_2+x_3)^2-3x^2_3$,到此为止就只剩下了一个平方项$x^2_3$,于是得到了
$$ \left\{\begin{aligned} &y_1=x_1+x_2-2x_3\\ &y_2=\ \ \ \ \ \ \ \ \ x_2+\ \ x_3\\ &y_3=\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x_3 \end{aligned}\right. $$即$\boldsymbol{y}=\left[\begin{matrix}1&1&-2\\&1&1\\&&1\end{matrix}\right]\boldsymbol{x}=\boldsymbol{C x}$,写为非退化线性变换形式则是
$$ \boldsymbol{x}=\boldsymbol{C}^{-1}\boldsymbol{y}=\left[\begin{matrix}1&-1&3\\&1&-1\\&&1\end{matrix}\right]\boldsymbol{y} $$经变换后得到的标准型则是$y^2_1+2y^2_2-3y^2_3$,即$\boldsymbol{y}^T\left[\begin{matrix}1&&\\&2&\\&&-3\end{matrix}\right]\boldsymbol{y}$
尤其注意,在做变换时一定要保证变换是非退化的、可逆的,例如有的二次型其正负惯性指数之和可能并不等于他的阶数,也就是说含有零特征值,譬如$(x_1+x_2)^2-3(x_1+2x_2-x_3)^2$,如果我们令$y_1=x_1+x_2$、$y_3=x_1+2x_2-x_3$,那$y_3$该怎么办呢?这时只要保证$y_3$的线性变换不会使得他与$y_1,y_2$线性相关即可,也就是说变换矩阵必须满秩、可逆:取$y=x_2-x_3$就是不被允许的,而$y_3=x_3$和$y_3=x_1+x_2+x_3$则都是可行的。做变换时可以经多次代换得到结果,而不必一定要一次变化就化作标准型或规范型,在最后求总的变换时将多次变换对应的多个变换矩阵依次乘起来即可
配方法有时需要一定的技巧。例如在用配方法求解$2x_1x_2+4x_1x_3$的标准型时,试图直接配方会遇到阻碍,因为原式中只含有$x_1$与剩余变量乘积的二次项,却不含有$x^2_1$项,这时就需要利用平方差公式“变”出平方项。先令
$$ \left\{\begin{aligned} &x_1=y_1+y_2\\ &x_2=y_1-y_2\\ &x_3=\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ y_3 \end{aligned}\right. $$使得原式变为$2(y_1+y_2)(y_1-y_2)+4(y_1+y_2)y_3=2(y_1+y_3)^2-2(y_2-y_3)^2$以“创造”出平方项,接下来和上例进行同样的操作即可:
$$ \left\{\begin{aligned} &z_1=y_1+y_2\\ &z_2=\ \ \ \ \ \ \ \ \ y_2-y_3\\ &z_3=\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ y_3 \end{aligned}\right. $$最后得到标准型$2z^2_1-2z^2_2$,其中的非退化线性变换为
$$ \left[\begin{matrix}1&1&0\\1&-1&0\\0&0&1\end{matrix}\right]\left[\begin{matrix}1&1&0\\0&1&-1\\0&0&1\end{matrix}\right]^{-1}=\left[\begin{matrix}1&1&0\\1&-1&0\\0&0&1\end{matrix}\right]\left[\begin{matrix}1&0&-1\\0&1&1\\0&0&1\end{matrix}\right]=\left[\begin{matrix}1&1&0\\1&-1&-2\\0&0&1\end{matrix}\right] $$合同变换法
可以视为配方法的矩阵描述。设二次型$f(x_1,x_2,\cdots)=\boldsymbol{x}^T\boldsymbol{Ax}$的矩阵为$\boldsymbol{A}$,对$\boldsymbol{A}$下接$\boldsymbol{E}$得到增广矩阵$\left(\begin{matrix}\boldsymbol{A}\\\boldsymbol{E}\end{matrix}\right)$,接着进行相应行列变换将第一个分块$\boldsymbol{A}$化为$\boldsymbol{E'}$(其中$\boldsymbol{E'}$是对角阵,若欲得到实标准型则$\boldsymbol{E'}$主对角元只能为$1$、$-1$或$0$),但是每进行一次行变换都要同样地进行相应列变换,记最后得到的矩阵为$\left(\begin{matrix}\boldsymbol{E'}\\\boldsymbol{P}\end{matrix}\right)$,则$\boldsymbol{x}=\boldsymbol{Py}$,其中$\boldsymbol{y}$是新的变量,变换后的二次型即$\boldsymbol{y}^T\boldsymbol{E'}\boldsymbol{y}$,矩阵表达为$\boldsymbol{A=P}^T\boldsymbol{E'P}$,形式上和相似对角化是“相反”的,切勿混淆
如果右接$\boldsymbol{E}$,则最后求出的变换矩阵需要经一次转置;
这里$\boldsymbol{E}$的作用是记录行变换,将$\boldsymbol{E}$替换为更一般的对称矩阵,可以将该方法推广到计算两个二次型之间的合同变换
正交变换法(利用特征分解和相似对角化计算标准型)
当要求变换矩阵为正交矩阵或变换为正交变换时,考虑该方法(也可以用该方法计算标准型)。操作时,首先计算矩阵的特征值与特征向量,再将特征向量单位化、正交化,将特征向量按列逐个排列为矩阵即得到变换矩阵$\boldsymbol{C}$,有$\boldsymbol{x}=\boldsymbol{Cy}$,其中$\boldsymbol{y}$是新的变量,变换后的二次型即$\boldsymbol{y}^T\text{diag}(\lambda_1,\lambda_2,\cdots)\boldsymbol{y}$;
事实上该方法的理论保证是实对称矩阵必能相似对角化,即对任意实对称矩阵$\boldsymbol{A}$,必存在正交矩阵$\boldsymbol{Q}$,使得$\boldsymbol{Q}^{T}\boldsymbol{AQ}=\boldsymbol{\Lambda}$,故而有$\boldsymbol{x}^T\boldsymbol{Ax}=\boldsymbol{x}^T\boldsymbol{Q\Lambda Q}^{-1}\boldsymbol{x}$,因此一个标准型就是经线性变换$\boldsymbol{y}=\boldsymbol{Q}^{-1}\boldsymbol{x}$后得到的$\boldsymbol{y}^T\boldsymbol{\Lambda y}$
求合同变换的方法:
求合同变换的方法大体同上,大体上也是三种方法,但这个场景下最好用的或许还是配方法,这是因为如果考虑合同变换法,计算量较大;如果考虑正交变换法,有很多对称阵的特征向量又难以计算。
个人比较推荐配方法,在此以一个例子作为演示:
设$\boldsymbol{A}=\left(\begin{matrix}1&1&0\\1&0&1\\0&1&-1\end{matrix}\right)$, $\boldsymbol{B}=\left(\begin{matrix}1&3&1\\3&5&1\\1&1&0\end{matrix}\right)$,已知$\boldsymbol{A},\boldsymbol{B}$合同,求可逆矩阵$\boldsymbol{P}$使得$\boldsymbol{P}^T\boldsymbol{AP}=\boldsymbol{B}$
首先将$\boldsymbol{A}$配为规范型,记$f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{Ax}=x^2_1-x^2_3+2x_1x_2+2x_2x_3$,有
$$ \begin{align} x^2_1-x^2_3+2x_1x_2+2x_2x_3&=(x_1+x_2)^2-x^2_2-x^2_3+2x_2x_3\\ &=(x_1+x_2)^2-(x_2-x_3)^2 \end{align} $$所以做非退化变换$\boldsymbol{P}_1$
$$ \left\{\begin{aligned} &z_1=x_1+x_2\\ &z_2=\ \ \ \ \ \ \ \ \ x_2-x_3\\ &z_3=\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x_3 \end{aligned}\right. $$等价变换为$x$到$z$的变换,即
$$ \left\{\begin{aligned} &x_1=z_1-z_2-z_3\\ &x_2=\ \ \ \ \ \ \ \,\ z_2+z_3\\ &x_3=\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \,\,\ z_3 \end{aligned}\right. $$将这个变换的系数矩阵记为$\boldsymbol{P}^{\ast}_1$,实际上$\boldsymbol{P}^{\ast}_1$就是$\boldsymbol{P}_1$的逆,在这里提前列出$\boldsymbol{P}_1$的逆$\boldsymbol{P}^{\ast}_1$是为后面的计算提供便利;
接着对$g(\boldsymbol{y})=\boldsymbol{y}^T\boldsymbol{By}=y^2_1+5y^2_2+6y_1y_2+2y_1y_3+2y_2y_3$配方,有
$$ \begin{align} y^2_1+5y^2_2+6y_1y_2+2y_1y_3+2y_2y_3&=(y_1+3y_2+y_3)^2-4y^2_2-y^2_3-4y_2y_3\\ &=(y_1+3y_2+y_3)^2-(2y_2+y_3)^2 \end{align} $$所以做非退化变换$\boldsymbol{P}_2$
$$ \left\{\begin{aligned} &z_1=y_1+3y_2+y_3\\ &z_2=\ \ \ \ \ \ \ \,\ 2y_2+y_3\\ &z_3=\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \,\,y_3 \end{aligned}\right. $$记$\boldsymbol{P}_2$的逆为$\boldsymbol{P}^{\ast}_2$(但并不需要算出$\boldsymbol{P}^{\ast}_2$的具体形式)。如此一来,$f(\boldsymbol{x})$和$g(\boldsymbol{y})$都配成了规范型$z^2_1-z^2_2$,如果只是用配方法求规范型或惯性指数那么到这里就结束了,但求两二次型间的合同变换还需要进一步讨论。由于经变换$\boldsymbol{z}=\boldsymbol{P}_1\boldsymbol{x}$、$\boldsymbol{z}=\boldsymbol{P}_2\boldsymbol{y}$,也就是变换$\boldsymbol{x}=\boldsymbol{P}^{\ast}_1\boldsymbol{z}$与$\boldsymbol{y}=\boldsymbol{P}^{\ast}_2\boldsymbol{z}$后,$f(\boldsymbol{x}),g(\boldsymbol{y})$均化为了相同的规范型,所以
$$ \boldsymbol{x}^T\boldsymbol{Ax}=\boldsymbol{z}^T\boxed{(\boldsymbol{P}^{\ast}_1)^T\boldsymbol{A}\boldsymbol{P}^{\ast}_1}\boldsymbol{z}=\boldsymbol{z}^T\boldsymbol{\Lambda z}=\boldsymbol{z}^T\boxed{(\boldsymbol{P}^{\ast}_2)^T\boldsymbol{B}\boldsymbol{P}^{\ast}_2}\boldsymbol{z}=\boldsymbol{y}^T\boldsymbol{By} $$即$(\boldsymbol{P}^{\ast}_1)^T\boldsymbol{AP}^{\ast}_1=(\boldsymbol{P}^{\ast}_2)^T\boldsymbol{BP}^{\ast}_2$,左乘$\boldsymbol{P}^T_2$并右乘$\boldsymbol{P}_2$后即$(\boldsymbol{P}^{\ast}_1\boldsymbol{P}_2)^T\boldsymbol{AP}^{\ast}_1\boldsymbol{P}_2=\boldsymbol{B}$,所以取$\boldsymbol{P}=\boldsymbol{P}^{\ast}_1\boldsymbol{P}_2$就有$\boldsymbol{P}^T\boldsymbol{AP}=\boldsymbol{B}$成立,综上所述,
$$ \boldsymbol{P}=\boldsymbol{P}^{\ast}_1\boldsymbol{P}_2=\left[\begin{matrix}1&-1&-1\\0&1&1\\0&0&1\end{matrix}\right]\left[\begin{matrix}1&3&1\\0&2&1\\0&0&1\end{matrix}\right]=\left[\begin{matrix}1&1&-1\\0&2&2\\0&0&1\end{matrix}\right] $$$\boldsymbol{P}$不是惟一的,这只是其中一个可行的结果
可以用一个可逆线性变换同时将两个二次型对角化吗,如果可以,该怎么做?这需要分数域讨论:
- 在实数域上,如果其中一个二次型是正定或负定的,则一定可以找到一个可逆线性变换,使得这个正定或负定的二次型化为规范型的同时,另一个二次型化为标准型;
- 在复数域上,对任意的两个二次型都能找到这样的可逆线性变换;
这里以一道简单的例题为例给出通法:若可逆线性变换$\boldsymbol{x}=\boldsymbol{Py}$将二次型$f(x_1,x_2)=x^2_1+2x^2_2+2x_1x_2$化为规范型$y^2_1+y^2_2$,同时将二次型$g(x_1,x_2)=-x^2_1+2x^2_2+2x_1x_2$化为标准型$k_1y^2_1+k_2y^2_2$,求可逆矩阵$\boldsymbol{P}$与$k_1,k_2$的值。
1. 首先找到将$f(x_1,x_2)$化为规范型的可逆线性变换:显而易见地,这个例子中$f(x_1,x_2)$是正定的,进行简单配方即可找出我们需要的线性变换:$f(x_1,x_2)=x^2_1+2x^2_2+2x_1x_2=(x_1+x_2)^2+x^2_2$,即
$$ \left\{\begin{aligned} &y_1=x_1+x_2\\ &y_2=\ \ \ \ \ \ \ \ \ x_2 \end{aligned}\right.\ \ \ \ \ \ \ \Leftrightarrow\ \ \ \ \ \ \ \left\{\begin{align*} &x_1=y_1-y_2\\ &x_2=\ \ \ \ \ \ \ \ \,y_2 \end{align*}\right. $$因此记$\boldsymbol{A}=\left(\begin{matrix}1&1\\1&2\end{matrix}\right)$、$\boldsymbol{B}=\left(\begin{matrix}-1&1\\1&2\end{matrix}\right)$与$\boldsymbol{C}=\left(\begin{matrix}1&-1\\0&1\end{matrix}\right)$,有
$$ \boldsymbol{C}^T\boldsymbol{AC}=\boldsymbol{E} $$2. 接着对另一个二次型$g(x_1,x_2)$作上述可逆线性变换$\boldsymbol{x}=\boldsymbol{Cy}$:对$g(x_1,x_2)$作变换$\boldsymbol{x}=\boldsymbol{Cy}$,有
$$ \boldsymbol{C}^T\boldsymbol{BC}=\left(\begin{matrix}1&0\\-1&1\end{matrix}\right)\left(\begin{matrix}-1&1\\1&2\end{matrix}\right)\left(\begin{matrix}1&-1\\0&1\end{matrix}\right)=\left(\begin{matrix}-1&2\\2&-1\end{matrix}\right) $$将$\left(\begin{matrix}-1&2\\2&-1\end{matrix}\right)$记为$\boldsymbol{B}_1$,显然$\boldsymbol{B}_1$并不是一个标准化的二次型——如果$\boldsymbol{B}_1$是标准化的二次型那也就不需要进行剩下的操作了
3. 将对称阵$\boldsymbol{B}_1$相似对角化:分别计算$\boldsymbol{B}_1$的特征值与相应的特征向量,计算得$\boldsymbol{B}_1$有两个相异的特征值$1$与$-3$,从属特征值$1$的特征向量为$k_1(1,1)^T$,从属特征值$-3$的特征向量为$k_2(1,-1)^T$,所以$\boldsymbol{B}_1$的一个特征向量阵为$\left(\begin{matrix}1&1\\1&-1\end{matrix}\right)$,将其单位正交化得到正交矩阵$\boldsymbol{Q}=\left(\begin{matrix}\frac1{\sqrt{2}}&\frac1{\sqrt{2}}\\\frac1{\sqrt{2}}&-\frac1{\sqrt{2}}\end{matrix}\right)$,有
$$ \boldsymbol{Q}^T\boldsymbol{B}_1\boldsymbol{Q}=\left(\begin{matrix}1&0\\0&-3\end{matrix}\right) $$4. 令$\boldsymbol{P}=\boldsymbol{CQ}$:最后将$\boldsymbol{C}$与$\boldsymbol{Q}$相乘,得到的新矩阵就是所需要的可逆矩阵$\boldsymbol{P}$,因为
$$ \boldsymbol{P}^T\boldsymbol{AP}=\boldsymbol{Q}^T\boldsymbol{C}^T\boldsymbol{ACQ}=\boldsymbol{Q}^T\boldsymbol{EQ}=\boldsymbol{Q}^T\boldsymbol{Q}=\boldsymbol{E} $$$$ \boldsymbol{P}^T\boldsymbol{BP}=\boldsymbol{Q}^T\boldsymbol{C}^T\boldsymbol{BCQ}=\boldsymbol{Q}^T\boldsymbol{B}_1\boldsymbol{Q}=\left(\begin{matrix}1&0\\0&-3\end{matrix}\right) $$在$\boldsymbol{P}^T\boldsymbol{AP}$中,主要用到了$\boldsymbol{Q}$是正交矩阵,正交矩阵的逆是自身的转置;在$\boldsymbol{P}^T\boldsymbol{BP}$中,主要用到了$\boldsymbol{Q}$是将$\boldsymbol{B}_1$化为标准型的正交变换。综上所述,$\boldsymbol{P}$同时将$\boldsymbol{A}$化为了规范型并将$\boldsymbol{B}$化为了标准型,所以
$$ \boldsymbol{P}=\boldsymbol{CQ}=\left(\begin{matrix}1&-1\\0&1\end{matrix}\right)\left(\begin{matrix}\frac1{\sqrt{2}}&\frac1{\sqrt{2}}\\\frac1{\sqrt{2}}&-\frac1{\sqrt{2}}\end{matrix}\right)=\left(\begin{matrix}0&\sqrt2\\\frac1{\sqrt{2}}&-\frac1{\sqrt{2}}\end{matrix}\right) $$这是正交矩阵的一个妙用
线性空间(略)
考研不考
线性变换(略)
考研不考
不变子空间(略)
考研不考
最小多项式(略)
考研不考
λ-矩阵(略)
考研不考
欧氏空间(略)
考研不考
复数域上的内积空间(略)
考研不考
双线性泛函与希尔伯特空间(略)
考研不考
双线性泛函(略)
考研不考
对偶空间(略)
考研不考