嗯哼 发表于 2022-7-20 15:08

相似矩阵究竟相似在哪里?

我们先来看相似矩阵(Simlar Matrix)的定义:

设A,B都是n阶方阵,若有可逆矩阵P, 使
成立,那么我们说矩阵A与B相似。

我相信,大部分人刚看到这个定义的反应就是一脸疑惑,这究竟哪相似了,跟中学时代学的三角形相似有关系吗...额,没半点关系,今天我会花主要的篇章来讲解相似矩阵的本质是什么。

在文章的前面,我们先回忆一下小学的时候学过的一篇文章——《画杨桃》,相信大部分人尤其是九零后小时候都学过这篇文章吧,内容主要是老师让学生们画杨桃,小明刚好坐在杨桃侧面的正前方,所以他画的杨桃是五角星形状,而小华坐在杨桃的侧面,所以她画的杨桃是另外一种形状。这个故事虽然是一个教育性的文章,告诫我们要用不同的角度看待问题,但是从数学的角度来看,实际上这篇文章刚好就是线性代数中相似矩阵中一个重要的思想表达。
角度不一样,画的结果就不一样,但无论如何,他们画的都是同一个杨桃

画杨桃跟相似矩阵有什么关系呢?

先说结论:相似矩阵是同一线性变换下在不同坐标系下的表达方式。

如何理解这句话呢,我做个类比:这里的同一线性变换就类似于同一个杨桃,不管你坐在哪里,杨桃就始终是那个杨桃,它不变;不同的坐标系就相当于小明与小华坐的位置不一样。

嗯,那么,你还有疑问,没关系,有疑问正常的,先别急,我下面会详细讲述这句话是如何来的,以及它究竟是什么意思。

在这里用一段话再总结一下:

我们以Ax=b为例来说明矩阵与列向量乘积的几何意义:

· 从线性变换的角度上来说,我们可以认为矩阵A通过线性变换将列向量b变换(加工)成了b.

· 从基变换的角度上来说,我们可以认为矩阵A是一组新的基向量,向量x就是在这个新的基向量下的坐标,而b是x在自然基向量下的坐标。或者说矩阵A将自然基变换成了非自然基。

虽然两种理解都对,但是我强烈建议大家用第二种方法来理解矩阵的乘积,这在后面的思想中对我们大有裨益。所以,理论上x与b是一样的,只是他们选择的坐标系不一样罢了。

举个例子:
按照第一种理解,我们认为在自然基向量i=(1,0),j=(0,1)下,左边的矩阵A将向量(1,2)转换成了向量(3,2):
而按照第二种理解,也就是从基变换的角度上来说,我们将矩阵A的两个列向量看成是新的一组基向量,构成了一组新的坐标系,也就是矩阵A将自然基变换成了非自然基,通俗地讲,你可以把下面这张图片中蓝色直线看做x轴,粉红色看成y轴,这组坐标系比较特殊,y轴是倾斜的,向量x在这个新坐标系下的坐标为(1,2),但是在自然基i=(1,0),j=(0,1)下面的坐标为(3,2),也就是向量b:
好了,这便是上一篇文章中主要的精华,下面我们开始切入正题,开始说相似矩阵。

相似矩阵的本质——坐标系的转化

在说相似矩阵之前,我们先从一个问题开始:我们知道,旋转矩阵
的作用能够把其所在的线性空间中所有的向量都逆时针旋转90°:
但是这个旋转作用的矩阵是在自然基下面的表达,而在非自然基下(我还以矩阵A为例来说明)肯定也存在一个同样作用的旋转矩阵,这个矩阵是多少呢(首先可以确定这个矩阵肯定与矩阵R的数字不一样,毕竟坐标系已经变了),换句话说,如何在以矩阵A为基向量下的坐标系中找到同样能将任何向量都能旋转90°的那个矩阵呢?这个问题很有意思,因为理论上坐标系的改变绝不会改变任何一个向量的本质,就像上面画杨桃那个例子,你不可能换了个位置那个杨桃就变成了另外一个杨桃。但是我们只知道在自然基下面的旋转矩阵,所以我们考虑如果将非自然基先转化为自然基,然后再用旋转矩阵R来旋转,最后再把它转化成非自然基不就能实现我们的效果了吗?

但是这里有个问题,我们只知道矩阵A能够将自然基转化为A表示的非自然基向量坐标系,也即:
那么我们在左右两边都乘以A的逆矩阵即可得到从非自然基 到自然基(i,j)的转化:
也即:
所以这里又得出上篇文章的结论,逆矩阵的几何意义实际上就是将变换后的空间再变换回来,我们还以旋转矩阵为例来说明:
所以,为了从非自然基过渡到自然基,我们只需要左乘一个逆矩阵即可,这样就能实现我们的上面在非自然基下面进行旋转的操作,这实际上上是一种间接旋转:
注意,这张图片上半部分是将非自然基直接进行旋转,但常这个矩阵很难直接找到,我们通常的做法是先转换为自然基,再旋转,最后再转化为非自然基。这样的做法好比你准备从北京飞往广州一趟,但是直达的机票售光了,所以你先飞到上海,再从上海转飞到广州,虽然路径不一样,但效果是一样的。

这样我们就得到了整个过程:   
咦,这个公式怎么这么熟悉? 没错这就是相似矩阵的定义,如果上式成立,那么我们说R与B相似。你可以把它俩看成亲姊妹或者双胞胎,甚至把它俩看成同一个也丝毫不为过,因为这哥俩虽然表达式不一样,但是它们的作用效果是一样的,都是对所在的空间进行逆时针90°旋转,只是所操作的坐标系不一样罢了。

所以,我们得出这样的结论:相似矩阵是同一线性变换(比如都是旋转)下在不同坐标系(基不一样)下的表达方式。

相似矩阵对角化的本质——找一个更加舒服的坐标系

如果上面那个公式中,B恰巧是一个对角阵:
那么我们称将矩阵A相似对角化,这样,问题又来了,我们为什么通常要把一个矩阵相似对角化,换句话说我们为什么要找一个矩阵的相似矩阵,甚至直到找到它的相似对角阵才善罢甘休,这样做有什么好处呢?这里有三个原因:

第一,相似矩阵的特征值相同

首先,在工程技术上,好多问题都会归结到找一个矩阵的特征值与特征向量来解决。那么究竟什么是特征值与特征向量,几何意义是什么?

我们再回到上面那张图片中,当一个自然基下的坐标系被变换到了矩阵A所在的基向量下的坐标系,有一个神奇的现象是,几乎所有的向量都发生了不同程度的倾斜,但是那些原本落在x坐标上的向量就非常特殊,它没有被倾斜,只是被不同程度地缩放了,而这个缩放的倍数就叫特征值(Eigenvalue),对应的向量就叫特征向量(Eigenvector):
那么相似矩阵的特征值为什么会相等呢,如何证明?其实这根本不需要证明,我们前面已经得出了相似矩阵其实是同一个线性变换,只是坐标系不一样罢了。既然只是更换了坐标系,矩阵的本质不会改变,该伸缩还伸缩,该倾斜还倾斜,特征值必定相同。

第二,矩阵的相似对角化实际上是找一个我们看起来非常舒服的坐标系,这样非常方面我们计算。

比如十六世纪之前人们都比较认同“地心说”,但是不断发现按照地心说观察到的天体运动轨迹非常复杂,而随后哥白尼提出“日心说”后就简单了许多,而且好多问题也就迎刃而解。虽然这两种说法都不正确,但是足以证明一个好的坐标系对我们多么重要。

再举个例子,中学时候,我们都会做关于圆或者椭圆的习题,想象一下那时候你选坐标系的时候是不是都会把坐标系的原点建在圆心的位置,当然呀,这样非常方便我们计算。
上面两个案例说明,找一个合适的坐标系非常重要,而矩阵的相似对角化就是为了找一个更合适的坐标系。

因为对角阵的主对角元素就是这个矩阵的特征值,而相似矩阵的特征值又相等,所以一旦我们把一个矩阵相似对角化后,一眼就能看出这个矩阵的特征值,而且后面的计算也方便很多,例如设
我们很容易将其相似对角化为(这个过程省略了,不过很简单,大家下去自己算一下):
这样我们一眼就看出矩阵A的两个特征值为1,3. 而如果我们要计算就方便很多了:
这里的
所以
只要我们求出P即可很快计算出它的n次幂,这样计算就简便很多了。

页: [1]
查看完整版本: 相似矩阵究竟相似在哪里?