qwq
标量、向量、矩阵和张量
标量 单独的数
向量:一列数
可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。
索引:定义$S={ 1,3,6}$,$\boldsymbol xS$指定$x_1,x_3,x_6$,—表示补集的索引,$\boldsymbol x{—S}$表示$\boldsymbol x$中除$x_1,x_3,x_6$中的元素构成的向量。
矩阵:二维数组
索引:$A_{m,n}$
$\boldsymbol A{i,:}$表示$\boldsymbol A$ 的第$i$行,$\boldsymbol A{:,i}$表示$\boldsymbol A$的第$i$列。
$f(\boldsymbol A)_{i,j}$:$f$作用在$\boldsymbol A$上输出的矩阵的第i行第j列元素
张量:超过二维的数组
转置:以对角线为轴的镜像
矩阵相加:$\boldsymbol D=a\cdot \boldsymbol B+c$
矩阵和向量相加:$\boldsymbol C=\boldsymbol A+\boldsymbol b$,其中$C{i,j}=A{i,j}+b_j$ (广播)
矩阵和向量相乘
矩阵乘积:$\boldsymbol C=\boldsymbol {AB}$
元素对应乘积(Hadamard乘积):$\boldsymbol A \odot \boldsymbol B$
两个维数相同的向量$\boldsymbol x$和$\boldsymbol y$的点积可以看作矩阵乘积$\boldsymbol x^T \boldsymbol y$。因此矩阵乘积可以看作第$i$行第$j$列的点积。
运算性质:
分配律:$\boldsymbol A(\boldsymbol B+\boldsymbol C)=\boldsymbol{AB}+\boldsymbol{AC}$
结合律:$\boldsymbol A(\boldsymbol{BC})=(\boldsymbol{AB})\boldsymbol C$
不满足交换律。
点积:$\boldsymbol x^{\top}\boldsymbol y=\boldsymbol y^{\top}\boldsymbol x$
转置:$(\boldsymbol{AB})^{\top}=\boldsymbol {B^{\top}A^{\top}}$
线性方程组:$\boldsymbol {Ax}=\boldsymbol b$
单位矩阵和逆矩阵
单位矩阵 $\boldsymbol In$:任意向量和单位矩阵相乘都不会改变。
结构:
矩阵逆:$\boldsymbol A^{-1}$
逆矩阵主要作为理论工具使用,因为精度有限。
线性相关和生成子空间
对于$\boldsymbol {Ax}=\boldsymbol b$,如果有解,则一定存在一个解或无穷多解,不存在多余一个但少于无穷多解的情况。
可以将$\boldsymbol A$的列向量看作从原点出发的不同方向,确定有多少种方法可以到达向量$\boldsymbol b$,向量$\boldsymbol x$表示沿这些方向走多远。
线性组合:
生成子空间:原始向量线性组合后能达到的点的集合。
列空间(值域):某矩阵列向量的生成子空间。
使$\boldsymbol {AX}=\boldsymbol b$对于任意向量$b\in\mathbb{R}^m$都有解,要$\boldsymbol A$的列空间构成$\mathbb{R}^m$,则$\boldsymbol A$至少有m个线性无关的列,否则只有当向量$\boldsymbol b$在n维平面上时有解。
若要矩阵可逆,还要保证对于每一个$\boldsymbol b$最多有一个解,因此矩阵最多有m个列向量。
因此这个可逆的矩阵必须为方阵且所有向量为线性无关。
奇异:列向量线性相关的方阵。
范数
范数:衡量向量大小,表示从原点到点$\boldsymbol x$的距离。
$L^p$范数定义:
$L^2$范数:p=2,欧几里得范数,$||\boldsymbol x||$,可以通过点积$\boldsymbol {x^Tx}$计算。
平方$L^2$范数:对每个元素的倒数只取决于对应元素,而不平方会与整个向量相关但在原点附近增长缓慢。
$L^1$范数:区分恰好是0的元素和接近于0的元素。表示非零元素数目。
最大范数:表示向量中具有最大幅值的元素的绝对值。
Frobenius范数:衡量矩阵大小
特殊类型的矩阵和向量
对角矩阵:只在对角线上含有非零元素
$diag(\boldsymbol v)$:对角元素由向量中元素构成
对称矩阵:转置和自己相等
单位向量:具有单位范数的向量
正交:$\boldsymbol {x^Ty}=0$
标准正交:正交且范数为1
正交矩阵:行向量和列向量分别标准正交的方阵,求逆代价小
特征分解
特征分解:将矩阵分解成一组特征向量和特征值。
特征向量:
特征分解:
其中$\boldsymbol V=[v^{(1)},…,v^{(n)}]$,$\boldsymbol\lambda=[\lambda_1,…,\lambda_n]$
每一个实对称矩阵都可以分解成实特征向量和实特征值:
其中Q是A特征向量构成的正交矩阵,可以将A看作沿方向$\boldsymbol v^{(i)}$延伸$\lambda_i$倍的空间。
矩阵是奇异的当且仅当含有0特征值。
奇异值分解
奇异值分解(SVD):奇异向量+奇异值
每个实数矩阵都有一个奇异值分解,但不一定都有特征值分解。
$\boldsymbol A:m\times n$
$\boldsymbol U:m\times m$,正交矩阵,列向量为左奇异向量
$\boldsymbol D:m\times n$,对角矩阵(不一定是方阵),对角线上元素为奇异值
$\boldsymbol V:n\times n$,列向量为右奇异向量
左奇异向量是$\boldsymbol {AA^T}$的特征向量,右奇异向量是$\boldsymbol {A^TA}$的特征向量,非零奇异值是$\boldsymbol {AA^T}$和$\boldsymbol {A^TA}$特征值的平方根。
Moore-Penrose 伪逆
对于非方阵,没有逆矩阵。
其中,U,D和V是A奇异值分解后得到的矩阵,$D^+$是D非零元素取倒数之后再转置得到。
当矩阵列数多于行数时,$x=\boldsymbol A^+y$是方程中L2范数最小的一个。
当矩阵行数多于列数时,伪逆得到的x使得Ax和y的欧几里得距离$||\boldsymbol {Ax-y}||_
2$最小。
迹运算
Frobenius范数:
转置前后迹不变
多个矩阵相乘得到方阵的迹,将最后一个挪到最前面之后迹不变。
对于标量:a=Tr(a)。
行列式
行列式:$det(\boldsymbol A)$,将方阵映射到实数的函数。
行列式等于矩阵特征值的乘积。
行列式绝对值衡量矩阵参与矩阵乘法后空间扩大或缩小了。
主成分分析
主成分分析:PCA,对空间中的m个点进行有损压缩,希望损失的精度尽可能少。
方法:用低维表示,即存在l小于n。
找到一个编码函数,根据输入返回编码,$f(\boldsymbol x)=c$,一个解码函数,给定编码重构输入,$\boldsymbol{x} \approx g(f(\boldsymbol{x}))$
定义解码矩阵$\boldsymbol{D} \in \mathbb{R}^{n \times l}$,$g(\boldsymbol c)=\boldsymbol{Dc}$
限制$\boldsymbol D$的所有列向量具有单位范数且彼此正交。
为得到最优编码 $\boldsymbol c^ $ ,最小化原始输入向量 $ \boldsymbol x $ 和重构向量 $ g(\boldsymbol c^ )$之间的距离,使用平方$L^2$范数:
最小化函数化简:
其中标量$g(\boldsymbol c)^{\top} \boldsymbol x$的转置等于本身。
第一项不依赖于c,因此:
通过向量微积分求解优化:
因此使用编码函数:
根据矩阵乘法定义PCA重构操作:
挑选编码矩阵D,最小化所有维数和所有点上的误差矩阵的F范数:
首先考虑$l=1$,此时$\boldsymbol D$为向量$\boldsymbol d$:
将标量写在左边:
用矩阵表示,$\boldsymbol{X} \in \mathbb{R}^{m \times n}$,其中$\boldsymbol{X}_{i, :}=\boldsymbol{x}^{(i)^{\top}}$,因此:
化简F范数:
考虑约束条件:
因此最优的$\boldsymbol d$是$\boldsymbol{X^{\top}X}$最大的特征值对应的特征向量。