【矩阵微分】
引入
根据下表,微分可分为标量对标量 $\frac{\partial y}{\partial x}$、向量对标量 $\frac{\partial \mathbf{y}}{\partial x}$、标量对向量 $\frac{\partial y}{\partial \mathbf{x}}$、矩阵对标量 $\frac{\partial Y}{\partial x}$、标量对矩阵 $\frac{\partial y}{\partial X}$、向量对向量 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 六种形式
标量 | 向量 | 矩阵 | |
---|---|---|---|
标量 | $\frac{\partial y}{\partial x}$ | $\frac{\partial \mathbf{y}}{\partial x}$ | $\frac{\partial Y}{\partial x}$ |
向量 | $\frac{\partial y}{\partial \mathbf{x}}$ | $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ | \ |
矩阵 | $\frac{\partial y}{\partial X}$ | \ | \ |
其中,$x,y$ 为标量,$\mathbf{x},\mathbf{y}$ 是向量,$X,Y$ 是矩阵
标量对标量形式 $\frac{\partial y}{\partial x}$ 即微积分中的一元函数微分,例如
向量对标量形式 $\frac{\partial \mathbf{y}}{\partial x}$ 即对向量元素逐项微分,例如
标量对向量形式 $\frac{\partial y}{\partial \mathbf{x}}$ 即微积分中的多元函数偏导,即函数 $y$ 对向量 $\mathbf{x}$ 的梯度 $\text{grad }y$,例如
下面,逐一介绍剩余的矩阵对标量 $\frac{\partial Y}{\partial x}$、标量对矩阵 $\frac{\partial y}{\partial X}$、向量对向量 $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ 三种形式
矩阵对标量
设 $m\times n$ 阶函数矩阵 $A(t)=[a_{ij}(t)]$,定义函数矩阵 $A(t)$ 关于标量 $t$ 的微分为
简记为
其有如下的求导法则:
1)若 $A(t),B(t)$ 是同阶可微矩阵,则
2)若 $A(t),B(t)$ 分别是 $m\times n$ 阶、$n\times l$ 阶可微矩阵,则
3)若 $A(u)$ 可微且 $u=f(t)$ 关于 $t$ 可微,则
4)若 $A(t),A^{-1}(t)$ 均可微,则
可以发现,矩阵对标量形式的微分,本质就是对矩阵内的元素逐一求导,例如
标量对矩阵
设 $X=[x_{ij}]$ 是 $m\times n$ 阶的标量矩阵,且
是 $mn$ 元可微的标量函数,那么函数 $f(X)$ 关于矩阵 $X$ 的导数为
特别地,当 $X$ 是 $m\times 1$ 阶矩阵,即 $m$ 维向量时,此时标量对矩阵形式即为标量对向量形式,函数 $f(X)$ 关于 $X$ 的微分,即 $f$ 对 $X$ 的梯度
标量对矩阵形式有如下的求导法则:
向量对向量
设 $\mathbf{x}=[x_1,x_2,\cdots,x_n]^T$ 为 $n$ 维列向量,$a_1(\mathbf{x}),a_2(\mathbf{x}),\cdots,a_m(\mathbf{x})$ 是 $m$ 个 $n$ 元可微函数,记向量函数
则向量函数 $\mathbf{a}^T(\mathbf{x})$ 关于向量 $\mathbf{x}$ 的微分为
同理,定义向量函数 $\mathbf{a}(\mathbf{x})$ 关于向量 $\mathbf{x}^T$ 的导数为
显然有
标量对矩阵形式有如下的求导法则:
其中,$A$ 为常数矩阵,$f(\mathbf{x})$ 为向量 $\mathbf{x}$ 的数量函数,$\mathbf{a}(\mathbf{x}),\mathbf{b}(\mathbf{x})$ 为向量 $\mathbf{x}$ 的向量函数
【矩阵积分】
设 $m\times n$ 阶函数矩阵 $A(t)=[a_{ij}(t)]$ 中的每个元素 $a_{ij}(t)$ 在 $[a,b]$ 上可积,则称 $A(t)$ 在 $[a,b]$ 上是可积的,且定义
根据矩阵积分定义与微积分的知识,易知矩阵积分有如下性质:
1)若 $A(t)$ 在 $[a,b]$ 上连续,则 $\forall t\in(a,b)$,$\int_a^t A(s)ds$ 可微,且
2)若 $A(t)$ 在 $[a,b]$ 上连续可微,则