3D Mathematics 04 - Quaternion

# 概述

四元数 (Quaternion) 是3D引擎中另一种用于表示旋转的数学实体，在许多情况下，四元数要优于旋转矩阵，因为它使用更少的存储空间，在进行连接时需要更少的计算，并且更易于进行插值以产生平滑动画。

四元数的集合由 $\Bbb{H}$ 表示，它可以被认为是一个四维向量空间，数学家称之为 汉密尔顿四元数环 (the ring of Hamiltonian quaternions) 。

起初，四元数并不是专用于旋转的。作为用于描述现实空间的坐标表示方式，数学家Hamilton在复数的基础上创造了四元数，并以四元数的形式来表示空间中一点的坐标，那时向量和矩阵还未被推广使用。后来，四元数的地位已经几乎被向量和矩阵所取代。

但是在表示旋转时，相对于旋转矩阵和欧拉角而言，四元数具有独特的优势，因而现在四元数主要还是被用于表示旋转。

# 定义

我们定义一个四元数为：

q = \langle w,\ x,\ y,\ z \rangle = w + xi + yj + zk

其中 $i,\ j,\ k$ 作为一种特殊的虚数单位参与运算，并遵循如下规则：

$i^0 = j^0 = k^0 = 1$
$i^2 = j^2 = k^2 = -1$
$ij = -ji = k$
$jk = -kj = i$
$ki = -ik = j$

也可以用标量-向量表示法来描述，这种表示形式和复数非常相似：

q = s + V

其中 $s$ 表示 $q$ 的标量部分，即 $w$ ，称为四元数的 实部 (real component) ，而 $V$ 表示 $q$ 的向量部分，即 $x,\ y,\ z$ ，称为四元数的 虚部 (imaginary component) 。

类似于复数，我们定义四元数 $q = s + V$ 的 共轭 (conjugate) 为：

\bar{q} = s - V

当四元数的实部 $s = 0$ 时，称 $q = xi + yj + zk$ 为纯四元数，这有些类似于纯虚数的定义。它可以用于表示三维空间中的一点 $(x,\ y,\ z)$ 。

# 基本性质

# 四元数的基本运算

设 $q$ 是一个四元数， $a$ 是一个标量 (Scalar) ，定义四元数的标量乘法为：

aq = qa = as + aV

设 $q_1,\ q_2$ 是两个四元数，定义四元数的加法为：

q_1 + q_2 = (s_1 + s_2) + (V_1 + V_2)

定义四元数的减法为：

q_1 - q_2 = q_1 + (-q_2)

定义四元数的点积为：

q_1 \cdot q_2 = s_1s_2 + V_1 \cdot V_2

定义四元数的叉积为：

q_1 \times q_2 = V_1 \times V_2

设 $q$ 是一个四元数，定义四元数的模为：

\|q\| = \sqrt{s^2 + x^2 + y^2 + z^2}

这些运算都和向量的运算基本一致，因而不再赘述。并且随着四元数不再被用于表示坐标，这些运算在3D引擎中事实上几乎用不到，只做了解即可。四元数最重要也是最复杂的运算是乘法运算。

# 四元数的乘法

虽然和复数很相似，但是四元数的乘法不满足交换律。

设 $q_1 = w_1 + x_1i + y_1j + z_1k,\ q_2 = w_2 + x_2i + y_2j + z_2k$ ，定义四元数的乘法如下：

\begin{aligned} q_1q_2 = \ & (w_1 + x_1i + y_1j + z_1k)(w_2 + x_2i + y_2j + z_2k) \\ = \ & (w_1w_2 - (x_1x_2 + y_1y_2 + z_1z_2)) \\ & + ((w_1x_2 + w_2x_1) + (y_1z_2 - z_1y_2))\ i \\ & + ((w_1y_2 + w_2y_1) + (z_1x_2 - x_1z_2))\ j \\ & + ((w_1z_2 + w_2z_1) + (x_1y_2 - y_1x_2))\ k \end{aligned}

也可以用标量-向量表示法来描述，设 $q_1 = s_1 + V_1,\ q_2 = s_2 + V_2$ ，则：

q_1q_2 = (s_1s_2 - V_1 \cdot V_2) + (s_1V_2 + s_2V_1 + V_1 \times V_2)

该式可以由上式根据点积和叉积的运算律替换得到。

四元数 $q$ 与其共轭 $\bar{q}$ 的乘积等于 $q$ 和自身的点积，也就等于其模的平方 $\|q\|^2$ 。也就是说：

q\bar{q} = \bar{q}q = q \cdot q = \|q\|^2

这可以帮助我们定义四元数的逆：

q^{-1} = \frac{\bar{q}}{\|q\|^2}

证明很简单：

qq^{-1} = \frac{q\bar{q}}{\|q\|^2} = \frac{\|q\|^2}{\|q\|^2} = 1

q^{-1}q = \frac{\bar{q}q}{\|q\|^2} = \frac{\|q\|^2}{\|q\|^2} = 1

另外，四元数的乘积的模满足如下规律：

\|q_1q_2\| = \|q_1\|\|q_2\|

将左右两边展开计算即可证明，此处略。

# 四元数和旋转

# 用四元数表示旋转

给定一个任意的向量 $P$ ，我们要将其绕单位向量 $A$ 旋转 $\theta$ 角度，这样的旋转可以由一个旋转矩阵来表示。现在我们考虑如何用四元数来表示。

用于表示三维空间中的旋转的四元数的一般形式为：

\begin{aligned} q &= \cos\frac{\theta}{2} + A\sin\frac{\theta}{2} \\ &= \cos\frac{\theta}{2} + (A_xi + A_yj + A_zk)\sin\frac{\theta}{2} \end{aligned}

因为 $A$ 是一个单位向量，所以 $q$ 是一个单位四元数。定义对 $P$ 应用四元数 $q$ 所表示的旋转为 $R_q(P)$ ，则：

P' = R_q(P) = qPq^{-1}

注意，为了与 $q$ 进行乘法运算，我们将 $P$ 视为一个纯四元数。前文已经讲过，纯四元数亦可用来表达空间中一点的坐标，与向量的表示是等价的。

下面我们证明 $qPq^{-1}$ 仍然是一个纯四元数。同样是为了方便参与运算，这里我们将 $V = A\sin\frac{\theta}{2}$ 也视为一个纯四元数。

\begin{aligned} qPq^{-1} &= (s + V)P(s - V) \\ &= (-V \cdot P + sP + V \times P)(s - V) \\ &= -s(V \cdot P) + s^2P + s(V \times P) + (V \cdot P)V - sPV - (V \times P)V \\ &= -s(V \cdot P) + s^2P + s(V \times P) + (V \cdot P)V - s(-P \cdot V + P \times V) - (-(V \times P) \cdot V + (V \times P) \times V) \\ &= s^2P + 2s(V \times P) + (V \cdot P)V - (V \times P) \times V \end{aligned}

根据向量的叉积的运算律 $(P \times Q) \times P = \|P\|^2Q - (P \cdot Q)P$ 可得：

\begin{aligned} qPq^{-1} &= s^2P + 2s(V \times P) + (V \cdot P)V - \|V\|^2P + (V \cdot P)V \\ &= (s^2 - \|V\|^2)P + 2s(V \times P) + 2(V \cdot P)V \end{aligned}

设 $V = tA$ ，则：

qPq^{-1} = (s^2 - t^2)P + 2st(A \times P) + 2t^2(A \cdot P)A

根据我们在推导旋转矩阵时得到的结果：

P' = P\cos\theta + (A \times P)\sin\theta + A(P \cdot A)(1 - \cos\theta)

对比可得：

\begin{aligned} s^2 - t^2 &= \cos\theta \\ 2st &= \sin\theta \\ 2t^2 &= 1 - \cos\theta \end{aligned}

求解可得：

s = \cos\frac{\theta}{2},\ t = \sin\frac{\theta}{2}

值得一提的是，对四元数 $q$ 乘上任意的非零标量，都不会改变旋转的结果：

(aq)P(aq)^{-1} = aqP\frac{q^{-1}}{a} = qPq^{-1}

此外，用四元数表示旋转仍然可以做到类似于旋转矩阵的级联运算：

q_2(q_1Pq_1^{-1})q_2^{-1} = (q_2q_1)P(q_1^{-1}q_2^{-1}) = (q_2q_1)P(q_2q_1)^{-1}

因此这毫无疑问是一种非常优秀的表示方式。

# 正确性证明

三维空间中的旋转可以被看作是一个函数 $\varphi$ ，该函数是一个从 $\Reals^3$ 到 $\Reals^3$ 的映射，且其变换结果必须保持长度不变、保持角度不变、保持手性不变。

对于三维空间中的一点 $P$ ，旋转保持长度 $\|P\|$ 当且仅当：

\|\varphi(P)\| = \|P\|

对于三维空间中的两点 $P_1,\ P_2$ ，旋转保持角度 $\angle(OP_1,\ OP_2)$ 当且仅当：

\varphi(P_1) \cdot \varphi(P_2) = P_1 \cdot P_2

对于三维空间中的两点 $P_1,\ P_2$ ，旋转保持手性当且仅当：

\varphi(P_1) \times \varphi(P_2) = \varphi(P_1 \times P_2)

我们将函数 $\varphi$ 扩展为一个从 $\Bbb{H}$ 到 $\Bbb{H}$ 的映射，定义 $\varphi(s + V) = s + \varphi(V)$ ，那么我们可以将旋转保持角度的条件改写为：

\varphi(P_1) \cdot \varphi(P_2) = \varphi(P_1 \cdot P_2)

由于现在值域为 $\Bbb{H}$ ，自变量 $P_1,\ P_2$ 可以被视为纯四元数。

根据四元数的乘法运算律，有 $P_1P_2 = - V_1 \cdot V_2 + V_1 \times V_2$ ，由此可以将旋转保持角度的条件和旋转保持手性的条件合并为一个表达式：

\varphi(P_1)\varphi(P_2) = \varphi(P_1P_2)

现在我们证明 $R_q(P)$ 满足条件。

对于保持长度：

\|R_q(P)\| = \|qPq^{-1}\| = \|q\|\|P\|\|q^{-1}\| = \|P\|\frac{\|q\|\|\bar{q}\|}{\|q\|^2} = \|P\|

对于保持角度和手性：

R_q(P_1)R_q(P_2) = qP_1q^{-1}qP_2q^{-1} = qP_1P_2q^{-1} = R_q(P_1P_2)

得证。

# 四元数与旋转矩阵

我们经常需要将四元数转换为等价的 $3 \times 3$ 的旋转矩阵，例如，为了参与变换矩阵的级联运算，或是将对象的变换传递给3D图形库。

将表达式

qPq^{-1} = (s^2 - t^2)P + 2st(A \times P) + 2t^2(A \cdot P)A

转换为矩阵表示形式：

qPq^{-1} = (s^2 - t^2) \left[\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}\right] P + 2st \left[\begin{matrix} 0 & -A_z & A_y \\ A_z & 0 & -A_x \\ -A_y & A_x & 0 \end{matrix}\right] P + 2t^2 \left[\begin{matrix} A_x^2 & A_xA_y & A_xA_z \\ A_xA_y & A_y^2 & A_yA_z \\ A_xA_z & A_yA_z & A_z^2 \end{matrix}\right] P

设 $q = \langle w,\ x,\ y,\ z \rangle$ ，由 $q = s + tA,\ s = \cos\frac{\theta}{2},\ t = \sin\frac{\theta}{2}$ 可得：

\begin{aligned} w &= s \\ x &= tA_x \\ y &= tA_y \\ z &= tA_z \end{aligned}

由 $A$ 是单位向量且 $q$ 是单位四元数可得：

x^2 + y^2 + z^2 = t^2\|A\|^2 = t^2

w^2 - (x^2 + y^2 + z^2) = 1 - 2(x^2 + y^2 + z^2)

用 $w,\ x,\ y,\ z$ 替换 $s,\ t$ 可得：

qPq^{-1} = (1 - 2(x^2 + y^2 + z^2)) \left[\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix}\right] P + 2w \left[\begin{matrix} 0 & -z & y \\ z & 0 & -x \\ -y & x & 0 \end{matrix}\right] P + 2 \left[\begin{matrix} x^2 & xy & xz \\ xy & y^2 & yz \\ xz & yz & z^2 \end{matrix}\right] P

求和并根据 $qPq^{-1} = R_qP$ 可得等价的旋转矩阵 $R_q$ 为：

R_q = \left[\begin{matrix} 1 - 2(y^2 + z^2) & 2xy - 2wz & 2xz + 2wy \\ 2xy + 2wz & 1 - 2(x^2 + z^2) & 2yz - 2wx \\ 2xz - 2wy & 2yz + 2wx & 1 - 2(x^2 + y^2) \end{matrix}\right]

# 球面线性插值

# 线性插值

因为四元数可以看作是由四维向量表示的，所以它们非常适合进行插值。当我们对一个对象进行动画处理时，插值对于生成落在预先计算的关键帧之间的中间状态很有用。

最简单的插值类型是线性插值。对于两个单位四元数 $q_1,\ q_2$ ，线性插值的四元数 $q(t)$ 由下式给出：

q(t) = (1 - t)q_1 + tq_2

当 $t$ 从 $0$ 到 $1$ 变化时，函数 $q(t)$ 沿着连接 $q_1$ 和 $q_2$ 的线段平滑地变化。然而 $q(t)$ 不保持 $q_1,\ q_2$ 的单位长度，如图所示。

因此我们需要重新进行归一化，将公式改写为：

q(t) = \frac{(1 - t)q_1 + tq_2}{\|(1 - t)q_1 + tq_2\|}

遗憾的是，尽管线性插值很高效，但是 $q(t)$ 随 $t$ 的变化从 $q_1$ 滑向 $q_2$ 时，并非是以恒定的速率运动的。如图所示， $\cos^{-1}{(q(t)q_1)}$ 的值揭示了在 $q(t)$ 和 $q_1$ 之间的角度变化的速率在 $t = 0$ 和 $t = 1$ 的端点附近相对较慢，而在 $t = 0.5$ 附近最快。

# 球面线性插值

我们需要找到一个插值函数 $q(t)$ ，它必须保持单位长度，并且随 $t$ 以匀速发生变化。也就是说，设 $q_1,\ q_2$ 之间的夹角为 $\theta$ 角度，当 $t$ 从 $0$ 到 $1$ 变化时， $q_1,\ q(t)$ 之间的夹角应当为 $t\theta$ 角度，如图所示。

我们先假设 $q(t)$ 为：

q(t) = a(t)q_1 + b(t)q_2

在等式两边同时点乘 $q_1$ ，因为 $q_1,\ q_2,\ q(t)$ 具有相同的长度，消去 $\|q\|^2$ 可得：

\cos(t\theta) = a(t) + b(t)\cos\theta

类似地，在等式两边同时点乘 $q_2$ 可得：

\cos[(1 - t)\theta] = a(t)\cos\theta + b(t)

此时对于 $a(t),\ b(t)$ 已经有两个方程，解方程组可得：

\begin{aligned} a(t) &= \frac{\cos(t\theta) - \cos\theta\cos[(1 - t)\theta]}{1 - \cos^2\theta} \\ b(t) &= \frac{\cos[(1 - t)\theta] - \cos\theta\cos(t\theta)}{1 - \cos^2\theta} \end{aligned}

化简可得：

\begin{aligned} a(t) &= \frac{\sin[(1 - t)\theta]}{\sin\theta} \\ b(t) &= \frac{\sin(t\theta)}{\sin\theta} \end{aligned}

现在我们可以给出四元数的 球面线性插值 (spherical linear interpolation) 的定义：

q(t) = \frac{\sin[(1 - t)\theta]}{\sin\theta}q_1 + \frac{\sin(t\theta)}{\sin\theta}q_2

其中 $\theta = \cos^{-1}{q_1 \cdot q_2}$ 。考虑到 $q$ 和 $-q$ 表示的是相同的旋转，为方便起见，我们通常会取 $q_1 \cdot q_2 \ge 0$ ，这也确保了插值在最短路径上进行。

此外 $\sin\theta = \sqrt{1 - (q_1 \cdot q_2)^2}$ ，如果有必要的话可以将公式中的 $\sin\theta$ 替换掉。

#3D游戏编程 #3D数学

← 3D Mathematics 03 - Transform