概率分布的记号辨析

在机器学习人身上能同时发现数学家滥用符号（而非计算机界强调的变量命名和作用域）和程序员的不求甚解（而非数学界强调的严谨证明）。这就难免使得机器学习的记号充满歧义。就以概率分布的为例，我们说 $x \sim p (x)$ ，这里面就有几层歧义：

第一个 $x$ 和第二个 $x$ 不同，前者指一个具体的样本，我们也称它为一个概率分布的实现。而后者则是概率分布的取值的占位符。
注意在上述辨析中，我们为了区分作为一个未知但是确定的变量的占位符 $x$ ，用大写字母 $X$ 来表示能取这个值的随机变量。什么叫未知但是确定的变量？这就好比我们在各类方程中看到的未知量，我们不知道它的具体值，但我们知道这个具体值如果存在是唯一的，即确定的。而随机变量则是不确定的，是和取值过程本身即采样有关。
这个概率分布 $p (x)$ 也有两种含义：
1. 若它指的是离散分布，那么 $p (x)$ 指的是它的概率质量函数，比如 $p (x = 3) = 1 / 3$ ，就是指随机变量 $X$ 取值为 $x = 3$ 的概率为 $1 / 3$ 。
2. $p (x = 3)$ 这个记号本身也有两种含义：
  1. 它指的是上面这个概率质量函数，更准确的说它是某个离散随机变量的概率质量函数。
  2. 它指的是一个事件 $A = {ω : X (ω) = 3}$ 的概率 $P (A)$ 。看到这里有的人可能会怀疑，你说的这个是不是小题大作，这就是一码事吧。不是的，因为这两者的定义并不相同，事件所生活的空间与随机变量所生活的空间不是一个空间，而后者的概率恰恰是前者概率测度所诱导出的，即便在离散形式下二者往往都用 $p (x = 3)$ 简记，但这是一种粗鲁的符号重载（唯一的区别痕迹就是使用大写 $P$ 来表示概率测度，小写 $p$ 来表示概率分布——即其概率质量或概率密度函数）。我们将在下面看的更为清楚。
3. 若它指的是连续分布，那么 $p (x)$ 指的是它的概率密度函数。此时如果我们问 $p (x = 3)$ 等于多少，上面这个符号重载的问题就会立马出现。我们都知道，对于连续型随机变量而言，任何取单一值的事件概率都为零——这也是高中几何概型中经典的悖论性事实：不可能事件的概率为零，但概率为零的事件不一定是不可能事件。由此我们知道 $P ({ω : X (ω) = 3}) = 0$ 。但是另一方面我们知道作为概率密度函数， $p (x)$ 在 $x = 3$ 处的取值完全可以不为 $0$ 。于是我们发现 $p (x = 3)$ 这个符号的两个歧义
  1. $p (x) |_{x = 3}$ 概率质量函数或概率密度函数在 3 处的取值。
  2. $P ({ω : X (ω) = 3})$ 随机变量 $X$ 取到值 $3$ 的概率。
4. 由于对于连续型随机变量而言，谈论 $P ({ω : X (ω) = 3})$ 是没有意义的（总是 $0$ ），数学家引入了另一个更无厘头的记号 $P (X \in d x)$ 。其实它想表达的是 $P ({ω : X (ω) \in [x, x + d x]})$ ，还是拿 $3$ 的例子就是 $P ({ω : X (ω) \in [3, 3 + d x]})$ ，它就等于概率密度乘上一个小量 $p (3) d x$ 。因此对更一般的 $x$ ，我们记 $P (X \in d x) = P ({ω : X (ω) \in [x, x + d x]}) = p (x) d x$ 。这个式子有两种解读，你既可以把它看成是一种微分形式——把概率密度视为概率测度的 Radon-Nykodym 导数，即 $p (x) = d P / d x$ ，然后把这个式子写成 $d P = p (x) d x$ ，所谓 $d P = P (X \in d x)$ ；又或者你可以把它当成是积分形式，因为 $P (X \in [x, x + d x]) = \int_{x}^{x + d x} p (x) d x$ ，然后积分中值定理告诉你 $P (X \in [x, x + d x]) = p (ξ) d x$ ，而当 $d x \to 0$ 时， $ξ \to x$ 。注意积分形式的推理中，我们把 $P (X \in [x, x + d x])$ 中的概率测度 $P$ 其实解释为了累积分布函数 $P (x \leq X \leq x + d x)$ 。对了，这个记号还有个更糟糕的形式 $P (d x)$ 。