在机器学习人身上能同时发现数学家滥用符号(而非计算机界强调的变量命名和作用域)和程序员的不求甚解(而非数学界强调的严谨证明)。这就难免使得机器学习的记号充满歧义。就以概率分布的为例,我们说
- 第一个
和 第二个 不同,前者指一个具体的样本,我们也称它为一个概率分布的实现。而后者则是概率分布的取值的占位符。 - 注意在上述辨析中,我们为了区分作为一个未知但是确定的变量的占位符
,用大写字母 来表示能取这个值的随机变量。什么叫未知但是确定的变量?这就好比我们在各类方程中看到的未知量,我们不知道它的具体值,但我们知道这个具体值如果存在是唯一的,即确定的。而随机变量则是不确定的,是和取值过程本身即采样有关。 - 这个概率分布
也有两种含义: - 若它指的是离散分布,那么
指的是它的概率质量函数,比如 ,就是指随机变量 取值为 的概率为 。 这个记号本身也有两种含义: - 它指的是上面这个概率质量函数,更准确的说它是某个离散随机变量的概率质量函数。
- 它指的是一个事件
的概率 。看到这里有的人可能会怀疑,你说的这个是不是小题大作,这就是一码事吧。不是的,因为这两者的定义并不相同,事件所生活的空间与随机变量所生活的空间不是一个空间,而后者的概率恰恰是前者概率测度所诱导出的,即便在离散形式下二者往往都用 简记,但这是一种粗鲁的符号重载(唯一的区别痕迹就是使用大写 来表示概率测度,小写 来表示概率分布——即其概率质量或概率密度函数)。我们将在下面看的更为清楚。
- 若它指的是连续分布,那么
指的是它的概率密度函数。此时如果我们问 等于多少,上面这个符号重载的问题就会立马出现。我们都知道,对于连续型随机变量而言,任何取单一值的事件概率都为零——这也是高中几何概型中经典的悖论性事实:不可能事件的概率为零,但概率为零的事件不一定是不可能事件。由此我们知道 。但是另一方面我们知道作为概率密度函数, 在 处的取值完全可以不为 。于是我们发现 这个符号的两个歧义 概率质量函数或概率密度函数在 3 处的取值。 随机变量 取到值 的概率。
- 由于对于连续型随机变量而言,谈论
是没有意义的(总是 ),数学家引入了另一个更无厘头的记号 。其实它想表达的是 ,还是拿 的例子就是 ,它就等于概率密度乘上一个小量 。因此对更一般的 ,我们记 。这个式子有两种解读,你既可以把它看成是一种微分形式——把概率密度视为概率测度的 Radon-Nykodym 导数,即 ,然后把这个式子写成 ,所谓 ;又或者你可以把它当成是积分形式,因为 ,然后积分中值定理告诉你 ,而当 时, 。注意积分形式的推理中,我们把 中的概率测度 其实解释为了累积分布函数 。对了,这个记号还有个更糟糕的形式 。
- 若它指的是离散分布,那么