Skip to content

概率分布的记号辨析

2025-01-29 · 1154字 · 4分钟

在机器学习人身上能同时发现数学家滥用符号(而非计算机界强调的变量命名和作用域)和程序员的不求甚解(而非数学界强调的严谨证明)。这就难免使得机器学习的记号充满歧义。就以概率分布的为例,我们说 xp(x),这里面就有几层歧义:

  1. 第一个 x 和 第二个 x 不同,前者指一个具体的样本,我们也称它为一个概率分布的实现。而后者则是概率分布的取值的占位符。
  2. 注意在上述辨析中,我们为了区分作为一个未知但是确定的变量的占位符 x,用大写字母 X 来表示能取这个值的随机变量。什么叫未知但是确定的变量?这就好比我们在各类方程中看到的未知量,我们不知道它的具体值,但我们知道这个具体值如果存在是唯一的,即确定的。而随机变量则是不确定的,是和取值过程本身即采样有关。
  3. 这个概率分布 p(x) 也有两种含义:
    1. 若它指的是离散分布,那么 p(x) 指的是它的概率质量函数,比如 p(x=3)=1/3,就是指随机变量 X 取值为 x=3的概率为 1/3
    2. p(x=3)这个记号本身也有两种含义:
      1. 它指的是上面这个概率质量函数,更准确的说它是某个离散随机变量的概率质量函数。
      2. 它指的是一个事件 A={ω:X(ω)=3} 的概率 P(A)。看到这里有的人可能会怀疑,你说的这个是不是小题大作,这就是一码事吧。不是的,因为这两者的定义并不相同,事件所生活的空间与随机变量所生活的空间不是一个空间,而后者的概率恰恰是前者概率测度所诱导出的,即便在离散形式下二者往往都用 p(x=3) 简记,但这是一种粗鲁的符号重载(唯一的区别痕迹就是使用大写 P 来表示概率测度,小写 p 来表示概率分布——即其概率质量或概率密度函数)。我们将在下面看的更为清楚。
    3. 若它指的是连续分布,那么 p(x) 指的是它的概率密度函数。此时如果我们问 p(x=3) 等于多少,上面这个符号重载的问题就会立马出现。我们都知道,对于连续型随机变量而言,任何取单一值的事件概率都为零——这也是高中几何概型中经典的悖论性事实:不可能事件的概率为零,但概率为零的事件不一定是不可能事件。由此我们知道 P({ω:X(ω)=3})=0。但是另一方面我们知道作为概率密度函数, p(x)x=3 处的取值完全可以不为 0 。于是我们发现 p(x=3) 这个符号的两个歧义
      1. p(x)|x=3 概率质量函数或概率密度函数在 3 处的取值。
      2. P({ω:X(ω)=3}) 随机变量 X 取到值 3 的概率。
    4. 由于对于连续型随机变量而言,谈论 P({ω:X(ω)=3}) 是没有意义的(总是 0 ),数学家引入了另一个更无厘头的记号 P(Xdx)。其实它想表达的是 P({ω:X(ω)[x,x+dx]}),还是拿 3 的例子就是 P({ω:X(ω)[3,3+dx]}),它就等于概率密度乘上一个小量 p(3)dx。因此对更一般的 x,我们记 P(Xdx)=P({ω:X(ω)[x,x+dx]})=p(x)dx。这个式子有两种解读,你既可以把它看成是一种微分形式——把概率密度视为概率测度的 Radon-Nykodym 导数,即 p(x)=dP/dx,然后把这个式子写成 dP=p(x)dx,所谓 dP=P(Xdx);又或者你可以把它当成是积分形式,因为 P(X[x,x+dx])=xx+dxp(x)dx,然后积分中值定理告诉你 P(X[x,x+dx])=p(ξ)dx,而当 dx0 时,ξx。注意积分形式的推理中,我们把 P(X[x,x+dx])中的概率测度 P 其实解释为了累积分布函数 P(xXx+dx)。对了,这个记号还有个更糟糕的形式 P(dx)
返回

人同此心,心同此理;如风沐面,若水润心