# 随机变量和概率分布

# 随机变量

# 什么是随机变量呢?🤔

谈信息之前,我们先来回忆一下随机变量这个概念。 什么是随机变量呢?🤔 举个例子[1], 比如你手里现在 有个正常的骰子🎲,我这里说的正常就是没有人在🎲上面动过什么手脚。每一面都有同样的机会出现,这时我们说每 一面出现的概率一样。在扔之前你就知道扔出的结果可能是 1, 2, 3, 4, 5, 6 这几个点数中的其 中一个值, 但你仅仅只能够说是其中的某一个,而不能确定具体会是哪一个点数。扔🎲得到的点数(一个变量) 是随机的。 因此我们就把这样的变量叫做随机变量(random variables)。 我们通常用大写字母 表示随机变量,例如XX

# 离散随机变量

扔一次🎲(也叫做一次试验),你会得到一个点数的结果,例如6点。做一次试验,得到一 个结果的这个过程叫做随机变量的一次实现,也叫做一个事件。 你刚刚扔出6点就可以表 示成X=6X=6。通常,我们可用随机变量XX对应的小写xx表示随机变量可能的取值,所有的取值就会构成一个 集合X={1,2,3,4,5,6}\mathcal{X} = \{1,2,3,4,5,6\}。可以看到,这里的集合的元素的个数是有限的,或者说随机变量所有 可能的结果都可以一一列出。 我们把这样的随机变量叫做离散随机变量(Discrete random variable)。

# 连续随机变量

和离散随机变量对应的是连续随机变量。 例如我们让小明做百米冲刺🏃,在冲刺之前我们知道可能的结果 在[10.00,20.00][10.00,20.00]秒这个范围内,但是具体是多少也不清楚。这个范围内存在无数种可能性,例如15.01, 16.01111, 15.021102222等等,不能够一一列举。像百米冲刺用时这样的变量我们就把它叫做 连续随机变量

# 概率分布

# 概率分布又是什么? 🤔

在刚刚谈到的扔🎲的例子中,我们知道扔一次骰子🎲可能的结果有六种,每一种结果对应了一个发生的概率。 这种在一次试验中不同结果和其对应的概率之间的对应关系就叫做概率分布。扔骰子对应点数XX对应 的分布就可以表示成下面的样子,横坐标表示所有可能的结果我们用小写的xx表示, 纵坐标表示不同结果 对应的概率,记为P(X=x)P(X=x)PX(x)P_X(x)

可以看到每种结果对应的概率是一样的, 都为160.17\frac{1}{6} \approx 0.17

这里有一点需要牢记于心的是: 随机变量和概率分布是对应的。即:

一个随机变量必然对应了一个概率分布,有一个概率分布,必然是说的一个随机变量的概率分布。

理解随机变量,我们可以观察它对应的分布。但仅仅是观察的话得到的结果偏主观。因此我们去算一些随机变量 对应的参数。例如接下来我们要提到的期望和方差。

# 随机变量的期望

接下来我们来说说随机变量的期望值(Expected value), 也叫期望(Expectation)。

它是这样定义[2]的:

有一个离散随机变量XX (脑海里面浮现有一个离散的概率分布与之对应), 随机变量XX所有可能取值为 X={x1,x2,x3,...}\mathcal{X} = \{x_1,x_2,x_3, ...\}。那么XX的期望就被定义成:

E[X]=xkXxkP(X=xk)=xkXxkPX(xk)\mathbb{E}[X] = \sum_{x_k \in \mathcal{X}} x_k P(X=x_k) = \sum_{x_k \in \mathcal{X}} x_k P_X(x_k)

根据定义, 我们可以计算出扔🎲得到点数XX的期望为:

E[X]=xkXxkP(X=xk)=1×16+2×16+3×16+4×16+5×16+6×16=3.5\mathbb{E}[X] = \sum_{x_k \in \mathcal{X}} x_k P(X=x_k) = 1\times\frac{1}{6} + 2\times\frac{1}{6} + 3\times\frac{1}{6} + 4\times\frac{1}{6} + 5\times\frac{1}{6} + 6\times\frac{1}{6} = 3.5

接下来我们实实在在来扔骰子🎲,顺便记录一下扔出的结果吧。点击下面掷骰子🎲的按钮就可以了, 赶快来试试吧!

扔骰子试验

点数之和: 0
投掷次数: 0
平均点数: 0
历史记录: []

在上面的试验过程中,我们统计了下面这几个量:

  • 试验的历史结果: {X1,X2,...,Xn}\{X_1,X_2, ... , X_n\}
  • 试验的次数: nn
  • 试验点数之和: i=1nXi\sum_{i=1}^{n}X_i
  • 试验点数平均值: X¯=i=1nXin\bar{X} = \frac{\sum_{i=1}^{n}X_i}{n}

从上面的试验中,我们可以发现: 随着试验次数的增加,点数的均值(Average) X¯\bar{X}, 逐渐变得稳定。比如我 投掷200次后点数的平均值为3.4350。继续试验这个值也不会有太大的变化。你仔细观察这个平均值, 到这里你似乎发现了什么? 没错,这个得到的平均值和我们算得的期望值很接近。其实啊,当我们做的试验 次数越多,这个平均值就越接近点数XX对应的期望,于是就有:

limn+X¯=limn+i=1nXin=E[X]\lim_{n\to +\infty} \bar{X}= \lim_{n\to +\infty} \frac{\sum_{i=1}^{n}X_i}{n} = \mathbb{E}[X]

即对同一个随机变量很多次独立实现的算数平均值。 你可以继续多次试验,看看点数的平 均值是不是越来越接近我们前面算出的期望值3.5。

# 均值和期望一样吗?

很自然地,你可能就会有这样的疑惑。我以前也有。 均值和期望是一个东西吗[3]? 现在来正式回答一下这个问题吧。 我们注意到:

一方面, 1. 均值和期望的计算方法是完全不一样的。2. 算均值的时候如果试验的次数不够多,均值和期望 相差很大,从这两点来说,均值不是期望。另一方面, 当试验次数趋向于无穷大时,均值和期望是相等的。 因此从这点来说,均值是期望

因此两种答案都是对的,但是你需要了解为什么是对的。其实我们说的均值一般是用在统计学里面,而期望用 在概率论里。

期望的不同表达

下面这几种表示指的都是随机变量XX的期望值

E[X]=E(X)=EX=μX\mathbb{E}[X] = \mathbb{E}(X) = \mathbb{E}X = \mu_{X}

# 随机变量的方差

期望反映了同一个随机变量很多次实现的平均水平, 而方差(Variance)反映的则是同一随机变量多次实现的波动程度。 方差越大,波动越厉害; 反之则越平稳。同样也可以这样表述: 一个随机变量的方差描述的是它的离散程度, 也就是该变量离其期望值的距离。[4] 离散型随机变量XX的方差的定义为:

Var(X)=i=1npi(xiE[X])2\text{Var}(X) = \sum_{i=1}^n p_i \cdot (x_i - \mathbb{E}[X])^2

[1] Statistics: A Very Short Introduction. Chapter 4 Probability. ↩︎
[2] https://www.probabilitycourse.com/chapter3/3_2_2_expectation.php. ↩︎
[3] https://math.stackexchange.com/questions/904343/what-is-the-difference-between-average-and-expected-value. ↩︎
[4] 维基百科中文: 方差. ↩︎