边缘概率密度函数理解与计算
1. 从一个简单的例子开始:身高和体重
2. “边缘”一词的由来
3. 数学定义和直观解释
4. 一个简单的计算示例
1. 从一个简单的例子开始:身高和体重
想象我们研究一个特定人群,同时测量他们的身高(X) 和体重(Y)。
联合概率密度函数 f(x, y) 描述的是:随机选取一个人,其身高恰好在 x 附近,并且体重恰好在 y 附近的“可能性密度”。比如,f(175cm, 70kg) 表示身高在175cm、体重在70kg附近的人的“密集程度”。
现在,如果我们只关心体重,比如我们想问:“随机选一个人,体重在70kg附近的概率密度是多少?” 这时,我们不再区分身高是高是矮。无论他身高是170cm,180cm还是190cm,只要他的体重在70kg附近,都符合我们的条件。
这个“不再关心身高,只想知道体重的概率分布”,就是体重 Y 的边缘概率密度函数。
2. “边缘”一词的由来
这个名字来源于早期在表格(列联表)中的计算。
假设我们将身高和体重离散化成几个区间,并统计每个组合的人数,形成一个表格: 在这个表格中:
中间单元格的数字是联合频数(可以类比联合概率)。
最右边一列“行合计”和最后一行“列合计”就位于表格的边缘。
行合计(35, 50, 32)就是体重的边缘频数。它是在忽略(或积分掉) 身高这个变量后,各个体重区间的总人数。
同样,列合计(17, 60, 40)就是身高的边缘频数。
所以,“边缘概率”就是通过把联合概率表格中“不需要的变量”对应的行或列加总起来,结果写在表格边缘得到的。
3. 数学定义和直观解释
目的:从联合到单一 边缘概率密度函数的目的是从多个随机变量的联合分布中,提取出其中一个(或部分)随机变量自己的概率分布。
方法:积分掉不关心的变量 通过积分 来“忽略”或“消除”那些我们不关心的随机变量。关心谁,就对谁以外的变量积分。
想求 X 的边缘密度?就对 Y 积分。
想求 Y 的边缘密度?就对 X 积分。
几何意义:投影 将一个高维的联合分布(如三维曲面)“投影”到低维的坐标轴上。Y 的边缘密度就是联合密度曲面在 y-z 平面上的投影轮廓。
与离散情况的类比 在离散情况下,“积分”被“求和”所取代。求边缘概率就是把联合概率表中所有其他变量的情况加起来。
4. 一个简单的计算示例
假设 ( X , Y ) (X, Y) (X,Y) 在区域 0 ≤ x ≤ 1 , 0 ≤ y ≤ 2 0 \le x \le 1, 0 \le y \le 2 0≤x≤1,0≤y≤2 上服从均匀分布,即联合概率密度函数为: f ( x , y ) = 1 2 ( 0 ≤ x ≤ 1 , 0 ≤ y ≤ 2 ) f(x, y) = \frac{1}{2} \quad (0 \le x \le 1, 0 \le y \le 2) f(x,y)=21(0≤x≤1,0≤y≤2)
求 X X X 的边缘密度 f X ( x ) f_X(x) f