论证从伯努利过程到泊松过程涉及的6个分布的关系

EchoEstelle

19751

收藏 2014-08-12

伯努利试验观察的是事件发生不发生，等待事情发生的次数，是等待事情发生的时间离散
化的情况。泊松过程就是将伯努利试验的次数一般化为连续的时间的过程，伯努利试验中
关注的每种情形的离散分布都对应有连续的分布，怎样论证它们之间的关系：

二项分布  对应泊松分布  关注事件成功的次数
几何分布  对应指数分布关注等待第一次事件成功的时间
巴斯卡分布对应埃尔兰分布关注等待第r次事件成功的时间

这些分布之所以很基本是因为，世界上所有的事情，无非就是发生不发生，发生几次，要等多久。
应用必然会十分广泛。确实是很严格的。

离散的分布中我们一般会得到一种情况下的概率，为了使离散情况和连续情况进行对比，我们就统一
地进行分布函数的对比分析。这儿还能用Tex很不错。木哈哈~不过编辑起来感觉很慢，像刚会打字那
样，而且重点也没关注到推导上面。不过看起来真是很漂亮。用习惯了就好了，和在纸上写感觉没有
差别的时候就好了。
---------------------------------------------------------------------------------------------------------------------------------------------------
二项分布 :n次伯努利试验成功k次的概率正好是\[(p+q)^n\]第k项的二项式展开项
\[  b(k;n,p)= \dbinom{n}{k}p^k q^{n-k} , k=0,1,2, ... ,n , q=1-p\]
泊松分布：\[P\left\{\xi=k\right\}=\frac{\lambda^k}{k!} e^{-\lambda},k=0,1,2, ... n, \lambda>0\]
\[\lambda_n=n p_n \]
先取定k<n，然后看对应的n个二项分布b(k;n,p_n)，分别是有，1次伯努利试验，2次伯努利试验，... ，n次伯努利试验，
如果这n个二项分布，最元初的伯努利试验是同一个，那么事件成功的概率p_n是一定的；
如果这n个二项分布，最元出的伯努利试验不是同一个，也就是说，如果p_n是彼此不相同的，但是只要n*p_n能趋近与
一个数\lambda这一列的二项分布最后就能趋于泊松分布。
可以证明累加k从0到无穷大时泊松分布的概率和为1.这里用到了e^x的泰勒展开级数。
\[\sum_{k=0}^\infty \frac{\lambda^k}{k!}e^{-\lambda}=1\]
这样我们就从二项分布得到泊松分布，泊松分布有一个极限值做参数，它关注的事件成功的次数可以到无穷大，而二项
分布的k只能规定在小于n的范围内，其实，我们是把二项分布推广到了无穷，也就是说泊松分布将事情成功无穷大纳入
到自己的模型之内，达到形式上的某种完整，但是不管二项分布还是泊松分布，在k很大的时候，概率都是很小的。

在泊松分布里面，除了代表试验成功次数的k，是我们关注的一个变数，另外只显示着一个参数\lambda,而不像二项分布
里面的另一个参数是p，也就是说泊松分布从形式上某种程度的脱离了最元初的那个伯努利试验，也就是说我们可以应
用这种形式来分析一种现象的内在是有某种伯努利试验构成的分布，我们可能并不清楚确切的某种现象背后的伯努利试
验正在发生，但是我们可以观测原因可能是某种伯努利试验导致的分布，它的形式可以用泊松分布描述出来，有了观测
点，求出参数，我们就有可能探求到表象背后的那一系列伯努利的试验了，那是原因，观测到的是结果。对于成功概率
比较小的观测，我们都可以尝试用泊松分布去拟合。

至于我们能从泊松分布得到什么，似乎，有大量的观测之后，我们只能说得出伯努利试验中事件成功的概率，如果隐藏在
背后的这个信息与我们是十分有价值的，那么泊松就给我们做出大贡献了。突然觉得这个事情很有趣，也很有用处。

同时我们发现，由一列东西逼近得到的东西，不一定就是得到连续的结果了，最开始的说法蛮偏颇。而且，就在一开始
你观察一件事情的时候不一定就能选取到两个维度，看到泊松分布那样的现象。我自己有看到类泊松分布的一些现象，
就是一些游戏等级攒积分的设置，不同层级上的人数，会表现出来那样的规律。其实在背后原因也和简单，攒够了还是
没有，没看出什么价值，它是人为设定导致的，这里怎么看出价值，那就比较厉害了。
----------------------------------------------------------------------------------------------------------------------------------------------------
\[几何分布：g(k;p)=q^{k-1}p,k=1,2,3,...\]
\[指数分布：密度函数：\rho(x)=\begin{cases}\lambda e^{- \lambda x },x \ge0 \\ 0 ,x<0\end{cases}
                           分布函数：F(t)=\begin{cases}1-e^{-\lambda x},x\ge0\\0,x<0 \end{cases}\]

这一组和上一组最大的不同就是，指数分布的描述里面，没有k，换而代之的是x，以及一个参数\lambda,我们想要知道
的就是如何通过几何分布得到指数分布的。
\[对于泊松分布，\frac{P\{\xi=k\}}{P\{\xi=k-1\}}=\frac{\lambda}{k},表示在事件成功k-1次基础上再成功一次的概率\]
\[对于指数分布，F(x)=P\{\xi \leqq x\},那么e^{- \lambda x}=1-F(x)=P\{\xi \ge x\},表示随机变量大于x的概率，\]
\[那么，\frac{P\{\xi \ge x+t\}}{P\{\xi \ge x\}}=e^{-\lambda t}=P\{\xi \ge t\}，和x没有关系，\]
没记性，有可能等任何一段长的时间！

，相类似的，
\[对于几何分布，此处假设x,t为正整数，P\{\xi > t\}=q^{t}=\frac{P\{\xi \ge x+t\}}{P\{\xi \ge x\}},只和t有关\]
这启示我们使用历史信息的必要性！这里关注\xi大于某个值比较方便，我们就这种情况，对几何分布向指数分布做某种逼近。
通过对无记忆性性质的分析，我们看到几何分布中的k和指数分布中x在地位上的某种对等性。
我们假设有一组几何分布，g_1(k;p_1)  ，g_2(k;p_2) ，g_3(k;p_3) ， ... ，g_n(k;p_n),对n个几何分布固定k，
我们关注第一次伯努利试验成功需要的次数大于k的概率，这一组几何分布分别对应，q_1^k , q_2^k , ... ,q_n^k，
这些值都是有限的，如果这一列数字收敛于，e^{-\lambda k},也就是\lambda收敛于- lnq_n,那么我们就从n个几何分布，
得到了一个参数来自数列{-ln q_n}的这种概率定义下的分布函数。我们得到的过程主要是利用了幂级数e^x可以展开的两边
是一样的，然后依据是严格的概率分布函数的定义。
其实我们看到，上面一组，由二项分布到泊松分布的过程也用到的是幂级数e^x的展开，只是不同之处在于，上一组关注的
对象是不同的，上一组，主要关注的是成功k次的概率，这一组关注的是第一次成功需要的次数，我们对关注的不同的东西，
找到了可以用无理数表示的参数，其实这种推广，就是由有理数域上向实数域上的推广。
而且两组用幂级数展开的方式是不一样的。
\[而且第一个里面令p_n=\frac{\lambda_n}{n}并不是一下就能想的到的，其实这是最关键的一步，但是也是必然的\]
因为我们已经能用大数定义出了自然对数e，对于在0到1之间的数，我们总能想办法用很大的数表示出来的，也就是我们使
用的那个理想中伯努利试验它的事件成功的概率接近于0，这也启示我们，对于发生不发生、发生概率很小的这样的事件，
我们是可以用泊松分布去拟合的。我们再次见识到了极限的神奇，这个层面的奇妙，比阿基琉斯追不上乌龟的故事更好啊！
这里还启示我们，对于离散的事物，我们总是可以把那些分割看的特别细密，然后得到全新的结果，用极限来归纳出一个
离我们比较近可以好处理的参数。可是这样做还有什么更多的意义？是个值得思考的问题。
-------------------------------------------------------------------------------------------------------------------------------------------------------
开始第三组，我总算明白泊松过程是个什么过程了，它们可以发生在我的脑子里却真的存在。我十分关注，强烈关注怎样
把它们变现！
\[巴斯卡分布：f(k;r,p)=\binom{k-1}{r-1}p^{r-1}q^{k-r} p ,k=r,r+1,...\]
\[埃尔兰分布：密度函数：\rho(x)=\frac{\lambda^r}{(r-1)!} x^{r-1}e^{-\lambda x},分布函数:F(x)=1-\sum_{k=0}^{r-1}\frac{(\lambda t)^k e^{-\lambda t}}{k!},x \ge 0,r>0,\lambda>0\]
小插曲1：自己一直都希望能把握一件事情的全貌，我想可以把他们画成完善的图画就可以做到，其实，还有另外一种方式，
那就是我们很熟知的数学公式，它们可以只是一堆字母，不包含任何意义，它们可以是一个完善的系统，里面不仅包含了
描述的现实，现实的变化，还能描述，你自己对现实认识的变化，你对它的操作的意义的赋予，它可以十分完善地描述我
们关注的一系列事物，当你熟知这些事物，这些公式将对你十分有用，一个式子可以千变万化，容纳百川，严谨无误。
小插曲2：自己已经零零总总写了蛮多东西，可以把这些东西，链接起来，就是一个思维的网格了，而且放在外面还可以让
别人帮忙指正错误。数理统计、Business、Data Mining、 Economics。Perfect。

言归正传：巴斯卡分布的定义是容易的。我们看埃尔兰分布的分布函数，它大的形式看起来是和指数分布类似的，加和项
中的形式看起来是和泊松分布相似的，也就是说埃尔兰分布看起来是指数分布和泊松分布的某种组合。按照巴斯卡分布的
定义，第r次事件成功等待的时间，也就说这里关注的是成功了r次事件的情况，也就是二项分布关注的情况，同时，巴斯
卡分布的是第r次事件成功等待的时间，几何分布关注的是第一次事件等待的时间，当r=1，巴斯卡分布就是几何分布；当
r=2，巴斯卡分布关注的就是，已经成功了一件事情，一共经历了几次试验，等待了一些时间，接下去，还要再经历几次
伯努利试验，再等待一些时间，这里的时间和第一次等待的时间有怎样的关系，我们尚不能确定，直到第二次事件的成功；
以此类推，当r>2时，事情进展的逻辑就是这样的。

现在提出这样一个问题，我们已经理解了泊松过程是怎样的过程，那么能不能就这样的过程，就巴斯卡分布关注的问题，我
们自己提出分布函数并且再用一系列的巴斯卡分布逼近出埃尔兰分布呢？

很直接的，我们用概率分布来描述巴斯卡分布，巴斯卡分布中，实际关注的量有，进行试验的次数总数就是k，成功的次数r，
构成其伯努利试验的事件成功概率p_n，事件不成功概率q_n,这里实在强调伯努利试验进行的次数不同，引入的单个伯努利
试验事件成功的概率是有可能不一样的，我就让它们不一样好了，反正一样是不一样的特殊情形。在巴斯卡分布关注的问题
中，第r次的试验是成功的，也就是说在前面的k-1次试验中成功了r-1次。两个事件求交之后的概率就是上面式子。

小插曲：对于全新的问题，试图用生搬硬套一定会失败！现在才对课本上的若，令有了些体会，背后的构造过程不是容易的。

埃尔兰分布的定义讨论

埃尔兰分布被定义成参数为\lambda t的泊松分布，求得密度函数的过程用到不简单的级数运算、积分运算。开创了排队论。
埃尔兰分布推广至负数得到Gamma分布。两个跳跃处的埃尔兰分布相减就是泊松分布。结果感觉预料之中，但是过程不易。
定义埃尔兰分布时引入了：

                     Wr：第r个跳跃发生的时刻；
                     泊松过程的参数\lambda t：是n*p_n的极限（还是n*p_n*t的极限？答案是NO）；
                     随机变量\xi(t):事件成功发生的次数（怎么理解）；

|_>搞清楚泊松过程的参数,对于一个一般形式的泊松过程其参数是n*p_n，但是从埃尔兰分布来看，它需要让这个参数能
分解出一个变量t，现在考虑这样的需要合理不合理，其实这个是内蕴的，就看表示出来还是不表示出来，伯努利试验进行
的次数越多，假设2>1,必然会有需要的时间越多，和时间是成正比的，所以，在埃尔兰分布里面\lambda具有更单纯的参数
意义。那这里再回顾下，泊松分布中参数的含义，我觉得，可以做个集约化的应用。

|_>如何理解\xi(t)，事件成功的次数，然后明确地表示出来内蕴变量t，随机变量还是它本身。我怎么会想到孕妇。。。

|_>埃尔兰分布的定义中牵涉出了跳跃，把它理解为事件的发生对不对。如果是，那就只用事件发生这个概念好了。
如果不是，它们之间的关系是怎样的。其实我们看到其定义过程最重要的构造，证明了两个事件的等价，即

                                                      \[\{W_r<t\}=\{\xi(t) \ge r\}\]

从主观上事件的发生与不发生是离散的，如果要将发生与不发生嵌入到连续的情况下考虑，一件事情发生紧连着的是另一件
事情发生或者不发生，这个改变的瞬间就是就是所谓的跳跃，在博雷尔点集意义下是可以这么考虑的，这里的跳跃给人的感
觉就是似是而非的东西即是间断的又是连续的，就是类同无穷小极限的意义，即是大于0的也是小于0的。我们发现极限将矛
盾的两样东西连接了起来，这个概念真是一个奇迹，其实，我们发现极限处就是质变的地方！真是很有启发意义的一句话。
对于连续的函数，处处都能取到极限，处处都在质变，因为毕竟没一点是不一样的。

埃尔兰分布在构造的时候其实就是用到了这个思想，在事物的质变处用极限连接，但是来自数学分析的一些经验告诉我们
一些质变处点并不存在极限，比如断开的函数,如果一个函数在这两段（1,2],(2,3)都是分别连续，但是在2处不连续，取值
不一样，那么在该点是没有极限的；也就是说埃尔兰分布定义处需要严格证明在跳跃点，随机变量\xi是连续的。

看式子左边的事件表示：第r次跳跃在t时刻之前。注意，此处跳跃是关注从上次事件到第r次事件发生的跳跃。
式子右边的事件表示：t时刻的随机事件成功发生的次数大于等于r。

这里的推理原则是，如果由事件A推得了事件B，那么A是B的充分条件，如果将A，B看做集合，那么有A包含B这样的关系。
这个原则画成文氏图是很好理解的，但是就同我们日常生活中所讲的事件联系起来的时候，不是太直观了，因为事件是
复杂的动态的，其实我们也可以用立体的思维想一想的，如果确性的由事件A推得了事件B，那么事件B就是包含于事件A
之中的，理解的程度和我们的经验是相关联的。如果我们信任这样的理解，我们就会颠覆自己一些认识，本质上不相干
的两件事情是不会导致另外一件的发生的。这能够帮助我们更好的做出判断，这一点十分重要。也就是说如果我们发现事
情的关联是十分确定的，也就是如果在概率统计的意义上显著性能达到一定的水平，背后必有缘由。

在埃尔兰分布的定义里面，两个事件能够相互推得，证明了它们的概率是相等的。

这个等式的构造显得很精巧，先可以用这样一个图示意一下，

埃尔兰分布的分布函数和密度函数的讨论

时间有这样一种特性，理论上，在时刻t，人们能知道该时刻之前的事情，也就是，在时刻t，该时刻之前的事情都已确定。
还有在这里我们研究的是事件的发生，我们只能对现在时刻之前的事情做这样的判断，在现在时刻之后，只能用发生的可能
性去描述。现在这个时代的特点就是几乎能即时地知道别处此刻的事情。

那么，我们如何判断（1）“ 某个事情发生的时刻小于某时刻”这样的事情是否发生”以及（2）“ “某时刻某种事情发生的次数大于某数” 这种事情是否发生”？前面的等式的意义就是这两个问题的答案都是“是”的情况下的概率。

前面说到我们能确知此刻之前的事情，那么我们是怎么确知此刻之后的事件发生的概率的。除非是这样的，一些事情和时间就是没有关系，以前如此，以后也是如此，确知以前就是确知了未来。比如已经废弃掉铁罐和陶罐，它们的变化的原因不是时间，时间只是给了它们变化的一个空间，如果一切就此灰飞烟灭了，铁罐就来不及生锈了。

问题（2）的发生的概率直接能利用泊松分布的结果。但是前面的时候我们并没有对泊松分布的分布函数和密度函数做
个计算，也没有计算它的一些数字特征。这是后面必须要做的事情。这里有个问题是我们能从对它们数字特征的研究过程中得到什么有价值的事情吗？可是泊松分布那里发生的次数依旧是整数的。整数的自然也会有直接的用处，现实中有很多离散的情形的。但是对于这个问题，我们看到利用（2）可以写出埃尔兰分布的分布函数，因为一个关键的随机变量的替换，使得埃尔
兰分布变成了以时间为随机变量的分布。

对于连续情况下的分布我们其实已经做了这样的假设：时间是连续的。如果时间不是连续的，那么你就有可能会被卡在某点之前，不能进入未来。

接下去讨论分布函数和密度函数：

\[1.证明埃尔兰分布密度函数在0到正无穷大上积分为1。对于任意的r > 0, \lambda > 0,令y=\lambda x,\]
\[\int_{0}^{\infty} \frac{\lambda^r}{\Gamma(r)}x^{r-1}e^{-\lambda x}\,dx=\frac{1}{\Gamma(r)}\int_{0}^{+\infty} y^{r-1} e^{-y} \, dy=\frac{\Gamma(r)}{\Gamma(r)}=1\]

也就是说，这样的定义，确实是个概率分布。在利用泊松分布得的分布函数的分布函数里面有k，现在已经得到了密度函数，
这时候它的分布函数也可以写成如下形式，有两个参数的分布。\[F(t)=\int_{0}^{t} \frac{\lambda^r}{\Gamma(r)}x^{r-1}e^{-\lambda x} \, dx\]

-------------------------------------------------------------------------------------------------------------------------------------------------------

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

EchoEstelle

2014-8-13 18:11:40

总结：从两种可能事件到多种可能事件

总结：从两种可能事件到多种可能事件

其实对于“\xi(t)是参数为\lambda t的泊松过程”是怎么和巴斯卡分布联系的我觉得还不够明朗,即便已经知道了关键点在泊松过
程参数的取定和随机变量转换的构造。可以通过通观两种过程，六个分布来达到这个目的。

泊松过程涉及到{时刻}{跳跃}，埃尔兰分布描述第r个跳跃发生的时刻服从的分布，但是做到这一步有什么用呢？其实我们关
注就是离散下的情形，只是用光滑的函数把离散的情况囊括了一下而已。

接下去，我们发现了，另外一个重要的假设，事件的发生，发生在一个时刻！跳跃的意思就是事件成功发生的意思！这里写
书的作者用跳跃一个词代替了我的比较啰嗦的说法“事件成功的发生”，因为用发生会有误解“不成功事件的发生”也是发生，他
干脆省掉了，因为我们关注的是事件的成功，实际上，跳跃具有更广泛的意义，就是指关注事件的发生，比如，我们关注的是
某事的失败，那么我们就会说“这件事情成功地失败了！”哈哈。其实伯努利试验只是研究了只有两种可能的事件域上的事件而
已！如果我们引入“跳跃”这个概念，它将可以成为多种可能中我们关注的一种的代称，是很广义的好词语。这里我们看到了由
二生三的过程。有理数是2，实数是3。静态数是2，极限是3。

这样我们就很清楚滴列出了几种分布的随机变量，接下去，我们想要计算任何一种关心的东西都十分方便。同时，我们知道
泊松分布，指数分布，埃尔兰分布中参数\lambda的意义，它们都是一列跳跃发生的概率列的极限，形式不相同，但是现在我
们就知道了，参数是和我们关注的跳跃发生概率密切相关！！

分布名称	随机变量
二项分布	n重伯努利试验中成功的次数k
泊松分布	泊松过程中跳跃发生的次数\xi
几何分布	伯努利试验中第1次成功时试验次数k
指数分布	泊松过程中第1次跳跃发生的时刻\xi
巴斯卡分布	伯努利试验中第r次成功时的试验次数\xi
埃尔兰分布	泊松过程中第r次跳跃发生的时刻\xi

推广的意义还体现在，时间的概念被引入，在伯努利过程中试验次数的相减意义不明确，在泊松过程中时刻的相减就是时间。
泊松过程中的时间间隔服从指数分布。其实，也可以看做连续区间意义随机变量的引入，比如，温度变化，长度变化，等等
任何有间隔意义的东西。如果我们观察到其中一种现象，我们就能推的令一种现象。如果我们只是明确一种现象的意义，那
么我们也就能够这种现象潜在的另外一种意义。