olympic 发表于 2015-2-14 19:02 
PageRank是啥
PageRank是一个函数,它对web中的每个网页赋予一个值。Web可以想象成一个有向图,网页就是其中的节点,如果网页
p1到p2之间存在一条或多条链接,则p1到p2存在一条有向边。可以用
web转移矩阵来描述随机冲浪者的下一步访问行动。
如果网页有n个,转移矩阵M是n行n列方阵。如果网页j有k条出链,那么对于每一个出边链向的网页i,矩阵第i行第j列的矩阵
元素m_ij的值为1/k,而其他网页i的m_ij=0.
随机冲浪者位置的概率分布可以通过一个n维列向量表示,其中向量的第j个分量代
表冲浪者处于网页j的概率。该概率就是理想化的PageRank的值。
随机冲浪者初始的概率分布向量v_0;Web的转移矩阵M;
那么第一步后随机冲浪者的概率分布向量就是M *v_0;
第二步之后的随机冲浪者的概率分布向量就是M^2 * v_0;
因为:如果随机冲浪者位于i的概率是x_i,那么x_i=sum_{j}m_ij*v_j
如果(1)web图是强连通的,即从任意一点可以到达其他节点;(2)图不存在终止点,即不存在出链的节点
经过若干步随机冲浪者的分布将达到极限分布v,满足v=M*v。
PageRank的直观意义就是冲浪者处于某个页面的概率越大,该页面也就越重要。一般左乘50~75次M,v就收敛。