Big Data (3) PageRank

PageRank算法原理

假设有4个页面:A,B,C,D. 如果所有页面都指向A,则A的PR(PageRank)值将是B,C,D的PageRank总和。
那么假设按如下链接,

考虑到一个页面总票数为1票,所以B的票数变为1/2,半票给A,半票给C;同理,D投出的票为1/3,C为1票,全给了A。
那么A的PR值为:
PR(A)=PR(B)/2+PR(C)+PR(D)/3
一般而言,我们就是根据每个网页的链出总数来得到每个网页的PR值:
PR(A) = PR(B)/L(B)+PR(C)/L(C)+PR(D)/L(D)
其中,L(B),L(C),L(D)分别代表这3个网页的链出总数。
最后,所有这些被换算为一个百分比再乘上一个系数,也就是加权平均。由于“没有向外链接的页面”传递出去的PageRank为0,所以Google通过数学系统给了每个页面一个最小值:
PR(A) = (PR(B)/L(B)+PR(C)/L(C)+PR(D)/L(D))*d + (1-d)/N
其中N为网页总数。

Contents
  1. PageRank算法原理
|