PageRank(PR)是Google算法的重要內(nèi)容。2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一拉里•佩奇(Larry Page)。因此,PageRank里的page不是指網(wǎng)頁,而是指佩奇,即這個(gè)等級(jí)方法是以佩奇來命名的。
Google的PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量倆衡量網(wǎng)站的價(jià)值。PageRank背后的概念是,每個(gè)到頁面的鏈接都是對(duì)該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個(gè)就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個(gè)概念引自學(xué)術(shù)中一篇論文的被引述的頻度——即被別人引述的次數(shù)越多,一般判斷這篇論文的權(quán)威性就越高。
Google有一套自動(dòng)化方法來計(jì)算這些投票。Google的PageRank分值從0到10;PageRank為10表示最佳,但非常少見,類似里氏震級(jí)(Richter scale),PageRank級(jí)別也不是線性的,而是按照一種指數(shù)刻度。這是一種奇特的數(shù)學(xué)術(shù)語,意思是PageRank4不是比PageRank3好一級(jí)——而可能會(huì)好6到7倍。因此,一個(gè)PageRank5的網(wǎng)頁和PageRank8的網(wǎng)頁之間的差距會(huì)比你可能認(rèn)為的要大的多。
PageRank較高的頁面的排名往往要比PageRank較低的頁面高,而這導(dǎo)致了人們對(duì)鏈接的著魔。在整個(gè)SEO社區(qū),人們忙于爭(zhēng)奪、交換甚至銷售鏈接,它是過去幾年來人們關(guān)注的焦點(diǎn),以至于Google修改了他的系統(tǒng),并開始放棄某些類型的鏈接。比如,被人們廣泛接受的一條規(guī)定,來自缺乏內(nèi)容的“link farm”(鏈接工廠)網(wǎng)站的鏈接將不會(huì)提供頁面的PageRank,從PageRank較高的頁面得到鏈接但是內(nèi)容不相關(guān)(比如說某個(gè)流行的漫畫書網(wǎng)站鏈接到一個(gè)叉車規(guī)范頁面),也不會(huì)提供頁面的PageRank。Google選擇降低了PageRank對(duì)更新頻率,以便不鼓勵(lì)人們不斷的對(duì)其進(jìn)行監(jiān)測(cè)。
Google PageRank一般一年更新四次,所以剛上線的新網(wǎng)站不可能獲得PR值。你的網(wǎng)站很可能在相當(dāng)長(zhǎng)的時(shí)間里面看不到PR值的變化,特別是一些新的網(wǎng)站。PR值暫時(shí)沒有,這不是什么不好的事情,耐心等待就好了。
為您的網(wǎng)站獲取外部鏈接是一件好事,但是無視其他SEO領(lǐng)域的工作而進(jìn)行急迫的鏈接建設(shè)就是浪費(fèi)時(shí)間,要時(shí)刻保持一個(gè)整體思路并記住以下幾點(diǎn):
? ·Google的排名算法并不是完全基于外部鏈接的
? ·高PageRank并不能保證Google高排名
? ·PageRank值更新的比較慢,今天看到的PageRank值可能是三個(gè)月前的值
因此我們不鼓勵(lì)刻意的去追求PageRank,因?yàn)闆Q定排名的因素可以有上百種。盡管如此,PageRank還是一個(gè)用來了解Google對(duì)您的網(wǎng)站頁面如何評(píng)價(jià)的相當(dāng)好的指示,建議網(wǎng)站設(shè)計(jì)者要充分認(rèn)識(shí)PageRank在Google判斷網(wǎng)站質(zhì)量中的重要作用,從設(shè)計(jì)前的考慮到后期網(wǎng)站更新都要給予PageRank足夠的分析,很好的利用。我們要將PageRank看作是一種業(yè)余愛好而不是一種信仰。
通過對(duì)由超過 50,000 萬個(gè)變量和 20 億個(gè)詞匯組成的方程進(jìn)行計(jì)算,PageRank 能夠?qū)W(wǎng)頁的重要性做出客觀的評(píng)價(jià)。PageRank 并不計(jì)算直接鏈接的數(shù)量,而是將從網(wǎng)頁 A 指向網(wǎng)頁 B 的鏈接解釋為由網(wǎng)頁 A 對(duì)網(wǎng)頁 B 所投的一票。這樣,PageRank 會(huì)根據(jù)網(wǎng)頁 B 所收到的投票數(shù)量來評(píng)估該頁的重要性。
此外,PageRank 還會(huì)評(píng)估每個(gè)投票網(wǎng)頁的重要性,因?yàn)槟承┚W(wǎng)頁的投票被認(rèn)為具有較高的價(jià)值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價(jià)值。重要網(wǎng)頁獲得的 PageRank(網(wǎng)頁排名)較高,從而顯示在搜索結(jié)果的頂部。Google 技術(shù)使用網(wǎng)上反饋的綜合信息來確定某個(gè)網(wǎng)頁的重要性。搜索結(jié)果沒有人工干預(yù)或操縱,這也是為什么 Google 會(huì)成為一個(gè)廣受用戶信賴、不受付費(fèi)排名影響且公正客觀的信息來源。
其實(shí)簡(jiǎn)單說就是民主表決。打個(gè)比方,假如我們要找李開復(fù)博士,有一百個(gè)人舉手說自己是李開復(fù)。那么誰是真的呢?也許有好幾個(gè)真的,但即使如此誰又是大家真正想找的呢?:-) 如果大家都說在 Google 公司的那個(gè)是真的,那么他就是真的。
在互聯(lián)網(wǎng)上,如果一個(gè)網(wǎng)頁被很多其它網(wǎng)頁所鏈接,說明它受到普遍的承認(rèn)和信賴,那么它的排名就高。這就是 Page Rank 的核心思想。 當(dāng)然 Google 的 Page Rank 算法實(shí)際上要復(fù)雜得多。比如說,對(duì)來自不同網(wǎng)頁的鏈接對(duì)待不同,本身網(wǎng)頁排名高的鏈接更可靠,于是給這些鏈接予較大的權(quán)重。Page Rank 考慮了這個(gè)因素,可是現(xiàn)在問題又來了,計(jì)算搜索結(jié)果的網(wǎng)頁排名過程中需要用到網(wǎng)頁本身的排名,這不成了先有雞還是先有蛋的問題了嗎?
Google 的兩個(gè)創(chuàng)始人拉里•佩奇 (Larry Page )和謝爾蓋•布林 (Sergey Brin) 把這個(gè)問題變成了一個(gè)二維矩陣相乘的問題,并且用迭代的方法解決了這個(gè)問題。他們先假定所有網(wǎng)頁的排名是相同的,并且根據(jù)這個(gè)初始值,算出各個(gè)網(wǎng)頁的第一次迭代排名,然后再根據(jù)第一次迭代排名算出第二次的排名。他們兩人從理論上證明了不論初始值如何選取,這種算法都保證了網(wǎng)頁排名的估計(jì)值能收斂到他們的真實(shí)值。值得一提的事,這種算法是完全沒有任何人工干預(yù)的。
理論問題解決了,又遇到實(shí)際問題。因?yàn)榛ヂ?lián)網(wǎng)上網(wǎng)頁的數(shù)量是巨大的,上面提到的二維矩陣從理論上講有網(wǎng)頁數(shù)目平方之多個(gè)元素。如果我們假定有十億個(gè)網(wǎng)頁,那么這個(gè)矩陣 就有一百億億個(gè)元素。這樣大的矩陣相乘,計(jì)算量是非常大的。拉里和謝爾蓋兩人利用稀疏矩陣計(jì)算的技巧,大大的簡(jiǎn)化了計(jì)算量,并實(shí)現(xiàn)了這個(gè)網(wǎng)頁排名算法。今天 Google 的工程師把這個(gè)算法移植到并行的計(jì)算機(jī)中,進(jìn)一步縮短了計(jì)算時(shí)間,使網(wǎng)頁更新的周期比以前短了許多。
我來 Google 后,拉里 (Larry) 在和我們幾個(gè)新員工座談時(shí),講起他當(dāng)年和謝爾蓋(Sergey) 是怎么想到網(wǎng)頁排名算法的。他說:"當(dāng)時(shí)我們覺得整個(gè)互聯(lián)網(wǎng)就像一張大的圖 (Graph),每個(gè)網(wǎng)站就像一個(gè)節(jié)點(diǎn),而每個(gè)網(wǎng)頁的鏈接就像一個(gè)弧。我想,互聯(lián)網(wǎng)可以用一個(gè)圖或者矩陣描述,我也許可以用這個(gè)發(fā)現(xiàn)做個(gè)博士論文。" 他和謝爾蓋就這樣發(fā)明了 Page Rank 的算法。
網(wǎng)頁排名的高明之處在于它把整個(gè)互聯(lián)網(wǎng)當(dāng)作了一個(gè)整體對(duì)待。它無意識(shí)中符合了系統(tǒng)論的觀點(diǎn)。相比之下,以前的信息檢索大多把每一個(gè)網(wǎng)頁當(dāng)作獨(dú)立的個(gè)體對(duì)待,很多人當(dāng)初只注意了網(wǎng)頁內(nèi)容和查詢語句的相關(guān)性,忽略了網(wǎng)頁之間的關(guān)系。
今天,Google 搜索引擎比最初復(fù)雜、完善了許多。但是網(wǎng)頁排名在 Google 所有算法中依然是至關(guān)重要的。在學(xué)術(shù)界, 這個(gè)算法被公認(rèn)為是文獻(xiàn)檢索中最大的貢獻(xiàn)之一,并且被很多大學(xué)引入了信息檢索課程 (Information Retrieval) 的教程。