術(shù)語1:索引與爬行
當(dāng)搜索引擎已經(jīng)索引一個(gè)網(wǎng)站的時(shí)候,這意味著什么?這說明我們的網(wǎng)站以[site:www.site.com]這種形式出現(xiàn)在搜索引擎中,并且這個(gè)頁面已經(jīng)被添加至搜索引擎的數(shù)據(jù)庫(kù)中。但是這并不意味這該網(wǎng)頁就已經(jīng)被搜索引擎爬行了。這就是為什么我們總是會(huì)看見這樣的情況:
索引與爬行兩者之間存在著優(yōu)先關(guān)系:
首先,頁面的URL被發(fā)現(xiàn);
然后,搜索引擎爬行該頁面;
最后,搜索引擎索引該頁面。
索引包含了搜索引擎所提取的網(wǎng)頁中重要的詞語或者短語,并不包含任何其他文檔或文件。索引中的每個(gè)詞語或者短語都指向其相應(yīng)的文檔或者文件。
另一種解釋:如果搜索引擎知道了網(wǎng)站的URL,將會(huì)判斷是否應(yīng)將該URL添加至爬行系統(tǒng)。如果已添加至爬行系統(tǒng),搜索引擎會(huì)根據(jù)一些算法來將這些URL按照優(yōu)先級(jí)來排序,最后按照這種順序來爬行相應(yīng)網(wǎng)頁。當(dāng)該頁面已經(jīng)被爬行了之后,搜索引擎會(huì)啟動(dòng)另一算法來評(píng)估該頁面是否有必要放入索引系統(tǒng)。因此,并不是每一個(gè)頁面搜索引擎都會(huì)爬行和索引。搜索引擎只爬行那些它們認(rèn)為有價(jià)值、有意義的頁面。
注意
Robot.txt文件能夠阻止搜索引擎爬行該網(wǎng)頁。搜索引擎會(huì)根據(jù)Robot.txt中的規(guī)則來爬行網(wǎng)站。如果存在網(wǎng)頁在Robot.txt文件設(shè)置為禁止爬行,那么搜索引擎只能夠通過一些類似于網(wǎng)站內(nèi)鏈中的文本信息了解該頁面的部分內(nèi)容。因此,如果你想要網(wǎng)頁被搜索引擎爬取,最好檢查一下Robot.txt文件。
谷歌與其他搜索引擎如:必應(yīng)、雅虎等,有一點(diǎn)不同。當(dāng)其他因素極強(qiáng)地預(yù)示該頁面應(yīng)該被索引,谷歌可能仍然會(huì)將該未被索引過的頁面顯示出來。而必應(yīng)和雅虎則會(huì)遵從你的網(wǎng)頁規(guī)則。
術(shù)語2:PageRank
另一大搜索引擎的工作原理就是PageRank。對(duì)PageRank影響最大的因素就是鏈接以及搜索引擎如何處理它們。首先你要知道搜索引擎在爬取頁面的時(shí)候,是不會(huì)處理鏈接的。因此PageRank和爬行是分開進(jìn)行的。
PageRank是對(duì)頁面質(zhì)量和鏈接質(zhì)量的一種測(cè)量。頁面PR值的多少是我們無法控制的,搜索引擎會(huì)根據(jù)一系列的算法來綜合評(píng)估一個(gè)網(wǎng)頁的PR值。但是我們可以通過不斷的優(yōu)化來提高頁面PR值升高的可能性。但是以下四點(diǎn)可能會(huì)對(duì)PageRank產(chǎn)生負(fù)面影響:
在鏈接中設(shè)置nofollow屬性;
在Robot.txt文件中設(shè)置disallow屬性;
原始頁面中存在404錯(cuò)誤;
目標(biāo)頁面中存在404錯(cuò)誤。
以上詳細(xì)介紹了搜索引擎工作的兩大術(shù)語,相信會(huì)對(duì)你的搜索引擎優(yōu)化工作有所幫助。搜索引擎針對(duì)網(wǎng)站綜合排名研制了非常多繁雜的算法,以確保公平公正的排名結(jié)果。我們需要做的就是踏實(shí)地做好優(yōu)化工作,搜索引擎便會(huì)給予你相應(yīng)的回報(bào)。
更多信息請(qǐng)查看IT技術(shù)專欄