位置：首頁 > 技術分享 > SEO優化>SEO入門robots.txt的終極指南

SEO入門robots.txt的終極指南

時間：07-28

欄目：SEO優化

robots.txt文件是告訴搜索引擎在您網站上的頁面哪些可以進入哪些不能進入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我們的文章將涵蓋了robots.txt在網站上使用的所有方式。盡管看起來很簡單，但您在網站上犯的任何robots.txt錯誤都會嚴重損害您的網站，因此請務必先理解本文再進行實踐。

什么是robots.txt文件？

該robots.txt文件做什么？

我應該在哪里存放robots.txt文件？

使用robots.txt的利與弊

治理抓取預算

缺點：不從搜索結果中刪除頁面

缺點：不傳播鏈接價值

robots.txt語法

User-agent指令

搜索引擎蜘蛛很常見的User-agent

Disallow指令

如何使用通配符/正則表達式

非標準robots.txt搜尋指令

Allow指令

host指令

crawl-delay指令

sitemapXMLSitemaps的指令

什么是robots.txt文件？

抓取指令

robots.txt文件是一個由搜索引擎蜘蛛讀取并遵循嚴格的語法內容所組成的文本文件。文件的語法很嚴格，僅因為它必須是計算機可讀的。這意味著這里沒有錯誤的余地。

robots.txt文件也稱為“機器人排除協議”，是早期搜索引擎蜘蛛開發人員達成共識的結果。它不是任何標準組織制定的官方標準，但是所有主要的搜索引擎都遵守它。

robots.txt文件做什么？

搜索引擎通過抓取頁面，跟隨鏈接從站點A到站點B再到站點C的方式對網頁進行索引。在搜索引擎搜索碰到新網站時，它將打開該網站的robots.txt文件，該文件告訴搜索引擎答應該站點上的哪些URL進行索引。

搜索引擎通常會緩存robots.txt的內容，但通常會天天刷新幾次，因此更改會很快反映出來。

我應該在哪里存放robots.txt文件？

robots.txt文件應始終位于域的根目錄。因此，假如您的域名為，則應位于

robots.txt編寫的內容也很重要。內容區分大小寫，因此請正確編寫，否則將無法使用。

使用robots.txt的利與弊

治理抓取預算

眾所周知，搜索蜘蛛會以預定的“準則”進入網站，以獲取要爬取的頁面數（根據網站的權限/大小/聲譽得出的抓取頁面數），SEO將此稱為抓取預算。這就意味著，假如您阻止網站的某些部分的抓取，搜索蜘蛛就會抓取其他部分來補充頁面數。

一般來說，阻止搜索引擎抓取您網站有問題的部分是非常有益，尤其是在必須進行大量SEO清理的網站上。整理完所有內容后，您就可以解除阻止。

有關阻止查詢參數的說明

尤其重要的一種robots.txt應用是：您的站點使用大量參數進行查詢。假設您有10個不同的查詢參數，每個參數都可能有不同的值而生成不同的URL，這將導致數百甚至數千個毫無意義的URL。阻止所有查詢參數頁面的抓取將有助于確保搜索引擎僅收錄您網站的主要URL，而不會陷入一個巨大陷阱。

此行阻止您網站上包含查詢字符串的所有URL：

Disallow:/*？*

缺點：不從搜索結果中刪除頁面

即使您可以使用該robots.txt文件告訴搜索蜘蛛不能在網站上訪問的位置，也不能使用它告訴搜索引擎哪些URL不在搜索結果中顯示。換句話說，阻止它不會阻止它被索引。搜索引擎仍然會在搜索結果中顯示，但不顯示其內容。

假如要阻止頁面顯示在搜索結果中，則需要使用metarobotsnoindex標簽。這意味著，為了找到noindex標簽，搜索引擎必須能夠訪問該頁面，因此請不要通過robots.txt阻止搜索蜘蛛訪問該頁面。

Noindex指令

過去可以在robots.txt中添加“noindex”指令，從搜索結果中刪除網址，并避免出現這些“碎片”。如今已經不再支持，請不要使用。

缺點：不傳播鏈接價值

假如搜索引擎無法抓取頁面，則無法在該頁面上的鏈接之間散布鏈接值。當頁面通過robots.txt被阻止時，這是死路一條。任何可能流到（并通過）該頁面的鏈接值都會丟失。

robots.txt句法

該User-agent指令

每個指令塊的第一位是User-agent，它標識特定的蜘蛛。User-agent字段與該特定Spider（通常更長）的User-agent匹配，因此，例如，來自Google的很常見的Spider具有以下User-agent：

Mozilla/5.0（兼容；Googlebot/2.1；+：//

因此，假如您想告訴這只蜘蛛做什么，一條相對簡單的User-agent:Googlebot就可以解決問題。

大多數搜索引擎都有多個蜘蛛。他們將使用特定的Spider作為其正常索引，廣告程序，圖像，視頻等。

搜索引擎將始終選擇他們可以找到的很具體的指令塊。假設您有3組指令：一組用于*，一組用于Googlebot和Googlebot-News。假如漫游器由其User-agent來自Googlebot-Video，它將跟隨Googlebotrestrictions。具有User-agent的漫游器Googlebot-News將使用更具體的Googlebot-News指令。

搜索引擎蜘蛛很常見的User-agent

以下是您可以在robots.txt文件中使用的User-agent列表，以匹配很常用的搜索引擎：

廈莊幸逐延帖臭事心籍培又晶副逗太便靈鍬凍隊槐藏趴夜豪堅或蓄溜臣貌方這乞鐘磁烤匆監哨角以該英免疏廢殲克粗昌迅辜莖請促鍋彎扛蚊脆圈豬饅健串償銀理點鼠特心級傲湯紹氣捧講悅谷尊刑液透雹輔勉啟審陣祥雅攔平赤盲鎮秋遷趣攪聯鼻含擋淚當爹好跌姨政糕胞道熱o6P7。SEO入門robots.txt的終極指南。蝸牛SEO怎么樣,江都seo優化公司哪家好,百度sem seo概念,上海網址優化就選樂云seo十年,天貓seo是什么,臺州seo網站排名優化

上一篇：SEO技術用在什么行業比較好

下一篇：seo網站結構-封裝app與混合app一個意思嗎封裝是app整個封

如果您覺得 SEO入門robots.txt的終極指南 這篇文章對您有用，請分享給您的好友，謝謝!