Robots.txt 文件:為什麼它對 SEO 至關重要

已發表: 2022-05-05

Robots.txt 文件,也稱為機器人排除協議,是 SEO 不可或缺的工具。 該文本文件通知搜索引擎爬蟲可以訪問哪些頁面並隨後對其進行索引。 Robots.txt 文件還可以防止爬蟲訪問您網站的某些部分。 如果您想防止非公共頁面被索引,這很有用。 這可能包括仍在開發中的頁面或在線登錄頁面。 如果您的網站特別廣泛,Robots.txt 也有助於確保您最相關的頁面被編入索引。

通過在 Robots.txt 文件中概述您的請求,搜索引擎將只能訪問您希望它們訪問的頁面。 這不僅為您提供了高度的隱私,而且還最大限度地提高了您的抓取預算。 有興趣了解更多信息嗎? 繼續閱讀有關為什麼 Robots.txt 文件對 SEO 至關重要的深入指南。

Robots.txt 解釋

谷歌和必應等主要搜索引擎會發送所謂的“爬蟲”來搜索網站。 這些爬蟲也被稱為“機器人”或“蜘蛛”,它們為搜索引擎提供重要信息,以便您的網站可以在搜索引擎結果頁面 (SERP) 中正確編入索引。 這使互聯網用戶更容易通過在搜索引擎中輸入查詢來發現您的網站。 Robots.txt 文件清楚地概述了可以搜索哪些頁面以及機器人應該避免哪些頁面。

希望阻止所有搜索引擎爬蟲訪問您的客戶登錄頁面? 可以使用以下 Robots.txt 命令:

用戶代理: *
禁止:websitename.com/customer-login

您還可以定制命令以專注於特定的搜索引擎。 如果您只想阻止 Google 爬蟲訪問您的頁面,可以使用以下命令:

用戶代理:Googlebot
禁止:websitename.com/customer-login

為了讓您的生活更輕鬆,您可以將任意數量的頁面添加到禁止列表中。 創建 Robots.txt 文件後,應將其放在網站的主目錄中。 以上述示例為指導,Robots.txt 文件的 URL 應如下所示:

https://www.websitename.com/robots.txt

為什麼要阻止訪問網頁?

阻止對某些網頁的訪問將有助於加強您的 SEO 工作。 因此,您需要了解何時使用 Robots.txt 文件。 如果您的網站包含重複頁面,則不得允許爬蟲將它們編入索引。 為什麼? 索引重複內容可能不利於您的 SEO。

儘管 Google 和其他搜索引擎不會對重複內容對您施加處罰,但對重複頁面進行不必要的索引會使您最有價值的頁面更難獲得良好排名。

Robots.txt 文件還可以更輕鬆地充分利用您的抓取預算。 爬蟲程序是一種有價值的商品,可以提高您的 SEO 性能。 但是,對於較小的站點來說,同時爬網可能會讓人不知所措。 較大的站點或具有較高權限的站點往往具有較大的爬網餘量。

但是,較少建立的站點必須以相對適中的預算工作。 安裝 Robots.txt 意味著您可以優先考慮網站中最重要的頁面,確保您的抓取預算不會浪費在次要頁面和多餘內容上。

也可能存在您不希望每個用戶都能訪問的網頁。 如果您的網站提供服務或包含銷售渠道,那麼您只會在客戶完成特定操作後才希望向他們顯示許多頁面。 如果您使用折扣代碼或忠誠度獎勵來激勵這些行為,您將只希望完成客戶旅程的用戶訪問它們。 通過阻止這些頁面,您可以防止臨時用戶通過搜索引擎查詢偶然發現這些信息。

Robots.txt 文件對於確保阻止搜索引擎索引某些材料(例如私人圖像)也很有用。 它們還可以用於查明站點地圖的位置,並在機器人嘗試同時索引圖像時防止您的服務器過載。

如何創建 Robots.txt 文件

現在我們已經探討了您可能需要 Robots.txt 文件的原因,我們可以研究如何創建一個。 創建 Robots.txt 文件的最簡單方法是使用 Google 網站管理員工具。 創建帳戶後,單擊“爬蟲訪問”,然後前往“站點配置”。 訪問菜單的這一部分後,單擊“生成 robots.txt”。 該工具可以快速創建 Robots.txt 文件。

要阻止爬蟲訪問頁面,只需選擇“阻止”選項。 然後,您可以選擇“用戶代理”來指定要阻止的搜索引擎爬蟲。 現在,您可以輸入要限制訪問的站點目錄。 無需輸入目標頁面的整個 URL,您只需將擴展名添加到“目錄和文件”中。 換句話說,如果您想阻止爬蟲訪問您的客戶登錄頁面,您只需鍵入:

/客戶登錄

確定要阻止的頁面後,您可以單擊“添加規則”以生成 Robots.txt。 生成的 Robots.txt 還將為您提供“允許”例外的選項,如果您只想限制某些搜索引擎將您的網站編入索引,這將非常有用。

一切完成後,您現在可以單擊下載圖標以生成最終的 Robots.txt 文件。

如何安裝 Robots.txt 文件?

現在所有的繁重工作都已完成,是時候安裝您的 Robots.txt 文件了。 您可以自己通過使用 FTP 解決方案上傳文件來完成此操作。 但是,如果您的編程知識存在一些差距,最好請專家提供服務。 如果您將任務分配給程序員,請確保准確列出您想要阻止的頁面並指定任何例外情況。

Robots.txt 文件:要記住的關鍵事項

為確保您充分利用 Robots.txt 文件,請牢記一些最佳做法。 這似乎很明顯,但請確保您正在評估您的頁面,而不是阻止對您希望被抓取和索引的高價值頁面的訪問。

儘管許多用戶轉向 Robots.txt 以阻止敏感信息顯示在搜索引擎結果頁面上,但這並不是讓此類材料遠離公眾視線的最佳方式。 如果其他頁面鏈接到您已阻止的頁面,則它們總有可能最終被編入索引。 使用另一種方​​法來隱藏敏感信息。

最後的想法

為確保您的 Robots.txt 文件不會對您的 SEO 產生負面影響,您必須保持更新。 每次向網站添加新頁面、目錄或文件時,都需要相應地更新 Robots.txt 文件。 儘管僅當您添加需要限制的內容時才需要這樣做,但修改您的 Robots.txt 文件是一種很好的做法。 它不僅可以保證您的網站內容盡可能安全,還可以使您的 SEO 策略受益。

通過有效地實施 Robots.txt,您可以最大化您的抓取預算並優先考慮您最重要的頁面,防止重複內容的索引,並最大限度地減少同時抓取迫使您的服務器停止的機會。

作者簡介:

Greg Tuohy 是商務打印機和辦公自動化軟件提供商 Docutec 的董事總經理。 Greg 於 2011 年 6 月被任命為董事總經理,是 Cantec Group 團隊背後的推動力。 1995 年在 UCC 完成科學學位後,Greg 立即加入了家族複印機/打印機業務。 Docutec 還生產家用打印機,例如多功能打印機。