Robots.txt 文件:为什么它对 SEO 至关重要
已发表: 2022-05-05Robots.txt 文件,也称为机器人排除协议,是 SEO 不可或缺的工具。 该文本文件通知搜索引擎爬虫可以访问哪些页面并随后对其进行索引。 Robots.txt 文件还可以防止爬虫访问您网站的某些部分。 如果您想防止非公共页面被索引,这很有用。 这可能包括仍在开发中的页面或在线登录页面。 如果您的网站特别广泛,Robots.txt 也有助于确保您最相关的页面被编入索引。
通过在 Robots.txt 文件中概述您的请求,搜索引擎将只能访问您希望它们访问的页面。 这不仅为您提供了高度的隐私,而且还最大限度地提高了您的抓取预算。 有兴趣了解更多信息吗? 继续阅读有关为什么 Robots.txt 文件对 SEO 至关重要的深入指南。
Robots.txt 解释
谷歌和必应等主要搜索引擎会发送所谓的“爬虫”来搜索网站。 这些爬虫也被称为“机器人”或“蜘蛛”,它们为搜索引擎提供重要信息,以便您的网站可以在搜索引擎结果页面 (SERP) 中正确编入索引。 这使互联网用户更容易通过在搜索引擎中输入查询来发现您的网站。 Robots.txt 文件清楚地概述了可以搜索哪些页面以及机器人应该避免哪些页面。
希望阻止所有搜索引擎爬虫访问您的客户登录页面? 可以使用以下 Robots.txt 命令:
用户代理: *
禁止:websitename.com/customer-login
您还可以定制命令以专注于特定的搜索引擎。 如果您只想阻止 Google 爬虫访问您的页面,可以使用以下命令:
用户代理:Googlebot
禁止:websitename.com/customer-login
为了让您的生活更轻松,您可以将任意数量的页面添加到禁止列表中。 创建 Robots.txt 文件后,应将其放在网站的主目录中。 以上述示例为指导,Robots.txt 文件的 URL 应如下所示:
https://www.websitename.com/robots.txt
为什么要阻止访问网页?
阻止对某些网页的访问将有助于加强您的 SEO 工作。 因此,您需要了解何时使用 Robots.txt 文件。 如果您的网站包含重复页面,则不得允许爬虫将它们编入索引。 为什么? 索引重复内容可能不利于您的 SEO。
尽管 Google 和其他搜索引擎不会对重复内容对您施加处罚,但对重复页面进行不必要的索引会使您最有价值的页面更难获得良好排名。
Robots.txt 文件还可以更轻松地充分利用您的抓取预算。 爬虫程序是一种有价值的商品,可以提高您的 SEO 性能。 但是,对于较小的站点来说,同时爬网可能会让人不知所措。 较大的站点或具有较高权限的站点往往具有较大的爬网余量。
但是,较少建立的站点必须以相对适中的预算工作。 安装 Robots.txt 意味着您可以优先考虑网站中最重要的页面,确保您的抓取预算不会浪费在次要页面和多余内容上。
也可能存在您不希望每个用户都能访问的网页。 如果您的网站提供服务或包含销售渠道,那么您只会在客户完成特定操作后才希望向他们显示许多页面。 如果您使用折扣代码或忠诚度奖励来激励这些行为,您将只希望完成客户旅程的用户访问它们。 通过阻止这些页面,您可以防止临时用户通过搜索引擎查询偶然发现这些信息。
Robots.txt 文件对于确保阻止搜索引擎索引某些材料(例如私人图像)也很有用。 它们还可以用于查明站点地图的位置,并在机器人尝试同时索引图像时防止您的服务器过载。

如何创建 Robots.txt 文件
现在我们已经探讨了您可能需要 Robots.txt 文件的原因,我们可以研究如何创建一个。 创建 Robots.txt 文件的最简单方法是使用 Google 网站管理员工具。 创建帐户后,单击“爬虫访问”,然后前往“站点配置”。 访问菜单的这一部分后,单击“生成 robots.txt”。 该工具可以快速创建 Robots.txt 文件。
要阻止爬虫访问页面,只需选择“阻止”选项。 然后,您可以选择“用户代理”来指定要阻止的搜索引擎爬虫。 现在,您可以输入要限制访问的站点目录。 无需输入目标页面的整个 URL,您只需将扩展名添加到“目录和文件”中。 换句话说,如果您想阻止爬虫访问您的客户登录页面,您只需键入:
/客户登录
确定要阻止的页面后,您可以单击“添加规则”以生成 Robots.txt。 生成的 Robots.txt 还将为您提供“允许”例外的选项,如果您只想限制某些搜索引擎将您的网站编入索引,这将非常有用。
一切完成后,您现在可以单击下载图标以生成最终的 Robots.txt 文件。
如何安装 Robots.txt 文件?
现在所有的繁重工作都已完成,是时候安装您的 Robots.txt 文件了。 您可以自己通过使用 FTP 解决方案上传文件来完成此操作。 但是,如果您的编程知识存在一些差距,最好请专家提供服务。 如果您将任务分配给程序员,请确保准确列出您想要阻止的页面并指定任何例外情况。
Robots.txt 文件:要记住的关键事项
为确保您充分利用 Robots.txt 文件,请牢记一些最佳做法。 这似乎很明显,但请确保您正在评估您的页面,而不是阻止对您希望被抓取和索引的高价值页面的访问。
尽管许多用户转向 Robots.txt 以阻止敏感信息显示在搜索引擎结果页面上,但这并不是让此类材料远离公众视线的最佳方式。 如果其他页面链接到您已阻止的页面,则它们总有可能最终被编入索引。 使用另一种方法来隐藏敏感信息。
最后的想法
为确保您的 Robots.txt 文件不会对您的 SEO 产生负面影响,您必须保持更新。 每次向网站添加新页面、目录或文件时,都需要相应地更新 Robots.txt 文件。 尽管仅当您添加需要限制的内容时才需要这样做,但修改您的 Robots.txt 文件是一种很好的做法。 它不仅可以保证您的网站内容尽可能安全,还可以使您的 SEO 策略受益。
通过有效地实施 Robots.txt,您可以最大化您的抓取预算并优先考虑您最重要的页面,防止重复内容的索引,并最大限度地减少同时抓取迫使您的服务器停止的机会。
作者简介:
Greg Tuohy 是商务打印机和办公自动化软件提供商 Docutec 的董事总经理。 Greg 于 2011 年 6 月被任命为董事总经理,是 Cantec Group 团队背后的推动力。 1995 年在 UCC 完成科学学位后,Greg 立即加入了家族复印机/打印机业务。 Docutec 还生产家用打印机,例如多功能打印机。