首页 » robots.txt 文件应包含哪些内容

robots.txt 文件应包含哪些内容

关于robots.txt文件中应该包含哪些内容,以及哪些内容不应该包含,人们经常存在争议。robots.txt

文件并非用于隐藏您网站的安全页面,因此,您网站上任何管理页面或私人页面的位置都不应包含在robots.txt文件中,因为这实际上会向其他人暴露这些页面的位置。如果您想安全地阻止机器人访问您网站上的任何私人内容,则需要对存储这些内容的区域设置密码保护。

提醒:robots.txt 文件仅作为网络机器人的指南,并非所有网络机器人都会遵守您的指示。

Robots.txt 示例

让我们看几个使用 robots.txt 文件的不 电话号码 同示例。请注意,您可以在文件末尾添加 # 标签 ( # )。
允许所有内容并提交站点地图– 对于大多数网站来说,这是最佳选择,因为它允许所有搜索引擎完全抓取网站并索引其所有数据。它甚至会向搜索引擎显示 XML 站点地图的位置,以便搜索引擎能够快速找到新页面,因为它会定期检查站点地图的变更:

用户代理:*
允许:/

允许除一个子目录之外的所有内容—— 有时,您可能不希望网站上的某些区域显示在搜索引擎结果中。例如,结账区域、敏感图片文件、论坛中不相关的部分或网站的成人版块,如下所示。任何包含不允许路径的 URL 都将被搜索引擎排除:

用户代理:*
允许:/
# 不允许的子目录
不允许:/checkout/
不允许:/secret-website-images/
不允许:/forum/off-topic-random-chat/
不允许:/adult-only-chat/

允许除某些文件之外的所有内容——有时您可能希望在网站上显示媒体或提供文档,但不希望它们出现在图片搜索结果、社交网络预览或文档搜索 我其实不太关心指标 引擎列表中。您可能希望阻止的文件可能是任何动画 GIF、PDF 说明书或任何 PHP 文件,例如如下所示:

用户代理:*
允许:/
# 不允许的文件类型
不允许:/*.gif
$ 不允许:/*.pdf$
不允许:/*.PDF$
不允许:/*.php$

允许除特定网页之外的所有内容——您网站上的某些网页可能不适合显示在搜索引擎结果中,您可以使用 robots.txt 文件屏蔽这些网页。您可能希 印度手机号码 屏蔽的网页可能是您的条款和条件页面、任何您出于法律原因想要快速删

滚动至顶部