Post by account_disabled on Jan 8, 2024 23:27:01 GMT -6
当确定网页上的材料如何显示时,所谓的“指令”就会发挥作用。实际上,有几个指令指示搜索引擎机器人抓取哪些特定网站和材料,显然还要建立索引。最常见的是 robots.txt 文件,它与元机器人标签一起使用。尽管是一对,但他们却自给自足。 robots.txt 文件放置在网站的根目录中。搜索机器人应该根据该信息抓取网站的某些部分。它可能是页面、子目录或其他站点元素。一般来说,谷歌机器人应该首先抓取您网站中您提供 手机号码数据 信息的部分,并且应该减少甚至忽略。robots.txt 中的指令“allow”和“disallow”生效。但是,请记住,这些机器人不需要遵守您指定的规定。
Google 于 2019 年 7 月正式宣布 robots.txt 指令无效。 如果您使用页面内容并希望控制它,则应该使用元机器人标签。元机器人标签插入网页的 head> 部分,包含大量有用的建议。 但是,您应该提到另一种管理 noindex 和nofollow 指令的方法。这就是 X-Robots-Tag,它与前面的成员有几个不同之处。 什么时候应该使用 X-ROBOTS-TAG? 当然,您可以借助 robots.txt 文件和元 robots 标签来管理大部分网站抓取问题。然而,在某些情况下,X-Robots-Tag 似乎更适合: 您不希望对特定视频、图片或 PDF 文件格式建立索引。假设您希望在指定的时间内无法访问某个 URL。 充分利用您的抓取预算。主要目标是引导机器人走上适当的路径。机器人不需要浪费时间索引网页的不相关区域(例如管理和感谢页面、购物车、促销等)。但这并不意味着这些部分对用户来说不是必需的,并且您不必花费优化时间来提高这些页面的质量。 您不得对整个子域、子文件夹、具有指定条件的页面或任何其他需要批量修改的内容建立索引。 如何在网站上实施 X-ROBOTS-TAG X-Robots-Tag 是由网络服务器提供的 HTTP 标头(因此称为响应标头)。请记住,X-Robots-Tag 是对 PDF 或图片文件(jpeg、png、gif 等)等非 HTML 文件进行 noindex 的唯一方法。可以使用 Apache 服务器设置中的 .htaccess 文件将 X-Robots-Tag 引入站点的 HTTP 回复。 应该注意的是,X-Robot-Tag 实现技术相当困难,因为它发生在代码级别。
网络管理员通常会设置 X-Robot-Tags。任何失误都可能导致重大问题。例如,语法问题可能会导致站点失败。经常检查 X-Robots-Tag 中的故障也是一个好主意,因为它是所有类型问题的大发源地。 如果您选择不索引页面,X-Robots-Tag 标头将如下所示: HTTP/1.1 200 好 日期:2019 年 5 月 25 日星期二 20:23:51 GTM X-Robots-标签:noindex 与元机器人标签相比: <!DOCTYPE html> <html><标题> <meta name=”robots” content=”noindex” /> (……) </头> <正文>(...)</正文> </html> 如果同时使用多个方向,则会出现以下情况: HTTP/1.1 200 好 日期:2019 年 5 月 25 日星期二 20:23:51 GTM X-Robots-标签:noindex、nofollow X-Robots-标签:noarchive 3.1 有关 X-Robots 的指令 大多数情况下,这些说明与元机器人标签的说明相同: follow – 将搜索机器人定向到该页面并指示它们抓取该页面上的所有可用链接 nofollow – 防止机器人抓取页面上的所有可用链接 索引 – 将机器人引导至页面并允许它们为页面建立索引 noindex – 防止机器人为页面建立索引,防止其出现在 SERP 中 noarchive — 阻止 Google 缓存页面。 如何检查 X-ROBOTS-TAG 是否存在潜在问题 有几种不同的方法可以在网络上搜索 X-Robots-Tag。
Google 于 2019 年 7 月正式宣布 robots.txt 指令无效。 如果您使用页面内容并希望控制它,则应该使用元机器人标签。元机器人标签插入网页的 head> 部分,包含大量有用的建议。 但是,您应该提到另一种管理 noindex 和nofollow 指令的方法。这就是 X-Robots-Tag,它与前面的成员有几个不同之处。 什么时候应该使用 X-ROBOTS-TAG? 当然,您可以借助 robots.txt 文件和元 robots 标签来管理大部分网站抓取问题。然而,在某些情况下,X-Robots-Tag 似乎更适合: 您不希望对特定视频、图片或 PDF 文件格式建立索引。假设您希望在指定的时间内无法访问某个 URL。 充分利用您的抓取预算。主要目标是引导机器人走上适当的路径。机器人不需要浪费时间索引网页的不相关区域(例如管理和感谢页面、购物车、促销等)。但这并不意味着这些部分对用户来说不是必需的,并且您不必花费优化时间来提高这些页面的质量。 您不得对整个子域、子文件夹、具有指定条件的页面或任何其他需要批量修改的内容建立索引。 如何在网站上实施 X-ROBOTS-TAG X-Robots-Tag 是由网络服务器提供的 HTTP 标头(因此称为响应标头)。请记住,X-Robots-Tag 是对 PDF 或图片文件(jpeg、png、gif 等)等非 HTML 文件进行 noindex 的唯一方法。可以使用 Apache 服务器设置中的 .htaccess 文件将 X-Robots-Tag 引入站点的 HTTP 回复。 应该注意的是,X-Robot-Tag 实现技术相当困难,因为它发生在代码级别。
网络管理员通常会设置 X-Robot-Tags。任何失误都可能导致重大问题。例如,语法问题可能会导致站点失败。经常检查 X-Robots-Tag 中的故障也是一个好主意,因为它是所有类型问题的大发源地。 如果您选择不索引页面,X-Robots-Tag 标头将如下所示: HTTP/1.1 200 好 日期:2019 年 5 月 25 日星期二 20:23:51 GTM X-Robots-标签:noindex 与元机器人标签相比: <!DOCTYPE html> <html><标题> <meta name=”robots” content=”noindex” /> (……) </头> <正文>(...)</正文> </html> 如果同时使用多个方向,则会出现以下情况: HTTP/1.1 200 好 日期:2019 年 5 月 25 日星期二 20:23:51 GTM X-Robots-标签:noindex、nofollow X-Robots-标签:noarchive 3.1 有关 X-Robots 的指令 大多数情况下,这些说明与元机器人标签的说明相同: follow – 将搜索机器人定向到该页面并指示它们抓取该页面上的所有可用链接 nofollow – 防止机器人抓取页面上的所有可用链接 索引 – 将机器人引导至页面并允许它们为页面建立索引 noindex – 防止机器人为页面建立索引,防止其出现在 SERP 中 noarchive — 阻止 Google 缓存页面。 如何检查 X-ROBOTS-TAG 是否存在潜在问题 有几种不同的方法可以在网络上搜索 X-Robots-Tag。