想让爬虫乖乖听话?Ahrefs Site Audit Sitemap 终极指南

在网站 SEO 优化中,定期进行技术审查(Site Audit)是保持网站健康度的重要步骤。很多站长希望 Site Audit 只抓取 Sitemap 中的页面,以保证分析范围精准,避免爬取无关页面。本文将详细介绍在 Ahrefs Site Audit 中设置爬取范围,让其只抓取 Sitemap 中的 URL,涵盖新项目和现有项目两种情况。

一、新项目中设置只抓取 Sitemap

Step 1:创建新项目并配置 URL 来源

创建一个新项目,在 ScopeOwnership 部分填写相关信息。

进入 Site Audit,找到 URL Sources 标签页。

仅勾选 Specific sitemaps 选项。

在下方的输入框中填入 Sitemap 的 URL(可同时输入多个 Sitemap 地址)。

必须保证除了 Specific sitemaps 之外,其他选项均保持未勾选状态,这样爬虫才会从指定的 Sitemap 开始抓取页面。

Step 2:设置抓取深度

进入下一步 Crawl settings

找到 Max depth level from the seed,并将其设置为 0

此设置会告诉爬虫:不要抓取超出 Sitemap 所包含的页面,仅限于 Sitemap 内的 URL。

Step 3:完成项目配置并开始抓取

点击 Continue,完成新项目的其他配置。

等待爬虫运行完成后,在 Crawl log 中可以看到抓取结果。

需要注意的是:

Known URLs(已知 URL)通常会比 Crawled URLs(已抓取 URL)数量更多,这是正常现象。

已抓取的页面仅限于项目范围,而已知 URL 则包含被舍弃的链接。

若想确认爬虫只抓取了 Sitemap 中的页面,可进入 Page explorer,将筛选条件设置为 Is in sitemap = Yes,页面数量应等于已抓取的页面数。

二、在现有项目中修改为只抓取 Sitemap

有时项目已存在,但需要修改范围为仅限 Sitemap。这种情况下要特别注意:更改抓取范围会影响 Site Audit 的整体指标。若希望保留原始数据,可以删除现有项目并重新创建。

Step 1:进入现有项目设置

打开 Site Audit dashboard

点击项目旁的 竖向省略号(三点按钮),选择 Settings

在右侧面板点击 Site Audit,进入 Site Audit 设置界面。

重复新项目的步骤:在 URL Sources 中仅勾选 Specific sitemaps,并输入 Sitemap URL。

Step 2:运行新一轮抓取

回到 Site Audit 页面,点击项目。

点击 New crawl 按钮,让 Ahrefs 重新爬取网站。

爬虫完成后,即可在 Crawl log 中查看更新后的结果。

三、总结

Ahrefs Site Audit 中,如果想让爬虫只抓取 Sitemap 内的页面,需要完成以下两步:

在 URL Sources 中仅勾选 Specific sitemaps,输入 Sitemap 地址;

在 Crawl settings 中,将 Max depth level from the seed 设置为 0

对于新项目,可在创建流程中设置;在现有项目中,需要进入设置页面并运行新的抓取。完成后,可以在 Page explorer 中筛选 Is in sitemap = Yes,确认页面数量与抓取结果一致。

这种方法能够帮助 SEO 人员更精准地监控核心页面的健康度,避免分散数据,也能节省爬虫资源和分析时间。

Leave a Reply

您的电子邮箱地址不会被公开。 必填项已用 * 标注