在网站 SEO 优化中,定期进行技术审查(Site Audit)是保持网站健康度的重要步骤。很多站长希望 Site Audit 只抓取 Sitemap 中的页面,以保证分析范围精准,避免爬取无关页面。本文将详细介绍在 Ahrefs Site Audit 中设置爬取范围,让其只抓取 Sitemap 中的 URL,涵盖新项目和现有项目两种情况。
一、新项目中设置只抓取 Sitemap
Step 1:创建新项目并配置 URL 来源
创建一个新项目,在 Scope 和 Ownership 部分填写相关信息。
进入 Site Audit,找到 URL Sources 标签页。
仅勾选 Specific sitemaps 选项。
在下方的输入框中填入 Sitemap 的 URL(可同时输入多个 Sitemap 地址)。
必须保证除了 Specific sitemaps 之外,其他选项均保持未勾选状态,这样爬虫才会从指定的 Sitemap 开始抓取页面。
Step 2:设置抓取深度
进入下一步 Crawl settings。
找到 Max depth level from the seed,并将其设置为 0。
此设置会告诉爬虫:不要抓取超出 Sitemap 所包含的页面,仅限于 Sitemap 内的 URL。
Step 3:完成项目配置并开始抓取
点击 Continue,完成新项目的其他配置。
等待爬虫运行完成后,在 Crawl log 中可以看到抓取结果。
需要注意的是:
Known URLs(已知 URL)通常会比 Crawled URLs(已抓取 URL)数量更多,这是正常现象。
已抓取的页面仅限于项目范围,而已知 URL 则包含被舍弃的链接。
若想确认爬虫只抓取了 Sitemap 中的页面,可进入 Page explorer,将筛选条件设置为 Is in sitemap = Yes,页面数量应等于已抓取的页面数。
二、在现有项目中修改为只抓取 Sitemap
有时项目已存在,但需要修改范围为仅限 Sitemap。这种情况下要特别注意:更改抓取范围会影响 Site Audit 的整体指标。若希望保留原始数据,可以删除现有项目并重新创建。
Step 1:进入现有项目设置
打开 Site Audit dashboard。
点击项目旁的 竖向省略号(三点按钮),选择 Settings。
在右侧面板点击 Site Audit,进入 Site Audit 设置界面。
重复新项目的步骤:在 URL Sources 中仅勾选 Specific sitemaps,并输入 Sitemap URL。
Step 2:运行新一轮抓取
回到 Site Audit 页面,点击项目。
点击 New crawl 按钮,让 Ahrefs 重新爬取网站。
爬虫完成后,即可在 Crawl log 中查看更新后的结果。
三、总结
在 Ahrefs Site Audit 中,如果想让爬虫只抓取 Sitemap 内的页面,需要完成以下两步:
在 URL Sources 中仅勾选 Specific sitemaps,输入 Sitemap 地址;
在 Crawl settings 中,将 Max depth level from the seed 设置为 0。
对于新项目,可在创建流程中设置;在现有项目中,需要进入设置页面并运行新的抓取。完成后,可以在 Page explorer 中筛选 Is in sitemap = Yes,确认页面数量与抓取结果一致。
这种方法能够帮助 SEO 人员更精准地监控核心页面的健康度,避免分散数据,也能节省爬虫资源和分析时间。