抓取預算優化?對99%的網站來說,這是一個不存在的問題

SEO行業有一個非常成功的概念包裝案例:crawl budget optimization(抓取預算優化)。

它聽起來很技術、很專業、很容易寫進審計報告裡當交付物。”我幫你優化了抓取預算”比”我幫你改了幾個Title”值錢多了。但實際上,對絕大多數網站來說,抓取預算根本不是一個需要關注的問題。

這不是我說的。是Google自己說的。

Google怎麼說的

Gary Illyes是Google的Webmaster Trends Analyst,他在多個場合反覆強調過同一個觀點。

2017年,他在Google Search Central官方部落格發了一篇文章《What Crawl Budget Means for Googlebot》,開頭第一段就寫了:抓取預算不是大多數釋出者需要擔心的事情。如果你的新頁面釋出當天就能被爬取,你不需要關注抓取預算。同樣,如果你的網站只有幾千個URL,大多數情況下都會被高效爬取。

2020年,他在Search Off the Record播客裡說得更直接:絕大多數人不需要關心抓取預算。他表示Google團隊一直在推回這個概念,告訴大家不用在意。如果非要給一個數字,他說大約一百萬個URL是真正需要開始關心抓取預算的基線。

2023年,Martin Splitt在同一檔播客裡直接說:如果你的網站只有20個頁面甚至更多一點,你不需要擔心抓取預算。他補充說超過90%的網站不需要擔心這個問題。人們對它的焦慮大多來自錯誤資訊,以及想要控制不可控事物的衝動。

Google的大型站點抓取預算管理文件也明確寫了:小站不會像大站那樣被頻繁爬取,但如果站點有經常變化的重要內容,Google會頻繁爬取,不管站點大小。

四個獨立來源,跨越六年,同一個結論。

那誰才需要關心抓取預算?

幾十萬到幾百萬頁面的大型站點。電商站有無數SKU頁面、引數過濾URL、分頁URL。新聞站每天產出大量內容需要快速索引。旅遊站的航班/酒店組合生成海量動態URL。

這些站點的共同特徵是:Googlebot爬不完所有頁面,必須做取捨。這時候抓取預算才是一個真實存在的技術問題。

Trainline是一個真實案例。這個英國火車票網站有上億個頁面,其中36%的月度爬取被浪費在對使用者沒有價值的頁面上。他們砍掉了1.3億個低價值頁面之後,有價值頁面的爬取佔比從64%提升到87%,爬取量翻了3倍。

但請注意這個量級:1.3億頁面。你的網站有多少頁面?500?5000?50000?在這個量級上討論抓取預算優化,就像一個人存款500塊錢去研究如何優化資產配置——方法論沒錯,但前提不成立。

行業為什麼炒作這個概念

因為它好賣。

抓取預算優化可以被包裝成一整套技術SEO服務:爬取審計、URL清理、引數處理、sitemap優化、robots.txt調優、noindex策略。每一項都可以寫進報告,每一項都可以計費。

而且它有一個完美的邏輯閉環:客戶看不懂,效果無法直接衡量,做完之後如果排名漲了就是”優化了抓取預算的功勞”,排名沒漲就是”還有其他因素需要繼續優化”。

我不是說這些操作本身都是無用的。清理404、修復重定向鏈、刪除薄內容頁——這些是正確的技術SEO實踐。但把它們歸因到”節省抓取預算”上,是錯誤的。

正確的歸因:品質訊號,不是爬取效率

砍掉低品質頁面有沒有用?有用。但原因不是”釋放了抓取預算讓Googlebot去爬你的重要頁面”。

對於幾百到幾萬頁面的站點,Googlebot有足夠的資源爬完你所有的頁面。你砍掉50個薄內容頁,Google不會因此把”省下來的預算”分配給你的重要頁面——因為它本來就會爬你的重要頁面。

砍頁面真正的價值在於:提升站點整體的內容品質評分。

HCU(Helpful Content Update)打擊的就是站點級的品質訊號。如果你的站上有大量零流量、零價值的頁面,它們拉低的不是爬取效率,是Google對你整站品質的判斷。Google的演算法會看你整個域名下內容的整體水平,低品質頁面佔比過高會拖累全站的排名表現。

所以邏輯要反過來:

❌ “砍頁面 → 省抓取預算 → Googlebot爬到更多重要頁面 → 排名提升”

✅ “砍頁面 → 站點整體品質訊號提升 → Google對你的域名評價更高 → 排名提升”

起點一樣,終點一樣,但中間的因果鏈完全不同。搞錯了因果鏈,你就會在錯誤的方向上浪費時間——比如去優化robots.txt和sitemap來”節省預算”,而不是去審視你的內容是否真正有價值。

David Quaid的觀點

David Quaid最近提到了一個被很多人忽略的事實:Google只頻繁爬取和重新爬取你站點裡有流量、有外部連結的那些頁面。其他頁面它基本不怎麼回來看。

這不是懶,這是資源分配的最優解。一個頁面有流量和外部連結,說明它被驗證過有價值,值得Google經常回來檢查是否有更新。一個頁面沒流量沒外部連結,Google沒有理由頻繁來爬——爬了也不會改變什麼。

他還提到,除非你做了站點遷移(比如從WordPress搬到Wix),或者換了主題導致整站URL結構變化,Google才會進行從上到下的全面重新爬取。日常情況下的內容修剪(content pruning)並不能”優化”所謂的預算,因為對中小站點來說,這個預算限制本身就不存在。

什麼時候該真正關注爬取問題

不是所有跟爬取相關的問題都是偽問題。如果你遇到以下情況,爬取確實需要關注——但注意,原因不是”預算不夠”,而是技術配置有問題:

新內容釋出幾周都不被索引。 這通常不是預算問題,而是內部連結不夠、sitemap沒更新、或者頁面品質不夠Google不想索引。

大量頁面卡在”已發現-尚未編入索引“。 這更多是品質訊號問題。Google發現了你的頁面但選擇不索引,說明它認為這些頁面不值得佔用索引空間。

站點遷移後舊URL長時間不被重新爬取。 這是真實的爬取問題,需要通過sitemap提交、Search Console的URL檢查工具來推動。

JavaScript渲染導致內容不可見。 Googlebot需要渲染JS才能看到內容,這確實消耗更多爬取資源。但解決方案是SSR或預渲染,不是”優化抓取預算”。

但Content Pruning在HCU場景下是真實有效的——只是原因不同

前面說了,content pruning對中小站點來說不能”節省抓取預算”。但有一個場景下,大規模砍內容確實是必要的:被HCU(Helpful Content Update)擊中之後的恢復。

HCU是站點級懲罰。一旦你的域名被打上”unhelpful”標籤,不是某幾篇文章排名下降,而是整站的所有頁面都會受到影響。這時候你面臨的不是抓取預算問題,而是信任崩塌。

行業裡被HCU擊中的站點在嘗試恢復時,有一個廣泛共識:需要砍掉70%到90%的內容。不是砍幾篇差的就行,是隻留下10%到30%真正有價值、有獨特資訊、有真實Experience的頁面,其他全部刪除或noindex。

為什麼比例這麼極端?因為Google看的是你整站內容品質的分佈。如果你有1000篇文章,其中700篇是AI批量生成的薄內容,那這700篇定義了Google對你整站的品質判斷。砍掉10%不夠翻轉這個判斷,必須砍到讓剩下的內容整體品質分佈從”以低品質為主”變成”以高品質為主”。

更殘酷的是:被HCU擊中後,你在這個域名上釋出的新內容,即使品質很高,也很難獲得排名。 整個域名的信任度已經被拉低,新內容繼承了域名的負面評分。你可以寫出你有史以來最好的文章,但Google不願意給它機會——因為它來自一個被標記為”unhelpful”的域名。

這就是為什麼一些站長會選擇遷移到新域名。但直接把舊域名的所有內容301到新域名是行不通的——你等於把垃圾訊號也一起打包帶過去了。正確的做法是:

先在舊域名上砍掉90%的低品質內容 → 只留下10%真正有價值的頁面 → 把這10%的頁面301到新域名。

這樣傳遞過去的訊號是乾淨的——只有你最好的內容和它們積累的外部連結權重。

如果第一個新域名也沒恢復呢?有人會再做一次,從新域名再301到第二個新域名。這就是所謂的”雙重重定向”(double redirect)。但大多數從業者認為走到這一步意義已經不大了。

回到本文的核心論點:這整個HCU恢復流程裡,content pruning起到了關鍵作用。但它的價值從頭到尾都不是”節省抓取預算”——而是清洗站點級的品質訊號,讓Google重新評估你的域名。砍掉70%的內容不會讓Googlebot爬得更快,但會讓Google認為你的站點更值得信任。

歸因搞對了,你才知道該怎麼做。

結論

抓取預算是一個真實存在的技術概念,但它被SEO行業過度包裝成了一個適用於所有網站的優化方向。

事實是:

  • Google自己說超過90%的網站不需要擔心抓取預算
  • Gary Illyes給出的基線是大約一百萬個URL
  • 中小站點的頁面被砍掉後,排名提升的原因是品質訊號改善,不是爬取效率提升
  • content pruning有價值,但價值在內容品質層面,不在抓取預算層面

如果有人跟你說”你的網站需要優化抓取預算”,先問一個問題:你的網站有多少個頁面?

如果答案小於十萬,大概率不需要。把時間花在真正影響排名的事情上——內容品質、外部連結建設、實體權威。別為一個Google自己說不重要的東西付費。

鸭老师SEO
鴨老師SEO

獨立Google SEO專家,ylsseo.com創始人,基於Google專利、IR與API Leak解讀排名機制,中文SEO啟蒙第一人。

滾動至頂部
🌐 简体中文