Google分層索引機制解析（Base、Zeppelin、Landfill）

很多站長都經歷過這樣的場景：一篇文章發出去沒排名，改了標題，換了slug，重寫了內容，還是沒排名。然後開始懷疑是不是crawl budget不夠，是不是sitemap沒提交，是不是伺服器太慢。

其實問題根本不在這些地方。

Google的索引不是一個平面，而是分層的

大部分人理解的Google索引是一個大資料庫，你的頁面進去了就有機會排名。但事實上，鴨老師通過解讀專利發現Google的索引是分層的，頁面被分配到不同的層級（tier），不同層級獲得的排名機會天差地別。

三層索引：從專利到Leak的完整拼圖

這個分層機制不是猜測，而是有兩層證據支撐的。

早在2004年，Google就申請了關於索引分割槽的專利（Index partitioning based on document relevance），明確描述了文件按照靜態排名（static rank）進行排序和分割槽的機制——查詢時從最高分割槽開始搜尋，當已有結果的品質分數足夠高時，直接停止，不再搜尋更低的分割槽。Bill Slawski在SEO by the Sea上解讀過同期的另一個關鍵專利——Anna Patterson的phrase-based indexing，其中phrase posting list被分成tiered groups和sharded partitions，不同tier的index server儲存不同優先順序的內容。

2024年洩露的Google Content Warehouse API文件進一步揭示了這套分層系統的內部名稱。負責索引分層的系統叫SegIndexer，它將抓取到的頁面分配到三個層級：

Base（基礎層）——高品質頁面進入這一層，這是參與排名的主力索引。當用戶發起查詢時，Google首先在這一層搜尋。絕大多數搜尋結果來自這裡。
Zeppelin（齊柏林飛艇層）——中等品質的頁面。只有當基礎層的結果不夠用時，查詢才會擴充套件到這一層。你的頁面在這一層意味著有排名機會，但機會大幅減少。
Landfill（垃圾填埋場）——低品質、重複、thin content被扔進這裡。進入填埋場的頁面在排名過程開始之前就已經被取消資格。 這也解釋了Google Search Console裡”已抓取-未編入索引”（Crawled – currently not indexed）的現象——頁面被抓取了，但被SegIndexer判定為不值得進入主索引，直接扔進了填埋場。

翻譯成人話就是：如果你的頁面被扔進了Landfill，無論你怎麼改標題、換slug、重寫內容，它都不會出現在搜尋結果裡，因為Google在排名這一步根本不會搜尋那一層。

Google官方早在2007年就取消了”supplemental results”的標籤，但從來沒有取消分層索引的機制本身。標籤沒了，機制還在——而且Leak證明這套系統比我們之前理解的更加精細和冷酷。

決定你在哪一層的，不只是頁面品質

很多人以為是單篇內容的品質決定了頁面被分到哪一層。不完全是。

專利裡說得很清楚，static rank可以基於連結數量，也可以基於文件被歷史查詢訪問的次數。但這個static rank不只是頁面級別的——站點整體的訊號會影響新頁面的初始分配。

如果一個站長期產出低品質內容，它的整站訊號就弱——外部連結少、使用者行為差、歷史點選低。當這個站釋出新頁面時，Google的crawler分配給它的抓取頻率就低。即使抓到了，新頁面繼承的站點級static rank也低，大概率被初始分配到低tier。

反過來，高權重站發一篇普通內容都能快速獲得排名。它的站點級static rank高，新頁面預設就被分配到較高的tier，獲得更多曝光機會，使用者行為資料進一步強化這個位置。

這是一個自我強化的迴圈，正的越來越正，負的越來越負。

“Crawl Budget不夠”是一個錯誤診斷

行業裡很多人把”我的頁面沒排名”歸因為”crawl budget不夠”——然後去優化robots.txt、清理引數URL、提交sitemap。

但真正的瓶頸不在抓取層，在serving層。Google可能抓了你的頁面，甚至索引了，但分配到了低tier。你優化再多的crawl budget都沒用，因為問題根本不在那裡。

Google來抓了，看了，覺得不行，扔進低tier。你讓它多來抓幾次，它來了還是覺得不行，結果一樣。

真正起作用的是改變static rank的底層訊號——外部連結品質、使用者行為、內容品質、站點整體的authority積累。這些才是決定頁面被分到哪個tier的東西。

把serving tier的分割槽問題錯誤診斷成crawling階段的資源分配問題，是治錯了病。

一開始錯，就會一直錯

這套分層邏輯最殘酷的地方在於：起點決定了軌跡。

第一篇內容品質低 → 站點初始static rank低 → 後續內容被分配到低tier → 沒有曝光 → 沒有使用者訊號 → static rank繼續低 → 下一篇還是低tier。

然後站長看不到效果，開始焦慮，要麼用AI批量生成內容加大產出量，要麼去買垃圾外部連結。兩個動作都在進一步強化Google對這個站的低品質判定。越掙扎陷得越深。

如果整站一直以來的內容都相對低品質，那就算髮新頁面、用新slug，也會被優先放進低tier。因為Google對這個站的站點級判定已經形成了，新頁面繼承的是整站的”信用額度”。

HCU的本質就是站點級的tier重新分配

2023年9月的Helpful Content Update（HCU），本質上就是一個站點級分類器——整站一旦被標記為”unhelpful”，所有頁面的static rank基線被整體壓低，相當於整站被重新分配到了更低的serving tier。

這不是某篇文章被懲罰了，是整個站被降級了。新內容也跟著被拖下去。

恢復有多難？Glenn Gabe追蹤了近400個被HCU打擊的站，資料是這樣的：

2023年9月：被打擊，流量暴跌70%+
2024年8月（一年後）：只有22%出現了20%以上的流量提升，完全恢復的被Glenn稱為”anomaly”（異常值）
2025年6月（將近兩年後）：部分站在核心更新中才終於開始回升，有些是從完全沒有可見度的狀態回來的
即便恢復，很多站也沒有回到2023年之前的水平

將近兩年，大部分站永遠沒回來。

更諷刺的是，很多最終恢復的站根本沒做任何改動——只是降低了釋出頻率或減少了廣告密度。本質上是Google自己的演算法改進了，重新評估了這些站。也就是說，你做了大量”修復”工作，可能還不如什麼都不做等演算法迭代。

低tier不是死刑，但翻盤成本極高

分層索引不是一個絕對的二元判定。頁面不是”進了低tier就永遠死了”，而是爬出來的成本和週期不同。

如果頁面本身沒什麼問題，只是釋出初期訊號太弱——沒內部連結、沒外部連結、沒點選——它可能只是暫時沉在低tier。這時候補上內部連結、獲得一些真實的使用者訊號，是有可能被重新提升的。

但如果是內容本身被判定為thin content或者跟站內其他頁面高度重複，那被壓下去的判定就更”硬”。你改了內容，但Google可能很久才來重新看一眼，因為低tier頁面獲得的crawl頻率本身就低。

唯一能讓低tier頁面批量翻身的情況是整站權重大幅提升——整個站的static rank baseline上移，帶動低分割槽頁面被重新評估。但這需要時間，以年為單位。

所以不是技術上不可能救，而是ROI通常不如把同樣的精力花在新頁面上。

正確的做法

理解了分層索引的邏輯，正確的做法就很清晰了：

釋出前做SERP分析。 確保每一篇內容發出去的時候就有足夠的競爭力，不會在第一次評估時就被扔進低tier。第一印象定了基調，後面翻盤的成本是指數級增長的。

先把站點級訊號拉上來。 不要一上來就追求內容數量。先用少量高品質內容加外部連結建設把站點的整體authority建立起來，等”信用額度”提升了，後續內容的起點才會更高。

不要在已經被判死刑的頁面上浪費時間。 如果一個URL反覆改了都沒效果，大概率已經被分配到低tier了。把同樣的精力花在新頁面上，ROI更高。

預防遠比修復有效。 從第一篇內容開始就做對，建立正迴圈，遠比等站點出了問題再去救要高效得多。

鴨老師SEO

獨立Google SEO專家，ylsseo.com創始人，基於Google專利、IR與API Leak解讀排名機制，中文SEO啟蒙第一人。