很多站长都经历过这样的场景:一篇文章发出去没排名,改了标题,换了slug,重写了内容,还是没排名。然后开始怀疑是不是crawl budget不够,是不是sitemap没提交,是不是服务器太慢。
其实问题根本不在这些地方。
Google的索引不是一个平面,而是分层的
大部分人理解的Google索引是一个大数据库,你的页面进去了就有机会排名。但事实上,鸭老师通过解读专利发现Google的索引是分层的,页面被分配到不同的层级(tier),不同层级获得的排名机会天差地别。
三层索引:从专利到Leak的完整拼图
这个分层机制不是猜测,而是有两层证据支撑的。
早在2004年,Google就申请了关于索引分区的专利(Index partitioning based on document relevance),明确描述了文档按照静态排名(static rank)进行排序和分区的机制——查询时从最高分区开始搜索,当已有结果的质量分数足够高时,直接停止,不再搜索更低的分区。Bill Slawski在SEO by the Sea上解读过同期的另一个关键专利——Anna Patterson的phrase-based indexing,其中phrase posting list被分成tiered groups和sharded partitions,不同tier的index server存储不同优先级的内容。
2024年泄露的Google Content Warehouse API文档进一步揭示了这套分层系统的内部名称。负责索引分层的系统叫SegIndexer,它将抓取到的页面分配到三个层级:
- Base(基础层)——高质量页面进入这一层,这是参与排名的主力索引。当用户发起查询时,Google首先在这一层搜索。绝大多数搜索结果来自这里。
- Zeppelin(齐柏林飞艇层)——中等质量的页面。只有当基础层的结果不够用时,查询才会扩展到这一层。你的页面在这一层意味着有排名机会,但机会大幅减少。
- Landfill(垃圾填埋场)——低质量、重复、thin content被扔进这里。进入填埋场的页面在排名过程开始之前就已经被取消资格。 这也解释了Google Search Console里”已抓取-未编入索引”(Crawled – currently not indexed)的现象——页面被抓取了,但被SegIndexer判定为不值得进入主索引,直接扔进了填埋场。
翻译成人话就是:如果你的页面被扔进了Landfill,无论你怎么改标题、换slug、重写内容,它都不会出现在搜索结果里,因为Google在排名这一步根本不会搜索那一层。
Google官方早在2007年就取消了”supplemental results”的标签,但从来没有取消分层索引的机制本身。标签没了,机制还在——而且Leak证明这套系统比我们之前理解的更加精细和冷酷。
决定你在哪一层的,不只是页面质量
很多人以为是单篇内容的质量决定了页面被分到哪一层。不完全是。
专利里说得很清楚,static rank可以基于链接数量,也可以基于文档被历史查询访问的次数。但这个static rank不只是页面级别的——站点整体的信号会影响新页面的初始分配。
如果一个站长期产出低质量内容,它的整站信号就弱——外链少、用户行为差、历史点击低。当这个站发布新页面时,Google的crawler分配给它的抓取频率就低。即使抓到了,新页面继承的站点级static rank也低,大概率被初始分配到低tier。
反过来,高权重站发一篇普通内容都能快速获得排名。它的站点级static rank高,新页面默认就被分配到较高的tier,获得更多曝光机会,用户行为数据进一步强化这个位置。
这是一个自我强化的循环,正的越来越正,负的越来越负。
“Crawl Budget不够”是一个错误诊断
行业里很多人把”我的页面没排名”归因为”crawl budget不够”——然后去优化robots.txt、清理参数URL、提交sitemap。
但真正的瓶颈不在抓取层,在serving层。Google可能抓了你的页面,甚至索引了,但分配到了低tier。你优化再多的crawl budget都没用,因为问题根本不在那里。
Google来抓了,看了,觉得不行,扔进低tier。你让它多来抓几次,它来了还是觉得不行,结果一样。
真正起作用的是改变static rank的底层信号——外链质量、用户行为、内容质量、站点整体的authority积累。这些才是决定页面被分到哪个tier的东西。
把serving tier的分区问题错误诊断成crawling阶段的资源分配问题,是治错了病。
一开始错,就会一直错
这套分层逻辑最残酷的地方在于:起点决定了轨迹。
第一篇内容质量低 → 站点初始static rank低 → 后续内容被分配到低tier → 没有曝光 → 没有用户信号 → static rank继续低 → 下一篇还是低tier。
然后站长看不到效果,开始焦虑,要么用AI批量生成内容加大产出量,要么去买垃圾外链。两个动作都在进一步强化Google对这个站的低质量判定。越挣扎陷得越深。
如果整站一直以来的内容都相对低质量,那就算发新页面、用新slug,也会被优先放进低tier。因为Google对这个站的站点级判定已经形成了,新页面继承的是整站的”信用额度”。
HCU的本质就是站点级的tier重新分配
2023年9月的Helpful Content Update(HCU),本质上就是一个站点级分类器——整站一旦被标记为”unhelpful”,所有页面的static rank基线被整体压低,相当于整站被重新分配到了更低的serving tier。
这不是某篇文章被惩罚了,是整个站被降级了。新内容也跟着被拖下去。
恢复有多难?Glenn Gabe追踪了近400个被HCU打击的站,数据是这样的:
- 2023年9月:被打击,流量暴跌70%+
- 2024年8月(一年后):只有22%出现了20%以上的流量提升,完全恢复的被Glenn称为”anomaly”(异常值)
- 2025年6月(将近两年后):部分站在核心更新中才终于开始回升,有些是从完全没有可见度的状态回来的
- 即便恢复,很多站也没有回到2023年之前的水平
将近两年,大部分站永远没回来。
更讽刺的是,很多最终恢复的站根本没做任何改动——只是降低了发布频率或减少了广告密度。本质上是Google自己的算法改进了,重新评估了这些站。也就是说,你做了大量”修复”工作,可能还不如什么都不做等算法迭代。
低tier不是死刑,但翻盘成本极高
分层索引不是一个绝对的二元判定。页面不是”进了低tier就永远死了”,而是爬出来的成本和周期不同。
如果页面本身没什么问题,只是发布初期信号太弱——没内链、没外链、没点击——它可能只是暂时沉在低tier。这时候补上内链、获得一些真实的用户信号,是有可能被重新提升的。
但如果是内容本身被判定为thin content或者跟站内其他页面高度重复,那被压下去的判定就更”硬”。你改了内容,但Google可能很久才来重新看一眼,因为低tier页面获得的crawl频率本身就低。
唯一能让低tier页面批量翻身的情况是整站权重大幅提升——整个站的static rank baseline上移,带动低分区页面被重新评估。但这需要时间,以年为单位。
所以不是技术上不可能救,而是ROI通常不如把同样的精力花在新页面上。
正确的做法
理解了分层索引的逻辑,正确的做法就很清晰了:
发布前做SERP分析。 确保每一篇内容发出去的时候就有足够的竞争力,不会在第一次评估时就被扔进低tier。第一印象定了基调,后面翻盘的成本是指数级增长的。
先把站点级信号拉上来。 不要一上来就追求内容数量。先用少量高质量内容加外链建设把站点的整体authority建立起来,等”信用额度”提升了,后续内容的起点才会更高。
不要在已经被判死刑的页面上浪费时间。 如果一个URL反复改了都没效果,大概率已经被分配到低tier了。把同样的精力花在新页面上,ROI更高。
预防远比修复有效。 从第一篇内容开始就做对,建立正循环,远比等站点出了问题再去救要高效得多。
独立Google SEO专家,ylsseo.com创始人,基于Google专利与API Leak解读排名机制,中文SEO启蒙第一人。