⚠ 阅读前四个重要声明
1. 信息时效性: Mike King 的分析基于 2024 年 3 月泄露的文档,现在是 2026 年,相关算法大概率已迭代。本文机制应作为 “Google 可能这样工作” 的参考,不是 “Google 现在这样工作” 的定论。
2. King 原文的不确定性: King 本人在原文多次使用 “I suspect”、”probably”、”likely”——他自己都承认这是推测。
3. 字段存在 ≠ 排名因素: Google 2024 年 5 月官方回应原话:”不要根据 out-of-context、outdated、incomplete 信息做推断”。Content Warehouse API 里有 14,014 个字段,绝大部分字段真实存在,但字段具体是否用于排名、权重多少、触发条件,Google 从未公开。
4. 本文仅作认知补充,不是执行清单。 任何 SEO 决策都应该基于数据 + 多维度诊断。
一、事件背景
时间线
- 2024 年 3 月 13 日: Google 内部自动化机器人 yoshi-code-bot 在 GitHub 上公开推送 Content Warehouse API 内部文档(因 Apache 2.0 开源协议)
- 2024 年 3 月 27 日: 相关代码被 commit(泄露窗口开始)
- 2024 年 5 月 5 日: SEO 从业者 Erfan Azimi 发现并转给 Rand Fishkin
- 2024 年 5 月 7 日: Google 发现并删除仓库
- 2024 年 5 月 27 日: Rand Fishkin 和 Mike King 公开发表分析
- 2024 年 5 月 29 日: Google 官方回应——不否认,但声称 “out-of-context, outdated, or incomplete”
- 2024 年 10 月(DOJ 庭审): Pandu Nayak 证词确认 NavBoost、13 个月窗口、点击信号用于排名
规模
2596 个模块,14014 个属性——不是 “200 个排名因素”,是几千个数据存储点。
重要边界
King 反复强调:泄露的是 Google 存什么数据,不是怎么加权打分。我们知道 Google 在看什么,但不知道这些数据在最终排名里权重多少。
二、三个 Google 官方说法被当场揭穿
1. Google 没有 “Domain Authority”
Google 公开说过的:
- Gary Illyes(2016):”we don’t really have ‘overall domain authority'”
- John Mueller:”we don’t have website authority score”
泄露文档:
siteAuthority: integer
converted from quality_nsr.SiteAuthority, applied in Qstar
Google 确实有整站权威度指标,在 Q* 排名系统里使用。DOJ 庭审 Pandu Nayak 也直接提到 Q*。
注意: siteAuthority ≠ Moz DA 或 Ahrefs DR。King 表态:”We do not know specifically how this measure is computed or used in the downstream scoring functions.”
2. Google 不用点击做排名
Google 公开说过的:
- Gary Illyes:”using clicks directly in rankings would be a mistake”
- Illyes 曾公开嘲讽 Rand Fishkin:”dwell time、CTR 都是 made up crap”
泄露文档 + DOJ 庭审:
存在 NavBoost 系统——专门用点击信号做 re-ranking。
NavBoost 里的点击指标:
- badClicks(坏点击)
- goodClicks(有效点击)
- lastLongestClicks(最长停留的点击)
- unsquashedClicks(未归一化的原始点击)
- impressions(展示次数)
- unicornClicks
DOJ 庭审 Pandu Nayak 证词确认:
- NavBoost 从 2005 年 就在用
- 曾经用 18 个月滚动点击数据,2017 年后改为 13 个月
- 按 subdomain / root domain / URL 三个层级分别打分
- 按国家和设备分别存储
⚠ 注意: NavBoost 是 re-ranking 层,不是初始排名。Pandu Nayak 原话:”Remember, you get Navboost only after they’re retrieved in the first place.” 先有传统信号把你选进候选池,NavBoost 再重新排序。
3. Google 不用 Chrome 数据
Google 公开说过的:
- Matt Cutts:Google 不用 Chrome 数据做排名
- John Mueller 多次重申
泄露文档:
- chromeInTotal——整站级别的 Chrome 访问量
- Sitelinks 生成模块里也有 Chrome 相关属性
- 2016 年 Google 内部 RealTime Boost 系统的 PPT 明确提到 “Chrome Visits (soon)”
三、Google Search 的真实架构
核心认知:不是一个算法,是 100+ 个微服务叠加
概念上我们说 “Google 算法”——实际上是几十个微服务各自处理特定信号,在 SuperRoot(大脑)统筹下组成最终 SERP。
关键系统清单
| 系统名 | 作用 | 阶段 |
|---|---|---|
| Trawler | 爬虫系统 | Crawling |
| Alexandria | 核心索引系统 | Indexing |
| SegIndexer | 把文档分层存储到不同 tier | Indexing |
| TeraGoogle | 长期存储的二级索引(冷数据) | Indexing |
| HtmlrenderWebkitHeadless | JavaScript 页面渲染系统 | Rendering |
| LinkExtractor | 从页面提取链接 | Processing |
| WebMirror | canonicalization 和去重 | Processing |
| Mustang | 主评分、排名、服务系统 | Ranking |
| Ascorer | Mustang 里的主排名算法 | Ranking |
| NavBoost | 基于点击行为的 re-ranking | Twiddler |
| FreshnessTwiddler | 基于新鲜度的 re-ranking | Twiddler |
| SuperRoot | 大脑——统筹所有系统和 re-ranking | Serving |
| SnippetBrain | 生成 SERP 片段 | Serving |
| Glue | 整合通用搜索结果(图片/视频/本地) | Serving |
关键概念:Twiddlers(改手系统)
Twiddler 是 Ascorer 主算法跑完后的 re-ranking 函数。
类比:像 WordPress 的 filter hook——主算法先排基础序,然后各种 Twiddler 依次微调。
所有 -Boost 结尾的系统都是 Twiddler。
四、Panda 算法:King 的推导
King 基于 Google 专利 US8682892B1 和泄露文档推导出:
M = IL / RQ
M = Panda 修正因子
IL = Independent Links(独立外链域名数)
RQ = Reference Queries(参考查询数 = NavBoost 的点击查询)
学术争议: 专利名字是 “Ranking Search Results”,不是 “Panda”。Navneet Panda 是发明人之一不代表这是 Panda 算法。
- King + Bill Slawski 派:认为这是 Panda 的底层机制
- Roger Montti(Search Engine Journal)反对派:认为 Panda 是基于 classifier 的内容分类算法,这个专利与 Panda 无关
真相: 这是 SEO 圈内的观点分歧,不是确定事实。
Panda 可作用层级
专利文字显示 Panda 修正因子可在域名、子域名、子目录三个层级应用。
Baby Panda
泄露文档里出现 “baby panda” 和 “babyPandaV2Demotion” 字段。King 推测是 Panda 的早期/简化版本。
五、Demotion 机制——字段存在但解读需要谨慎
⚠ 重要说明: Google 官方从未把以下机制明确定义为 “demotion”。”Demotion” 这个标签大多是 SEO 博客对字段的解读。字段真实,但”被 demote”的具体条件和影响程度都是推测。
1. Anchor Mismatch(锚文本不匹配)
字段 anchorMismatchDemotion 真实存在。King 的解读:外链锚文本和目标页面主题不匹配时链接被 demote。
2. SERP Demotion(搜索结果行为降级)
字段 serpDemotion 真实,applied in Qstar。机制与 NavBoost 的 goodClicks/badClicks/lastLongestClicks 相关联。
3. Nav Demotion(导航降级)
字段真实。机制:针对糟糕的网站导航和 UX。具体识别指标未公开。
4. Link Demotions
相关字段全部真实:
phraseAnchorSpamDaysdroppedLocalAnchorCountLINK_SPAM_PHRASE_SPIKE
⚠ 注意事项:
- “Penguin 机制”是过时类比 — Penguin 2016 年已整合进 Core Algorithm,不再独立运行
- 字段具体触发条件、影响权重,Google 从未公开
- SEO 博客的具体机制解读(如”短期大量相似锚文本涌入→降级”)是推测
六、链接相关的发现
1. 索引层级决定链接价值(sourceType)
Google 的索引分三层,由 Gary Illyes 在 Search Off The Record 播客亲口确认:
- Flash 存储(top tier)——最重要、频繁更新的内容
- SSD(middle tier)——次要内容
- 普通硬盘(bottom tier / supplemental)——很少更新的内容
- TYPE_FRESHDOCS——新鲜内容特殊层
sourceType 字段标记链接源的 tier:TYPE_HIGH_QUALITY / TYPE_MEDIUM_QUALITY / TYPE_LOW_QUALITY。
2. Google 只看最近 20 次页面修改
urlHistory: 保留所有修改历史
但分析链接时只考虑最后 20 个版本
3. Homepage PageRank 影响每个页面
每个文档都关联着它首页的 PageRank(homepagePagerankNs)——新页面可能用首页 PageRank 作代理,直到自己积累起 PageRank。
4. Homepage Trust 有四级
homePageInfo 枚举值:
- NOT_HOMEPAGE
- NOT_TRUSTED
- PARTIALLY_TRUSTED
- FULLY_TRUSTED
5. Font Size 和加粗文字被追踪
- avgTermWeight——正文里关键词的平均加权字号
- 锚文本有 fontsize 字段
6. Disavow 数据不在核心 ranking system 里
搜索整个 API 文档——没有任何 “disavow” 相关字段。
King 的推测:Disavow 可能是”众包 spam 分类器训练数据”——但 King 自己承认这是 “my long-term assumption“——是推测,不是 confirmed。
7. 链接两端都查 relevance
Google 在判断链接价值时,同时看源页面和目标页面的主题相关性。
8. 文档会被截断(numTokens)
Mustang 系统有最大 token 限制。
原文:”we drop some tokens in mustang and also truncate docs at a max cap”
9. PageRank 依然重要
文档里有 pagerankNs(Nearest Seed PageRank)等多个变体。
2024 年 SEO 圈盛传”链接不重要了”——这是错的。链接依然是核心信号。
七、内容质量相关发现
1. OriginalContentScore
OriginalContentScore: 0-127(存储为 7-bit)
实际范围 0-512(经压缩编码)
Only pages with little content have this field
只有”少内容”页面才会被打 OriginalContentScore。长内容走另一条路径。
2. Keyword Stuffing Score 存在
有对应的关键词堆砌扣分机制。
3. titlematchScore——标题匹配查询度
titlematchScore: Titlematch score of the site,
a signal that tells how well titles are matching user queries.
4. 没有字符数限制指标
Gary Illyes 曾说 “SEOs 发明了最优字符数”——泄露文档证实了这点。
唯一的字符计数字段是 snippetPrefixCharCount(用于决定片段前缀)。
5. 日期信号有三个维度
- bylineDate:页面明确标注的发布日期
- syntacticDate:从 URL 或标题里提取的日期
- semanticDate:从正文内容、锚文本、相关文档推断的日期
6. 域名注册信息 Google 存着
RegistrationInfo {
createdDate: 首次注册日期(相对 1995-01-01 的天数)
expiredDate: 最后过期日期
}
7. Video Focused Site 特殊处理
isVideoFocusedSite: true if > 50% of URLs have watch pages
8. YMYL 在 chunk 级别打分
- ymylHealthScore
- ymylNewsScore
- encodedChardXlqYmylPrediction
YMYL 是在内容 chunk(段落/块)级别打分的——Google 用 embeddings 把内容切块,每块单独判断。
9. Gold Standard Documents
golden: boolean
Flag for indicating that the document is a gold-standard document.
某些文档被人工标记为”金标准”——在训练中获得额外权重。King 推测可能与 Quality Raters 有关,但没有直接证据连接两者。
八、其他机制
Whitelist 机制
Google 对特定敏感话题有白名单:
- 选举内容(isElectionAuthority)
- COVID-19(isCovidLocalAuthority)
- 旅游(有专门标记)
Sandbox 的真实情况
hostAge: "used to sandbox fresh spam in serving time"
字段描述原文是 “sandbox fresh spam“——不是 “sandbox all new sites”。
Google 官方说”没有 sandbox”不完全是谎言——确实没有”所有新站的 sandbox”。hostAge 是针对 fresh spam 的 sandbox 机制。
smallPersonalSite
smallPersonalSite: Score of small personal site promotion
go/promoting-personal-blogs-v1
注意:字段描述里出现的是 “promotion”(提升),不是 “demotion”(降级)。 字段真实,但具体用途未公开,多家 SEO 分析表示 “Unclear what this is used for”。
九、Mike King 的文末三条建议
1. 不要盲信 Google 官方发言
“Google spokespeople are well-meaning, but can we trust them? The quick answer is not when you get too close to the secret sauce.”
2. 真正的排名是多层叠加,不是单一算法
Ascorer(主算法)+ 多层 Twiddlers(Panda、NavBoost、QualityBoost…)叠加的结果。
3. 重新评估你的外链策略
“It is a very good time to reconsider your link building programs based on everything you’ve just read.”
更多整理的一手信息来源:2026谷歌seo排名
独立Google SEO专家,ylsseo.com创始人,基于Google专利与API Leak解读排名机制,中文SEO启蒙第一人。