Google 算法泄露深度分析

⚠ 阅读前四个重要声明

1. 信息时效性: Mike King 的分析基于 2024 年 3 月泄露的文档,现在是 2026 年,相关算法大概率已迭代。本文机制应作为 “Google 可能这样工作” 的参考,不是 “Google 现在这样工作” 的定论。

2. King 原文的不确定性: King 本人在原文多次使用 “I suspect”、”probably”、”likely”——他自己都承认这是推测。

3. 字段存在 ≠ 排名因素: Google 2024 年 5 月官方回应原话:”不要根据 out-of-context、outdated、incomplete 信息做推断”。Content Warehouse API 里有 14,014 个字段,绝大部分字段真实存在,但字段具体是否用于排名、权重多少、触发条件,Google 从未公开。

4. 本文仅作认知补充,不是执行清单。 任何 SEO 决策都应该基于数据 + 多维度诊断。

一、事件背景

时间线

2024 年 3 月 13 日: Google 内部自动化机器人 yoshi-code-bot 在 GitHub 上公开推送 Content Warehouse API 内部文档(因 Apache 2.0 开源协议)
2024 年 3 月 27 日: 相关代码被 commit(泄露窗口开始)
2024 年 5 月 5 日: SEO 从业者 Erfan Azimi 发现并转给 Rand Fishkin
2024 年 5 月 7 日: Google 发现并删除仓库
2024 年 5 月 27 日: Rand Fishkin 和 Mike King 公开发表分析
2024 年 5 月 29 日: Google 官方回应——不否认,但声称 “out-of-context, outdated, or incomplete”
2024 年 10 月(DOJ 庭审): Pandu Nayak 证词确认 NavBoost、13 个月窗口、点击信号用于排名

规模

2596 个模块,14014 个属性——不是 “200 个排名因素”,是几千个数据存储点。

重要边界

King 反复强调:泄露的是 Google 存什么数据,不是怎么加权打分。我们知道 Google 在看什么,但不知道这些数据在最终排名里权重多少。

二、三个 Google 官方说法被当场揭穿

1. Google 没有 “Domain Authority”

Google 公开说过的:

Gary Illyes(2016):”we don’t really have ‘overall domain authority'”
John Mueller:”we don’t have website authority score”

泄露文档:

siteAuthority: integer
converted from quality_nsr.SiteAuthority, applied in Qstar

Google 确实有整站权威度指标,在 Q* 排名系统里使用。DOJ 庭审 Pandu Nayak 也直接提到 Q*。

注意: siteAuthority ≠ Moz DA 或 Ahrefs DR。King 表态:”We do not know specifically how this measure is computed or used in the downstream scoring functions.”

2. Google 不用点击做排名

Google 公开说过的:

Gary Illyes:”using clicks directly in rankings would be a mistake”
Illyes 曾公开嘲讽 Rand Fishkin:”dwell time、CTR 都是 made up crap”

泄露文档 + DOJ 庭审:

存在 NavBoost 系统——专门用点击信号做 re-ranking。

NavBoost 里的点击指标:

badClicks(坏点击)
goodClicks(有效点击)
lastLongestClicks(最长停留的点击)
unsquashedClicks(未归一化的原始点击)
impressions(展示次数)
unicornClicks

DOJ 庭审 Pandu Nayak 证词确认:

NavBoost 从 2005 年 就在用
曾经用 18 个月滚动点击数据,2017 年后改为 13 个月
按 subdomain / root domain / URL 三个层级分别打分
按国家和设备分别存储

⚠ 注意: NavBoost 是 re-ranking 层,不是初始排名。Pandu Nayak 原话:”Remember, you get Navboost only after they’re retrieved in the first place.” 先有传统信号把你选进候选池,NavBoost 再重新排序。

3. Google 不用 Chrome 数据

Google 公开说过的:

Matt Cutts:Google 不用 Chrome 数据做排名
John Mueller 多次重申

泄露文档:

chromeInTotal——整站级别的 Chrome 访问量
Sitelinks 生成模块里也有 Chrome 相关属性
2016 年 Google 内部 RealTime Boost 系统的 PPT 明确提到 “Chrome Visits (soon)”

三、Google Search 的真实架构

核心认知:不是一个算法,是 100+ 个微服务叠加

概念上我们说 “Google 算法”——实际上是几十个微服务各自处理特定信号,在 SuperRoot(大脑)统筹下组成最终 SERP。

关键系统清单

系统名	作用	阶段
Trawler	爬虫系统	Crawling
Alexandria	核心索引系统	Indexing
SegIndexer	把文档分层存储到不同 tier	Indexing
TeraGoogle	长期存储的二级索引(冷数据)	Indexing
HtmlrenderWebkitHeadless	JavaScript 页面渲染系统	Rendering
LinkExtractor	从页面提取链接	Processing
WebMirror	canonicalization 和去重	Processing
Mustang	主评分、排名、服务系统	Ranking
Ascorer	Mustang 里的主排名算法	Ranking
NavBoost	基于点击行为的 re-ranking	Twiddler
FreshnessTwiddler	基于新鲜度的 re-ranking	Twiddler
SuperRoot	大脑——统筹所有系统和 re-ranking	Serving
SnippetBrain	生成 SERP 片段	Serving
Glue	整合通用搜索结果(图片/视频/本地)	Serving

关键概念:Twiddlers(改手系统)

Twiddler 是 Ascorer 主算法跑完后的 re-ranking 函数。

类比:像 WordPress 的 filter hook——主算法先排基础序,然后各种 Twiddler 依次微调。

所有 -Boost 结尾的系统都是 Twiddler。

四、Panda 算法:King 的推导

King 基于 Google 专利 US8682892B1 和泄露文档推导出:

M = IL / RQ

M  = Panda 修正因子
IL = Independent Links(独立外链域名数)
RQ = Reference Queries(参考查询数 = NavBoost 的点击查询)

学术争议: 专利名字是 “Ranking Search Results”,不是 “Panda”。Navneet Panda 是发明人之一不代表这是 Panda 算法。

King + Bill Slawski 派:认为这是 Panda 的底层机制
Roger Montti(Search Engine Journal)反对派:认为 Panda 是基于 classifier 的内容分类算法,这个专利与 Panda 无关

真相: 这是 SEO 圈内的观点分歧,不是确定事实。

Panda 可作用层级

专利文字显示 Panda 修正因子可在域名、子域名、子目录三个层级应用。

Baby Panda

泄露文档里出现 “baby panda” 和 “babyPandaV2Demotion” 字段。King 推测是 Panda 的早期/简化版本。

五、Demotion 机制——字段存在但解读需要谨慎

⚠ 重要说明: Google 官方从未把以下机制明确定义为 “demotion”。”Demotion” 这个标签大多是 SEO 博客对字段的解读。字段真实,但”被 demote”的具体条件和影响程度都是推测。

1. Anchor Mismatch(锚文本不匹配)

字段 anchorMismatchDemotion 真实存在。King 的解读:外链锚文本和目标页面主题不匹配时链接被 demote。

2. SERP Demotion(搜索结果行为降级)

字段 serpDemotion 真实,applied in Qstar。机制与 NavBoost 的 goodClicks/badClicks/lastLongestClicks 相关联。

3. Nav Demotion(导航降级)

字段真实。机制:针对糟糕的网站导航和 UX。具体识别指标未公开。

4. Link Demotions

六、链接相关的发现

1. 索引层级决定链接价值(sourceType)

Google 的索引分三层,由 Gary Illyes 在 Search Off The Record 播客亲口确认:

Flash 存储(top tier)——最重要、频繁更新的内容
SSD(middle tier)——次要内容
普通硬盘(bottom tier / supplemental)——很少更新的内容
TYPE_FRESHDOCS——新鲜内容特殊层

sourceType 字段标记链接源的 tier:TYPE_HIGH_QUALITY / TYPE_MEDIUM_QUALITY / TYPE_LOW_QUALITY。

2. Google 只看最近 20 次页面修改

urlHistory: 保留所有修改历史
但分析链接时只考虑最后 20 个版本

3. Homepage PageRank 影响每个页面

每个文档都关联着它首页的 PageRank(homepagePagerankNs)——新页面可能用首页 PageRank 作代理,直到自己积累起 PageRank。

4. Homepage Trust 有四级

homePageInfo 枚举值:
- NOT_HOMEPAGE
- NOT_TRUSTED
- PARTIALLY_TRUSTED
- FULLY_TRUSTED

5. Font Size 和加粗文字被追踪

avgTermWeight——正文里关键词的平均加权字号
锚文本有 fontsize 字段

6. Disavow 数据不在核心 ranking system 里

搜索整个 API 文档——没有任何 “disavow” 相关字段。

King 的推测:Disavow 可能是”众包 spam 分类器训练数据”——但 King 自己承认这是 “my long-term assumption“——是推测,不是 confirmed。

7. 链接两端都查 relevance

Google 在判断链接价值时,同时看源页面和目标页面的主题相关性。

8. 文档会被截断(numTokens)

Mustang 系统有最大 token 限制。

原文:”we drop some tokens in mustang and also truncate docs at a max cap”

9. PageRank 依然重要

文档里有 pagerankNs(Nearest Seed PageRank)等多个变体。

2024 年 SEO 圈盛传”链接不重要了”——这是错的。链接依然是核心信号。

七、内容质量相关发现

1. OriginalContentScore

OriginalContentScore: 0-127(存储为 7-bit)
实际范围 0-512(经压缩编码)
Only pages with little content have this field

只有”少内容”页面才会被打 OriginalContentScore。长内容走另一条路径。

2. Keyword Stuffing Score 存在

有对应的关键词堆砌扣分机制。

3. titlematchScore——标题匹配查询度

titlematchScore: Titlematch score of the site, 
a signal that tells how well titles are matching user queries.

4. 没有字符数限制指标

Gary Illyes 曾说 “SEOs 发明了最优字符数”——泄露文档证实了这点。

唯一的字符计数字段是 snippetPrefixCharCount(用于决定片段前缀)。

5. 日期信号有三个维度

bylineDate:页面明确标注的发布日期
syntacticDate:从 URL 或标题里提取的日期
semanticDate:从正文内容、锚文本、相关文档推断的日期

6. 域名注册信息 Google 存着

RegistrationInfo {
  createdDate: 首次注册日期(相对 1995-01-01 的天数)
  expiredDate: 最后过期日期
}

7. Video Focused Site 特殊处理

isVideoFocusedSite: true if > 50% of URLs have watch pages

8. YMYL 在 chunk 级别打分

ymylHealthScore
ymylNewsScore
encodedChardXlqYmylPrediction

YMYL 是在内容 chunk(段落/块)级别打分的——Google 用 embeddings 把内容切块,每块单独判断。

9. Gold Standard Documents

golden: boolean
Flag for indicating that the document is a gold-standard document.

某些文档被人工标记为”金标准”——在训练中获得额外权重。King 推测可能与 Quality Raters 有关,但没有直接证据连接两者。

八、其他机制

Whitelist 机制

Google 对特定敏感话题有白名单:

选举内容(isElectionAuthority)
COVID-19(isCovidLocalAuthority)
旅游(有专门标记)

Sandbox 的真实情况

hostAge: "used to sandbox fresh spam in serving time"

字段描述原文是 “sandbox fresh spam“——不是 “sandbox all new sites”。

Google 官方说”没有 sandbox”不完全是谎言——确实没有”所有新站的 sandbox”。hostAge 是针对 fresh spam 的 sandbox 机制。

smallPersonalSite

smallPersonalSite: Score of small personal site promotion
go/promoting-personal-blogs-v1

注意:字段描述里出现的是 “promotion”(提升),不是 “demotion”(降级)。 字段真实,但具体用途未公开,多家 SEO 分析表示 “Unclear what this is used for”。

九、Mike King 的文末三条建议

1. 不要盲信 Google 官方发言

“Google spokespeople are well-meaning, but can we trust them? The quick answer is not when you get too close to the secret sauce.”

2. 真正的排名是多层叠加,不是单一算法

Ascorer(主算法)+ 多层 Twiddlers(Panda、NavBoost、QualityBoost…)叠加的结果。

3. 重新评估你的外链策略

“It is a very good time to reconsider your link building programs based on everything you’ve just read.”

更多整理的一手信息来源：2026谷歌seo排名

鸭老师SEO

独立Google SEO专家，ylsseo.com创始人，基于Google专利、IR与API Leak解读排名机制，中文SEO启蒙第一人。

Google 算法泄露深度分析

⚠ 阅读前四个重要声明

一、事件背景

时间线

规模

重要边界

二、三个 Google 官方说法被当场揭穿

1. Google 没有 “Domain Authority”

2. Google 不用点击做排名

3. Google 不用 Chrome 数据

三、Google Search 的真实架构

核心认知:不是一个算法,是 100+ 个微服务叠加

关键系统清单

关键概念:Twiddlers(改手系统)

四、Panda 算法:King 的推导

Panda 可作用层级

Baby Panda

五、Demotion 机制——字段存在但解读需要谨慎

1. Anchor Mismatch(锚文本不匹配)

2. SERP Demotion(搜索结果行为降级)

3. Nav Demotion(导航降级)

4. Link Demotions

六、链接相关的发现

1. 索引层级决定链接价值(sourceType)

2. Google 只看最近 20 次页面修改

3. Homepage PageRank 影响每个页面

4. Homepage Trust 有四级

5. Font Size 和加粗文字被追踪

6. Disavow 数据不在核心 ranking system 里

7. 链接两端都查 relevance

8. 文档会被截断(numTokens)

9. PageRank 依然重要

七、内容质量相关发现

1. OriginalContentScore

2. Keyword Stuffing Score 存在

3. titlematchScore——标题匹配查询度

4. 没有字符数限制指标

5. 日期信号有三个维度

6. 域名注册信息 Google 存着

7. Video Focused Site 特殊处理

8. YMYL 在 chunk 级别打分

9. Gold Standard Documents

八、其他机制

Whitelist 机制

Sandbox 的真实情况

smallPersonalSite

九、Mike King 的文末三条建议

1. 不要盲信 Google 官方发言

2. 真正的排名是多层叠加,不是单一算法

3. 重新评估你的外链策略

相关文章