Google 算法泄露深度分析

⚠ 阅读前四个重要声明

1. 信息时效性: Mike King 的分析基于 2024 年 3 月泄露的文档,现在是 2026 年,相关算法大概率已迭代。本文机制应作为 “Google 可能这样工作” 的参考,不是 “Google 现在这样工作” 的定论。

2. King 原文的不确定性: King 本人在原文多次使用 “I suspect”、”probably”、”likely”——他自己都承认这是推测。

3. 字段存在 ≠ 排名因素: Google 2024 年 5 月官方回应原话:”不要根据 out-of-context、outdated、incomplete 信息做推断”。Content Warehouse API 里有 14,014 个字段,绝大部分字段真实存在,但字段具体是否用于排名、权重多少、触发条件,Google 从未公开

4. 本文仅作认知补充,不是执行清单。 任何 SEO 决策都应该基于数据 + 多维度诊断。

一、事件背景

时间线

  • 2024 年 3 月 13 日: Google 内部自动化机器人 yoshi-code-bot 在 GitHub 上公开推送 Content Warehouse API 内部文档(因 Apache 2.0 开源协议)
  • 2024 年 3 月 27 日: 相关代码被 commit(泄露窗口开始)
  • 2024 年 5 月 5 日: SEO 从业者 Erfan Azimi 发现并转给 Rand Fishkin
  • 2024 年 5 月 7 日: Google 发现并删除仓库
  • 2024 年 5 月 27 日: Rand Fishkin 和 Mike King 公开发表分析
  • 2024 年 5 月 29 日: Google 官方回应——不否认,但声称 “out-of-context, outdated, or incomplete”
  • 2024 年 10 月(DOJ 庭审): Pandu Nayak 证词确认 NavBoost、13 个月窗口、点击信号用于排名

规模

2596 个模块,14014 个属性——不是 “200 个排名因素”,是几千个数据存储点。

重要边界

King 反复强调:泄露的是 Google 存什么数据,不是怎么加权打分。我们知道 Google 在看什么,但不知道这些数据在最终排名里权重多少。

二、三个 Google 官方说法被当场揭穿

1. Google 没有 “Domain Authority”

Google 公开说过的:

  • Gary Illyes(2016):”we don’t really have ‘overall domain authority'”
  • John Mueller:”we don’t have website authority score”

泄露文档:

siteAuthority: integer
converted from quality_nsr.SiteAuthority, applied in Qstar

Google 确实有整站权威度指标,在 Q* 排名系统里使用。DOJ 庭审 Pandu Nayak 也直接提到 Q*。

注意: siteAuthority ≠ Moz DA 或 Ahrefs DR。King 表态:”We do not know specifically how this measure is computed or used in the downstream scoring functions.”

2. Google 不用点击做排名

Google 公开说过的:

  • Gary Illyes:”using clicks directly in rankings would be a mistake”
  • Illyes 曾公开嘲讽 Rand Fishkin:”dwell time、CTR 都是 made up crap”

泄露文档 + DOJ 庭审:

存在 NavBoost 系统——专门用点击信号做 re-ranking。

NavBoost 里的点击指标:

  • badClicks(坏点击)
  • goodClicks(有效点击)
  • lastLongestClicks(最长停留的点击)
  • unsquashedClicks(未归一化的原始点击)
  • impressions(展示次数)
  • unicornClicks

DOJ 庭审 Pandu Nayak 证词确认:

  • NavBoost 从 2005 年 就在用
  • 曾经用 18 个月滚动点击数据,2017 年后改为 13 个月
  • 按 subdomain / root domain / URL 三个层级分别打分
  • 按国家和设备分别存储

⚠ 注意: NavBoost 是 re-ranking 层,不是初始排名。Pandu Nayak 原话:”Remember, you get Navboost only after they’re retrieved in the first place.” 先有传统信号把你选进候选池,NavBoost 再重新排序。

3. Google 不用 Chrome 数据

Google 公开说过的:

  • Matt Cutts:Google 不用 Chrome 数据做排名
  • John Mueller 多次重申

泄露文档:

  • chromeInTotal——整站级别的 Chrome 访问量
  • Sitelinks 生成模块里也有 Chrome 相关属性
  • 2016 年 Google 内部 RealTime Boost 系统的 PPT 明确提到 “Chrome Visits (soon)”

三、Google Search 的真实架构

核心认知:不是一个算法,是 100+ 个微服务叠加

概念上我们说 “Google 算法”——实际上是几十个微服务各自处理特定信号,在 SuperRoot(大脑)统筹下组成最终 SERP。

关键系统清单

系统名作用阶段
Trawler爬虫系统Crawling
Alexandria核心索引系统Indexing
SegIndexer把文档分层存储到不同 tierIndexing
TeraGoogle长期存储的二级索引(冷数据)Indexing
HtmlrenderWebkitHeadlessJavaScript 页面渲染系统Rendering
LinkExtractor从页面提取链接Processing
WebMirrorcanonicalization 和去重Processing
Mustang主评分、排名、服务系统Ranking
AscorerMustang 里的主排名算法Ranking
NavBoost基于点击行为的 re-rankingTwiddler
FreshnessTwiddler基于新鲜度的 re-rankingTwiddler
SuperRoot大脑——统筹所有系统和 re-rankingServing
SnippetBrain生成 SERP 片段Serving
Glue整合通用搜索结果(图片/视频/本地)Serving

关键概念:Twiddlers(改手系统)

Twiddler 是 Ascorer 主算法跑完后的 re-ranking 函数。

类比:像 WordPress 的 filter hook——主算法先排基础序,然后各种 Twiddler 依次微调。

所有 -Boost 结尾的系统都是 Twiddler。

四、Panda 算法:King 的推导

King 基于 Google 专利 US8682892B1 和泄露文档推导出:

M = IL / RQ

M  = Panda 修正因子
IL = Independent Links(独立外链域名数)
RQ = Reference Queries(参考查询数 = NavBoost 的点击查询)

学术争议: 专利名字是 “Ranking Search Results”,不是 “Panda”。Navneet Panda 是发明人之一不代表这是 Panda 算法。

  • King + Bill Slawski 派:认为这是 Panda 的底层机制
  • Roger Montti(Search Engine Journal)反对派:认为 Panda 是基于 classifier 的内容分类算法,这个专利与 Panda 无关

真相: 这是 SEO 圈内的观点分歧,不是确定事实。

Panda 可作用层级

专利文字显示 Panda 修正因子可在域名、子域名、子目录三个层级应用。

Baby Panda

泄露文档里出现 “baby panda” 和 “babyPandaV2Demotion” 字段。King 推测是 Panda 的早期/简化版本。

五、Demotion 机制——字段存在但解读需要谨慎

⚠ 重要说明: Google 官方从未把以下机制明确定义为 “demotion”。”Demotion” 这个标签大多是 SEO 博客对字段的解读。字段真实,但”被 demote”的具体条件和影响程度都是推测。

1. Anchor Mismatch(锚文本不匹配)

字段 anchorMismatchDemotion 真实存在。King 的解读:外链锚文本和目标页面主题不匹配时链接被 demote。

2. SERP Demotion(搜索结果行为降级)

字段 serpDemotion 真实,applied in Qstar。机制与 NavBoost 的 goodClicks/badClicks/lastLongestClicks 相关联。

3. Nav Demotion(导航降级)

字段真实。机制:针对糟糕的网站导航和 UX。具体识别指标未公开。

4. Link Demotions

相关字段全部真实:

  • phraseAnchorSpamDays
  • droppedLocalAnchorCount
  • LINK_SPAM_PHRASE_SPIKE

⚠ 注意事项:

  • “Penguin 机制”是过时类比 — Penguin 2016 年已整合进 Core Algorithm,不再独立运行
  • 字段具体触发条件、影响权重,Google 从未公开
  • SEO 博客的具体机制解读(如”短期大量相似锚文本涌入→降级”)是推测

六、链接相关的发现

1. 索引层级决定链接价值(sourceType)

Google 的索引分三层,由 Gary Illyes 在 Search Off The Record 播客亲口确认:

  • Flash 存储(top tier)——最重要、频繁更新的内容
  • SSD(middle tier)——次要内容
  • 普通硬盘(bottom tier / supplemental)——很少更新的内容
  • TYPE_FRESHDOCS——新鲜内容特殊层

sourceType 字段标记链接源的 tier:TYPE_HIGH_QUALITY / TYPE_MEDIUM_QUALITY / TYPE_LOW_QUALITY。

2. Google 只看最近 20 次页面修改

urlHistory: 保留所有修改历史
但分析链接时只考虑最后 20 个版本

3. Homepage PageRank 影响每个页面

每个文档都关联着它首页的 PageRank(homepagePagerankNs)——新页面可能用首页 PageRank 作代理,直到自己积累起 PageRank。

4. Homepage Trust 有四级

homePageInfo 枚举值:
- NOT_HOMEPAGE
- NOT_TRUSTED
- PARTIALLY_TRUSTED
- FULLY_TRUSTED

5. Font Size 和加粗文字被追踪

  • avgTermWeight——正文里关键词的平均加权字号
  • 锚文本有 fontsize 字段

6. Disavow 数据不在核心 ranking system 里

搜索整个 API 文档——没有任何 “disavow” 相关字段。

King 的推测:Disavow 可能是”众包 spam 分类器训练数据”——但 King 自己承认这是 “my long-term assumption“——是推测,不是 confirmed。

7. 链接两端都查 relevance

Google 在判断链接价值时,同时看源页面和目标页面的主题相关性。

8. 文档会被截断(numTokens)

Mustang 系统有最大 token 限制。

原文:”we drop some tokens in mustang and also truncate docs at a max cap”

9. PageRank 依然重要

文档里有 pagerankNs(Nearest Seed PageRank)等多个变体。

2024 年 SEO 圈盛传”链接不重要了”——这是错的。链接依然是核心信号。

七、内容质量相关发现

1. OriginalContentScore

OriginalContentScore: 0-127(存储为 7-bit)
实际范围 0-512(经压缩编码)
Only pages with little content have this field

只有”少内容”页面才会被打 OriginalContentScore。长内容走另一条路径。

2. Keyword Stuffing Score 存在

有对应的关键词堆砌扣分机制。

3. titlematchScore——标题匹配查询度

titlematchScore: Titlematch score of the site, 
a signal that tells how well titles are matching user queries.

4. 没有字符数限制指标

Gary Illyes 曾说 “SEOs 发明了最优字符数”——泄露文档证实了这点。

唯一的字符计数字段是 snippetPrefixCharCount(用于决定片段前缀)。

5. 日期信号有三个维度

  • bylineDate:页面明确标注的发布日期
  • syntacticDate:从 URL 或标题里提取的日期
  • semanticDate:从正文内容、锚文本、相关文档推断的日期

6. 域名注册信息 Google 存着

RegistrationInfo {
  createdDate: 首次注册日期(相对 1995-01-01 的天数)
  expiredDate: 最后过期日期
}

7. Video Focused Site 特殊处理

isVideoFocusedSite: true if > 50% of URLs have watch pages

8. YMYL 在 chunk 级别打分

  • ymylHealthScore
  • ymylNewsScore
  • encodedChardXlqYmylPrediction

YMYL 是在内容 chunk(段落/块)级别打分的——Google 用 embeddings 把内容切块,每块单独判断。

9. Gold Standard Documents

golden: boolean
Flag for indicating that the document is a gold-standard document.

某些文档被人工标记为”金标准”——在训练中获得额外权重。King 推测可能与 Quality Raters 有关,但没有直接证据连接两者

八、其他机制

Whitelist 机制

Google 对特定敏感话题有白名单:

  • 选举内容(isElectionAuthority)
  • COVID-19(isCovidLocalAuthority)
  • 旅游(有专门标记)

Sandbox 的真实情况

hostAge: "used to sandbox fresh spam in serving time"

字段描述原文是 “sandbox fresh spam“——不是 “sandbox all new sites”。

Google 官方说”没有 sandbox”不完全是谎言——确实没有”所有新站的 sandbox”。hostAge 是针对 fresh spam 的 sandbox 机制。

smallPersonalSite

smallPersonalSite: Score of small personal site promotion
go/promoting-personal-blogs-v1

注意:字段描述里出现的是 “promotion”(提升),不是 “demotion”(降级)。 字段真实,但具体用途未公开,多家 SEO 分析表示 “Unclear what this is used for”

九、Mike King 的文末三条建议

1. 不要盲信 Google 官方发言

“Google spokespeople are well-meaning, but can we trust them? The quick answer is not when you get too close to the secret sauce.”

2. 真正的排名是多层叠加,不是单一算法

Ascorer(主算法)+ 多层 Twiddlers(Panda、NavBoost、QualityBoost…)叠加的结果。

3. 重新评估你的外链策略

“It is a very good time to reconsider your link building programs based on everything you’ve just read.”

更多整理的一手信息来源:2026谷歌seo排名

本文对你有帮助吗?
鸭老师SEO
鸭老师SEO

独立Google SEO专家,ylsseo.com创始人,基于Google专利与API Leak解读排名机制,中文SEO启蒙第一人。

滚动至顶部