Google如何識別規模化內容濫用（Scaled Content Abuse）

2024年5月，Google 內部的 Content Warehouse API 文件意外洩露，超過 2500 頁、14014 個屬性被公開。結合同期的 DOJ 反壟斷審判證詞，我們第一次看到了 Google 排名系統的工程藍圖。

這篇文章基於這些一手資料，解釋 Google 如何檢測和懲罰規模化內容濫用，以及為什麼”批量做站、批量發內容”的策略在技術層面註定失敗。

從”方法”到”意圖”：Google 政策的根本轉變

2024年3月之前，Google 的 spam policies 針對的是”spammy automatically generated content”——關注的是內容的生成方法。這在 AI 寫作工具還不成熟的年代是有效的，因為自動生成的內容通常品質低劣、容易辨認。

但隨著生成式 AI 的成熟，這個策略失效了。現代 AI 可以生成語法正確、邏輯通順、看起來跟人寫的沒什麼區別的內容，舊的”方法檢測”完全無法應對。

於是 Google 在 2024年3月將政策更新為”scaled content abuse”，定義變成了：

當大量頁面以操縱搜尋排名為主要目的而被建立，且不幫助使用者時，無論這些內容是如何建立的。

Google Search Liaison Danny Sullivan 說得更直接：“我們不在乎你用什麼方式做規模化內容，無論是 AI、自動化還是人工，都會成為問題。”

這個轉變的核心是：Google 不再追究你怎麼生產內容，而是追究你為什麼生產內容以及內容的結果是什麼。

排名管道的時間差：為什麼黑帽策略能短期有效

要理解規模化內容濫用為什麼能暫時起效，需要先理解 Google 排名系統的內部架構。

DOJ 審判和 Leak 文件揭示了 Google 的排名不是一個單一演算法，而是一個多階段管道，由兩套相互競爭的系統組成：

Relevance Systems（快速系統）——負責快速找到與查詢相關的內容。它依賴 Topicality（T*）和 Popularity（P*）訊號，反應速度很快。如果你批量釋出圍繞熱門話題的內容，Relevance Systems 可能立刻就能找到你。

Quality Systems（慢速系統）——負責過濾不可信的內容。它依賴 Q*（站點級品質評分，包含 siteAuthority、PageRank 等）和各種 spam/trust 過濾器。這套系統反應慢，可能需要幾周到幾個月才能完成評估。

規模化內容濫用的本質就是在賭 Relevance 找到你和 Quality 抓住你之間的時間差。在這個視窗期內，流量是真實的，收入是真實的。但一旦 Quality Systems 完成評估，排名就會崩潰。

這也解釋了為什麼有些 SEO 從業者需要不斷註冊新域名、不斷上新站——因為每個站都是消耗品，在 Quality Systems 追上來之前榨取流量，死了就換下一個。

正如 Shaun Anderson 所說：”追求速決的人失去了優勢，而那些尋求協同的人則獲得了確定性。”

Firefly：Google 的規模化濫用檢測引擎

Leak 文件中有一個名為 QualityCopiaFireflySiteSignal 的 protobuf 模組，Shaun Anderson 對它進行了詳細的取證分析。這個模組名稱本身就揭示了它的功能：

Quality——屬於 Google 品質評估生態系統
Copia——拉丁語，意為”豐富、過量”，直接對應 scaled abuse 政策中的”規模化”
Firefly——可能引用螢火蟲演算法（一種啟發式優化演算法），用於在海量資料中發現微弱的操縱訊號
SiteSignal——在站點級別聚合評估，不是單個頁面

文件對這個模組的描述只有一句話：”fireflySiteSignal – 包含用於 Firefly 排名更改的站點訊號資訊。”簡短但明確——這個系統直接參與改變排名。

Firefly 追蹤的關鍵屬性

內容生產速度追蹤：系統記錄連續 30 天內新發現的 URL 數量。如果一個站從每天發 1 篇突然變成每天發 50 篇，這個指標會立刻跳變，觸發審查。

高品質內容佔比：Leak 中有一個屬性記錄內部評分系統得分 0.8 或更高的頁面數量。Google 不只看你發了多少，還看高品質的佔多少。如果你發了 1000 篇但只有 5 篇達到高品質標準，這個比例本身就是規模化濫用的強訊號。

dailyClicks vs dailyGoodClicks 比率：這可能是最致命的指標。dailyClicks 是每日總點選量，dailyGoodClicks 是 Google 認為”好的”點選——即使用者沒有立即返回搜尋結果（pogo-stick）。一個站可以通過關鍵字定位獲取大量點選，但如果 dailyGoodClicks 佔比很低，就意味著使用者點了就走，內容沒有滿足需求。大量點選 + 低 goodClicks 比率 = 低品質內容的數學證據。這個資料直接來自 NavBoost 系統。

臨時排名提升追蹤：impressionsInBoostedPeriod 和 firstBoostedTimeSec 兩個屬性追蹤網站在獲得臨時排名提升時的表現。Google 會給新內容一個”測試視窗”，觀察使用者行為。如果一個站反覆在測試視窗中表現不佳，後續獲得測試機會的可能性會越來越小。

展示量突增預警：recentImpForQuotaSystem 衡量近期曝光量，用於管理 Google 內部的抓取和處理資源。如果一個站突然釋出幾千個新頁面導致展示量激增，可能觸發資源配額系統，被標記為潛在的垃圾來源進行稽核。

AI 生成內容分類評分：racterScores 是站點級別的 AGC（Auto Generated Content）分類評分，而且是 VersionedFloatSignal 型別——跟 predictedDefaultNsr 一樣帶版本歷史記錄。Google 不只看你現在有多少 AI 內容，還追蹤趨勢。如果 AI 內容比例突然暴增，這個訊號會跳變。

需要強調的是，Firefly 是站點級訊號。這意味著一個站上的規模化濫用行為不只影響被標記的頁面，而是影響整個站點的排名。Patrick Stox（Ahrefs 技術 SEO）在 Edward Show 播客中確認，Ahrefs 自己都把有風險的 programmatic 內容搬到了獨立域名 ahrefstop.com 上，就是為了避免站點級訊號汙染主站。

一致性比最高品質更重要

Leak 中還有一個容易被忽視但極其重要的屬性：siteQualityStddev。

它的定義是：”網站頁面級 PQ 評分的標準差估計值。”

翻譯成大白話：Google 為你站上的每個頁面都打了一個品質分（pqData），然後計算這些分數的離散程度。標準差越高，說明你站內頁面品質波動越大。

John Mueller 在 2025 年說過：”一致性是技術 SEO 最重要的因素。” 這不是泛泛而談，是在描述 siteQualityStddev 這個屬性的工作方式。

Google 在 2011 年釋出 Panda 指南時就已經明確說過：”網站某些部分的低品質內容會影響整個網站的排名。因此，刪除低品質頁面、將內容單薄的頁面合併為更有用的頁面，或者將低品質頁面遷移到不同的域名，最終都有助於提升高品質內容的排名。”

現在通過 Leak，我們知道了執行這段話的具體屬性：

低品質內容 = 低 pqData 整數值
“影響整個網站” = 高 siteQualityStddev
“刪除、合併或遷移” = 這是降低標準差的唯一統計學方法

你的排名不僅取決於你最好的作品，還取決於你與卓越水平的偏差。 一個站上有 10 篇優秀文章和 100 篇垃圾文章，siteQualityStddev 會很高，那 10 篇優秀文章的排名潛力會被 100 篇垃圾拖垮。

聲稱與實際的不匹配：虛偽懲罰

這是 Shaun Anderson 在 Contextual SEO 中提出的一個重要概念。

Google 的 Quality Raters 被訓練去尋找網站宣告和實際行為之間的不匹配。Quality Rater Guidelines Section 7.0 明確指出：宣告目的與實際內容之間存在不匹配的頁面應被評為最低品質。

舉個例子：如果你的 About 頁面寫著”我們是一支由資深專家組成的團隊，每篇內容都經過嚴格稽核”，但你實際上每天釋出 50 篇未經編輯的 AI 內容——這就是 Deceptive Page Purpose。

在 Leak 屬性中，這種行為可能觸發 scamness（欺騙性評分）和 unauthoritativeScore（非權威評分）。

核心原則：你的內容生產價值必須與你的政策宣告對齊。 你不能用一個精心製作的 About 頁面來偽造 E-E-A-T，如果你的實際產出與宣告嚴重不符。

四種系統性失敗模式

Contextual SEO 框架定義了四種不是內容問題、而是系統性問題的失敗模式，單靠改進內容無法解決：

語境過度延伸（Context Overreach）——當一個網站試圖在需要更多信任、權威或機構支援的查詢中獲得排名時，就會出現上下文過度擴張，而這超出了它所能合理證明的範圍。比如一個個人部落格試圖排名”心臟病治療方案”這種 YMYL 查詢。

實體膨脹（Entity Inflation）——在沒有外部證據支援的情況下，以品牌、出版商或機構的身份出現。這會造成信任摩擦和排名阻力。Google 通過 EntityAnnotations 和 Knowledge Graph 來驗證你聲稱的身份。

意圖漂移（Intent Drift）——頁面暫時對一些它實際上並不滿足的查詢排名靠前，最終導致排名下降。這就是 NavBoost 的 lastLongestClicks 機制在起作用——如果使用者的搜尋任務沒有在你的頁面上完成，你的排名會隨時間衰減。

信任訊號債務（Trust Signal Debt）——源於使用者體驗問題、激進的盈利模式、資訊披露不充分或聲譽差距。這些問題會隨著時間的推移悄無聲息地侵蝕信任。Leak 中的 clutterScore（雜亂度評分）就是衡量這類問題的屬性之一。

這四種模式的共同特點是：它們不是內容問題，是系統性和背景性問題，單靠寫更好的內容或獲取更多外部連結無法解決。

三層連結索引：規模化策略的致命打擊

Leak 文件揭示了一個此前未知的機制：Google 維護三個不同層級的連結索引——低品質、中品質和高品質。連結頁面在這些層級中的位置由 SourceType 屬性決定。

機制非常直接：如果一個頁面上的連結沒有收到任何使用者點選（TotalClicks 為零），該連結會被歸入低品質索引。在這個層級中，排名演算法實際上會忽略該連結。 它不傳遞任何 PageRank 值，也不傳遞任何錨文字訊號。對於排名來說，這條連結等於不存在。

這對規模化策略意味著什麼？如果你批量釋出了幾千個頁面，這些頁面沒有真實使用者訪問和互動，那麼這些頁面上的所有內部連結和外部連結都不會傳遞任何價值。你以為在通過內部連結把權重導向 money page，實際上這些連結被歸入了低品質層，什麼都沒傳遞。

同時，anchorMismatchDemotion 屬性表明，在完全不相關的頁面上放置精確匹配錨文字的連結不僅僅是浪費——它可能對你的排名造成實際損害。

獲取連結不再是終點。讓連結所在的頁面獲得真實使用者互動驗證，才是讓連結產生價值的前提條件。

與演算法協同，而不是對抗

Shaun Anderson 在總結整個 Leak 分析時說了一句話：”武器會迅速老化，但理論不會。”

Leak 揭示的不是如何贏得明天排名的戰術，而是 Google 排名系統的底層理念。Google 可以調整閾值、重命名系統、注入噪聲，但它不能放棄：

信任積累
聲譽記憶
以使用者滿意度作為評判標準
預排名資格門檻
資源受限情況下的分診

理解這些原則，然後按照這些原則去建設你的網站，就是在與演算法協同。每一次 Google 核心更新都會讓遵循這些原則的站點受益，因為更新的方向就是你在做的方向。

反過來，每一次試圖對抗演算法的策略——無論是批量做站、大量發 AI 內容、還是操縱連結——都是在跟 Google 幾萬個工程師和他們持續迭代了 20 年的系統博弈。即使贏了也是暫時的。如果你的網站已經因為演算法更新遭受了流量下降，與其繼續對抗，不如系統性地診斷問題並恢復排名。

正如孫子在《孫子兵法》中所說：”沒有哪個國家能從曠日持久的戰爭中獲益。”

規模化內容濫用就是一場曠日持久的戰爭。而 Google 有的是時間。

鴨老師SEO

獨立Google SEO專家，ylsseo.com創始人，基於Google專利、IR與API Leak解讀排名機制，中文SEO啟蒙第一人。