Google如何識別規模化內容濫用(Scaled Content Abuse)

2024年5月,Google 內部的 Content Warehouse API 文件意外洩露,超過 2500 頁、14014 個屬性被公開。結合同期的 DOJ 反壟斷審判證詞,我們第一次看到了 Google 排名系統的工程藍圖。

這篇文章基於這些一手資料,解釋 Google 如何檢測和懲罰規模化內容濫用,以及為什麼”批量做站、批量發內容”的策略在技術層面註定失敗。

從”方法”到”意圖”:Google 政策的根本轉變

2024年3月之前,Google 的 spam policies 針對的是”spammy automatically generated content”——關注的是內容的生成方法。這在 AI 寫作工具還不成熟的年代是有效的,因為自動生成的內容通常品質低劣、容易辨認。

但隨著生成式 AI 的成熟,這個策略失效了。現代 AI 可以生成語法正確、邏輯通順、看起來跟人寫的沒什麼區別的內容,舊的”方法檢測”完全無法應對。

於是 Google 在 2024年3月將政策更新為”scaled content abuse”,定義變成了:

當大量頁面以操縱搜尋排名為主要目的而被建立,且不幫助使用者時,無論這些內容是如何建立的。

Google Search Liaison Danny Sullivan 說得更直接:“我們不在乎你用什麼方式做規模化內容,無論是 AI、自動化還是人工,都會成為問題。”

這個轉變的核心是:Google 不再追究你怎麼生產內容,而是追究你為什麼生產內容以及內容的結果是什麼。

排名管道的時間差:為什麼黑帽策略能短期有效

要理解規模化內容濫用為什麼能暫時起效,需要先理解 Google 排名系統的內部架構。

DOJ 審判和 Leak 文件揭示了 Google 的排名不是一個單一演算法,而是一個多階段管道,由兩套相互競爭的系統組成:

Relevance Systems(快速系統)——負責快速找到與查詢相關的內容。它依賴 Topicality(T*)和 Popularity(P*)訊號,反應速度很快。如果你批量釋出圍繞熱門話題的內容,Relevance Systems 可能立刻就能找到你。

Quality Systems(慢速系統)——負責過濾不可信的內容。它依賴 Q*(站點級品質評分,包含 siteAuthority、PageRank 等)和各種 spam/trust 過濾器。這套系統反應慢,可能需要幾周到幾個月才能完成評估。

規模化內容濫用的本質就是在賭 Relevance 找到你和 Quality 抓住你之間的時間差。在這個視窗期內,流量是真實的,收入是真實的。但一旦 Quality Systems 完成評估,排名就會崩潰。

這也解釋了為什麼有些 SEO 從業者需要不斷註冊新域名、不斷上新站——因為每個站都是消耗品,在 Quality Systems 追上來之前榨取流量,死了就換下一個。

正如 Shaun Anderson 所說:”追求速決的人失去了優勢,而那些尋求協同的人則獲得了確定性。”

Firefly:Google 的規模化濫用檢測引擎

Leak 文件中有一個名為 QualityCopiaFireflySiteSignal 的 protobuf 模組,Shaun Anderson 對它進行了詳細的取證分析。這個模組名稱本身就揭示了它的功能:

  • Quality——屬於 Google 品質評估生態系統
  • Copia——拉丁語,意為”豐富、過量”,直接對應 scaled abuse 政策中的”規模化”
  • Firefly——可能引用螢火蟲演算法(一種啟發式優化演算法),用於在海量資料中發現微弱的操縱訊號
  • SiteSignal——在站點級別聚合評估,不是單個頁面

文件對這個模組的描述只有一句話:”fireflySiteSignal – 包含用於 Firefly 排名更改的站點訊號資訊。”簡短但明確——這個系統直接參與改變排名

Firefly 追蹤的關鍵屬性

內容生產速度追蹤:系統記錄連續 30 天內新發現的 URL 數量。如果一個站從每天發 1 篇突然變成每天發 50 篇,這個指標會立刻跳變,觸發審查。

高品質內容佔比:Leak 中有一個屬性記錄內部評分系統得分 0.8 或更高的頁面數量。Google 不只看你發了多少,還看高品質的佔多少。如果你發了 1000 篇但只有 5 篇達到高品質標準,這個比例本身就是規模化濫用的強訊號。

dailyClicks vs dailyGoodClicks 比率:這可能是最致命的指標。dailyClicks 是每日總點選量,dailyGoodClicks 是 Google 認為”好的”點選——即使用者沒有立即返回搜尋結果(pogo-stick)。一個站可以通過關鍵字定位獲取大量點選,但如果 dailyGoodClicks 佔比很低,就意味著使用者點了就走,內容沒有滿足需求。大量點選 + 低 goodClicks 比率 = 低品質內容的數學證據。這個資料直接來自 NavBoost 系統

臨時排名提升追蹤:impressionsInBoostedPeriod 和 firstBoostedTimeSec 兩個屬性追蹤網站在獲得臨時排名提升時的表現。Google 會給新內容一個”測試視窗”,觀察使用者行為。如果一個站反覆在測試視窗中表現不佳,後續獲得測試機會的可能性會越來越小。

展示量突增預警:recentImpForQuotaSystem 衡量近期曝光量,用於管理 Google 內部的抓取和處理資源。如果一個站突然釋出幾千個新頁面導致展示量激增,可能觸發資源配額系統,被標記為潛在的垃圾來源進行稽核。

AI 生成內容分類評分:racterScores 是站點級別的 AGC(Auto Generated Content)分類評分,而且是 VersionedFloatSignal 型別——跟 predictedDefaultNsr 一樣帶版本歷史記錄。Google 不只看你現在有多少 AI 內容,還追蹤趨勢。如果 AI 內容比例突然暴增,這個訊號會跳變。

需要強調的是,Firefly 是站點級訊號。這意味著一個站上的規模化濫用行為不只影響被標記的頁面,而是影響整個站點的排名。Patrick Stox(Ahrefs 技術 SEO)在 Edward Show 播客中確認,Ahrefs 自己都把有風險的 programmatic 內容搬到了獨立域名 ahrefstop.com 上,就是為了避免站點級訊號汙染主站。

一致性比最高品質更重要

Leak 中還有一個容易被忽視但極其重要的屬性:siteQualityStddev

它的定義是:”網站頁面級 PQ 評分的標準差估計值。”

翻譯成大白話:Google 為你站上的每個頁面都打了一個品質分(pqData),然後計算這些分數的離散程度。標準差越高,說明你站內頁面品質波動越大。

John Mueller 在 2025 年說過:”一致性是技術 SEO 最重要的因素。” 這不是泛泛而談,是在描述 siteQualityStddev 這個屬性的工作方式。

Google 在 2011 年釋出 Panda 指南時就已經明確說過:”網站某些部分的低品質內容會影響整個網站的排名。因此,刪除低品質頁面、將內容單薄的頁面合併為更有用的頁面,或者將低品質頁面遷移到不同的域名,最終都有助於提升高品質內容的排名。”

現在通過 Leak,我們知道了執行這段話的具體屬性:

  • 低品質內容 = 低 pqData 整數值
  • “影響整個網站” = 高 siteQualityStddev
  • “刪除、合併或遷移” = 這是降低標準差的唯一統計學方法

你的排名不僅取決於你最好的作品,還取決於你與卓越水平的偏差。 一個站上有 10 篇優秀文章和 100 篇垃圾文章,siteQualityStddev 會很高,那 10 篇優秀文章的排名潛力會被 100 篇垃圾拖垮。

聲稱與實際的不匹配:虛偽懲罰

這是 Shaun Anderson 在 Contextual SEO 中提出的一個重要概念

Google 的 Quality Raters 被訓練去尋找網站宣告和實際行為之間的不匹配。Quality Rater Guidelines Section 7.0 明確指出:宣告目的與實際內容之間存在不匹配的頁面應被評為最低品質。

舉個例子:如果你的 About 頁面寫著”我們是一支由資深專家組成的團隊,每篇內容都經過嚴格稽核”,但你實際上每天釋出 50 篇未經編輯的 AI 內容——這就是 Deceptive Page Purpose。

在 Leak 屬性中,這種行為可能觸發 scamness(欺騙性評分)和 unauthoritativeScore(非權威評分)

核心原則:你的內容生產價值必須與你的政策宣告對齊。 你不能用一個精心製作的 About 頁面來偽造 E-E-A-T,如果你的實際產出與宣告嚴重不符。

四種系統性失敗模式

Contextual SEO 框架定義了四種不是內容問題、而是系統性問題的失敗模式,單靠改進內容無法解決:

語境過度延伸(Context Overreach)——當一個網站試圖在需要更多信任、權威或機構支援的查詢中獲得排名時,就會出現上下文過度擴張,而這超出了它所能合理證明的範圍。比如一個個人部落格試圖排名”心臟病治療方案”這種 YMYL 查詢。

實體膨脹(Entity Inflation)——在沒有外部證據支援的情況下,以品牌、出版商或機構的身份出現。這會造成信任摩擦和排名阻力。Google 通過 EntityAnnotations 和 Knowledge Graph 來驗證你聲稱的身份。

意圖漂移(Intent Drift)——頁面暫時對一些它實際上並不滿足的查詢排名靠前,最終導致排名下降。這就是 NavBoost 的 lastLongestClicks 機制在起作用——如果使用者的搜尋任務沒有在你的頁面上完成,你的排名會隨時間衰減。

信任訊號債務(Trust Signal Debt)——源於使用者體驗問題、激進的盈利模式、資訊披露不充分或聲譽差距。這些問題會隨著時間的推移悄無聲息地侵蝕信任。Leak 中的 clutterScore(雜亂度評分)就是衡量這類問題的屬性之一。

這四種模式的共同特點是:它們不是內容問題,是系統性和背景性問題,單靠寫更好的內容或獲取更多外部連結無法解決

三層連結索引:規模化策略的致命打擊

Leak 文件揭示了一個此前未知的機制:Google 維護三個不同層級的連結索引——低品質、中品質和高品質。連結頁面在這些層級中的位置由 SourceType 屬性決定。

機制非常直接:如果一個頁面上的連結沒有收到任何使用者點選(TotalClicks 為零),該連結會被歸入低品質索引。在這個層級中,排名演算法實際上會忽略該連結。 它不傳遞任何 PageRank 值,也不傳遞任何錨文字訊號。對於排名來說,這條連結等於不存在。

這對規模化策略意味著什麼?如果你批量釋出了幾千個頁面,這些頁面沒有真實使用者訪問和互動,那麼這些頁面上的所有內部連結和外部連結都不會傳遞任何價值。你以為在通過內部連結把權重導向 money page,實際上這些連結被歸入了低品質層,什麼都沒傳遞。

同時,anchorMismatchDemotion 屬性表明,在完全不相關的頁面上放置精確匹配錨文字的連結不僅僅是浪費——它可能對你的排名造成實際損害

獲取連結不再是終點。讓連結所在的頁面獲得真實使用者互動驗證,才是讓連結產生價值的前提條件。

與演算法協同,而不是對抗

Shaun Anderson 在總結整個 Leak 分析時說了一句話:”武器會迅速老化,但理論不會。”

Leak 揭示的不是如何贏得明天排名的戰術,而是 Google 排名系統的底層理念。Google 可以調整閾值、重命名系統、注入噪聲,但它不能放棄:

  • 信任積累
  • 聲譽記憶
  • 以使用者滿意度作為評判標準
  • 預排名資格門檻
  • 資源受限情況下的分診

理解這些原則,然後按照這些原則去建設你的網站,就是在與演算法協同。每一次 Google 核心更新都會讓遵循這些原則的站點受益,因為更新的方向就是你在做的方向。

反過來,每一次試圖對抗演算法的策略——無論是批量做站、大量發 AI 內容、還是操縱連結——都是在跟 Google 幾萬個工程師和他們持續迭代了 20 年的系統博弈。即使贏了也是暫時的。如果你的網站已經因為演算法更新遭受了流量下降,與其繼續對抗,不如系統性地診斷問題並恢復排名

正如孫子在《孫子兵法》中所說:”沒有哪個國家能從曠日持久的戰爭中獲益。”

規模化內容濫用就是一場曠日持久的戰爭。而 Google 有的是時間。

鸭老师SEO
鴨老師SEO

獨立Google SEO專家,ylsseo.com創始人,基於Google專利、IR與API Leak解讀排名機制,中文SEO啟蒙第一人。

滾動至頂部
🌐 简体中文