不能,DOJ證詞:“We Do Not Understand Documents. We Fake It.”
中文SEO圈有幾個根深蒂固的說法:”內容為王”、”要寫原創內容”、”要有一手資料”、”內容品質是排名因素”。
這些說法聽起來合理,但經不起推敲。當你把它們放到Google ranking pipeline的實際機制下去檢驗,每一個都站不住腳。
David Quaid說過一句話:Google is not a content appreciation machine. Google不是內容鑑賞機器。它不會讀完你的文章然後拍拍手說”寫得好,給你排第一”。
那Google到底在做什麼?它在計算訊號。
Idle的這句話可能很多人不理解,你的內容能不能排由使用者(訊號)決定的。
“原創內容能排上去”——不能
你寫了一篇充滿原創見解的文章。很好。但Google的ranking pipeline裡沒有一個環節在評估”原創性”。
BM25——倒排索引檢索階段用的核心演算法,計算的是詞頻、逆文件頻率和文件長度歸一化。你的觀點是不是原創的,BM25不關心,它只關心你的頁面裡有沒有這些詞,出現了幾次。
向量索引(Cosine Similarity)——語義檢索階段的核心,把文件和查詢轉化成多維向量,計算語義相似度。它衡量的是”這篇文件跟這個查詢在語義上有多接近”,不是”這篇文件跟已有文件有多不同”。
一篇原創文章,如果所在的站沒有authority,沒有使用者行為資料支撐,在Mustang初始排序階段就被過濾掉了,連進入Re-ranking的機會都沒有。
“一手資料/獨特資料幫助排名”——不幫助
有人說在文章里加入自己的原創資料、原創圖表,Google會因此給你加分。
不會。因為Google沒有能力驗證你的資料是不是”獨家的”。2024年洩露的Google Content Warehouse API文件包含了14,000多個屬性,其中沒有發現contentOriginality或uniqueDataScore這類欄位。Google的索引系統不做內容鑑賞,它做的是訊號計算。
需要說明的是:Google確實能量化內容的某些結構特徵——比如entity覆蓋度、語義完整性、boilerplate比例等。API Leak中的EntityAnnotations、pageEmbeddingsVersion等屬性證實了這一點。但這些本質上屬於relevance(相關性)維度的訊號——它們回答的是”這個頁面跟查詢匹配不匹配”,不是”這篇文章寫得好不好”。這跟”內容品質鑑賞”是完全不同的事。
你的”一手資料”對排名有沒有幫助?有可能。但不是因為Google識別了它的獨特性,而是因為一手資料可能引發外部引用(backlink)、可能促使使用者瀏覽更多頁面、發起詢盤或產生更深層的互動行為、可能被其他站分享產生referral流量。這些間接效應才是真正起作用的訊號,不是資料本身。
“內容品質是排名因素”——不是
Google的ranking pipeline由以下幾個核心系統組成,每一個處理的都是可量化的訊號,沒有一個在判斷”內容品質”:
索引階段的Q(Quality Score)**——根據DOJ v. Google反壟斷案庭審證詞,Q是Google兩個頂層排名訊號之一(另一個是Popularity P*),由PageRank、SpamBrain(ML垃圾分類器)、siteAuthority、HCU classifier等訊號組成。這些是在你的內容被任何使用者看到之前就計算好的預置訊號,跟你的內容寫得好不好沒有直接關係。
SegIndexer分層——根據API Leak洩露文件和DOJ庭審中的證詞,Google的索引系統可能將頁面分配到不同層級(文件中出現了Base、Zeppelins、Landfills等層級名稱)。scaledSelectionTierRank這一屬性被認為決定了文件的儲存層級。被分配到低層級的頁面,在檢索階段可能根本不會被調出來。這個分層基於站點級別的品質訊號,不是基於某篇文章寫得好不好。
FastRank(Mustang初始排序)——把BM25分數、Cosine Similarity分數、索引期的Q*訊號、NavBoost點選資料組合起來,產出一個初始排名列表。這裡沒有”內容品質評估”這個環節。
Re-ranking(BERT等重模型)——在初始排序後對候選列表做深度語義分析。BERT理解的是查詢和文件之間的語義匹配度,不是文章的文學價值。
Twiddlers(NavBoost、Freshness等)——最後的調整層,用使用者行為資料和其他規則做最終排序調整。NavBoost看的是點選率、長點選、短點選、pogo-sticking,全部是使用者行為訊號。
整條pipeline裡,沒有一個系統在做”內容鑑賞”。
那Google到底怎麼判斷”好”和”差”?
使用者行為資料。
NavBoost是一個13個月滾動視窗的使用者行為反饋系統——這一點在DOJ反壟斷案中由Google搜尋VP Pandu Nayak在宣誓證詞中確認,API Leak進一步揭示了它追蹤的具體訊號:goodClicks、badClicks、lastLongestClicks。它記錄的是:使用者點了你的結果之後發生了什麼——是正面的點選行為(goodClick),還是迅速返回搜尋頁重新搜尋(pogo-sticking,badClick),還是修改查詢詞(回搜,說明你沒滿足需求)。
這些使用者行為資料通過Chrome、搜尋日誌等管道收集,是Google真正用來區分”好”和”差”的訊號。
所以邏輯鏈不是:
好內容 → 排名
而是:
內容 → 使用者行為 → NavBoost訊號 → 排名
中間那一環——使用者行為——才是關鍵。你的內容好不好,Google不知道。但使用者點不點、留不留、回不回來搜,Google能大規模採集到這些行為訊號。
為什麼這個區分很重要?
因為它直接影響你的SEO策略。
如果你相信”內容品質是排名因素”,你的策略是:花大量時間打磨文章品質,然後等Google來”鑑賞”你的內容。這是被動策略,而且基於一個錯誤的前提。
如果你理解排名的真正機制,你的策略是:建立能觸發正面使用者行為訊號的內容(讓人想點選、想停留、不想回去重新搜),同時建設entity和authority訊號(讓你的站進入Base索引層、通過Q*的門檻),並通過外部曝光獲取真實的使用者行為資料和引用連結。
前者是在祈禱,後者是在工程。
AI寫還是人寫?
順便迴應一個相關的迷思:”AI寫的內容會被懲罰”。
不會。上面拆解的整條ranking pipeline裡,沒有一個環節在檢測”這段文字是AI生成的還是人寫的”。BM25不關心,Cosine Similarity不關心,NavBoost更不關心——它只看使用者行為,使用者不會因為文章是AI輔助寫的就改變自己的點選和停留行為。
Google官方在2023年2月的Search Central部落格中明確表示:AI內容本身不違反其guidelines。他們打擊的是scaled content abuse——大規模批量生產低品質內容以操縱排名。這跟”AI寫的”是兩回事。一個人用AI輔助寫出有獨特行業經驗的文章,和一個人用AI批量生產1000篇模板化的評測文章,在ranking pipeline裡會產生完全不同的訊號表現。
區別不在於工具,在於輸出的內容能不能觸發正面的使用者行為訊號。
需要澄清一點:我不是在支援純AI內容。用AI直接生成一篇文章然後原樣釋出,產出的大概率是SERP上已有資訊的重新排列組合——沒有獨特價值,使用者看了也不會有任何不同於其他頁面的行為反應。我說的是把AI當成輔助工具:你有自己的思考、自己的經驗、自己的判斷,用AI幫你整理結構、完善表達、擴充套件論述。核心是你的,AI只是幫你把它更好地呈現出來。這種用法下,最終內容裡承載的是你的獨特價值,AI只是筆。
“但Google有Helpful Content Update啊,這不就是在判斷內容品質嗎?”
不是。
HCU(Helpful Content Update)這個名字確實容易讓人誤解,以為Google在判斷內容”有沒有幫助”。但從ranking pipeline的機制來看,HCU本質上不是一個內容鑑賞系統。
從API Leak文件和DOJ庭審證詞中我們知道,HCU是一個站點級別的classifier。它不是逐篇文章去判斷”這篇寫得好不好”,而是對整個站點打一個標籤——這個站的整體模式是不是符合某些負面特徵。
這些負面特徵是什麼?從被HCU打擊的站點案例來看,模式非常清晰:大規模批量生產搜尋引擎導向的內容(把每個People Also Ask都做成一個H2)、aggressive的廣告密度、內容跟站點核心業務無關(HubSpot寫shrug emoji教程)、大量模板化的affiliate評測內容。
這些不是”內容品質差”,而是站點行為模式的問題。根據API Leak洩露文件,HCU classifier可能通過CompressedQualitySignals影響scaledSelectionTierRank——也就是影響你的頁面被分配到哪個索引層級。
被放進Landfills之後,你的頁面在檢索階段就不會被調出來,使用者看不到你,NavBoost資料歸零,排名消失。這就是為什麼HCU的打擊是斷崖式的——不是慢慢下降,而是直接從索引層面被過濾掉了。
所以HCU不是在說”你的內容寫得不好”,而是在說”你的站點行為模式跟spam/低品質站點太像了”。它是一個站點級別的信任訊號,不是內容級別的品質評分。
Shaun Anderson(hobo-web.co.uk)在對數十個HCU受害站點的深度分析中也得出了同樣的結論——HCU的核心問題是Entity Health和Trust的缺失,不是某篇文章寫得好不好。2024年10月Google邀請了20位受影響的獨立站長參加Creator Summit,Google搜尋高管Pandu Nayak在會上也承認,這些站長的內容本身沒有問題。
所以內容可以亂寫?
不可以。
上面說的所有這些,不是在說內容不重要。而是在說內容不是前置排名訊號,它是使用者行為訊號的觸發器。
Google不care你的內容好不好。但使用者care。
你觀察到了行業裡別人沒注意到的細節?寫出來。你有真實的客戶案例和一手經驗?寫出來。你發現了一個常見問題的更好解決方案?寫出來。不是因為Google會因此給你加分,而是因為這些東西能讓使用者停下來、繼續往下讀、瀏覽更多頁面、甚至發起詢盤。
使用者開啟你的頁面,3秒內決定要不要繼續看。如果你的內容混亂、沒有價值、答非所問,使用者會立刻返回搜尋頁點下一個結果。這個行為被NavBoost記錄下來——badClick、pogo-sticking、回搜——全部是負面訊號。
反過來,如果使用者開啟你的頁面,找到了他在別處找不到的資訊,繼續瀏覽了你的其他頁面,甚至發起了詢盤,這些行為同樣被記錄——goodClick、深度瀏覽、無回搜——全部是正面訊號。
所以內容的作用是什麼?是為了讓使用者產生正面的行為訊號。 不是為了讓Google”鑑賞”你的文字。
你的獨特觀察、你的一手經驗、你的原創資料——這些東西的價值不在於Google能識別它們的”原創性”,而在於它們能讓使用者獲得在其他頁面上得不到的體驗,從而產生正面的行為訊號。
寫好內容不是因為Google能評判內容品質,而是因為使用者能評判。使用者的評判通過行為資料傳導給Google,Google再據此調整排名。
因果鏈是:內容 → 使用者反應 → 行為訊號 → 排名。內容是起點,但它不是直接的排名因素。它通過使用者這個中間環節間接影響排名。
理解了這一點,你的內容策略就不再是”寫給Google看”,而是”寫給使用者看,讓使用者的行為告訴Google你值得排上去”。
“那我提前把這些都做好了,有什麼區別?”
有人會說:我提前把內容品質、原創性、一手資料這些都做好了,等排上去之後使用者行為自然就好了,那跟你說的有什麼區別?
區別在於:你做好了這些,不會幫你排上去。
在使用者行為資料產生之前,決定你能不能被檢索到的是兩個東西:Relevance(BM25 + Cosine Similarity,你的頁面跟查詢的相關度)和Authority(Q*、siteAuthority、PageRank,你的站的權威度)。你的”原創性”和”一手資料”不在這兩個維度裡。
你可以把內容寫得再好,如果你的站在SegIndexer裡被分到了低層級,Mustang初始排序階段你就出不來。使用者根本看不到你,NavBoost資料就是零。沒有使用者行為資料,你永遠排不上去。
這就是優先順序的問題。你應該先解決relevance和authority——讓你的頁面能被檢索到、能出現在使用者面前。然後內容的作用才開始發揮——留住使用者、產生正面行為訊號、鞏固排名。
把內容品質當成前置條件,是搞反了因果順序。內容品質是排上去之後維持排名的因素,不是幫你排上去的因素。幫你排上去的是relevance和authority。
總結
Google不評判內容。它評判使用者對內容的反應。
“內容品質”不是一個ranking signal。它是一個可能觸發真正ranking signals的手段——僅此而已。
獨立Google SEO專家,ylsseo.com創始人,基於Google專利、IR與API Leak解讀排名機制,中文SEO啟蒙第一人。