Google網頁排名系統原理

搜尋引擎是數學系統。不是比喻,是字面意思。每一個排名決策都是數學函式處理可量化輸入後的輸出。理解這些函式是什麼、衡量什麼、如何組合,是SEO唯一有意義的框架。

這不是理論。搜尋引擎所依賴的資訊檢索(Information Retrieval, IR)文獻積累了幾十年的公開研究。數學是已知的。問題只在於你是在優化數學本身,還是在優化關於數學的敘事。

排名就是排序——排序需要可計算的值

當Google為一個查詢返回十個結果時,它執行的是一個排序操作。文件A出現在文件B上面,是因為系統給A算出了更高的綜合分數。這個分數完全來自於可以被轉化成數值的訊號。

這是一個硬性約束,不是設計偏好。排名函式接收輸入、產出一個有序列表。如果某個東西不能被系統觀測、編碼、建模為特徵值,它就不能成為這個函式的輸入,就不能影響輸出,就不能影響排名。

但這不意味著”信任””專業性”這類抽象概念與排名結果完全無關。它的意思是:如果這些概念要起作用,就必須被拆解成系統計算的代理特徵——連結模式、實體識別、站點歷史、語言模型評分、行為訊號。抽象標籤本身從不進入排名函式,進入的是它被分解後的那些可測量的代理變數。

許多聽起來不可量化的東西,其實每天都在通過代理變數被量化:”內容品質”變成語言模型評分、內容結構特徵和使用者行為模式;”品牌信任度”變成搜尋量、點選偏好和連結畫像特徵;”專業性”變成實體關聯、作者訊號和引用模式。系統不理解這些概念——它處理的是這些概念被分解後的數值特徵。

理解這個區別,就是精準優化與優化敘事之間的分界線。

每一個參與排名的訊號都遵循同一個模式:輸入 → 函式 → 數值輸出 → 比較 → 位置

第一階段:檢索——進入候選池

在頁面被排名之前,它必須先被檢索到。搜尋引擎處理數十億文件,但對於任何一個查詢只會對幾千個文件進行評分。檢索階段決定了哪些文件能進入這個候選集。

實際上,檢索不是單一步驟,而是一個多路徑過程。詞法匹配和稠密向量檢索是兩個主要通道,但生產系統還會納入查詢改寫、歷史點選快取以及其他並行召回路徑,匯入一個合併的候選池。為了理解核心數學,兩個主要通道就夠了。

BM25:詞法關卡

BM25長期以來是詞法檢索中的經典基線模型,由Robertson和Zaragoza形式化,被Elasticsearch、Lucene、OpenSearch等主流檢索系統廣泛採用。即使現代搜尋引擎加入了神經檢索,詞法匹配仍然是召回階段的重要基礎。

這個函式考慮三個要素:查詢詞在文件中出現的頻率,該詞在整個索引中的稀有程度,以及文件相對於平均長度的長短。輸出是一個實數——越高意味著詞法匹配越好。

Google內部系統大概率使用的是大量變體、擴充套件和學習型詞項權重方案,遠超原始BM25。但BM25仍然是理解詞法檢索工作原理的數學原型:它把原理變得具體可見。

BM25的數學有一個飽和特性:一個關鍵字出現第十次帶來的增益,比第一次出現小得多。這就是關鍵字堆砌收益遞減的原因——無論具體使用哪個變體,底層的飽和曲線都在懲罰它。

不存在固定的”好的”BM25分數。所有分數都是相對於同一查詢下的其他文件而言的。你不需要達到某個數字,你需要超過你的競爭對手。

稠密檢索:語義關卡

現代搜尋引擎增加了第二條檢索路徑:神經嵌入。查詢和文件各自被轉化為高維向量——意義的數值表示。兩個向量之間的餘弦相似度衡量的是查詢的語義與文件的語義有多接近,即使使用的詞完全不同。

輸出是0到1之間的一個值。

RankBrain、BERT、MUM這類系統並不等同於簡單的餘弦相似度檢索——它們涉及交叉編碼、上下文語言理解和多工架構,遠超基本的向量比較。但它們共同說明了一件事:搜尋引擎會把語言轉化為機器可處理的數值表示,再用模型計算查詢與文件之間的相關性。具體架構各異,但基礎思想——語言變成數字,數字被比較——是不變的。

詞法匹配和稠密檢索共同構成了主要的檢索關卡。頁面必須通過至少一個關卡才能進入候選集。兩個都沒通過,再多的權威性或使用者互動都救不了你——你根本不在池子裡。

第二階段:排名——多層管道,而非一次打分

被檢索到之後,文件並不是拿到一個固定總分然後直接排位。現代搜尋排名是一個多階段管道,不是一次性排序。

一個典型的架構大致是這樣的:先對候選集做一輪輕量級評分,然後用更深的重排序模型對每個文件做更精細的計算,再經過品質和垃圾分類器的過濾或降權,再做多樣性和時效性調整,最後是展示層的決策——SERP特性、知識面板、結果分組。

很多”為什麼我的頁面明明相關卻不排名?”的場景,根本不是相關性的問題——而是在下游某一層閘門被過濾或降權了。理解排名是一系列閘門而不是一個單一分數,會改變你診斷問題的方式。

這條管道的每一個階段仍然執行在可計算訊號之上。約束在每一層都是一樣的:如果系統不能把它表達為數字,就無法處理它。

基於連結的權威性:PageRank及其後繼

PageRank(以Larry Page命名)是Google的基礎性洞見:如果其他重要頁面連結到一個頁面,那這個頁面就是重要的。演算法將網際網路建模為一個有向圖,計算所有節點上的概率分佈——一個隨機瀏覽者沿著連結點選,最終停留在任何給定頁面的可能性。

輸出是網路上每個頁面的一個數值。值越高,權威性越高。

Google當前的系統使用更精密的變體——比如Nearest Seed,從一組受信任的種子頁面出發,向外傳播權威性。種子集不公開,所以外部工具用經典PageRank近似。原理一樣:權威性從連結圖譜中計算得出,輸出是一個值。

使用者行為訊號:NavBoost

Google的NavBoost系統使用聚合的行為資料調整排名——但不是大多數SEO討論中描述的那種方式。

NavBoost並不是簡單地”獎勵好內容”給它更高排名。它的功能更接近於誤差校正:識別排名模型的預測與使用者實際滿意度出現偏差的地方,然後進行調整。如果模型把一個頁面排在第三,但使用者持續選擇它而不是前兩個結果,行為訊號就會修正這個錯位。

輸入不是原始點選次數。NavBoost會校正位置偏差(排名越高的結果自然獲得更多點選),按查詢型別和使用者群體分段,在時間視窗內聚合以過濾噪音。很多訊號是在查詢層面而非文件層面運作的——系統在調整的是它對”這類查詢使用者想要什麼”的理解,而不僅僅是給單個頁面打分。

這些行為訊號會被聚合、歸一化、校正位置偏差,並作為排序系統中的一類重要特徵或調整訊號。它們是可測量、可追蹤、可計算的——但它們的角色是校準機制,不是簡單的人氣投票。

實體識別

搜尋引擎從文件中提取命名實體(人物、地點、組織、產品、概念),並將它們對映到知識圖譜條目。排名系統中的實體處理涉及多個維度:

實體是否能被消歧到知識圖譜中的明確節點。頁面的主題實體與查詢的目標實體是否一致。共現實體是否落在該主題預期的語義鄰域內。實體訊號在標題、正文、錨文字、結構化資料和外部引用中是否一致。作者、品牌或組織是否在外部網路中形成可驗證的實體。

Google的Cloud Natural Language API不是Google Search內部使用的排名系統,但它展示了搜尋系統可能如何把文字中的實體、類別和顯著性轉化為結構化特徵——排名系統所需要的那種數值化、可比較的輸出。

綜合:訊號如何組合

沒有單一訊號決定排名。但組合方式也不是簡單的加權求和。

早期檢索系統使用固定的線性公式——score = w₁x₁ + w₂x₂ + w₃x₃——每個訊號有一個靜態權重。現代搜尋引擎已經遠遠超越了這種方式。當前的標準做法是學習排序(Learning to Rank, LTR):在海量標註資料上訓練的機器學習模型,用以預測最優排序。

LTR與固定公式的根本區別在於:

特徵之間的關係是非線性的。一個頁面的連結權威性在”買iPhone”這類商業查詢中可能權重極高,但在”iPhone發熱怎麼辦”這類資訊查詢中權重明顯下降。模型從資料中學習這些依賴上下文的互動關係,而不是由人類編寫係數。

特徵權重是動態的,隨查詢型別、意圖、垂直領域和其他上下文因素變化。不存在一個單一的排名公式——存在的是一族函式,模型根據查詢上下文在其中切換。

特徵之間會互動。高權威性 + 低內容相關性的組合,產生的效果不同於任何一個訊號單獨存在的情況。這些跨特徵互動正是神經重排序器專門設計來捕捉的。

然而,輸入始終不變:進入LTR模型的每一個特徵仍然必須是可計算的數值。模型比線性公式複雜得多,但對輸入的約束是一樣的。數字進去,分數出來,按分數排序。

這對實際操作意味著什麼

為了實踐簡化,絕大多數SEO操作可以歸入兩個核心變數:Authority × Relevance = Ranking。使用者行為、內容品質特徵、實體可信度、技術可訪問性、時效性和本地化,最終也會通過不同特徵影響這兩個維度或下游重排序階段。

優化相關性意味著把檢索和相關性訊號做到最強。slug和H1精準反映查詢意圖。內容與查詢及其相關詞達到高語義相似度。術語與排名頁面的用詞對齊——不是因為你在抄它們,而是因為同一個主題需要同樣的詞彙,而數學就是這麼衡量的。

建設權威性意味著積累連結圖譜演算法會獎勵的訊號。來自主題相關、高權威來源的連結。將權威性分配給需要它的頁面的內部連結結構。一個在基於圖的分析中看起來自然的連結畫像。

獲取正向使用者訊號意味著創造能滿足搜尋者的內容,讓行為資料確認排名模型的預測——或者把預測修正到對你有利的方向。在SERP中能贏得點選的標題。能解決查詢需求、不讓使用者跳回的內容。這些行為不是作為”對好內容的獎勵”輸入NavBoost類系統,而是作為保持排名模型準確的校準資料。

以上每一項操作,針對的都是可以被轉化成數字的訊號。這是排名模型唯一能處理的輸入型別。

鸭老师SEO
鴨老師SEO

獨立Google SEO專家,ylsseo.com創始人,基於Google專利、IR與API Leak解讀排名機制,中文SEO啟蒙第一人。

滾動至頂部
🌐 简体中文